Discussion:
Neues BOINC-Projekt / Proteinstrukturvorhersage-Wettbewerb CASP
(zu alt für eine Antwort)
Sascha Luehrs
2004-07-12 15:29:38 UTC
Permalink
Hi, einige von Euch kennen ja sicher die alle 2 Jahre stattfindenden
CASP-Wettbewerbe, bei denen es darum geht, einen Algorithmus zu
finden, der es ermöglicht, aus einer gegebenen eindimensionalen
Aminosäuresequenz eines beliebigen Proteins dessen Endstruktur
vorherzusagen. Algorithmen für die Strukturvorhersage von Proteinen zu
finden spielt eine extrem wichtige Rolle in der Medikamentenforschung
um beim Design neuer Medikamente.
Das imho bemerkenswerte beim diesjährigen CASP6 ist, dass vor kurzem
ein Distributed-Computing-Projekt gegründet wurde, das mit der
freiwilligen Hilfe von Internet-Nutzern aus aller Welt an diesem
Wettbewerb teilnehmen möchte.
Es heisst ***@home und wurde von dem renommierten kalifornischen
(und darüberhinaus gemeinnützigen) Scripps Research Institute ins
Leben gerufen. Jeder, der einen Computer mit Internetanschluss hat,
kann durch ein zeitweises zur Verfügung stellen von Rechenleistung des
eigenen Computers (man lädt dafür einfach nur ein Programm von der
Website des Projektes herunter und lässt dieses von Zeit zu Zeit auf
seinem Rechner laufen) bei diesem Projekt mithelfen. Vorkenntnisse
sind dafür nicht erforderlich; sämtliche Informationen gibt es
außerdem auf der Projekt-Website. Wäre schön, wenn sich hier ein paar
Leute dafür finden könnten. Ich persönlich - jetzt ohne angeben zu
wollen, das ist schließlich ja auch keine besondere Leistung - lasse
meinen Rechner schon seit 6 Wochen dafür durchlaufen ;-)

www.scripps.edu <- Das Scripps Research Institute
predictor.scripps.edu <- Das besagte Projekt

Über den diesjährigen CASP-Wettbewerb gibt es außerdem hier
Informationen: http://predictioncenter.llnl.gov/casp6/Casp6.html ,
diese Seite dürfte aber nur für Fachleute von Interesse sein.


* CASP = Critical Assessment of Techniques for Protein Structure
Prediction
Alessandro Macrì
2004-07-12 16:53:27 UTC
Permalink
Zwei Anmerkungen zu Deinem Posting:

Falsche Gruppe: Leute f=FCr ein Distributed Computing Projekt anzuwerben is=
t
kaum als Biologie zu bezeichnen. Mit der gleichen Berechtigung k=F6nnte ich
hier daf=FCr werben, mir Rechenkapazit=E4t f=FCr meine Arbeit zu =FCberlass=
en.

Das ist jetzt mit Vorsicht zu genie=DFen, da wir selbst an CASP und CAFASP
teilnehmen, aber ehrlich gesagt finde ich ziemlich verschwenderisch einen
Desktop-PC sechs Wochen lang f=FCr so ein Projekt durchlaufen zu lassen. Es
gibt andere DC-Projekte, bei denen tats=E4chlich kaum einen Alternative zu
massiver Rechenkapazit=E4t existiert. Der Trend, alles als verteiltes Rechn=
en
"@home" mit brutaler Rechengewalt zu l=F6sen, ist bei der Strukturvorhersag=
e
IMHO jedoch unangebracht. Nat=FCrlich braucht man jede Menge Kapazit=E4t, a=
ber
daraus dann gleich ein Projekt f=FCr ein paar tausend Benutzer zu machen, i=
st
zum einen etwas =FCbertrieben, zum anderen schadet es auch ein wenig der
Reproduzierbarkeit der Ergebnisse (Bsp: "Entstanden mit 600.000 Std.
Rechenzeit", wie reproduziert man solche Ergebnisse effektiv?).
Wenn man nach bestimmten Zahlen sucht oder einen Code knacken will, dann is=
t
das ja ok, bei der Strukturvorhersage aber, sagen wir mal nicht unkritisch.
***@home erscheint mir eher sinnvoll als reine DC-Forschung, der Ansa=
tz
zur Strukturvorhersage (generiere Konformation, bewerte sie, verfeinere sie=
)
ist aber nicht gerade der eleganteste der Welt, sondern KANN ohne die
Rechenzeit gar nicht bestehen. Er wird aber sicherlich sinnvolle Statistike=
n
=FCber Energieverteilungen etc. liefern.

ciao

--=20
Alessandro Macr=EC "panta rhei" (Heraklit)
Tel +49 89 2180-4059 ***@ifi.lmu.de
Fax +49 89 2180-4054 http://www.ifi.lmu.de/~macri
LMU M=FCnchen, LFE Bioinformatik, Amalienstr. 17, 80333 M=FCnchen, Zi. 20=
1
Sascha Luehrs
2004-07-13 23:54:29 UTC
Permalink
Falsche Gruppe: Leute für ein Distributed Computing Projekt
anzuwerben ist kaum als Biologie zu bezeichnen.
Nun, zugegeben, es ist ein Anwerbeversuch. Und ja, es ist sicher auch
etwas offtopic. Verglichen aber mit den
Kreationismus-Missionierungsversuchs-Postings, die schon mehrfach in
dieser Group gelaufen sind, und die in ellenlangen Threads
beantwortet/diskutiert wurden, würde ich allerdings schon sagen, dass
ein Posting, bei dem es um ***@h/CASP geht, doch noch ganz schön viel
mit Biologie zu tun hat. Darüberhinaus ist es ja auch gut möglich, daß
es in dieser NG User gibt, die sich darüber freuen würden, an einem
CASP-Projekt per DC teilnehmen zu können.
Mit der gleichen Berechtigung könnte ich hier dafür werben, mir
Rechenkapazität für meine Arbeit zu überlassen.
Das ist allerdings ein Argument.
Diesen Trend halte ich allerdings auch für bedenklich. Weswegen ich
auch so sinnlose Dinge, wie einen Schlüssel zu knacken, von dem von
vornherein auch klar ist, daß er per brute force knackbar ist, auch
prinzipiell nicht rechnen würde. Für die sinnvollsten DC-Projekte
halte ich nach wie vor Simulationen oder die Auswertung großer Mengen
von Messdaten. Mit letzterem meine ich nicht solche fragwürdigen Dinge
wie Seti, sondern eher irdischere Projekte, beispielsweise wie es von
Seiten des CERN in 2007 zu erwarten ist, wenn der neue
Ringbeschleuniger in Betrieb geht, auch wenn natürlich nicht damit zu
rechnen ist, daß sowas auf Heimcomputern gerechnet werden wird.
zu lösen, ist bei der Strukturvorhersage IMHO jedoch unangebracht.
Davon bin ich nicht überzeugt.
Weiterhin, wenn Superrechner oder Distributed Computing in der
Proteinforschung einzusetzen so unangebracht ist, wieso baut IBM dann
Blue Gene?
http://www.research.ibm.com/journal/sj/402/allen.html
http://www.research.ibm.com/bluegene
Natürlich braucht man jede Menge Kapazität, aber daraus dann gleich
ein Projekt für ein paar tausend Benutzer zu machen, ist zum einen
etwas übertrieben,
Die Leistungen, die heutige Desktop-Rechner bringen, sind im Vergleich
zu den von Superrechnern erbrachten Leistungen gar nicht mal so groß,
daher finde ich das durchaus nicht völlig unangemessen.
zum anderen schadet es auch ein wenig der Reproduzierbarkeit
der Ergebnisse (Bsp: "Entstanden mit 600.000 Std. Rechenzeit",
wie reproduziert man solche Ergebnisse effektiv?).
Das sehe ich allerdings ein, Zustimmung.
Wenn man nach bestimmten Zahlen sucht
Eine mathematische Hypothese sollte man imho nach Möglichkeit eher per
mathematischem Beweis beweisen oder widerlegen, nicht, indem man per
brute force alle möglichen Zahlen durchprobiert.
oder einen Code knacken will, dann ist das ja ok,
siehe oben
bei der Strukturvorhersage aber, sagen wir mal nicht unkritisch.
Stimmt.
zur Strukturvorhersage (generiere Konformation, bewerte sie, verfeinere sie)
ist aber nicht gerade der eleganteste der Welt, sondern KANN ohne die
Rechenzeit gar nicht bestehen.
***@home sucht u. a. auch nach ähnlichen, bekannten Proteinen
und versucht durch deren Struktur auf die des unbekannten Proteins zu
schließen. Charles L. Brooks III ist zudem eine international
anerkannte Kompetenz auf diesem Gebiet und hätte sich sicher nicht
bereit erklärt, dieses Projekt zu leiten, wenn er davon nicht auch
irgendwie überzeugt wäre.
Er wird aber sicherlich sinnvolle Statistiken über
Energieverteilungen etc. liefern.
Naja, das wird wohl hoffentlich in jedem Fall passieren und unabhängig
davon, ob das Projekt ansonsten ein Erfolg wird oder nicht, eine große
Menge am Rande anfallender Daten liefern, die für zukünftige
Entwicklungen in der Methodologie von Nutzen sein könnten.
Alessandro Macrì
2004-07-14 10:09:03 UTC
Permalink
Post by Sascha Luehrs
Post by Alessandro Macrì
Falsche Gruppe: Leute f=FCr ein Distributed Computing Projekt
anzuwerben ist kaum als Biologie zu bezeichnen.
Nun, zugegeben, es ist ein Anwerbeversuch. Und ja, es ist sicher auch
etwas offtopic. Verglichen aber mit den
Kreationismus-Missionierungsversuchs-Postings, die schon mehrfach in
dieser Group gelaufen sind, und die in ellenlangen Threads
Da=DF andere Leute Unsinn posten ist f=FCr mich keine Rechtfertigung daf=FC=
r.
Post by Sascha Luehrs
beantwortet/diskutiert wurden, w=FCrde ich allerdings schon sagen, dass
mit Biologie zu tun hat. Dar=FCberhinaus ist es ja auch gut m=F6glich, da=
=DF

bionet.biology.computational existiert. Da=DF Strukturvorhersage besonders =
viel
mit Biologie zu tun hat (insbesondere ein Brute-Force-Ansatz, der lediglich
Energiebetrachtungen durchf=FChrt) bestreite ich mal an dieser Stelle.
Post by Sascha Luehrs
es in dieser NG User gibt, die sich dar=FCber freuen w=FCrden, an einem
CASP-Projekt per DC teilnehmen zu k=F6nnen.
Und vielleicht gibt es welche, die gerne mit mir wandern gehen wollen.
Deswegen frage ich aber auch nicht hier nach.
Post by Sascha Luehrs
[...]
Post by Alessandro Macrì
zu l=F6sen, ist bei der Strukturvorhersage IMHO jedoch unangebracht.
Davon bin ich nicht =FCberzeugt.
Weiterhin, wenn Superrechner oder Distributed Computing in der
Proteinforschung einzusetzen so unangebracht ist, wieso baut IBM dann
Blue Gene?
http://www.research.ibm.com/journal/sj/402/allen.html
[...]
Das Projekt ist mir durchaus bekannt, aber offenbar hast Du hier zwei Dinge
verwechselt. Zitat: "The project has two main goals: to advance our
understanding of the mechanisms behind protein folding via large-scale
simulation, and to explore novel ideas in massively parallel machine
architecture and software."
Wohlgemerkt: "protein folding via large-scale simulation", also die
Simulation des Faltungsprozesses und nicht die Strukturvorhersage.
Post by Sascha Luehrs
Post by Alessandro Macrì
Nat=FCrlich braucht man jede Menge Kapazit=E4t, aber daraus dann gleich
ein Projekt f=FCr ein paar tausend Benutzer zu machen, ist zum einen
etwas =FCbertrieben,
Die Leistungen, die heutige Desktop-Rechner bringen, sind im Vergleich
zu den von Superrechnern erbrachten Leistungen gar nicht mal so gro=DF,
daher finde ich das durchaus nicht v=F6llig unangemessen.
Wir benutzen hier f=FCr den Kern unserer Strukturvorhersage z.Z. acht
Doppelprozessor-Xeons (ein wenig mehr findet noch drumherum statt). Andere
Institutionen benutzen nat=FCrlich mehr Kapazit=E4t, wieder andere z.T. deu=
tlich
weniger. Die Geschichte zeigt, da=DF gute CASP/CAFASP-Ergebnisse bisher nic=
ht
durch =FCberlegene Rechenkraft, sondern =FCberlegene Ideen erreicht wurden.
Post by Sascha Luehrs
[...]
Post by Alessandro Macrì
Ansatz zur Strukturvorhersage (generiere Konformation, bewerte sie,
verfeinere sie) ist aber nicht gerade der eleganteste der Welt, sondern
KANN ohne die Rechenzeit gar nicht bestehen.
versucht durch deren Struktur auf die des unbekannten Proteins zu
schlie=DFen. Charles L. Brooks III ist zudem eine international anerkannt=
e
Post by Sascha Luehrs
Kompetenz auf diesem Gebiet und h=E4tte sich sicher nicht bereit erkl=E4r=
t,
Post by Sascha Luehrs
dieses Projekt zu leiten, wenn er davon nicht auch irgendwie =FCberzeugt
w=E4re.
Brooks besch=E4ftigt sich bei Proteinen prim=E4r mit Energiebetrachtungen,
L=F6semittelschnittstellen, Docking, etc. Aber eher entfernt mit
Post by Sascha Luehrs
Post by Alessandro Macrì
Er wird aber sicherlich sinnvolle Statistiken =FCber Energieverteilunge=
n
Post by Sascha Luehrs
Post by Alessandro Macrì
etc. liefern.
Ich denke das ist es, was Brooks daran interessiert (ok, Gedanken kann
ich leider noch nicht lesen :-). Da=DF die Energiebetrachtungen benutzt wer=
den
sollen, um die wahrscheinlichsten Konformationen eines Proteins zu
beurteilen, n=FCtzt eher der Validierung des Energiemodells, als der
Strukturvorhersage.
Post by Sascha Luehrs
Naja, das wird wohl hoffentlich in jedem Fall passieren und unabh=E4ngig
davon, ob das Projekt ansonsten ein Erfolg wird oder nicht, eine gro=DFe
Menge am Rande anfallender Daten liefern, die f=FCr zuk=FCnftige Entwickl=
ungen
Post by Sascha Luehrs
in der Methodologie von Nutzen sein k=F6nnten.
Durchaus. Mit der Einschr=E4nkung, die ich oben formuliert habe.

ciao

--=20
Alessandro Macr=EC "panta rhei" (Heraklit)
Tel +49 89 2180-4059 ***@ifi.lmu.de
Fax +49 89 2180-4054 http://www.ifi.lmu.de/~macri
LMU M=FCnchen, LFE Bioinformatik, Amalienstr. 17, 80333 M=FCnchen, Zi. 20=
1

Lesen Sie weiter auf narkive:
Loading...