Neues deep-learning-Ansatz sagt Voraus, die Struktur des proteins aus der Aminosäuresequenz

Nahezu alle fundamentalen biologischen Prozess notwendig für das Leben ist, erfolgt durch Proteine. Sie erstellen und pflegen die Formen von Zellen und Geweben; bilden die Enzyme, katalysieren lebenserhaltenden chemischen Reaktionen; als molekulare Fabriken, Transporter-und Motoren aus; dienen als signal-und Empfänger für die zelluläre Kommunikation; und vieles mehr.

Bestehend aus langen Ketten von Aminosäuren, Proteinen führen, die Myriaden von Aufgaben durch das Falten selbst in präzise 3D-Strukturen, die bestimmen, wie Sie interagieren mit anderen Molekülen. Da ein protein seine Form seine Funktion bestimmt und das Ausmaß der Dysfunktion, die auf Krankheit, Anstrengungen zu beleuchten protein-Strukturen im Zentrum für molekulare Biologie und insbesondere die therapeutischen Wissenschaften und die Entwicklung von lebensrettenden und lebensverändernden Arzneimitteln.

In den letzten Jahren, computergestützten Methoden haben signifikante Fortschritte in der Vorhersage, wie sich Proteine Falten, basierend auf dem wissen von Ihrer Aminosäuresequenz. Wenn voll verwirklicht, diese Methoden haben das Potenzial zu verändern, nahezu alle Facetten der biomedizinischen Forschung. Aktuelle Ansätze, allerdings begrenzt die Größe und den Umfang der Proteine bestimmt werden kann.

Nun, ein Harvard Medical School Wissenschaftler verwendet hat, eine form der künstlichen Intelligenz, bekannt als deep learning zur Vorhersage der 3D-Struktur effektiv Proteine basierend auf Ihrer Aminosäuresequenz.

Reporting online in Cell Systems am April 17, systembiologen Mohammed AlQuraishi details zu einem neuen Ansatz für die computergestützte Bestimmung der protein-Struktur — die erreichte Genauigkeit vergleichbar mit aktuellen state-of-the-art-Methoden, aber bei Geschwindigkeiten ab eine million mal schneller.

„Der Protein-Faltung ist eine der wichtigsten Probleme für Biochemiker im Laufe des letzten halben Jahrhunderts, und dieser Ansatz stellt eine grundlegend neue Art und Weise der Bewältigung dieser Herausforderung“, sagte AlQuraishi, Ausbilder in der Systembiologie in der Blavatnik-Institut an der HMS und fellow im Labor von Systemen Pharmakologie. „Wir haben jetzt ein ganz neues vista für die Erkundung der protein-Faltung, und ich denke, wir haben gerade erst begonnen, an der Oberfläche kratzen.“

Einfach Bundesland

Während der sehr erfolgreichen, Prozesse, die durch physische Instrumente zur Identifizierung von protein-Strukturen sind teuer und zeitaufwändig, selbst mit modernen Techniken wie die Kryo-Elektronenmikroskopie. Als solche, die überwiegende Mehrheit von protein-Strukturen-und die Auswirkungen der krankheitsverursachenden Mutationen auf diesen Strukturen-sind noch weitgehend unbekannt.

Rechnerische Methoden, die berechnen, wie sich Proteine Falten, die das Potenzial haben, drastisch reduzieren die Kosten und die Zeit notwendig, um festzustellen, Struktur. Aber das problem ist schwierig und ungelöst bleibt nach fast vier Jahrzehnten intensiver Anstrengungen.

Proteine sind aufgebaut aus einer Bibliothek von 20 verschiedenen Aminosäuren. Diese wirken wie Buchstaben in einem alphabet, das kombinieren in Worte, Sätze und Absätze zu produzieren, eine Astronomische Anzahl von möglichen Texte. Im Gegensatz zu den Buchstaben des Alphabets, jedoch sind die Aminosäuren physischen Objekte, die Positionierung im 3D-Raum. Oft werden Abschnitte eines proteins wird in enger körperlicher Nähe, sondern werden getrennt durch große Entfernungen in Bezug auf die Sequenz, wie seine Aminosäure-Ketten bilden Schleifen, Spiralen, Bögen und Wendungen.

„Was ist zwingend über das problem ist, dass es ziemlich einfach: nehmen Sie eine Sequenz und Abbildung der Form,“ AlQuraishi sagte. „Ein protein beginnt als eine unstrukturierte Zeichenkette, in eine 3D-Form und die möglichen sets von Formen, die eine string-Falten kann, in ist riesig. Viele Proteine sind Tausende von Aminosäuren lang, und die Komplexität schnell über die Fähigkeit der menschlichen intuition oder sogar der leistungsstärkste Computer.“

Schwer zu lösen

Um dieser Herausforderung zu begegnen, die Wissenschaftler nutzen die Tatsache, dass Aminosäuren die Interaktion mit jedem anderen auf der Grundlage der Gesetze der Physik, der Suche nach energetisch günstigen Zustände wie ein ball Rollen bergab um sich auf dem Boden eines Tals.

Die meisten fortschrittliche algorithmen berechnen die Struktur des proteins durch das laufen auf Supercomputern-oder crowd-sourced Rechenleistung bei Projekten wie [email protected] und [email protected] Simulation der komplexen Physik der Aminosäure-Interaktionen durch brute-force. Zur Verringerung der massive rechnerische Anforderungen, die diese Projekte stützen sich auf die Zuordnung neuer Sequenzen, die auf vordefinierten Vorlagen, die protein-Strukturen, die zuvor bestimmt durch experiment.

Andere Projekte wie das von Google AlphaFold generiert haben enorme jüngsten Aufregung über Fortschritte in der künstlichen Intelligenz zur Vorhersage einer Proteinstruktur. So zu tun, diese Ansätze analysieren gewaltige Mengen von genomischen Daten, die enthalten den bauplan für protein-Sequenzen. Sie suchen nach Sequenzen über viele Arten, die haben wahrscheinlich entwickelte sich zusammen mit solchen Sequenzen als Indikatoren für die enge körperliche Nähe zu Struktur guide assembly.

Diese AI-Ansätze, aber nicht Vorhersagen, Strukturen basiert ausschließlich auf einem protein der Sequenz der Aminosäuren. Also, Sie haben eine begrenzte Wirksamkeit für die Proteine, für die es keine Vorkenntnisse, evolutionäre einzigartige Proteine oder neuartige Proteine, die von Menschen gestaltet.

Ausbildung tief

Einen neuen Ansatz erarbeiten, AlQuraishi angewandte so genannte Ende-zu-Ende-differenzierbare Tiefe lernen. Dieser Zweig der künstlichen Intelligenz, die drastisch reduziert die Rechenleistung und Zeit benötigt, um Probleme zu lösen, wie z.B. Bild-und Spracherkennung ermöglicht Anwendungen wie Apple ‚ s Siri und Google Translate.

Im wesentlichen unterscheiden lernen beinhaltet eine einzige, enorme mathematische Funktion — eine viel komplexere version eines high-school-Kalkül-Gleichung-angeordnet, als ein neuronales Netzwerk, wobei jede Komponente des Netzwerks Fütterung Informationen vorwärts und rückwärts.

Diese Funktion kann optimieren und anpassen sich, immer und immer wieder zu unvorstellbaren Ebenen der Komplexität, um zu „lernen“, genau wie ein protein-Sequenz mathematisch bezieht sich auf seine Struktur.

AlQuraishi entwickelt ein deep-learning-Modell, bezeichnet eine wiederkehrende geometrische Netzwerk, das sich auf wesentliche Merkmale der Proteinfaltung. Aber bevor es neue Vorhersagen, es muss trainiert werden unter Verwendung der vorher festgelegten Sequenzen und Strukturen.

Für jede Aminosäure, das Modell prognostiziert die wahrscheinlichste Winkel der chemischen Bindungen, die eine Verbindung der Aminosäure mit seinen Nachbarn. Es sagt auch die Winkel der rotation um diese Bindungen, die beeinflusst, wie ein lokaler Abschnitt eines proteins ist geometrisch mit der ganzen Struktur.

Dies geschieht immer wieder, bei jeder Rechnung mitgeteilt und verfeinert, indem die relativen Positionen von jeder anderen Aminosäure. Sobald die gesamte Struktur abgeschlossen ist, überprüft das Modell bei der Genauigkeit der Vorhersage durch den Vergleich gegen die „ground truth“ – Struktur des proteins.

Dieser gesamte Prozess wiederholt sich für Tausende von bekannten Proteinen, die mit dem Modell-lernen und die Verbesserung Ihrer Genauigkeit mit jeder iteration.

Neue vista

Nach seinem Modell ausgebildet wurde, AlQuraishi getestet Ihre Vorhersagekraft. Er verglich seine Leistung gegen andere Methoden aus mehreren den letzten Jahren von der Critical Assessment of Protein Structure Prediction — eine jährliche experiment, tests, computergestützten Methoden für Ihre Fähigkeit, Vorhersagen zu machen Verwendung von protein-Strukturen, die bestimmt wurden, aber nicht öffentlich freigegeben.

Er fand, dass das neue Modell besser als alle anderen Methoden zur Vorhersage von protein-Strukturen, für die keine vorhandenen Vorlagen, einschließlich der Verfahren, bei denen die co-evolutionäre Daten. Es auch besser als alle, aber die besten Methoden, wenn Sie bereits bestehende Vorlagen zur Verfügung standen, um Vorhersagen zu treffen.

Während diese Vorteile in der Genauigkeit sind relativ klein, AlQuraishi stellt fest, dass alle Verbesserungen, die am oberen Ende diese tests sind schwer zu erreichen. Und weil diese Methode repräsentiert einen völlig neuen Ansatz für die protein-Faltung, kann es ergänzt die bestehenden Methoden, computational und körperliche, um zu bestimmen, eine viel breitere Palette von Strukturen als bisher möglich.

Auffallend, das neue Modell führt die Vorhersagen bei rund sechs bis sieben Größenordnungen schneller als die bestehenden Berechnungsmethoden. Ausbildung das Modell kann Monate dauern, aber sobald ausgebildet, kann es Vorhersagen in Millisekunden im Vergleich zu den Stunden, zu Tagen dauert es mit anderen Ansätzen. Diese dramatische Verbesserung ist teilweise auf die einzige mathematische Funktion, auf dem es basiert, erfordert nur ein paar tausend Linien von computer-code ausgeführt werden, anstelle von Millionen.

Die schnelle Geschwindigkeit dieses Modells Vorhersagen ermöglicht neue Anwendungen, die zu langsam waren oder schwierig zu erreichen vor, AlQuraishi sagte, wie die Vorhersage, wie sich Proteine verändern Ihre Form, wie Sie interagieren mit anderen Molekülen.

„Deep-learning-Ansätze, nicht nur mir, weiter zu wachsen in Ihrer Aussagekraft und in der Popularität, weil Sie repräsentieren, ein minimales, einfaches Paradigma, das zu integrieren, können neue Ideen leichter als die derzeitigen komplexen Modelle“, fügte er hinzu.

Das neue Modell ist nicht sofort bereit für den Einsatz in, sagen wir, Drogen-Entdeckung oder Konstruktion, AlQuraishi sagte, weil seine Genauigkeit derzeit fällt irgendwo um 6 Angström-immer noch in einiger Entfernung von den 1-2 Angström benötigt, um zu beheben die komplette Atomare Struktur eines proteins. Aber es gibt viele Möglichkeiten zum optimieren der Ansatz, sagte er, einschließlich der weiteren Integration der Regeln, gezeichnet von Chemie und Physik.

„Genau und effizient die Vorhersage der protein-Faltung wurde ein Heiliger Gral auf dem Gebiet, und es ist meine Hoffnung und Erwartung, dass dieser Ansatz, kombiniert mit all den anderen bemerkenswerten Methoden, die entwickelt wurden, wird in der Lage sein, dies zu tun in der nahen Zukunft,“ AlQuraishi sagte. „Wir könnten dies bald zu lösen, und ich denke, niemand hätte gesagt, dass vor fünf Jahren. Es ist sehr spannend und irgendwie auch schockierend zugleich.“

Anderen zu helfen, die Teilnahme in der Methodenentwicklung, AlQuraishi gemacht hat, seine software und die Ergebnisse frei zugänglich über die GitHub-software-sharing-Plattform.

„Eine Bemerkenswerte Eigenschaft der AlQuraishi Arbeit ist, dass eine einzige wissenschaftliche Mitarbeiterin, eingebettet in das reiche ökosystem-Forschung an der Harvard Medical School und der Boston biomedical community, können im Wettbewerb mit Unternehmen wie Google in einem der heißesten Bereiche der informatik“, sagte Peter Sorger, HMS Otto Krayer, Professor der Systeme Pharmakologie in der Blavatnik-Institut an der HMS, Direktor des Laboratory of Systems Pharmakologie an der HMS und AlQuraishi akademischen mentor.

„Es ist unklug, zu unterschätzen ist der störende Einfluss von brilliant Gefährten wie AlQuraishi arbeiten mit open-source-software in the public domain“, sagte Sorger.

Die Studie wurde unterstützt vom National Institute of General Medical Sciences und das National Cancer Institute der National Institutes of Health (P50GM107618 und U54CA225088).