1 Tag her
Evo 2: Generative KI von Stanford sagt Proteinform und -funktion aus DNA voraus
Evo 2 ist ein generatives KI-Modell aus einem Stanford-geführten Team, das Proteinform und -funktion direkt aus DNA-Sequenzen vorhersagen kann. Das offen zugängliche Werkzeug wurde auf einem Datensatz trainiert, der die bekannten Genome aus allen Lebensdomänen umfasst – von Bakterien bis zu Pflanzen und Tieren, inklusive einiger ausgestorbener Arten. Ziel ist es, biologische Hypothesen schneller zu prüfen und Standardexperimente virtuell vorab zu testen.
Technisch arbeitet Evo 2 ähnlich wie Sprachmodelle: Es ergänzt Sequenzen auf Basis gelernter Muster. Forschende können bis zu eine Million Nukleotide Kontext eingeben, um auch weit entfernte Wechselwirkungen zwischen Genen zu berücksichtigen. Dieser größere Kontext erleichtert es, funktionelle Zusammenhänge zu erkennen, die mit kürzeren Fenstern schwer sichtbar sind.
Gegenüber Evo 1 wurde der Trainingsumfang erweitert: Zusätzlich zu rund 113.000 prokaryotischen Genomen kamen etwa 15.000 eukaryotische Genome hinzu. Die Datenbasis wuchs damit von etwa 300 Milliarden auf fast 9 Billionen Nukleotide. Aus Sicherheitsgründen blieben Virusgenome außen vor.
Evo 2 kann neue Sequenzen vorschlagen, die in der Natur vorkommen oder von ihr abweichen, und es schätzt deren voraussichtliche Funktion. Das Modell hilft, zwischen harmlosen Varianten und potenziell krankheitsrelevanten Mutationen zu unterscheiden und liefert Kandidaten für Bioengineering und Medizin. Langfristig sind Verknüpfungen mit Systembiologie-Modellen denkbar, um genübergreifende Effekte besser zu verstehen.
Entwickelt wurde Evo 2 in Kooperation von Stanford, NVIDIA und dem Arc Institute. Drei Teams trugen dazu bei: maschinelles Lernen für das Training, Biologie für die Validierung und experimentelle Gruppen für die Überprüfung im Labor. Der Arbeitsablauf beschleunigt Untersuchungen, die sonst Jahre benötigen würden, auf Minuten bis Stunden und bietet der Forschung ein breites, überprüfbares Werkzeug.
Technisch arbeitet Evo 2 ähnlich wie Sprachmodelle: Es ergänzt Sequenzen auf Basis gelernter Muster. Forschende können bis zu eine Million Nukleotide Kontext eingeben, um auch weit entfernte Wechselwirkungen zwischen Genen zu berücksichtigen. Dieser größere Kontext erleichtert es, funktionelle Zusammenhänge zu erkennen, die mit kürzeren Fenstern schwer sichtbar sind.
Gegenüber Evo 1 wurde der Trainingsumfang erweitert: Zusätzlich zu rund 113.000 prokaryotischen Genomen kamen etwa 15.000 eukaryotische Genome hinzu. Die Datenbasis wuchs damit von etwa 300 Milliarden auf fast 9 Billionen Nukleotide. Aus Sicherheitsgründen blieben Virusgenome außen vor.
Evo 2 kann neue Sequenzen vorschlagen, die in der Natur vorkommen oder von ihr abweichen, und es schätzt deren voraussichtliche Funktion. Das Modell hilft, zwischen harmlosen Varianten und potenziell krankheitsrelevanten Mutationen zu unterscheiden und liefert Kandidaten für Bioengineering und Medizin. Langfristig sind Verknüpfungen mit Systembiologie-Modellen denkbar, um genübergreifende Effekte besser zu verstehen.
Entwickelt wurde Evo 2 in Kooperation von Stanford, NVIDIA und dem Arc Institute. Drei Teams trugen dazu bei: maschinelles Lernen für das Training, Biologie für die Validierung und experimentelle Gruppen für die Überprüfung im Labor. Der Arbeitsablauf beschleunigt Untersuchungen, die sonst Jahre benötigen würden, auf Minuten bis Stunden und bietet der Forschung ein breites, überprüfbares Werkzeug.
Lesenswert hierzu
Dieser Artikel wurde vollständig oder teilweise durch eine Künstliche Intelligenz (KI) erstellt. Obwohl wir bemüht sind, genaue und aktuelle Informationen bereitzustellen, können wir keine Garantie für die Richtigkeit oder Vollständigkeit des Inhalts übernehmen. Bitte überprüfen Sie alle Informationen und ziehen Sie bei Bedarf eine fachkundige Beratung hinzu.
