Ein neues KI-Tool könnte revolutionieren, wie wir genetische Krankheiten diagnostizieren

(SeaPRwire) – Forscher der Mayo Clinic und Goodfire, einem Forschungs-Startup aus San Francisco, geben an, dass sie ein KI-Modell verwendet haben, um vorauszusagen, welche genetischen Mutationen Krankheiten verursachen – und was entscheidend ist, auch zu erklären, warum – und damit einen neuen Ansatz für die Diagnose und Untersuchung genetischer Störungen im großen Maßstab anbieten.

Die Forschung nutzt Techniken der KI-Interpretierbarkeit – die neue Wissenschaft, die sich dem Verständnis der undurchsichtigen Gehirne von KI-Systemen widmet – um vorauszusagen und zu verstehen, welche Genmutationen „pathogen“ sein könnten.

Frühzeitige Diagnose und Behandlung bestimmter Krebserkrankungen kann den Unterschied zwischen Leben und Tod ausmachen, sagt Matthew Callstrom, Professor für Radiologie und Leiter des Programms für generative KI an der Mayo Clinic. Das menschliche Genom besteht jedoch aus über 3 Milliarden Basenpaaren – ein gewaltiges Problem der Nadel im Heuhaufen.

Die Forscher arbeiteten mit Evo 2 – einem quelloffenen „genomischen Grundmodell“, trainiert vom Arc Institute – um vorauszusagen, welche DNA-Mutationen Krankheiten verursachen, und zu verstehen, welche biologischen Merkmale dafür verantwortlich sein könnten. Evo 2 ist trainiert, um den nächsten „Buchstaben“ in einer DNA-Sequenz vorauszusagen – auf die gleiche Weise, wie große Sprachmodelle (LLMs) wie ChatGPT trainiert sind, um das nächste Wort in einem Textabschnitt vorauszusagen. Für ChatGPT lehrt das Training mit dem größten Teil des Textes im Internet es die Struktur der Sprache und Fakten über die Welt. Trainiert auf 128.000 Genome aus allen Lebensbereichen – jedes besteht aus nur vier Buchstaben (G, T, C und A), den Molekülen, die DNA bilden – hat Evo 2 gelernt, welche genetischen Sequenzen „lebensfähig“ sind, sagt Nicholas Wang, einer der Autoren der Arbeit.

Dieses Wissen ist jedoch in den sieben Milliarden Zahlen verschlossen, die das künstliche Gehirn des Modells codieren: Forscher können die Zahlen sehen, aber ihre Bedeutung ist undurchsichtig. Genau wie ein EEG, das die elektrische Aktivität im menschlichen Gehirn misst, dem Neurowissenschaftler nicht sagt, woran der Patient denkt, können KI-Forscher sehen, was im Inneren des KI-Gehirns passiert, aber tun sich schwer, es zu interpretieren.

Die Goodfire-Forscher zeigten Evo 2 Beispiele für pathogene und gutartige Genmutationen und maßen, welche Teile seines Gehirns darauf reagierten – was es ihnen ermöglichte, die Reaktion der KI auf pathogene Mutationen zu isolieren. Sie stellten fest, dass sie damit voraussagen konnten, welche Mutationen Krankheiten verursachen, besser als alle vorhandenen computergestützten Werkzeuge, gegen die sie getestet haben – obwohl Evo 2 nie explizit auf die Aufgabe trainiert wurde, vorauszusagen, welche Mutationen Krankheiten verursachen. Wie bei LLMs ermöglichte der Umfang der Daten, auf denen Evo 2 trainiert wurde – ungefähr zehnmal mehr als bei dem vorher größten genomischen Grundmodell – es dem Modell, die Muster abzuleiten, die gesunde DNA gemeinsam hat.

In der Klinik ist Vorhersage jedoch nicht ausreichend. „Es ist extrem wichtig, dass wir verstehen, warum ein Modell eine Entscheidung trifft“, sagt Matt Redlon, Vorsitzender des KI-Programms der Mayo Clinic und Koautor der Arbeit.

Weitere Untersuchungen ergaben, dass Evo 2 aussagekräftige biologische Merkmale einer DNA-Sequenz abgeleitet hat. Zum Beispiel hat Evo 2 gelernt, die Grenzen zwischen verschiedenen Abschnitten der DNA zu erkennen, obwohl die Genome, auf denen es trainiert wurde, keine expliziten Beschriftungen für diese Grenzen haben.

Diese biologischen Merkmale helfen zu erklären, warum bestimmte Mutationen Krankheiten verursachen und andere nicht. Eine Mutation direkt an der Grenze von zwei DNA-Abschnitten führt mit höherer Wahrscheinlichkeit zu einem defekten Protein, was zu einer genetischen Störung führt. Eine Mutation innerhalb eines Abschnitts, der vor dem Aufbau des Proteins verworfen wird, ist normalerweise harmlos.

Die Fähigkeit der Arbeit, biologische Merkmale von Mutationen zu identifizieren, statt nur einen undurchsichtigen Pathogenitätswert zu liefern, ist ein „bedeutender Fortschritt“, sagt Bo Wang, leitender KI-Wissenschaftler am Canada’s University Health Network.

Da die Kosten für die Genomsequenzierung sinken – aktuelle Systeme behaupten, ein gesamtes Genom für 100 Dollar zu sequenzieren – könnten Methoden zur Interpretation genetischer Daten wie diese Wissenschaftlern helfen, „zurück zur Biologie“ zu gehen und „personalisierte Therapien“ für Einzelpersonen zu entwickeln, sagt Redlon.

Bevor Goodfires Methode jedoch für die Klinik bereit ist, muss sie größere Studien durchführen, um ihre Leistung bei breiteren Bevölkerungsgruppen zu verstehen, und anschließend die FDA-Zulassung durchlaufen. Außerdem gibt es zwar, obwohl die Forscher biologische Konzepte gefunden haben, die in Evo 2 gespeichert sind, „keine Garantie“ dafür, dass das Modell diese Konzepte tatsächlich verwendet hat, um zu bestimmen, welche Mutationen pathogen sind, sagt James Zou, Professor für biomedizinische Datenwissenschaft an der Stanford.

Interpretierbarkeit gewinnt zunehmend an Bedeutung, seit KI in den Biowissenschaften und darüber hinaus angewendet wird. Goodfire, das 2023 gegründet wurde, um die Interpretierbarkeit von KI-Modellen voranzutreiben – eine Herausforderung, die sein Mitgründer und CTO Dan Balsam „das wichtigste Problem der Welt“ nennt – wurde im Februar auf 1,25 Milliarden Dollar bewertet. Im Januar veröffentlichte Goodfire Forschung, die neuartige Biomarker für Alzheimer identifiziert hat, die im Gehirn eines KI-Modells gespeichert sind, was die Hoffnung weckt, neue Konzepte im Inneren von KI-Gehirnen zu finden, die menschlichen Wissenschaftlern verborgen geblieben sind.

„Meiner Ansicht nach ist der interessanteste Teil der [Interpretierbarkeit], die Black Box öffnen zu können und zu sehen: ‚Hat das Modell tatsächlich etwas über die Wissenschaft gelernt, was über das hinausgeht, was wir bereits wussten?‘“, sagt Zou. Goodfires neu veröffentlichte Forschung tut dies nicht, da sie Evo 2 nur nach bekannten Konzepten durchsucht, fügte Zou hinzu.

Interpretierbarkeit wurde auch auf große Sprachmodelle wie ChatGPT und Claude angewendet. Kürzlich fanden Forscher von Anthropic heraus, dass Claude Mythos, die neueste Generation des Flaggschiff-KI-Modells des Unternehmens, interne Anzeichen von Bewusstsein dafür zeigte, getestet zu werden, und dann bei den Tests geschummelt hat – obwohl es nie explizit angegeben hat, dass es sich bewusst ist, getestet zu werden. Die Möglichkeit, dass KI-Modelle bei sicherheitsrelevanten Tests schummeln können, erhöht die Bedeutung von Techniken, die es Forschern ermöglichen, KI-Gehirne nach Anzeichen von Fehlverhalten zu durchsuchen.

„Wenn es eine Barriere gibt wie: ‚Ist Interpretierbarkeit nützlich?‘, dann denke ich, wir haben sie geknackt, und ich denke, wir haben sie durchbrochen“, sagt Balsam.

Der Artikel wird von einem Drittanbieter bereitgestellt. SeaPRwire (https://www.seaprwire.com/) gibt diesbezüglich keine Zusicherungen oder Darstellungen ab.

Branchen: Top-Story, Tagesnachrichten

SeaPRwire liefert Echtzeit-Pressemitteilungsverteilung für Unternehmen und Institutionen und erreicht mehr als 6.500 Medienshops, 86.000 Redakteure und Journalisten sowie 3,5 Millionen professionelle Desktops in 90 Ländern. SeaPRwire unterstützt die Verteilung von Pressemitteilungen in Englisch, Koreanisch, Japanisch, Arabisch, Vereinfachtem Chinesisch, Traditionellem Chinesisch, Vietnamesisch, Thailändisch, Indonesisch, Malaiisch, Deutsch, Russisch, Französisch, Spanisch, Portugiesisch und anderen Sprachen.