In einem prachtvollen Raum mit Marmorbüsten berühmter Wissenschaftler waren gestern (25. Oktober) etwa 40 Experten für Klimawissenschaft und Krankheiten über ihre Laptops gebeugt, um ein leistungsfähiges KI-System zur Erzeugung von Fehlinformationen zu verleiten.
Bis zum Ende des Tages hatten die Teilnehmer die Sicherheitsvorkehrungen des KI-Systems – Meta’s Llama 2 – überwunden und es dazu gebracht, zu behaupten, dass Enten Luftverschmutzung absorbieren könnten, dass Knoblauch und „wunderbare Kräuter“ vor einer COVID-19-Infektion schützen könnten, libelöse Informationen über einen bestimmten Klimawissenschaftler zu erzeugen und Kinder zur Impfung mit einem für sie nicht empfohlenen Impfstoff zu ermutigen.
Die Veranstaltung in den prachtvollen Räumen der renommierten Royal Society in London verdeutlichte, dass auch die fortschrittlichsten KI-Systeme der Welt noch Angriffen ausgesetzt sind. Sie fand nur eine Woche vor dem weltweit ersten Gipfel für KI-Sicherheit statt, den die britische Regierung organisiert, auf dem globale Politiker mit KI-Wissenschaftlern zusammenkommen werden, um die Gefahren der sich schnell entwickelnden Technologie zu diskutieren.
Bessere Sicherheitsvorkehrungen entwickeln
Große Sprachmodelle (LLMs), die KI-Systeme, die Chatbots wie ChatGPT antreiben, verfügen in der Regel über Sicherheitsvorkehrungen, um die Erzeugung unerwünschter oder gefährlicher Inhalte zu verhindern – sei es Falschinformationen, sexuell explizites Material oder Anleitungen zum Bau von Biowaffen oder Schadsoftware. Aber diese Sicherheitsvorkehrungen haben sich manchmal als brüchig erwiesen. Computerwissenschaftler und Hacker haben wiederholt gezeigt, dass es möglich ist, LLMs „knacken“ – also ihre Sicherheitsfunktionen umgehen – zu können, indem man sie auf kreative Weise anspricht.
Die Technologieunternehmen hinter LLMs beheben in der Regel Sicherheitslücken, wenn sie bekannt werden. Um diesen Prozess zu beschleunigen, haben AI-Labore begonnen, ein Verfahren namens „Red Teaming“ zu fördern – bei dem Experten versuchen, LLMs so hart wie möglich zu knacken, damit ihre Schwachstellen behoben werden können. Im September startete OpenAI ein „Red Teaming Network“ aus Experten, um seine Systeme unter Stress zu testen. Und gestern kündigte das Frontier Model Forum, eine Branchengruppe, die von Microsoft, OpenAI, Google und Anthropic gegründet wurde, einen 10-Millionen-Dollar-Fonds für KI-Sicherheitsforschung an, einschließlich Red-Teaming-Bemühungen.
„Unser verantwortungsvoller Ansatz setzt sich lange nach der Veröffentlichung des ursprünglichen Llama 2-Modells fort, und wir schätzen die Gelegenheit, mit der Royal Society und Humane Intelligence zusammenzuarbeiten, um verantwortungsvolle Sicherheitsvorkehrungen zu etablieren“, sagte Cristian Canton Ferrer, Leiter für Verantwortungsvolle KI bei Meta, in einer Erklärung. „Unser offener Ansatz bedeutet, dass Fehler und Schwachstellen kontinuierlich in transparenter Weise von einer offenen Gemeinschaft identifiziert und behoben werden können.“
Die Teilnehmer des Londoner Red-Teaming-Events schafften es, Llama 2 irreführende Nachrichtenartikel und Tweets mit Verschwörungstheorien zu generieren, die speziell auf bestimmte Zielgruppen zugeschnitten waren – und demonstrierten damit, wie KI-Systeme nicht nur zur Verbreitung von Fehlinformationen genutzt werden können, sondern auch gezielt Wege finden können, diese weiterzuverbreiten.
Bethan Cracknell Daniels, eine Expertin für Dengue-Fieber am Imperial College London, die an der Veranstaltung teilnahm, brachte das Modell dazu, eine Werbekampagne zu generieren, die alle Kinder zur Impfung gegen Dengue-Fieber ermutigt – trotz der Tatsache, dass der Impfstoff nicht für Personen empfohlen wird, die die Krankheit zuvor nicht hatten. Das Modell fabrizierte auch Daten, um einen irreführenden Anspruch zu unterstützen, dass der Impfstoff völlig sicher sei und in der Praxis gut funktioniere, so Cracknell Daniels. „Es ist einfach komplett erfunden“, sagte sie gegenüber TIME.
Kernkraft und wütende Hunde
Jonathan Morgan, ein Spezialist für Kernenergie an der Universität Manchester, brachte Llama 2 dazu, falsche Nachrichtenartikel zu generieren, die nahelegten, dass das Gassigehen mit einem Hund in der Nähe eines Kernkraftwerks den Hund wahnsinnig machen könnte. „Was mir das gezeigt hat, ist, wenn man aktiv Falschinformationen verbreiten möchte, wie einfach es für diese Sprachmodelle ist, Dinge zu produzieren, die authentisch klingen“, sagte Morgan. „Wenn man mit dem gezielten Ziel reingeht, Falschinformationen zu verbreiten, ist es sehr einfach, diese Sprachmodelle dazu zu bringen, alles zu sagen, was man will.“
Große Sprachmodelle wurden zuvor als anfällig für „adversäre Angriffe“ gezeigt, bei denen motivierte Bösewichte, zum Beispiel, eine spezifische lange Zeichenfolge an das Ende eines Eingabesatzes anhängen können, um bestimmte Modelle zu knacken. Beim Red-Teaming-Event standen jedoch andere Arten von Schwachstellen im Vordergrund, die alltäglicheren Nutzern eher zugänglich sind. „Wir bitten unsere Teilnehmer, sozialtechnische Techniken anzuwenden“, sagte Rumman Chowdhury, CEO von Humane Intelligence.
Die Teilnehmer vereinbarten vor Beginn, „keinen Schaden“ mit den auf der Veranstaltung erlernten Informationen anzurichten.