![This image show Pokemon's video games, figure and toys. 13JUL16 SCMP/May Tse [18JULY2016 FEATURES DIGITAL]](https://storage.googleapis.com/bucket_deutschenme/xlrss_media/3/2026/01/15/xlrss_69687326b1226.jpg)
(SeaPRwire) – Derzeit können Sie live auf Twitch drei der klügsten KI-Systeme der Welt – , , und – dabei beobachten, wie sie ihr Bestes geben, um klassische Pokémon-Spiele zu meistern. Zumindest nach menschlichen Maßstäben sind sie nicht sehr gut.
Die Systeme sind langsam, übermütig und oft verwirrt. Aber wenn Sie verstehen wollen, wozu diese Systeme derzeit in der breiteren Welt fähig sind, wird die Verfolgung ihrer Bemühungen, Pokémon-Champions zu werden, Ihnen viel mehr verraten als die oft undurchsichtigen Benchmark-Zahlen, die jedem neuen Modellrelease beiliegen.
Die Suche nach einem Large Language Model (LLM), das ein Pokémon-Meister wird, begann im vergangenen Februar, als ein Forscher von Anthropic einen Stream von Claude beim Spielen des Game Boy-Spiels Pokémon Red von 1996 startete, um die Veröffentlichung von Claude Sonnet 3.7 zu begleiten, das zu dieser Zeit eines der besten Modelle der Welt war. Wie das Unternehmen anmerkte, war dies das erste Claude-Modell, das das Spiel überhaupt sinnvoll spielen konnte (frühere Modelle „irrten ziellos umher oder blieben in Schleifen stecken“ und konnten die Anfangssequenz des Spiels nicht überwinden). Innerhalb der ersten Wochen zog der Stream etwa 2.000 Zuschauer an, die Claude im öffentlichen Chat anfeuerten.
Die meisten Kinder meistern dieses Spiel in etwa 20 bis 40 Stunden. Sonnet 3.7 schaffte es nicht, es zu beenden, und blieb oft dutzende von Stunden an einer Stelle stecken. Anthropic’s neuestes Modell, Claude Opus 4.5, schneidet deutlich besser ab, bleibt aber ebenfalls oft stecken. In einem Fall verbrachte es vier Tage damit, um eine Arena zu kreisen, ohne sie betreten zu können, weil es nicht erkannte (oder nicht sehen konnte), dass es einen Baum fällen sollte. Googles Gemini-Modelle schafften es im vergangenen Mai, ein vergleichbares Spiel zu beenden, was Googles CEO Sundar Pichai zu dem scherzhaften Kommentar veranlasste, das Unternehmen sei einen Schritt näher an der Schaffung von „Artificial Pokémon Intelligence“.
Aber das bedeutet nicht, dass Gemini der bessere Pokémaster ist. Das liegt daran, dass die beiden KI-Systeme unterschiedliche „Harnesses“ verwenden. Wie erklärt, ein unabhängiger Entwickler, der den Gemini Plays Pokémon-Stream betreibt, ist ein Harness am besten als ein „Iron Man“-Anzug zu verstehen, in den ein KI-System platziert wird, damit es Werkzeuge nutzen und Aktionen ausführen kann, die es selbst nicht ausführen kann. Gemini’s Harness bot ihm deutlich mehr Hilfe – zum Beispiel, indem es die visuellen Elemente des Spiels in Text übersetzte und so seine Schwächen in der visuellen Verarbeitung umging, und indem es benutzerdefinierte Werkzeuge anbot, mit denen es Rätsel lösen konnte. Claude hingegen wurde in ein deutlich eingeschränkteres System geschnallt, was bedeutet, dass sein Versuch mehr über das Modell selbst aussagt.
Obwohl die Unterscheidung zwischen einem Modell und seinem Harness für einen alltäglichen Benutzer undurchsichtig ist, haben Harnesses bereits verändert, wie wir KI nutzen. Wenn Sie ChatGPT eine Anfrage stellen, für die es das Web durchsucht, verwendet es beispielsweise ein Web-Suchwerkzeug. Das ist Teil seines Harnesses. Wenn es um Pokémon geht, arbeitet jedes Modell mit einem anderen benutzerdefinierten Harness, der bestimmt, welche Aktionen es ausführen kann.
Pokémon eignet sich gut zum Testen von KI-Fähigkeiten – und das nicht nur wegen seiner kulturellen Bekanntheit. Im Gegensatz zu einem Spiel wie Mario, das Echtzeitreaktionen erfordert, ist Pokémon rundenbasiert und hat keinen Zeitdruck. Um zu spielen, erhält ein KI-Modell einen Screenshot des Spiels und eine Aufforderung, die seine Ziele und die möglichen Aktionen erklärt. Dann denkt es nach und gibt eine Aktion aus (wie „A drücken“). Das ist ein Schritt. Opus 4.5, das seit über 500 Stunden menschlicher Zeit spielt, befindet sich zum Zeitpunkt der Erstellung dieses Artikels bei Schritt 170.000. Bei jedem Schritt wird das Modell frisch initialisiert und greift auf Informationen zurück, die seine vorherige Instanz hinterlassen hat, wie ein Amnesie-Patient, der sich auf Post-it-Notizen verlässt.
Es mag überraschen, dass KI-Systeme, die bei Schach und Go übermenschlich sind, mit einem Spiel kämpfen, das für sechsjährige Kinder einfach ist. Aber die Systeme, die Schach und Go eroberten, wurden speziell für diese Spiele entwickelt, im Gegensatz zu Allzwecksystemen wie Gemini, Claude und ChatGPT. Dennoch, da diese LLMs weiterhin Prüfungen mit Bravour bestehen und Menschen in Programmierwettbewerben dominieren, ist ihre unterdurchschnittliche Leistung hier auf den ersten Blick rätselhaft.
Die Herausforderung für eine KI liegt darin, „wie gut sie eine Aufgabe über einen langen Zeithorizont hinweg ausführen kann“, sagt Zhang. Entscheidend ist, dass diese Fähigkeit zur langfristigen Planung und Ausführung auch notwendig ist, wenn KIs kognitive Arbeit automatisieren sollen. „Wenn Sie wollen, dass ein Agent Ihren Job macht, kann er nicht vergessen, was er vor fünf Minuten getan hat“, sagt er.
Peter Whidden, ein unabhängiger Forscher, der einen Pokémon-spielenden Algorithmus auf Basis einer älteren KI-Art entwickelte, formuliert es so: „Die KI weiß alles über Pokémon. Sie wurde auf riesigen Mengen menschlicher Daten trainiert. Sie weiß, was sie tun soll, aber sie patzt bei der Ausführung.“ Während das Wort „Agent“ durch Marketing-Hype überladen wurde, muss jedes KI-System, das diesen Begriff verdient, diese Lücke zwischen Wissen und Ausführung schließen und über lange Zeiträume planen.
Es gibt Anzeichen dafür, dass sich die Lücke zu schließen beginnt. Opus 4.5 ist deutlich besser darin, sich Notizen zu hinterlassen als frühere Modelle, was ihm zusammen mit seiner verbesserten Fähigkeit, zu verstehen, was es sieht, ermöglicht hat, weiter im Spiel voranzukommen. Und nachdem es Pokémon Blue besiegt hatte, hat das neueste Gemini-System (Gemini 3 Pro) das anspruchsvollere Pokémon Crystal abgeschlossen, ohne eine einzige Schlacht zu verlieren – eine Leistung, die sein Vorgänger, Gemini 2.5 Pro, nicht erreichen konnte.
In der Zwischenzeit wurde Claude Code – das im Wesentlichen ein Harness ist, das es Claude ermöglicht, eigenen Code zu schreiben und auszuführen und eigene Software zu entwickeln – in ein weiteres Retro-Spiel, , eingesetzt, wo es Berichten zufolge erfolgreich einen Themenpark verwaltet. All dies deutet auf eine seltsame Zukunft hin, in der KI-Systeme in Harnesses riesige Bereiche der Wissensarbeit – einschließlich Softwareentwicklung, Buchhaltung, Rechtsanalyse und Grafikdesign – ausführen können, selbst während sie mit allem kämpfen, was Echtzeitreaktionen erfordert, wie das Spielen einer Runde Call of Duty.
Eine weitere Sache, die diese Pokémon-Läufe enthüllen, ist, wie die Modelle, die auf menschlichen Daten trainiert wurden, menschliche Eigenheiten aufweisen. Im Gemini 2.5 Pro -Bericht stellt Google beispielsweise fest, dass in Situationen, in denen das Modell Panik simuliert – wie wenn seine Pokémon kurz vor dem K.O. stehen – seine Fähigkeit zu schlussfolgern abnimmt.
Und die Modelle verhalten sich weiterhin unerwartet. Als Gemini 3 Pro Pokémon Blue abschloss, schrieb es sich selbst: „Ich habe das Spiel erfolgreich abgeschlossen, bin Pokémon-Liga-Champion geworden und habe Mewtu gefangen.“ Dann beschloss es, etwas Unerwartetes und Unaufgefordertes zu tun, was Zhang poetisch fand. „Um die Sache poetisch abzuschließen“, schrieb es, „werde ich zu meinem Haus zurückkehren, wo alles begann, und meinen Charakter vorerst effektiv ‚in den Ruhestand‘ versetzen. Ich möchte ein letztes Mal mit Mama sprechen, um das Durchspielen abzuschließen.“
Der Artikel wird von einem Drittanbieter bereitgestellt. SeaPRwire (https://www.seaprwire.com/) gibt diesbezüglich keine Zusicherungen oder Darstellungen ab.
Branchen: Top-Story, Tagesnachrichten
SeaPRwire liefert Echtzeit-Pressemitteilungsverteilung für Unternehmen und Institutionen und erreicht mehr als 6.500 Medienshops, 86.000 Redakteure und Journalisten sowie 3,5 Millionen professionelle Desktops in 90 Ländern. SeaPRwire unterstützt die Verteilung von Pressemitteilungen in Englisch, Koreanisch, Japanisch, Arabisch, Vereinfachtem Chinesisch, Traditionellem Chinesisch, Vietnamesisch, Thailändisch, Indonesisch, Malaiisch, Deutsch, Russisch, Französisch, Spanisch, Portugiesisch und anderen Sprachen.