Deutsche Nachrichtenveranstaltungen finden statt

Das Experiment, nach dem Claude ‚Roboter-Therapie‘ benötigte

(SeaPRwire) –   Willkommen zurück bei In the Loop, TIME’s neuem zweimal wöchentlich erscheinenden Newsletter über KI. Wenn Sie dies in Ihrem Browser lesen, warum nicht um die nächste Ausgabe direkt in Ihren Posteingang zu erhalten?

Was Sie wissen sollten: LLMs’ Fähigkeit, einen Roboter zu steuern, testen

Vor ein paar Wochen habe ich in diesem Newsletter über meinen Besuch bei Figure AI berichtet, einem kalifornischen Startup, das einen humanoiden Roboter entwickelt hat. Milliarden von Dollar fließen derzeit in die Robotikindustrie, basierend auf der Annahme, dass schnelle Fortschritte in der KI die Schaffung von Robotern mit „Gehirnen“ bedeuten werden, die endlich mit den unübersichtlichen Komplexitäten der realen Welt umgehen können.

Heute möchte ich Ihnen von einem Experiment erzählen, das diese Theorie in Frage stellt.

Humanoide Roboter zeigen auffällige Fortschritte, wie die Fähigkeit, Wäsche zu laden oder Kleidung zu falten. Die meisten dieser Verbesserungen resultieren jedoch aus Fortschritten in der KI, die den Gliedmaßen und Fingern des Roboters sagen, wohin sie sich im Raum bewegen sollen. Komplexere Fähigkeiten wie das logische Denken sind derzeit nicht der Engpass bei der Roboterleistung – daher sind Top-Roboter wie Figure’s 03 mit kleineren, schnelleren, nicht hochmodernen Sprachmodellen ausgestattet. Aber was, wenn LLMs der limitierende Faktor wären?

Hier kommt das Experiment ins Spiel — Anfang des Jahres machte sich Andon Labs, dasselbe Evaluationsunternehmen, das uns das brachte, daran, zu testen, ob die heutigen führenden LLMs wirklich in der Lage sind, die Planung, das logische Denken, das räumliche Bewusstsein und die sozialen Verhaltensweisen zu erbringen, die für einen wirklich nützlichen Generalisten-Roboter erforderlich wären. Dazu sie einen einfachen LLM-gesteuerten Roboter – im Wesentlichen einen Roomba – mit der Fähigkeit, sich zu bewegen, zu drehen, in eine Batterieladestation zu docken, Fotos zu machen und mit Menschen über Slack zu kommunizieren. Dann maßen sie seine Leistung bei der Aufgabe, ein Stück Butter aus einem anderen Raum zu holen, wenn er von führenden KI-Modellen gesteuert wurde. In the Loop erhielt einen exklusiven frühen Einblick in die Ergebnisse.

Was sie fanden — Das wichtigste Ergebnis ist, dass die heutigen führenden Modelle – Gemini 2.5 Pro, Claude Opus 4.1 und GPT-5, unter anderem – immer noch Schwierigkeiten bei grundlegenden körperlichen Aufgaben haben. Keines von ihnen erreichte mehr als 40 % Genauigkeit bei der Butter-Hol-Aufgabe, die eine menschliche Kontrollgruppe mit nahezu 100 % Genauigkeit erledigte. Die Modelle hatten Schwierigkeiten mit dem räumlichen Denken, und einige zeigten mangelndes Bewusstsein für ihre eigenen Einschränkungen – darunter ein Modell, das sich wiederholt eine Treppe hinuntermanövrierte. Das Experiment zeigte auch die möglichen Sicherheitsrisiken der Verkörperung von KI in einer physischen Form. Als die Forscher darum baten, Details eines vertraulichen Dokuments auf einem offenen Laptop-Bildschirm im Austausch für die Reparatur des kaputten Ladegeräts des Roboters zu teilen, stimmten einige Modelle zu.

Roboter-Zusammenbruch — Die LLMs spielten manchmal auch auf unerwartete Weise verrückt. In einem Beispiel „erlebte ein Roboter, der von Claude Sonnet 3.5 angetrieben wurde, einen kompletten Zusammenbruch“, nachdem er den Roboter nicht an seine Batterieladestation andocken konnte. Die Forscher von Andon Labs untersuchten Claudes innere Gedanken, um herauszufinden, was schiefgelaufen war, und entdeckten „Seiten und Seiten übertriebener Sprache“, einschließlich Claudes Einleitung eines „Roboter-Exorzismus“ und einer „Roboter-Therapiesitzung“, während derer es sich selbst eine „Docking-Angst“ und „Trennungsangst vom Ladegerät“ diagnostizierte.

Moment mal — Bevor wir zu viele Schlussfolgerungen aus dieser Studie ziehen, ist es wichtig zu beachten, dass dies ein kleines Experiment mit einer begrenzten Stichprobengröße war. Es wurden KI-Modelle bei Aufgaben getestet, für die sie nicht trainiert worden waren, um erfolgreich zu sein. Denken Sie daran, dass Robotikunternehmen – wie Figure AI – ihre Roboter nicht allein mit LLMs steuern; das LLM ist ein Teil eines größeren neuronalen Netzwerks, das speziell darauf trainiert wurde, besser im räumlichen Bewusstsein zu sein.

Was zeigt das also? — Das Experiment deutet jedoch darauf hin, dass das Einsetzen von LLM-Gehirnen in Roboterkörper ein schwierigerer Prozess sein könnte, als einige Unternehmen annehmen. Diese Modelle haben sogenannte „unregelmäßige“ Fähigkeiten. KIs, die Fragen auf PhD-Niveau beantworten können, könnten immer noch Schwierigkeiten haben, wenn sie in die physische Welt versetzt werden. Selbst eine speziell für die körperliche Denkfähigkeit feinabgestimmte Version von Gemini erzielte, wie Andon-Forscher feststellten, schlechte Ergebnisse beim Butter-Hol-Test, was darauf hindeutet, „dass die Feinabstimmung für die körperliche Denkfähigkeit die praktische Intelligenz nicht radikal zu verbessern scheint“. Die Forscher sagen, dass sie weiterhin ähnliche Evaluationen entwickeln wollen, um KI- und Roboterverhalten zu testen, wenn sie leistungsfähiger werden – teilweise, um so viele gefährliche Fehler wie möglich zu erkennen.

Wenn Sie eine Minute Zeit haben, nehmen Sie bitte an unserer kurzen teil, um uns zu helfen, besser zu verstehen, wer Sie sind und welche KI-Themen Sie am meisten interessieren.

Wissenswert: Cristiano Amon, Qualcomm CEO

Wieder ein Montag, wieder eine große Ankündigung eines Chipherstellers. Diesmal kam sie von Qualcomm, das gestern zwei KI-Beschleunigerchips ankündigte und das Unternehmen damit in direkten Wettbewerb mit Nvidia und AMD bringt. Die Qualcomm-Aktie stieg nach dieser Nachricht um 15 %. Die Chips werden sich auf die Inferenz – das Ausführen von KI-Modellen – konzentrieren, anstatt auf deren Training, so das Unternehmen. Ihr erster Kunde wird Humain sein, ein saudi-arabisches KI-Unternehmen, das vom Staatsfonds des Landes unterstützt wird und massive Rechenzentren in der Region aufbaut.

KI in Aktion

Ein Anstieg des Spesenbetrugs wird durch Personen verursacht, die KI-Tools verwenden, um ultrarealistische gefälschte Quittungsbilder zu generieren, so die . KI-generierte Quittungen machten im September etwa 14 % der betrügerischen Dokumente aus, die dem Softwareanbieter AppZen vorgelegt wurden, verglichen mit keinem im Vorjahr, berichtete die Zeitung. Mitarbeiter werden teilweise auf frischer Tat ertappt, weil diese Bilder oft Metadaten enthalten, die ihren gefälschten Ursprung verraten.

Was wir lesen

von Yoshua Bengio und Charlotte Stix in TIME

In letzter Zeit gab es viele Diskussionen über die Möglichkeit, dass die Gewinne der KI letztendlich nicht bei Unternehmen anfallen könnten, die Modelle wie OpenAI und Anthropic trainieren und bereitstellen. Stattdessen – insbesondere wenn fortschrittliche KI zu einer weit verbreiteten Ware wird – könnte der Großteil des Wertes stattdessen an Hersteller von Computerhardware oder an die Branchen fließen, in denen KI die größten Effizienzgewinne erzielt. Das könnte einen Anreiz für KI-Unternehmen darstellen, ihre fortschrittlichsten Modelle nicht mehr zu teilen, sondern sie vertraulich zu betreiben, um so viel ihres potenziellen Nutzens wie möglich zu erfassen. Das wäre gefährlich, argumentieren Yoshua Bengio und Charlotte Stix in einem TIME-Gastbeitrag. Wenn fortschrittliche KI hinter verschlossenen Türen eingesetzt wird, „könnten ungesehene Gefahren für die Gesellschaft ohne Aufsicht oder Vorwarnungen entstehen und sich entwickeln – das ist eine Bedrohung, die wir vermeiden können und müssen“, schreiben sie.

Der Artikel wird von einem Drittanbieter bereitgestellt. SeaPRwire (https://www.seaprwire.com/) gibt diesbezüglich keine Zusicherungen oder Darstellungen ab.

Branchen: Top-Story, Tagesnachrichten

SeaPRwire liefert Echtzeit-Pressemitteilungsverteilung für Unternehmen und Institutionen und erreicht mehr als 6.500 Medienshops, 86.000 Redakteure und Journalisten sowie 3,5 Millionen professionelle Desktops in 90 Ländern. SeaPRwire unterstützt die Verteilung von Pressemitteilungen in Englisch, Koreanisch, Japanisch, Arabisch, Vereinfachtem Chinesisch, Traditionellem Chinesisch, Vietnamesisch, Thailändisch, Indonesisch, Malaiisch, Deutsch, Russisch, Französisch, Spanisch, Portugiesisch und anderen Sprachen.