(SeaPRwire) – Die Aufgaben ähneln denen, die Anwälte, Ärzte, Finanzanalysten und Unternehmensberater beruflich lösen. Eine Aufgabe verlangt eine Diagnose für einen sechsjährigen Patienten basierend auf neun multimedialen Beweisstücken; eine andere bittet um Rechtsberatung bezüglich des Nachlasses eines Musikers; eine dritte erfordert eine Bewertung eines Teils eines Gesundheitstechnologieunternehmens.
Mercor, das nach eigenen Angaben “Expertendaten” an jedes Top-KI-Unternehmen liefert, gibt an, über 500.000 US-Dollar für die Entwicklung von 200 Aufgaben ausgegeben zu haben, die testen, ob KIs “hochwirtschaftlich wertvolle Wissensarbeit” in den Bereichen Recht, Medizin, Finanzen und Unternehmensberatung leisten können. Der daraus resultierende (APEX), der am Mittwoch veröffentlicht wurde, zählt unter seinen Co-Autoren einen ehemaligen globalen Managing Director von McKinsey, einen ehemaligen Dekan der Harvard Business School und einen Professor der Harvard Law School, die laut Mercor bei der Gestaltung und dem Umfang der Aufgaben in ihren jeweiligen Bereichen beraten haben. APEX sei “sehr darauf fokussiert, in die Tiefe zu gehen”, sagt Brendan Foody, der 22-jährige CEO des Unternehmens. “Wie können wir sehr umfassend erfassen, was es bedeutet, Berater, Banker, Arzt oder Anwalt zu sein?”
Zur Erstellung der Aufgaben beauftragte Mercor hochqualifizierte Fachkräfte, deren ehemalige Arbeitgeber Top-Banken (Goldman Sachs, JPMorgan), Beratungsfirmen (McKinsey, Boston Consulting Group), Anwaltskanzleien (Latham & Watkins) und Krankenhäuser (Mount Sinai) umfassen. Sie verfügen im Durchschnitt über 7,25 Jahre Berufserfahrung, und ihre Bezahlung bei Mercor ist konkurrenzfähig zu ihren früheren, hoch angesehenen Arbeitgebern. Die Website von Mercor wirbt mit einem durchschnittlichen Stundenlohn von 81 US-Dollar pro Stunde, der für “Senior Domain Experts”, die mindestens vier Jahre Berufserfahrung benötigen, über 200 US-Dollar pro Stunde erreichen kann – was einem Jahresgehalt von etwa 400.000 US-Dollar entspricht.
“Es ist schwer, sich einen besseren Stundenjob aus Gehaltsperspektive vorzustellen”, sagt Matt Seck, ein ehemaliger Investmentbanking-Analyst bei Bank of America, der von Mercor beauftragt wird, Finanzaufgaben ähnlich denen im Papier zu erstellen.
Benchmarks werden seit langem verwendet, um die KI-Fähigkeit zu bewerten, aber die direkte Quantifizierung der Fähigkeit von KI-Modellen, wirtschaftlich nützliche Arbeit zu leisten, stellt einen “Paradigmenwechsel” dar, sagt Osvald Nitski, einer der Autoren des Papiers. Auf Mercors Benchmark würde “100% zu erreichen bedeuten, dass man im Grunde einen Analysten oder Associate in einer Box hätte, dem man Aufgaben schicken könnte, und dieser würde sie dann gemäß den Anforderungen eines Partners, oder eines MD, oder wem auch immer, der die Arbeit dieser Person bewerten würde, liefern”, sagt Nitski.
Die Modelle sind noch nicht so weit, aber sie verbessern sich schnell. OpenAI’s GPT-4o, im Mai 2024 veröffentlicht, erzielte 35,9 % auf dem Benchmark. GPT-5, nur etwas mehr als ein Jahr später veröffentlicht, erreichte 64,2 % – die höchste Punktzahl auf dem Benchmark. 64,2 % auf dem Benchmark zu erreichen, bedeutet nicht, dass GPT-5 64,2 % des Wertes eines menschlichen Arbeitnehmers liefert – Arbeit, die keine 100 % erreicht, “könnte effektiv nutzlos sein”, schreiben die Autoren des Papiers. GPT-5 erreichte nur in zwei der 200 Aufgaben die volle Punktzahl – eine im Bereich Recht und eine im Investmentbanking –, die laut Mercor “primär grundlegendes Schlussfolgern, einfache Berechnungen und viel grundlegende Informationssuche beinhalten”.
Selbst wenn ein Modell 100 % auf Mercors Benchmark erreicht, wäre es wahrscheinlich ein schlechter Ersatz für menschliche Fachkräfte. Die Aufgaben in Mercors Benchmark konzentrieren sich auf “gut abgegrenzte Leistungen”, wie Diagnosen erstellen oder Finanzmodelle bauen, anstatt auf offenere Aufgaben, die mehrere richtige Antworten zulassen könnten. Dies erfordert, dass die Aufgabenbeschreibungen zahlreiche Annahmen enthalten, um sicherzustellen, dass die gewünschte Ausgabe genau spezifiziert ist. Die Ausgaben der KIs sind vollständig textbasiert, was bedeutet, dass der Benchmark die Fähigkeit von KIs, einen Computer zu nutzen, nicht testet, wie es ein menschlicher Arbeiter tun würde. (Mercor sagt, dass zukünftige Versionen von APEX diese Einschränkungen beheben werden.) Und das Entwerfen der langen Prompts, die Modelle benötigen, um die Aufgaben zu erledigen, “wäre mühsamer, als es einfach selbst zu tun”, sagt Seck.
Dennoch gibt es Anzeichen dafür, dass KI-Modelle mit Menschen konkurrenzfähig werden. Ein weiterer Benchmark, der am Donnerstag, 25. September, von OpenAI veröffentlicht wurde, zeigte, dass menschliche Experten die Arbeit einer KI in 47,6 % der Fälle gegenüber menschlicher Arbeit bei 220 Aufgaben, darunter das Entwerfen einer Verkaufsbroschüre für eine Immobilie und die Bewertung von Hautläsionsbildern, bevorzugten. OpenAI stellte außerdem fest, dass die Leistung seiner Modelle in kurzer Zeit erheblich zugenommen hat, wobei sich ihre “Gewinnrate” gegenüber Menschen zwischen Juni 2024 und September 2025 mehr als verdoppelte.
Mit der gestiegenen Modellkapazität hat auch die Komplexität der Aufgaben, an denen sie getestet werden, und die menschliche Fähigkeit, ausreichend anspruchsvolle Aufgaben zu erstellen, zugenommen. Frühere Tests maßen relativ abstrakte Fähigkeiten bei und Fragen. vor der Veröffentlichung von ChatGPT im Jahr 2022 wurden Daten oft von Crowdworker-Diensten bezogen, die Arbeiter pro Stunde bezahlten. Im Jahr 2023 wurden Doktoranden angeworben, um anspruchsvolle Multiple-Choice-Fragen in Biologie, Physik und Chemie zu erstellen. Im September entließ xAI 500 seiner “generalistischen” Datenarbeiter im Rahmen einer “Erweiterung und Priorisierung” der “spezialisierten” Datenarbeiter des Unternehmens. Sicherlich tragen gering bezahlte Datenarbeiter zur Entwicklung von KI-Modellen bei, aber die obere Grenze der Fähigkeiten und der Vergütung, die für die Entwicklung von KI-Benchmarks erforderlich sind, steigt rapide an.
Die direkte Messung des Nutzens von KI-Modellen bei wirtschaftlich wertvollen Aufgaben ist “sehr schwer umzusetzen”, sagt Nitski. Die Erfolgskriterien in Bereichen wie Finanzen und Beratung sind schwerer zu definieren als beispielsweise im Software-Engineering. Selbst mit perfekten Kriterien ist die Bewertung der Ausgabe einer KI in großem Maßstab schwieriger als im Software-Engineering, wo automatisierte Tests überprüfen können, ob ein Stück Code korrekt läuft. Dies erklärt zum Teil, warum Tests, die den realen Nutzen von KI-Modellen messen sollen, im Software-Engineering bereits seit mindestens 2023 existieren, in anderen White-Collar-Bereichen jedoch hinterherhinken. Da sich KIs jedoch verbessert haben, haben sie geholfen, das Problem der Bewertung komplexer Aufgaben zu lösen. Die Erfolgskriterien für Mercors Aufgaben werden von menschlichen Experten geschrieben, die Bewertung erfolgt jedoch durch KIs, die laut Mercor in 89 % der Fälle mit menschlichen Gutachtern übereinstimmten, was zur Skalierung der Bewertungen beiträgt.
Die Entwicklung von Benchmarks dient nicht nur dazu zu wissen, wie gut Modelle sind. In der KI, wie auch in der Wirtschaft, “was gemessen wird, wird erledigt” – gute Tests beschleunigen oft den KI-Fortschritt bei diesen Tests. “Es ist letztendlich derselbe Datentyp sowohl für die Bewertung als auch für das Training”, sagt Foody. Die Bewertung der Leistung in Spielen wie Go ist unkompliziert; KI schlug Meister bereits 2016. Im Jahr 2023 begannen Benchmarks mit der Bewertung von KIs bei realen Aufgaben im Software-Engineering. Zwei Jahre später sind die Arbeitsstatistiken für Junior-Programmierer zweifelhaft.
“KI hat ihren Doktortitel gemacht”, sagt Foody. “Jetzt beginnt sie, in den Arbeitsmarkt einzutreten.”
Der Artikel wird von einem Drittanbieter bereitgestellt. SeaPRwire (https://www.seaprwire.com/) gibt diesbezüglich keine Zusicherungen oder Darstellungen ab.
Branchen: Top-Story, Tagesnachrichten
SeaPRwire liefert Echtzeit-Pressemitteilungsverteilung für Unternehmen und Institutionen und erreicht mehr als 6.500 Medienshops, 86.000 Redakteure und Journalisten sowie 3,5 Millionen professionelle Desktops in 90 Ländern. SeaPRwire unterstützt die Verteilung von Pressemitteilungen in Englisch, Koreanisch, Japanisch, Arabisch, Vereinfachtem Chinesisch, Traditionellem Chinesisch, Vietnamesisch, Thailändisch, Indonesisch, Malaiisch, Deutsch, Russisch, Französisch, Spanisch, Portugiesisch und anderen Sprachen.