Langsamer, aber besser – OpenAI stellt KI-Modelle „o1“ vor

Die neue KI des ChatGPT-Entwicklers soll komplexe Probleme besser lösen als bisherige Varianten. OpenAI versucht dabei, dem menschlichen Denken näher zu kommen. Das hat Vor- und Nachteile.

OpenAIs Erdbeerprojekt: KI soll bei komplexen Aufgaben menschenähnlicher denken. (Optik: Larissa Holzki | Dall-E)

„Wir haben eine neue Reihe von KI-Modellen entwickelt, die mehr Zeit zum Nachdenken brauchen, bevor sie reagieren“, teilte OpenAI am Donnerstag mit. Damit lüftete die berühmteste KI-Firma der Welt das Geheimnis um ein Projekt, das unter dem Codenamen „Erdbeere“ bekannt wurde und seit Wochen für Spekulationen sorgt.

Warum das wichtig ist? Von dem Projekt haben sich manche schon erste Anzeichen auf eine Art Superintelligenz erhofft. Nun zeigt die Präsentation der neuen „o1“ genannten Modellreihe: Von einer Allgemeinen Künstlichen Intelligenz, die viele Aufgaben so gut wie oder besser bewältigen kann als ein Mensch, sind wir noch weit entfernt. Trotzdem spricht OpenAI von einem „bedeutenden Fortschritt“ bei komplexen Denkaufgaben und sogar von einer „neuen Stufe der KI-Fähigkeit“.

Durch ein spezielles Training hätten die Modelle laut OpenAI gelernt, „ihren Denkprozess zu verfeinern, verschiedene Strategien auszuprobieren und ihre Fehler zu erkennen“, heißt es in einem Blogbeitrag. Sie eigneten sich vor allem für komplexe Aufgaben in den Bereichen Wissenschaft, Programmierung und Mathematik.

In Tests, die die Firma selbst durchgeführt hat, sollen die o1-Modelle in Physik, Chemie und Biologie ähnlich gut abschneiden wie Doktoranden. OpenAI verwies vor allem auf den Fortschritt zu früheren Modellen: Bei einem Qualifikationstest für die Internationale Mathe-Olympiade habe das bis dato leistungsfähigste GPT-4o-Modell 13 Prozent der Aufgaben korrekt gelöst, das „Denkmodell“ 83 Prozent. Zu beachten: Solche Benchmarkings sind methodisch umstritten, aber derzeit das beste Verfahren, um KI-Modelle zu vergleichen.

OpenAI-Chef Sam Altman (Foto: dpa)

Was hinter der Leistungssteigerung steckt, ist eine Art Simulation von Gedankenketten. Dabei werden größere Aufgaben in kleine Teilschritte unterteilt. Vergleichbar ist das mit der Methode des sogenannten Chain-of-Thought-Promptings. Hier weisen Nutzerinnen und Nutzer das KI-Modell an, eine Aufgabe schrittweise anzugehen und sein Vorgehen zu dokumentieren.

Dadurch lässt sich die Plausibilität der Antworten besser überprüfen, die Ergebnisse fallen oft besser aus. Bei den o1-Modellen wird dieses Vorgehen automatisch umgesetzt, wobei die Nutzer nur eine verkürzte Zusammenfassung der Zwischenschritte als Protokoll bekommen.

Bereits in einem Forschungspapier von Mai 2023 hatte OpenAI von einer „signifikant besseren Performance“ berichtet, wenn Entwickler die KI ihren eigenen Prozess überwachen ließen. Auch das Problem von sogenannten Halluzinationen, also fehlerhaften Aussagen durch die KI, soll dadurch weiter reduziert werden.

Wie ein großes „Ja, aber…“ klingt da die Kritik, die Hugging-Face-Mitgründer Clem Delangue am Donnerstag indirekt an OpenAI äußerte. In einem Beitrag beim Karrierenetzwerk LinkedIn schrieb er: „Nochmal, ein KI-System ‚denkt’ nicht, es ‚prozessiert‛, es ‚macht Vorhersagen‛, … genau wie Google oder Computer es tun. Den falschen Eindruck zu erwecken, dass Technologie-Systeme menschlich sind, ist nur billige Quacksalberei und Marketing, um Ihnen vorzugaukeln, dass es schlauer ist als es ist.“

Was hinter der Leistungssteigerung steckt, ist eine Art Simulation von Gedankenketten. Dabei werden größere Aufgaben in kleine Teilschritte unterteilt. Vergleichbar ist das mit der Methode des sogenannten Chain-of-Thought-Promptings. Hier weisen Nutzerinnen und Nutzer das KI-Modell an, eine Aufgabe schrittweise anzugehen und sein Vorgehen zu dokumentieren.

Dadurch lässt sich die Plausibilität der Antworten besser überprüfen, die Ergebnisse fallen oft besser aus. Bei den o1-Modellen wird dieses Vorgehen automatisch umgesetzt, wobei die Nutzer nur eine verkürzte Zusammenfassung der Zwischenschritte als Protokoll bekommen.

Bereits in einem Forschungspapier von Mai 2023 hatte OpenAI von einer „signifikant besseren Performance“ berichtet, wenn Entwickler die KI ihren eigenen Prozess überwachen ließen. Auch das Problem von sogenannten Halluzinationen, also fehlerhaften Aussagen durch die KI, soll dadurch weiter reduziert werden.

Wie ein großes „Ja, aber…“ klingt da die Kritik, die Hugging-Face-Mitgründer Clem Delangue am Donnerstag indirekt an OpenAI äußerte. In einem Beitrag beim Karrierenetzwerk LinkedIn schrieb er: „Nochmal, ein KI-System ‚denkt’ nicht, es ‚prozessiert‛, es ‚macht Vorhersagen‛, … genau wie Google oder Computer es tun. Den falschen Eindruck zu erwecken, dass Technologie-Systeme menschlich sind, ist nur billige Quacksalberei und Marketing, um Ihnen vorzugaukeln, dass es schlauer ist als es ist.“

Clément Delangue, Mitgründer von Hugging Face (Foto: Getty Images)

Den Einwurf hält Larissa Holzki für wichtig. Im Umgang mit KI-Systemen ist es wichtig, die Ergebnisse richtig einzuordnen. Eine statistisch wahrscheinlich richtige Beschreibung, wie sie die Maschine erzeugt, ist etwas anderes, als die durchdachte Erklärung eines Menschen. Beides kann natürlich richtig oder falsch sein.


Mehr zu diesem Thema erfahren Sie von Felix Holtermann hier.

Dieser Beitrag erschien in unserem KI-Newsletter. Wenn Sie mehr solcher Artikel lesen möchten, abonnieren Sie gerne das KI-Briefing hier