Benchmarking: Wie ein Pisatest für KI-Modelle (Optik: Larissa Holzki | Dall-E)
Warum das wichtig ist? KI-Firmen, die behaupten, dass ihr KI-Modell irgendwas am besten kann, untermauern das in der Regel mit Benchmarks. Sie messen zum Beispiel, wie gut das allgemeine Sprachverständnis einer KI ist. Dies gilt dann in der Szene als anerkannter Vergleichsmaßstab.
Wer nach Benchmarks wie etwa Hellaswag und Superglue am besten performt, dem ist die Aufmerksamkeit von Medien, Investoren und potenziellen Kunden sicher. Dabei bringen diese Benchmarks eine ganze Reihe von Schwierigkeiten mit sich.
Aber fangen wir erst mal damit an, warum uns das gerade jetzt beschäftigt. Vergangene Woche hat die deutsche KI-Firma Aleph Alpha ihre Strategie mit einem neuen Produktportfolio rund um das KI-Betriebssystem Pharia OS vorgestellt. Es enthält auch das neue Modell der Firma, Pharia-1.
Gründer und CEO Jonas Andrulis hat in den vergangenen Monaten oft betont, dass es für seine Firma nicht entscheidend sei, das beste Sprachmodell zu entwickeln. Er will demnach gar nicht mit den großen KI-Entwicklern OpenAI, Anthropic oder Meta konkurrieren.

Jonas Andrulis, Gründer und CEO von Aleph Alpha. (Foto: dpa)
Trotzdem hat sich der Unternehmer zum Ziel gesetzt, ein „sehr gutes“ Modell vorzulegen und dem Handelsblatt KI-Briefing Mitte Juli gesagt: „Wenn wir ein neues Modell launchen, dann will ich sagen können, für welche Anwendungsfälle es die beste Wahl ist“ und „glückliche Kunden vorzeigen können, die das auch bestätigen“.
Jetzt ist das Modell Pharia-1 da und hat laut Andrulis gewisse Stärken bei nicht-englischen Anwendungen in Verwaltungen und im Bereich Engineering. Die angesprochenen Benchmarks belegen das, nun ja, zum Teil.
Weil laut den Vergleichstabellen die Modelle von Mistral und Meta in den meisten Bereichen besser sind, wird von Pharia-1 in der Entwicklercommunity nur am Rande Notiz genommen. Und wenn, wirft es Fragen auf. Etwa: Welchen Mehrwert liefert ein Modell, für das es in den meisten Bereichen offenbar bessere Alternativen gibt?
Die Frage ist legitim. Auch wir haben sie Jonas Andrulis gestellt. Schließlich stellt Aleph Alpha seinen Kunden im neuen Betriebssystem
auch Modelle anderer Anbieter zur Verfügung. Warum also noch Ressourcen in ein eigenes investieren?
Ein Teil der Antwort ist, dass Aleph Alpha weiter an Modellen forschen will, um drumherum Innovationen zu entwickeln. Andrulis verweist aber auch darauf, dass Nutzer KI-Modelle für ihren konkreten Einsatzfall selbst testen sollten.
Einer von Andrulis‘ Kronzeugen dafür ist Michael Hagedorn. Er ist Chef des IT-Dienstleisters und Aleph-Alpha-Partners Materna. Sein Fazit klingt nicht überschwänglich, aber differenziert: „In unseren Pilotprojekten können wir zwar nicht alle, aber die meisten Aufgaben mit Pharia-1 erledigen“, sagt er dem Handelsblatt. Bei einem Kunden, der Gesetzestexte als Entscheidungsbäume darstellen will, um bestimmte Regelungen zu visualisieren, leiste das Modell gute Arbeit.

Michael Hagedorn, Chef von Materna (Foto: Materna Information & Communications SE/MIKE HENNING)
Larissa Holzki hat daraufhin nochmals mit Experten gesprochen, die unabhängig sind. Sie sagen: Die Benchmarks sind zwar der beste Vergleichsmaßstab, den wir haben. Aber ob sie für konkrete Anwendungsfälle wirklich die Besten sind, dazu sagen sie tatsächlich wenig aus. Denn in den Tests wird den Modellen zwar ein breites Set an Aufgaben gestellt. Aber die Anwendungsmöglichkeiten von Sprachmodellen sind so vielfältig, dass sie unmöglich alle dadurch abgedeckt werden können.
Michael Martinides, der mit dem Agenturverbund Mai Group Mittelständler beim KI-Einsatz unterstützt, drückt es so aus: „Benchmarks sind indikativ, manchmal aber auch kontraindikativ.“ Das heißt: Nur weil ein Modell bei einem Vergleichstest besser abschneidet, läuft Ihre hauseigene KI-Anwendung damit eben noch nicht zwangsläufig besser als mit einem anderen.
Daneben gibt es weitere Probleme mit Benchmarks, die Sie kennen müssen, um die Ergebnisse richtig einzuordnen. Ich gebe keine Garantie auf Vollständigkeit.
- Benchmarks messen nicht unbedingt, was sie sollen.Viele sind veraltet und haben keine wissenschaftliche Basis. Die Kollegen von The Markup sind dem Phänomen mit einer Analyse tief auf den Grund gegangen.
- Modell-Anbieter können schummeln, weil Aufgaben bekannt sind.Das Problem ist das gleiche wie bei Multiple-Choice-Tests an Unis, wenn Prüflinge vor der Klausur die Fragen und Antworten kennen. Dann messen Sie nämlich nicht, wer besonders viel von Soziologie oder Wirtschaft versteht, sondern wer gut auswendig gelernt hat. So ähnlich ist es bei speziell für Benchmark-Tests trainierten Modellen auch.
- Viele gängige Benchmarks sind nicht multilingual.Laut Nicolas Flores-Herr vom Fraunhofer IAIS betrachten sie die Performance von denjenigen großen KI-Sprachmodellen, die nicht in Englisch sind, nicht objektiv.
Der Schiri ist GPT-4. Welches Sprachmodell eine Frage am besten beantwortet, bewertet bei den Benchmark-Tests nicht etwa ein Mensch, sondern ein anderes Modell. In der Regel ist es das marktführende System von OpenAI. Auch das dürfte zu Verzerrungen führen.
Verstehen Sie uns nicht falsch. Die Benchmarks allein sind ganz gewiss nicht schuld daran, dass Aleph Alpha bei der Entwicklung von großen KI-Modellen mit den führenden Firmen der Welt nicht mithalten kann.
Wichtig scheint nach der Debatte um den Mehrwert des Aleph-Alpha-Modells festzuhalten: Wenn Sie selbst auf der Suche nach dem besten Sprachmodell für Ihre Firma sind, sollten Sie sich nicht nur an Benchmarks orientieren, sondern eine Auswahl von Modellen selbst testen. Zusätzliche Infos liefern die sogenannten Leaderboards. Was es damit auf sich hat und wie Sie dort selbst zur Bewertung von Modellen beitragen können, lesen Sie in der Newsletter-Rubrik: Das sollten Sie ausprobieren.
Die ausführliche Analyse können Sie hier lesen.
Dieser Beitrag erschien in unserem KI-Newsletter. Wenn Sie mehr solcher Artikel lesen möchten, abonnieren Sie gerne das KI-Briefing hier