Retrieval Augmented Generation als Gamechanger: Warum RAG-Systeme häufig scheitern

Die Idee ist genauso simpel, wie genial: Wir versuchen, mithilfe des semantischen Verständnisses der großen Sprachmodelle umfassende Bestände von Dokumenten durchsuchbar zu machen. Im Gegensatz zu der klassischen Schlagwortsuche des Google Zeitalters ermöglichen uns RAG-Systeme, frei formulierte Fragen an unsere Dokumente zu richten, um die entsprechenden Informationen von den Sprachmodellen identifizieren, konsolidieren und zusammenfassen zu lassen. Die Anwendung reicht von internem Wissensmanagement der firmeneigenen Prozessdokumentation, über Mitarbeitendenhandbücher und Wartungsanleitungen bis hin zu smarten Chatbots im B2B und B2C Umfeld. Durch entsprechende Expertise in den Bereichen Prompting, künstliche Intelligenz und IT lässt sich sogar das in Interaktion mit Sprachmodellen gefürchtete Risiko der Halluzination entsprechend (wenngleich auch niemals vollständig) eliminieren.

Fehlerquellen: Interaktion zwischen Mensch, Sprachmodell und Dokumenten

Nach der anfänglichen Euphorie über die beeindruckende Performance dieser Systeme hat sich nun mittlerweile allerdings auch eine – dem Gartner Hypecycle entsprechend – ernüchternde Erkenntnis eingestellt. Nämlich die, dass solche Systeme zwar prinzipiell gut funktionieren können, jedoch mit sinkender Datenqualität der zur Verfügung gestellten Dokumente auch entsprechend schlechtere Ergebnisse liefern. Betrachtet man diese hochkomplexen Systeme in einer vereinfachten Art und Weise, zeigt sich, dass drei primäre Akteure zu einem solchen System gehören: 1. Der Mensch, der die Frage stellt, 2. das Sprachmodell, welches zwischen Mensch und Dokumenten vermittelt, und 3. die Dokumente selbst, welche die Informationen enthalten. Zwar ist die manuelle Suche in den Dokumenten aufwändiger, doch in der Regel haben Menschen keine großen Schwierigkeiten, die enthaltenen Informationen – sobald gefunden – adäquat zur Beantwortung der Fragestellung zu identifizieren. Auch die Interaktion zwischen Mensch und Sprachmodell ist in den wenigsten Fällen der Engpass, immerhin wurden die großen Sprachmodelle zu genau diesem Zweck trainiert. So bleibt als letzte Fehlerquelle die Interaktion zwischen den Sprachmodellen und den Dokumenten. Denn, obwohl Letztere in den meisten Fällen für uns Menschen klar verständlich sind, wurden sie in den wenigsten Fällen mit dem Hintergedanken verfasst, dass ein großes Sprachmodell Informationen daraus beziehen und interpretieren muss.

Best Practices für die Zukunft: Dokumente KI-gerecht optimieren

Wie so oft im Bereich der künstlichen Intelligenz resultiert eine schlechte Performance also daraus, dass die verwendeten Daten nicht zu den verarbeitenden Modellen passen. Besondere Stolpersteine für RAG-Systeme verbergen sich hier in offensichtlichen Fehlern wie dem Einfügen von Tabellen als Bildern, komplexen Prozessdiagrammen oder Explosionszeichnungen, zu derer Interpretation die Sprachmodelle noch nicht zuverlässig imstande sind. Doch auch weniger offensichtliche Faktoren, wie einleitende Zusammenfassungen von Kapiteln, die korrekte Formatierung von Tabellen und das Hinterlegen von Metainformationen und -annotationen können die Performance von RAG-Systemen um ein Vielfaches verbessern. Neben Investitionen in IT-Infrastruktur, personeller Expertise und KI-Strategie zeigt sich also ein weiterer Faktor, den Unternehmen zur erfolgreichen Einführung von KI beachten müssen: Unsere Dokumente müssen in Zukunft nicht nur mit Blick auf die menschliche Interpretierbarkeit erstellt werden. Sie müssen auch mit Best Practices und entsprechender Standardisierung für unsere neuesten digitalen Helfer versehen werden, um ein solides Fundament für die KI-Applikationen der Zukunft zu legen.