Wer gibt wem welche Daten? (Optik: Larissa Holzki / Dall-E)
Warum das wichtig ist: Künstliche Intelligenz ermöglicht und befördert neue Geschäftsmodelle. Dazu zählt der Handel mit Daten. In anderen Teilen der Welt ist er schon viel ausgeprägter.
Daten sind eine der wichtigsten Ressourcen im KI-Rennen. Im Versuch, immer mächtigere KI-Modelle zu bauen, werden Unternehmen wie OpenAI und Google bald das gesamte frei zugängliche Internet in ihre Modelle eingespeist haben. Doch die Möglichkeiten ihrer Modelle bleiben begrenzt, solange das Trainingsmaterial vorrangig aus Katzenvideos und Elon Musks verbalen Entgleisungen besteht.
Um KI für Business-Anwendungen weiterzutrainieren und sie fein abzustimmen, braucht es also Qualitätsdaten. Bahn-Technikvorständin und Data-Hub-Initiatorin Daniela Gerd tom Markotten sagt: „Damit KI-Systeme auch in komplexeren Anwendungsbereichen ihre Wirkung entfalten können, müssen sie mit unternehmenseigenen und vertraulichen Daten trainiert werden.“ Nur so würden sie in spezifischen Anwendungsfällen optimal funktionieren und maßgeschneiderte Ergebnisse liefern.

Daniela Gerd tom Markotten, Bahn-Technikvorständin (Foto: Sebastian Berger)
Für viele Anwendungsfälle dürften Unternehmen aber mehr Daten brauchen als sie selbst besitzen. Zudem werden Daten oftmals erst dann wertvoll, wenn sie sauber annotiert, kategorisiert und neu gebündelt werden. Mehrere Beispiele zeigen, wie neue Geschäftsmodelle den Austausch und Handel von Daten ermöglichen:
- Das Start-up ScaleAI aus San Francisco ist 2016 mit dem Labeling von Daten für das autonome Fahren gestartet. In Kleinstarbeit haben Menschen dabei Fußgänger und Bordsteinkanten in Fotos aus dem Straßenverkehr markiert. Inzwischen ist die Firma eine der wichtigsten Datenlieferanten für Unternehmen wie OpenAI und wird von Investoren mit 13,8 Milliarden Dollar bewertet.
- In China gibt es mittlerweile Dutzende Datenbörsen, eine der bekanntesten ist die Shanghai Data Exchange. Dort können Behörden, staatliche und private Unternehmen unter regulatorischer Aufsicht Daten handeln, etwa Wetteraufzeichnungen oder Verkehrsdaten. Daneben gibt es einen unregulierten Schattenmarkt.
- Die Legal AI Alliance, die von der internationalen Kanzlei CMS und dem Berliner Start-up Xayn gestartet wurde, ist ein Beispiel für einen Zusammenschluss von Unternehmen, die ihre Daten poolen. Mitglieder der Allianz steuern interne Daten bei, die in anonymisierter Form zum Training von Rechts-KI-Systemen genutzt werden. Dafür werden die Mitglieder an den Erlösen aus dem Geschäft mit der KI beteiligt.

Kristina Sinemus, Robert Habeck, Volker Wissing, Christian Müller, Olaf Scholz und Daniela Gerd tom Markotten (v.l.). (Foto: Schwarz Digits KG / Volker Emersleben)
In der neuen KI-Welt gibt es kaum ein Unternehmen, das nicht als Datenanbieter in Betracht kommt. Und damit zurück zu unserem Gedankenexperiment am Anfang: Texte von Medien wie dem Handelsblatt sind bereits heute Teil von KI-Trainingsmaterial – ungefragt. Mit den Werken zahlreicher Künstler ist es genauso. Wenn Sie dafür einen Beleg brauchen, schauen Sie sich unser heutiges KI-Bild an, das mindestens an das „Mädchen mit Ballon“ des Streetart-Künstlers Banksy erinnert.
Viele Künstler, Verlage und Unternehmen gehen inzwischen rechtlich dagegen vor, dass ihre Werke zum KI-Training genutzt werden. Das heißt nicht, dass sie dies grundsätzlich ablehnen, wenn Zweck und Vergütung geregelt sind. So hat die Dieter von Holtzbrinck Medien, also die Muttergesellschaft der Handelsblatt Media Group, eine Absichtserklärung unterzeichnet, sich am Data Hub Europe zu beteiligen.
Früher sagte man: „In die Zeitung von heute wickeln wir morgen den Fisch ein.“ Aber es klingt doch ungleich cooler, wenn wir künftig sagen können: „Mit den News von heute trainieren wir morgen KI.“
Mehr über den Data Hub Europe, welche Geschäftsmodelle dort entstehen könnten und warum keinesfalls gewiss ist, ob das Projekt Erfolg hat, lesen Sie hier.
Dieser Beitrag erschien in unserem KI-Newsletter. Wenn Sie mehr solcher Artikel lesen möchten, abonnieren Sie gerne das KI-Briefing hier.