Was ist eine Data2Story-Pipeline?

Data2Story ist eine KI-Pipeline aus einem Forschungsprojekt von Oxford und Stanford, die aus einer CSV-Datei automatisch einen vollständigen Online-Artikel erzeugt: mit Datenanalyse, Storytelling, Grafiken und Quellenbelegen. Sieben spezialisierte KI-Agenten (genannt Detective, Analyst, Editor, Designer, Programmer, Auditor und Inspector) arbeiten dabei zusammen. Im Test waren 93 Prozent der Aussagen maschinell überprüfbar, gegenüber 25 Prozent bei menschlich geschriebenen Artikeln.

Brauche ich als KMU diese Pipeline, um datenbasierte Inhalte zu erstellen?

Nein. Data2Story ist ein Forschungsprototyp, kein fertiges Produkt für KMU. Das Prinzip kannst du aber heute nutzen: eigene Zahlen sauber als Tabelle aufbereiten, eine KI um Analyse und Texterstellung bitten und jede einzelne Aussage gegen deine Daten prüfen. Entscheidend ist die menschliche Verifikation, nicht die Anzahl der Agenten.

Warum machen eigene Daten Inhalte besser für KI-Suchen?

KI-Antwortmaschinen wie ChatGPT, Claude, Gemini und Perplexity zitieren bevorzugt Inhalte, die konkrete, überprüfbare Aussagen enthalten. Eine Zahl aus deinem eigenen Betrieb, klar belegt und in sauberem HTML mit Schema.org ausgezeichnet, ist für eine Antwortmaschine wertvoller als eine allgemeine Marketing-Floskel, die auf hundert anderen Seiten steht.

Welche Grenzen hat automatisierter Datenjournalismus?

Die Forscher nennen vier Grenzen: Die KI fügt keinen Kontext außerhalb der Daten hinzu, sie repliziert keine kreative redaktionelle Inszenierung, sie verteilt komplexe Zusammenhänge auf mehrere einfache Diagramme und sie hat keinen menschlichen Feedback-Loop. Außerdem deckte der Agent im Test nur rund die Hälfte der menschlichen Perspektive ab. Das heißt: Die Pipeline liefert eine belastbare Rohfassung, deine Einordnung bleibt unersetzlich.

Data2Story: So nutzt dein KMU eigene Daten für AEO

Du hast wahrscheinlich mehr verwertbare Daten im Haus, als dir bewusst ist. Buchungszahlen, Bewertungen, Projektlaufzeiten, Anfragen pro Monat. In den meisten kleinen Unternehmen liegen die in einer Excel-Tabelle und werden nie zu etwas, das nach außen sichtbar wird. Ein Forschungsprojekt von Oxford und Stanford hat jetzt gezeigt, wie weit man das Gegenteil automatisieren kann: Eine KI-Pipeline namens Data2Story baut aus einer reinen CSV-Datei einen kompletten Online-Artikel, inklusive Grafiken und Quellenbelegen. Ich habe mir angeschaut, was daran wirklich neu ist und was du als KMU heute schon daraus mitnehmen kannst, ohne ein Forschungslabor zu sein.

Was Data2Story ist und wie es funktioniert

Data2Story ist eine KI-Pipeline, die eine Tabelle als Eingabe nimmt und einen fertigen, belegten Artikel ausgibt. Die Forscher beschreiben das System als „virtuelle Redaktion“ aus sieben spezialisierten KI-Agenten, die nacheinander an einem Artikel arbeiten, jeder mit einer klaren Rolle:

Detective recherchiert per Websuche den Kontext rund um die Daten.
Analyst führt die eigentliche Datenanalyse durch.
Editor wählt aus, welche Befunde überhaupt relevant sind.
Designer entscheidet, ob eine Aussage als Karte, Diagramm oder Text dargestellt wird.
Programmer erzeugt daraus die fertige HTML-Seite.
Auditor prüft das Layout auf Fehler.
Inspector verknüpft am Ende jede Aussage mit einem Quellenbeleg.

Im Kern läuft das System auf Claude Opus und greift für Mediengestaltung auf weitere Modelle zu. Der spannende Teil ist nicht die Anzahl der Agenten, sondern der letzte Schritt: Jede einzelne Behauptung wird auf einen prüfbaren Datenpunkt zurückgeführt. Genau das macht den Unterschied zu generischem KI-Text, der gut klingt und niemand weiß, woher die Zahlen kommen.

Die Zahlen aus der Studie und warum sie dich interessieren

Die Forscher (Lin et al., als Preprint veröffentlicht) haben 18 Datensatz-Artikel-Paare von 53 Leserinnen und Lesern bewerten lassen. Drei Ergebnisse sind für jeden interessant, der Inhalte für die KI-Suche schreibt:

Kriterium	KI-Pipeline	Mensch
Aussagen maschinell überprüfbar	93 %	25 %
Leser-Präferenz	74 %	26 %
Abdeckung der menschlichen Perspektive	~50 %	100 %

Die 74 Prozent sind die Zahl, die durch die Schlagzeilen geht: Drei von vier Leserinnen und Lesern fanden die maschinell erstellte Version besser als die menschliche. Ich finde aber die 93 Prozent wichtiger. Denn das ist die eigentliche Lektion: Nicht weil eine KI schreibt, ist der Text gut, sondern weil fast jede Aussage an einen prüfbaren Datenpunkt gekoppelt ist. Die menschlichen Artikel kamen nur auf 25 Prozent überprüfbare Aussagen, der Rest war Einordnung, Meinung, Kontext.

Und genau hier liegt der Bezug zu deiner Website: KI-Antwortmaschinen wie ChatGPT, Claude, Gemini und Perplexity zitieren bevorzugt das, was sie überprüfen können. Ein belegter Datenpunkt aus deinem Betrieb ist für eine Antwortmaschine wertvoller als der zehnte allgemeine Ratgebersatz, der auf hundert anderen Seiten genauso steht.

Dein Schatz: Welche Daten du wahrscheinlich schon hast

Du brauchst keine Data2Story-Pipeline, um dieses Prinzip zu nutzen. Du brauchst eigene Zahlen und die Bereitschaft, sie sauber aufzubereiten. Die meisten KMU sitzen auf genau solchen Daten:

Aus deinem Betrieb: Anfragen pro Monat, durchschnittliche Projektdauer, Wiederbuchungsquote, Bewertungsdurchschnitt, häufigste Kundenfragen.
Aus deinem Markt: frei zugängliche Statistik. Das Statistische Bundesamt (Destatis) und die offene Verwaltungsdaten-Plattform GovData liefern regionale und Branchenzahlen, die du in deine Geschichte einbetten kannst.
Aus deiner Arbeit: wiederkehrende Muster, die du als einzige Person in deinem Markt kennst, weil du täglich damit zu tun hast.

Ein ehrlicher Hinweis aus eigener Erfahrung: Ich habe selbst noch keine Kundendaten, mit denen ich so eine Auswertung füllen könnte. Was ich habe, sind die Daten meiner eigenen Website und mein eigener Lernweg, etwa aus meiner Heilpraktiker-Ausbildung, wo ich gemerkt habe, wie unterschiedlich vertrauenswürdig eine belegte Aussage gegenüber einer Behauptung wirkt. Genau diesen Unterschied übersetze ich hier auf datenbasierte Inhalte: Belegen schlägt behaupten, immer.

So machst du daraus AEO-taugliche Inhalte

Schritt 1: Daten sauber aufbereiten

Bevor irgendeine KI nützlich wird, müssen die Daten stimmen. Eine klare Tabelle mit eindeutigen Spaltenüberschriften, einheitlichen Einheiten und ohne leere Felder ist die halbe Miete. Müll rein, Müll raus gilt für KI noch stärker als für jede Excel-Formel.

Schritt 2: Die richtige Frage an die KI stellen

Statt „schreib mir einen Blogartikel“ funktioniert „analysiere diese Tabelle, nenne mir die drei auffälligsten Befunde und belege jeden mit der konkreten Zahl daraus“. Du zwingst die KI damit zu dem, was die Pipeline ihren Inspector machen lässt: Aussage und Beleg zusammenhalten.

Schritt 3: Verifizieren, das ist der eigentliche Job

Die Studie zeigt es selbst: Der Agent deckt nur rund die Hälfte der menschlichen Perspektive ab und fügt keinen Kontext außerhalb der Daten hinzu. Heißt für dich: Die KI liefert eine Rohfassung, deine Einordnung macht daraus etwas Glaubwürdiges. Prüf jede Zahl gegen die Quelle, ergänze, was nur du weißt, und streiche, was du nicht belegen kannst.

Der AEO-Vorteil

Wenn der Text dann auf einer Seite mit sauberem HTML, klaren Frage-Antwort-Blöcken und Schema.org-Auszeichnung steht, hast du genau das gebaut, was eine Antwortmaschine gern zitiert: eine konkrete, überprüfbare Aussage in maschinenlesbarer Form. Wie dieses Fundament im Detail aussieht, habe ich in Was ist Answer Engine Optimization (AEO) beschrieben.

Wo die Grenzen liegen, ehrlich benannt

Ich halte nichts davon, ein Forschungsergebnis als Wundermittel zu verkaufen. Die Forscher selbst nennen vier klare Grenzen, und die gelten für deinen eigenen Versuch genauso:

Kein Kontext von außen: Die KI verarbeitet nur, was in den Daten steht. Branchenwissen, das nicht in der Tabelle ist, fehlt.
Keine kreative Inszenierung: Handgemachtes, überraschendes Storytelling kann die Pipeline nicht ersetzen.
Komplexität wird zerlegt: Statt einer durchdachten Grafik entstehen mehrere einfache Diagramme.
Kein Feedback-Loop: Das System läuft vollautomatisch, menschliche Korrektur ist nicht eingebaut. Du bist dieser Feedback-Loop.

Das ist für mich keine Schwäche, sondern die Stellenbeschreibung. Die Technik nimmt dir das Aufbereiten und das Erstgießen ab. Das Urteil, was stimmt und was zählt, bleibt bei dir. Diesen Gedanken habe ich auch im Beitrag KI-Sichtbarkeit messen aufgegriffen: Werkzeuge liefern Rohmaterial, die Bewertung machst du.

Mein Blick auf die Zukunft

Was mich an Data2Story fasziniert, ist nicht die Automatisierung an sich, sondern die Richtung: weg von Texten, die gut klingen, hin zu Texten, die belegbar sind. Das passt exakt zu dem, worauf KI-Suche ohnehin zusteuert. Und es hat einen angenehmen Nebeneffekt: Wer auf belegbare Fakten setzt statt auf vollmundige Versprechen, reduziert ganz nebenbei sein Risiko, sich mit überzogenen Aussagen abmahnbar zu machen.

Die stabilen Säulen bleiben dabei dieselben, egal wie sich die Modelle weiterentwickeln: sauberes HTML, Schema.org und klare Antwort-Blöcke. Die Pipeline ist neu, das Fundament ist es nicht. Wenn du das Fundament richtig hast, brauchst du keine virtuelle Redaktion aus sieben Agenten, um aus deinen Zahlen Inhalte zu machen, die zitiert werden. Du brauchst gute Daten und den Willen, sie ehrlich zu erzählen.

Probier es an deinen eigenen Zahlen aus

Such dir eine Tabelle aus deinem Betrieb, die du sowieso schon führst. Bitte eine KI, dir die drei auffälligsten Befunde mit der jeweiligen Zahl zu nennen, und prüf jeden davon gegen deine Daten. Du wirst schnell merken, welche Geschichte wirklich in deinen Zahlen steckt.