Überraschender Sieger Google schlägt OpenAI beim Verstehen langer Texte

Googles KI-System übertrifft OpenAI beim Verstehen komplexer Geschichten. Der Test zeigt: Die meisten Modelle versagen bei längeren Texten komplett.
Ein neuer Leistungstest ("Benchmark") hat deutliche Schwächen aktueller KI-Modelle beim Verstehen komplexer Geschichten aufgedeckt. Googles Gemini 2.5 Pro erzielte hier die besten Ergebnisse und übertraf sogar OpenAIs neuestes o3-Modell, wie das internationale Fachmagazin "The Decoder" berichtet.
Der von der Plattform fiction.live entwickelte Leistungstest prüft, ob Sprachmodelle komplexe Erzählungen über längere Textpassagen hinweg verstehen können. Anders als bei herkömmlichen Tests müssen die KI-Systeme dabei nicht nur Informationen finden, sondern auch Charakterentwicklungen nachvollziehen und versteckte Bedeutungen erfassen.
o3 verliert bei größeren Kontexten
OpenAIs Modell o3 zeigte zunächst starke Leistungen und erreichte bis zu 128.000 Tokens eine Erfolgsquote von 100 Prozent. Bei 192.000 Tokens brach die Performance jedoch auf 58,1 Prozent ein. Googles Gemini 2.5 Pro (Preview-Version vom 5. Juni) blieb dagegen stabil und erzielte bei derselben Tokenzahl noch 90,6 Prozent.
Was sind Tokens?
Ein Chatbot wie ChatGPT zerlegt Texte in kleine Einheiten, sogenannte Tokens – das können einzelne Wörter, Silben oder Zeichenfolgen sein. Die Anzahl der Tokens bestimmt, wie viel Text der Chatbot verarbeiten kann und wie aufwendig die Berechnung einer Antwort ist.
Die Testergebnisse zeigen deutliche Unterschiede zwischen den Modellen: Während o3 bei kürzeren Texten die Spitzenposition hält, fällt es bei längeren Kontexten deutlich ab. DeepSeek-R1 übertraf dabei überraschend o3-mini und positioniert sich als kostengünstige Alternative für preisbewusste Nutzer.
Benchmark testet echtes Textverständnis
Fiction.live nutzte für den Test eine Auswahl komplexer Geschichten und entwickelte dazu Fragen, die echtes Verständnis erfordern. Die Aufgaben prüfen beispielsweise, ob Modelle Beziehungsveränderungen zwischen Charakteren über Zeit nachvollziehen oder zwischen Geheimnissen unterscheiden können, die nur Lesern oder auch den Figuren bekannt sind.
"Die meisten LLMs ("Large Language Models", auf Deutsch "große Sprachmodelle", Anm. d. Red.) können diese Aufgaben bewältigen, aber nicht über längere Kontexte hinweg", erklären die Entwickler von fiction.live. Der Test sei bewusst schwieriger gestaltet als andere Benchmarks, da er Subtext und tieferes Verständnis statt bloßer Informationssuche fordere.
Gemini erstmals für Autoren nutzbar
Für Schriftsteller könnte Googles Ergebnis einen Durchbruch bedeuten. Fiction.live bezeichnet Gemini 2.5 Pro als erstes Modell, das "möglicherweise für längere Schreibaufgaben nutzbar" sei. Bisher scheiterten KI-Systeme regelmäßig daran, Handlungsstränge zu verfolgen oder Charaktermotivationen korrekt zu erfassen.
Die getesteten Tokenzahlen liegen allerdings noch weit unter Googles beworbener maximaler Kontextfenstergröße von einer Million Token. Bei noch größeren Kontexten dürfte auch Geminis Genauigkeit abnehmen, schreibt "The Decoder".
- fiction.live: "Fiction.liveBench June 05 2025" (Englisch)
- the-decoder.de: "Googles Gemini 2.5 schlägt OpenAI O3 beim Verständnis langer Texte"