Google Gemini 2.5 Pro schlägt OpenAI beim Verstehen langer Texte

Schlagzeilen

Alle

Moderatorin zeigt extremen Haarausfall

ZDF und ARD stellen ihr Programm um

115 Jahre altes Unternehmen insolvent

Familie trauert um Laura Dahlmeier

"Strafe": Trump droht Putins Verbündetem

FC Bayern gibt Spieler nach Spanien ab

Forscher mit bedeutendem Fund im Pazifik

F-16-Kampfjets für Russland ausspioniert

"Bauer sucht Frau"-Paar offenbart Krisen

Tier zwingt Frankreich zu Badeverbot

Beliebtes Medikament erhöht den Blutdruck

TV-Star: plötzlich Russland-Urlaub mit Kind

Alle Schlagzeilen anzeigen

Symbolbild zum aus- und einklappen des Inhaltes

Überraschender Sieger
Google schlägt OpenAI beim Verstehen langer Texte

Von t-online, mho

10.06.2025Lesedauer: 2 Min.

imago images 0780932218 — KI-Chatprogramme im Test: Bei längeren Texten werden Leistungsunterschiede deutlich. (Quelle: NurPhoto/imago-images-bilder)

Googles KI-System übertrifft OpenAI beim Verstehen komplexer Geschichten. Der Test zeigt: Die meisten Modelle versagen bei längeren Texten komplett.

Ein neuer Leistungstest ("Benchmark") hat deutliche Schwächen aktueller KI-Modelle beim Verstehen komplexer Geschichten aufgedeckt. Googles Gemini 2.5 Pro erzielte hier die besten Ergebnisse und übertraf sogar OpenAIs neuestes o3-Modell, wie das internationale Fachmagazin "The Decoder" berichtet.

Der von der Plattform fiction.live entwickelte Leistungstest prüft, ob Sprachmodelle komplexe Erzählungen über längere Textpassagen hinweg verstehen können. Anders als bei herkömmlichen Tests müssen die KI-Systeme dabei nicht nur Informationen finden, sondern auch Charakterentwicklungen nachvollziehen und versteckte Bedeutungen erfassen.

o3 verliert bei größeren Kontexten

OpenAIs Modell o3 zeigte zunächst starke Leistungen und erreichte bis zu 128.000 Tokens eine Erfolgsquote von 100 Prozent. Bei 192.000 Tokens brach die Performance jedoch auf 58,1 Prozent ein. Googles Gemini 2.5 Pro (Preview-Version vom 5. Juni) blieb dagegen stabil und erzielte bei derselben Tokenzahl noch 90,6 Prozent.

Was sind Tokens?

Ein Chatbot wie ChatGPT zerlegt Texte in kleine Einheiten, sogenannte Tokens – das können einzelne Wörter, Silben oder Zeichenfolgen sein. Die Anzahl der Tokens bestimmt, wie viel Text der Chatbot verarbeiten kann und wie aufwendig die Berechnung einer Antwort ist.

Die Testergebnisse zeigen deutliche Unterschiede zwischen den Modellen: Während o3 bei kürzeren Texten die Spitzenposition hält, fällt es bei längeren Kontexten deutlich ab. DeepSeek-R1 übertraf dabei überraschend o3-mini und positioniert sich als kostengünstige Alternative für preisbewusste Nutzer.

Benchmark testet echtes Textverständnis

Fiction.live nutzte für den Test eine Auswahl komplexer Geschichten und entwickelte dazu Fragen, die echtes Verständnis erfordern. Die Aufgaben prüfen beispielsweise, ob Modelle Beziehungsveränderungen zwischen Charakteren über Zeit nachvollziehen oder zwischen Geheimnissen unterscheiden können, die nur Lesern oder auch den Figuren bekannt sind.

"Die meisten LLMs ("Large Language Models", auf Deutsch "große Sprachmodelle", Anm. d. Red.) können diese Aufgaben bewältigen, aber nicht über längere Kontexte hinweg", erklären die Entwickler von fiction.live. Der Test sei bewusst schwieriger gestaltet als andere Benchmarks, da er Subtext und tieferes Verständnis statt bloßer Informationssuche fordere.

Gemini erstmals für Autoren nutzbar

Für Schriftsteller könnte Googles Ergebnis einen Durchbruch bedeuten. Fiction.live bezeichnet Gemini 2.5 Pro als erstes Modell, das "möglicherweise für längere Schreibaufgaben nutzbar" sei. Bisher scheiterten KI-Systeme regelmäßig daran, Handlungsstränge zu verfolgen oder Charaktermotivationen korrekt zu erfassen.

Die getesteten Tokenzahlen liegen allerdings noch weit unter Googles beworbener maximaler Kontextfenstergröße von einer Million Token. Bei noch größeren Kontexten dürfte auch Geminis Genauigkeit abnehmen, schreibt "The Decoder".

Verwendete Quellen