t-online - Nachrichten für Deutschland
t-online - Nachrichten für Deutschland
Such IconE-Mail IconMenü Icon



HomeDigitalAktuelles

Google Gemini 2.5 Pro schlägt OpenAI beim Verstehen langer Texte


Überraschender Sieger
Google schlägt OpenAI beim Verstehen langer Texte

Von t-online, mho

10.06.2025Lesedauer: 2 Min.
imago images 0780932218Vergrößern des Bildes
KI-Chatprogramme im Test: Bei längeren Texten werden Leistungsunterschiede deutlich. (Quelle: NurPhoto/imago-images-bilder)
News folgen

Googles KI-System übertrifft OpenAI beim Verstehen komplexer Geschichten. Der Test zeigt: Die meisten Modelle versagen bei längeren Texten komplett.

Ein neuer Leistungstest ("Benchmark") hat deutliche Schwächen aktueller KI-Modelle beim Verstehen komplexer Geschichten aufgedeckt. Googles Gemini 2.5 Pro erzielte hier die besten Ergebnisse und übertraf sogar OpenAIs neuestes o3-Modell, wie das internationale Fachmagazin "The Decoder" berichtet.

Loading...

Der von der Plattform fiction.live entwickelte Leistungstest prüft, ob Sprachmodelle komplexe Erzählungen über längere Textpassagen hinweg verstehen können. Anders als bei herkömmlichen Tests müssen die KI-Systeme dabei nicht nur Informationen finden, sondern auch Charakterentwicklungen nachvollziehen und versteckte Bedeutungen erfassen.

o3 verliert bei größeren Kontexten

OpenAIs Modell o3 zeigte zunächst starke Leistungen und erreichte bis zu 128.000 Tokens eine Erfolgsquote von 100 Prozent. Bei 192.000 Tokens brach die Performance jedoch auf 58,1 Prozent ein. Googles Gemini 2.5 Pro (Preview-Version vom 5. Juni) blieb dagegen stabil und erzielte bei derselben Tokenzahl noch 90,6 Prozent.

Was sind Tokens?

Ein Chatbot wie ChatGPT zerlegt Texte in kleine Einheiten, sogenannte Tokens – das können einzelne Wörter, Silben oder Zeichenfolgen sein. Die Anzahl der Tokens bestimmt, wie viel Text der Chatbot verarbeiten kann und wie aufwendig die Berechnung einer Antwort ist.

Die Testergebnisse zeigen deutliche Unterschiede zwischen den Modellen: Während o3 bei kürzeren Texten die Spitzenposition hält, fällt es bei längeren Kontexten deutlich ab. DeepSeek-R1 übertraf dabei überraschend o3-mini und positioniert sich als kostengünstige Alternative für preisbewusste Nutzer.

Benchmark testet echtes Textverständnis

Fiction.live nutzte für den Test eine Auswahl komplexer Geschichten und entwickelte dazu Fragen, die echtes Verständnis erfordern. Die Aufgaben prüfen beispielsweise, ob Modelle Beziehungsveränderungen zwischen Charakteren über Zeit nachvollziehen oder zwischen Geheimnissen unterscheiden können, die nur Lesern oder auch den Figuren bekannt sind.

"Die meisten LLMs ("Large Language Models", auf Deutsch "große Sprachmodelle", Anm. d. Red.) können diese Aufgaben bewältigen, aber nicht über längere Kontexte hinweg", erklären die Entwickler von fiction.live. Der Test sei bewusst schwieriger gestaltet als andere Benchmarks, da er Subtext und tieferes Verständnis statt bloßer Informationssuche fordere.

Gemini erstmals für Autoren nutzbar

Für Schriftsteller könnte Googles Ergebnis einen Durchbruch bedeuten. Fiction.live bezeichnet Gemini 2.5 Pro als erstes Modell, das "möglicherweise für längere Schreibaufgaben nutzbar" sei. Bisher scheiterten KI-Systeme regelmäßig daran, Handlungsstränge zu verfolgen oder Charaktermotivationen korrekt zu erfassen.

Die getesteten Tokenzahlen liegen allerdings noch weit unter Googles beworbener maximaler Kontextfenstergröße von einer Million Token. Bei noch größeren Kontexten dürfte auch Geminis Genauigkeit abnehmen, schreibt "The Decoder".

Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

ShoppingAnzeigen

Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...


Bleiben Sie dran!
App StorePlay Store
Auf Facebook folgenAuf X folgenAuf Instagram folgenAuf YouTube folgenAuf Spotify folgen


Telekom