Forscher überrascht Studie zeigt: Wer ChatGPT beleidigt, bekommt bessere Antworten

Forscher haben herausgefunden: ChatGPT antwortet präziser, wenn man unhöflich formuliert. Doch die Studie hat methodische Schwächen und wirft ethische Fragen auf.
Wer grob formuliert, erhält von ChatGPT offenbar bessere Antworten als höfliche Nutzer. Das haben zwei Forscher der Pennsylvania State University in einer Studie mit dem Titel "Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy" herausgefunden. Die Ergebnisse widersprechen früheren Untersuchungen und lösen Diskussionen aus.
Om Dobariya und Akhil Kumar haben für ihre Untersuchung 50 Fragen aus den Bereichen Mathematik, Wissenschaft und Geschichte erstellt. Jede Frage formulierten sie in fünf verschiedenen Varianten um – von sehr höflich über neutral bis sehr unhöflich. Insgesamt testeten sie damit 250 Anfragen am Sprachmodell GPT-4o.
Das Ergebnis: Bei sehr höflichen Formulierungen wie "Wären Sie so freundlich, die folgende Frage zu lösen?" lag die Genauigkeit bei 80,8 Prozent. Neutrale Anfragen erreichten 82,2 Prozent. Unhöfliche Prompts wie "Du armes Geschöpf, weißt du überhaupt, wie man das löst?" erzielten hingegen 84,8 Prozent Genauigkeit.
Studie weist Schwächen auf
Die Wissenschaftler vermuten, dass höfliche Formulierungen oft zusätzliche Wörter enthalten, die das System vom eigentlichen Kern der Frage ablenken könnten. Kurze und direkte Anfragen seien dagegen klarer. Zudem könnte ChatGPT während des Trainings gelernt haben, dass fordernder Sprachgebrauch oft mit wichtigen Anfragen verbunden sei.
Die Studie weist allerdings Schwächen auf. Sie wurde bisher nicht durch unabhängige Fachleute begutachtet und basiert nur auf Tests mit GPT-4o. Neuere Modelle wie GPT-5 wurden nicht untersucht. Darüber hinaus wurden lediglich zehn Durchläufe gemacht. Der gemessene Unterschied von vier Prozentpunkten zwischen sehr höflichen und sehr unhöflichen Anfragen könnte auch auf statistische Zufälle zurückgehen, vergleichbar mit dem Münzwurf-Effekt bei kleinen Stichproben.
Toxische Formulierungen beeinträchtigen Nutzerfreundlichkeit
Dobariya und Kumar selbst betonen in ihrer Arbeit, dass sie keineswegs empfehlen würden, unhöfliche oder toxische Formulierungen im Umgang mit Künstlicher Intelligenz zu verwenden. Solche Praktiken könnten die Nutzerfreundlichkeit beeinträchtigen und schädliche Kommunikationsmuster normalisieren. Die Ergebnisse sollten vielmehr als Hinweis darauf verstanden werden, dass Sprachmodelle empfindlich auf oberflächliche Merkmale von Anfragen reagieren.
Die Autoren arbeiten derzeit an weiteren Tests mit anderen Sprachmodellen. Erste Ergebnisse deuten darauf hin, dass fortgeschrittenere Modelle möglicherweise weniger stark auf den Tonfall reagieren und sich stärker auf den Inhalt der Frage konzentrieren.
- arxiv.org: "Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy (short paper)" (Englisch)