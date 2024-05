Guten Morgen, liebe Leserin, lieber Leser,

mit einem zweischneidigen Schwert herumzuspielen, kann großen Spaß machen – jedenfalls, solange man sich dabei nicht blöde in den Finger ritzt. Ungefähr so dürfte im Mittelalter der Herold die Produktpräsentation zusammengefasst haben, als er die News aus der innovativen Schmiede überbrachte: die Schwerter jetzt noch schärfer und mit dem neuen, revolutionären Omni-Griff! Überall einsetzbar! Aber aufpassen!

Tausend Jahre später hat sich daran nicht viel geändert. Zwar haben sich die Hi-Tech-Schmieden mittlerweile vom alten Eisen verabschiedet und auf die neuesten Innovationen umgesattelt. Das kann in diesen aufregenden Tagen – Sie werden es erahnen – nur eines sein: die Künstliche Intelligenz, kurz KI. Revolutionär, sensationell, epochal! Zwei Schneiden hat das Endprodukt aber immer noch.

Die Platzhirsche der Branche lassen es in diesen Tagen krachen. Vorgestern OpenAI mit seinem ChatGPT, gestern Google: Es hagelt Vorführungen und atemberaubende Ankündigungen. Die Demonstrationen für das weltweite Publikum sind selbstverständlich vorteilhaft gewählt und lassen die digitalen Produkte nach Kräften glänzen. Aber selbst wenn man das berücksichtigt, lässt uns das Ergebnis noch immer mit den Ohren schlackern.

Es ist ja so: Vor anderthalb Jahren hat ChatGPT mit einem Paukenschlag die Künstliche Intelligenz aus den Zirkeln der Spezialisten herausbefördert und uns Normalos eine Vorstellung davon gegeben, was möglich ist. Seither überschlägt sich die Entwicklung. Kein Produkt in der Geschichte der Menschheit hat sich jemals so rasant verbreitet, und falls Sie das für eine Übertreibung halten, hören Sie sich mal auf einem Schulhof um: Schnell eine Frage ins Handy tippen, fertig sind der Aufsatz/die Rechenaufgabe/die Gedichtinterpretation. Anders als beim Googeln sind die Ergebnisse maßgeschneidert und frei formuliert.

Bahnbrechend war schon der Einsatz der Vorgängerversion von ChatGPT. Die neueste Generation agiert jedoch – bitte festhalten – multimodal und mit neuem Mensch-Maschine-Interface. Falls Sie das in dieser technokratischen Form nicht gleich vom Hocker reißt, lassen Sie es mich in einfachen Worten ausdrücken. Auch bisher schon konnte man ChatGPT nicht nur schreiben, sondern mit ihm sprechen: Die Algorithmen verwandelten die gesprochene Frage dabei in schriftlichen Text, den die Künstliche Intelligenz ebenfalls in geschriebener Form beantwortete, die der eines Menschen oft täuschend ähnelte. Diesen Text wiederum hat die Maschine dann in gesprochene Sprache zurückverwandelt und mit seelenloser Sprachassistenten-Stimme vorgelesen.

Dieses umständliche Prozedere hatte drei gewaltige Haken. Der erste: Es dauert. Man spricht, man wartet … man wartet immer noch … ah, die Antwort. Der zweite: Wenn die Antwort kommt, muss man sie erdulden. Unterbrechen, reinquatschen, die Frage rasch präzisieren? Geht nicht. Man wartet brav, bis die Maschine mit dem Quasseln fertig ist. Unnatürlich ist das, womit wir beim dritten Haken wären: So beeindruckend die Künstliche Intelligenz auch sein mag, von unserer Stimmung bekam sie bisher nichts mit. Tonlage, Gemütsverfassung, Aussehen – nichts davon schaffte es zum Elektronenhirn. Dieses nährte sich bisher nur von Worten ohne Klang. Es erhaschte keinen Blick auf unser Gesicht, hatte keine Ahnung von der Umgebung. Sitzt ein Erwachsener im Büro oder ein Schulkind an seiner Hausaufgabe? Sofa oder proppenvolle U-Bahn? Jemand, mit dem man gerne spricht, würde das berücksichtigen. Der olle Automat nicht.

Das aber ist jetzt vorbei, und die Bedeutung dieses scheinbar kleinen Schrittes kann man kaum überbewerten. Es ist eine bahnbrechende Revolution, die bald das Leben von Abermillionen Menschen prägen dürfte. Denn multimodal bedeutet: Die KI kann nun viele ("multi") Arten ("modes") von Eingaben erfassen, sogar gleichzeitig. Sie lauscht also dem Ton, beäugt zugleich das Live-Videobild aus der Handykamera und reichert den nackten Text blitzschnell mit den gewonnenen Informationen an. Das Vibrieren in der Stimme, der Hintergrund, das Umfeld, der Gesichtsausdruck – alles fließt ein. Als wäre die Maschine wirklich mit allen Sinnen anwesend.

Eine gut trainierte KI reagiert auf die Fülle der Signale von nun an mit simulierter Stimmung und einem scheinbaren, aber täuschend echten Einfühlungsvermögen. Sie antwortet mal launig und mit Witzchen garniert, mal sachlich, tröstend, ruhig oder lebhaft, und wenn Ihnen das gerade nicht passt, lässt sich die Stimmung per Kommando korrigieren: "Sprich bitte in tiefem Ernst und in Reimform!" Ja, das geht. Oder als Einschlaflied, leise gesungen oder geflüstert? Auch das ist kein Problem. Sarkastische Tonlage? Bitte sehr.

Die Wirkung ist erstaunlich. Wer hätte gedacht, dass ein statistisches Modell, das bloß die Wahrscheinlichkeit von Wortabfolgen und Stimm-Modulationen berechnet, auf die Situation angemessen reagiert, wenn man ihr einfach mal seinen Hund vorstellt? Oder dass sie dank eigener Beobachtungsgabe – mit der Handykamera als Auge – einem blinden Menschen ermöglicht, das nächste vorbeifahrende freie Taxi heranzuwinken? Das alles sind, um es noch einmal zu betonen, handverlesene Demonstrationen des Herstellers, die nicht neutral informieren sollen, sondern dem Marketing dienen. Es lohnt sich trotzdem, sie anzusehen. Denn selbst beim bloßen Zuschauen provoziert das Verhalten der KI eine Reaktion: Es fühlt sich an, als spräche ein Mensch aus dem Handy. Das ist der Kern der neuen Technik. Sie soll das Vergessen befördern. Wir sollen nicht mehr merken, dass wir uns mit toter Software auf einem Server austauschen – so lautet das Ziel. Genauer: das Zwischenziel.

Das digitale Phantom wird sich als Organisator, Alltagsassistent und Problemlöser betätigen und dabei als Person rüberkommen, mit der wir uns gerne austauschen. Es wird womöglich auch Zeitungen, Homepages, Suchmaschinen ersetzen. Das humane Gebaren reißt die emotionalen Barrieren nieder und macht den Weg dafür frei, dass der Mensch sich der KI hilfe- und ratsuchend an den Hals wirft. Die neue, nun tatsächlich menschelnde Maschine wird uns durchs Leben steuern, Kinder als Hausaufgabenhelfer unterstützen, das Erlernen neuer Sprache beflügeln, Einkäufe übernehmen und Reisen planen. Sie wird erklären können, in welchem Museum sich die Statue befindet, die in den antiken Ruinen, die wir gerade besichtigen, einstmals stand. Den Vorschlag, noch rasch ins Museum zu fahren, wird sie aber nicht machen. Denn als Besitzer des Handys wirken wir ja schon so gehetzt, was die KI natürlich bemerkt – und uns stattdessen lieber vor einem beginnenden Sonnenbrand warnt. Multimodal in Aktion: So sieht das aus.