Sag mir, was du sehen willst und ich male es dir. Was klingt, wie das Angebot eines Straßenkünstlers, ist die Funktion einer neuen künstlichen Intelligenz. Die kann Bilder aus Text herstellen.
DALL·E, so heißt die neueste Entwicklung des Unternehmens Open AI. Die Amerikaner haben eine künstliche Intelligenz (KI) entwickelt, die Texteingaben verstehen kann und daraus Bilder herstellt. Gibt man also den Text "erzeuge mir ein Bild einer fünfeckigen grünen Uhr" ein, so bekommt man genau das – in unterschiedlichen Ausführungen und Stilen.
Die Fähigkeiten von DALL·E begeistern Experten, wie der Tweet eines KI-Forschers zeigt: "Das ist sooo beeindruckend!", schreibt Jia-Bin Huang, Assistenzprofessor an der Virginia Tech. Er tweetet eines der Resultate des Programms: Bilder von einem Raum mit zwei weißen Stühlen und das Gemälde eines Kolosseums über einen modernen Kamin. Die Ergebnisse unterscheiden sich teilweise kaum von einer echten Fotografie.
DALL·E macht auch Fehler
Wer das Ganze selbst ausprobieren möchte, kann das auf der Website von Open AI tun. Nutzer können bisher aber keine eigenen Begriffe eingeben. Stattdessen kann man verschiedene Wörter in den vorgefertigten Sätzen austauschen und erhält so andere Ergebnisse.
Hier zeigt sich: DALL·E kann zwar viele glaubwürdige Fotos erschaffen, aber auch eine Menge fehlerhafte. Fordert man das Programm zum Beispiel auf, Bilder von Deutschlands Nationaltier zu erstellen, bekommt man keinen Adler zu sehen. Stattdessen erfindet DALL·E Fantasiewesen,von denen eins aussieht wie eine Mischung aus Elch und Stier mit schwarz-rot-goldenen Streifen.
Interessant wird es aber, wenn DALL·E scheinbar widersprüchliche Elemente zusammenbringen soll: Dann entstehen unter anderem künstlerische Illustrationen, wie ein schlittschuhlaufender Fuchs oder das Design eines Stuhls, der aussieht wie eine Avocado. Insofern hat DALL·E seinen Namen also verdient: Der ist nämlich eine Kombination aus dem Namen des Malers Salvador Dalí und von WALL-E, dem Roboter und Hauptdarsteller des gleichnamigen PIXAR-Films.
Die Technik, die hinter DALL·E steckt, beruht auf einem System zur Bilderkennung von Open AI. Das System funktioniert in etwa so: Eine künstliche Intelligenz wird mit Tausenden Bildern und dazugehörigen schriftlichen Beschreibungen gefüttert. Anhand der Beschreibungen lernt das System, was auf den Bildern zu sehen ist. Gibt man der KI nun eine Bildbeschreibung und eine Auswahl von Bildern, ist sie in der Lage zu erkennen, welches der Bilder zur Beschreibung passt. Mit DALL·E haben die Entwickler das Ganze einfach umgedreht.
- Technology Review: "This avocado armchair could be the future of AI"
- Webseite von OpenAI