KI.kurz.erklärt: 👉 DALL-E

Benannt nach dem berühmten Künstler Salvador Dalí und dem Roboter WALL-E aus dem gleichnamigen Film, spiegelt Dall-E die Fusion von Kunst und Maschine wider. Es handelt sich bei Dall-E um den KI-Bildgenerator von OpenAI. OpenAI hat bereits den bekannten KI-Textgenerator ChatGPT entwickelt und damit künstliche Intelligenz einer breiten Öffentlichkeit zur Verfügung gestellt.

🦾 Dall-E: Trainiert mit Millionen von Bildern

Dall-E ist ein Programm, das neuronale Netze nutzt, um aus Textbeschreibungen passende Bilder zu generieren. Das Modell ist in der Lage, vollkommen neue Ideen visuell darzustellen und Kunstwerke in einer Vielzahl von Stilen zu generieren. Damit Dall-E das gelingt, wurde das System mit Millionen von Bildern, die im Internet zu finden sind, trainiert. Es stützt sich auf den Generative Pre-trained Transformer 3 (GPT-3), eine weitere Entwicklung von OpenAI. GPT-3 ist ein Textgenerator, der nicht nur Texte und Zusammenfassungen erstellen, sondern auch Gedichte schreiben kann. Wir kennen ihn bereits von ChatGPT.

🤖 Diese Technologie steckt dahinter

Aufbauend auf der Kraft von GPT-3, entwickelte OpenAI nun also seinen KI-Bildgenerator DALL-E. Es ist ein spezialisiertes Modell, das reine Textbeschreibungen, die die Nutzerinnen und Nutzer eingeben, in detaillierte Bilder umwandeln kann. DALL-E verwendet einen sogenannten multimodalen Ansatz mit 12 Milliarden Parametern, um „Text in Pixel“ umzusetzen. Aber was ist damit genau gemeint?

Der Begriff "multimodal" bedeutet, dass das System in der Lage ist, mit mehreren Arten von Daten oder Informationsmodi zu arbeiten. In diesem Fall kann es sowohl Text als auch Bilder verstehen und generieren. Das ermöglicht es dem System, Aufgaben zu erfüllen, die eine Kombination aus verschiedenen Datenarten erfordern, wie zum Beispiel das Erstellen eines Bildes basierend auf einer textuellen Beschreibung - wie es bei Dall-E der Fall ist. In KI-Modellen bezieht sich ein "Parameter" auf einen Teil des Modells, der aus den Daten während des Trainingsprozesses gelernt wird. Diese Parameter helfen dem Modell, Entscheidungen oder Vorhersagen zu treffen. Ein Modell mit 12 Milliarden Parametern hat also 12 Milliarden dieser lernbaren Teile. Das ermöglicht es ihm, sehr komplexe Muster in den Daten zu erkennen und detaillierte oder passgenaue Outputs zu generieren. Ein Modell dieser Größe kann sehr nuancierte Informationen aus Texten extrahieren und diese in visuelle Darstellungen umsetzen.

Zusammenfassend bedeutet ein "multimodaler Ansatz mit 12 Milliarden Parametern" also, dass es sich um eine hoch entwickelte KI handelt, die in der Lage ist, komplexe Aufgaben zu bewältigen, die das Verständnis und die Erzeugung sowohl von Text als auch von Bildern umfassen, und das mit einem tiefen Verständnis der Eingabe dank der enormen Anzahl von Parametern, die sie im Training gelernt hat.

Die Weiterentwicklung zu DALL-E 2 optimierte diesen Prozess. Dalle-E benötigte nur 3,5 Milliarden Parameter, was die Ressourceneffizienz verbesserte.

🎨 CLIP hilft DALL-E noch besser zu werden

Parallel zu DALL-E entwickelte OpenAI CLIP (Contrastive Language-Image Pre-training). Das ist ein Modell, das ohne vorherige spezifische Anweisungen lernen kann (Zero-Shot Learning). CLIP wurde mit 400 Millionen Bild-Text-Paaren trainiert, um die Kreationen von DALL-E zu analysieren und die passendsten Bilder zu identifizieren. CLIP erreicht dies, indem es vorhersagt, welche von 32.768 möglichen, zufällig gewählten Beschriftungen am besten zu einem Bild passt, um die relevantesten Ergebnisse aus den von DALL-E generierten Bildern auszuwählen. Für die Generierung von Bildern verwendet DALL-E 2 ein innovatives Diffusionsmodell, das auf den durch CLIP erlernten Bildinformationen basiert.

In einfacheren Worten: CLIP hilft DALL-E 2, genau die Bilder zu malen, die wir uns vorstellen, indem es sein großes Wissen über Geschichten und Bilder nutzt. Zusammen können sie unglaubliche Kunstwerke schaffen, die genau zu den Geschichten passen, die wir erzählen möchten.

💥 Aktuelle Version: DALL-E seit Oktober 2023

Mit DALL-E 3 hat OpenAI seinen KI-Bildgenerator weiterentwickelt. Seit Oktober 2023 können Nutzerinnen und Nutzer der kostenpflichtigen Version von ChatGPT DALL-E verwenden. Der KI-Bildgenerator soll seitdem Textanfragen nun noch besser verstehen, um noch passendere Bilder zu erstellen. Es soll nun deutlich einfacher und schneller möglich sein, die eigenen Vorstellungen in echte Bilder umzuwandeln.

🍿 Im Video zeigen wir, wie du DALL-E benutzen kannst

Download video

DALL·E 3 ist in ChatGPT 4 (Preisübersicht) integriert, DALL·E 2 kann mit Credits (Preisübersicht, für bereites angemeldete User:innen) verwendet werden.
Research Paper
Community Open AI
Hast du noch Fragen? Dann stell sie gerne in unserem Forum (Kursanmeldung erforderlich).

Am Ende der Kursübersicht findest du ChatGPT 3.5 zum Ausprobieren! Bitte beachte den Datenschutz und gib keine persönlichen Informationen ein.

Last modified: Saturday, 1 February 2025, 3:48 PM