👉 DALL-E
Benannt nach dem berühmten Künstler Salvador Dalí und dem Roboter WALL-E aus dem gleichnamigen Film, spiegelt Dall-E die Fusion von Kunst und Maschine wider. Es handelt sich bei Dall-E um den KI-Bildgenerator von OpenAI. OpenAI hat bereits den bekannten KI-Textgenerator ChatGPT entwickelt und damit künstliche Intelligenz einer breiten Öffentlichkeit zur Verfügung gestellt.
🦾 Dall-E: Trainiert mit Millionen von Bildern
Dall-E ist ein Programm, das neuronale Netze nutzt, um aus Textbeschreibungen passende Bilder zu generieren. Das Modell ist in der Lage, vollkommen neue Ideen visuell darzustellen und Kunstwerke in einer Vielzahl von Stilen zu generieren. Damit Dall-E das gelingt, wurde das System mit Millionen von Bildern, die im Internet zu finden sind, trainiert. Es stützt sich auf den Generative Pre-trained Transformer 3 (GPT-3), eine weitere Entwicklung von OpenAI. GPT-3 ist ein Textgenerator, der nicht nur Texte und Zusammenfassungen erstellen, sondern auch Gedichte schreiben kann. Wir kennen ihn bereits von ChatGPT.
🤖 Diese Technologie steckt dahinter
Aufbauend auf der Kraft von GPT-3, entwickelte OpenAI nun also seinen KI-Bildgenerator DALL-E. Es ist ein spezialisiertes Modell, das reine Textbeschreibungen, die die Nutzerinnen und Nutzer eingeben, in detaillierte Bilder umwandeln kann. DALL-E verwendet einen sogenannten multimodalen Ansatz mit 12 Milliarden Parametern, um „Text in Pixel“ umzusetzen. Aber was ist damit genau gemeint?
Der Begriff "multimodal" bedeutet, dass das System in der Lage ist, mit mehreren Arten von Daten oder Informationsmodi zu arbeiten. In diesem Fall kann es sowohl Text als auch Bilder verstehen und generieren. Das ermöglicht es dem System, Aufgaben zu erfüllen, die eine Kombination aus verschiedenen Datenarten erfordern, wie zum Beispiel das Erstellen eines Bildes basierend auf einer textuellen Beschreibung - wie es bei Dall-E der Fall ist. In KI-Modellen bezieht sich ein "Parameter" auf einen Teil des Modells, der aus den Daten während des Trainingsprozesses gelernt wird. Diese Parameter helfen dem Modell, Entscheidungen oder Vorhersagen zu treffen. Ein Modell mit 12 Milliarden Parametern hat also 12 Milliarden dieser lernbaren Teile. Das ermöglicht es ihm, sehr komplexe Muster in den Daten zu erkennen und detaillierte oder passgenaue Outputs zu generieren. Ein Modell dieser Größe kann sehr nuancierte Informationen aus Texten extrahieren und diese in visuelle Darstellungen umsetzen.
Zusammenfassend
bedeutet ein "multimodaler Ansatz mit 12 Milliarden Parametern" also,
dass es sich um eine hoch entwickelte KI handelt, die in der Lage ist,
komplexe Aufgaben zu bewältigen, die das Verständnis und die Erzeugung
sowohl von Text als auch von Bildern umfassen, und das mit einem tiefen
Verständnis der Eingabe dank der enormen Anzahl von Parametern, die sie
im Training gelernt hat.
Die Weiterentwicklung
zu DALL-E 2 optimierte diesen Prozess. Dalle-E benötigte nur 3,5
Milliarden Parameter, was die Ressourceneffizienz verbesserte.
🎨 CLIP hilft DALL-E noch besser zu werden
Parallel zu DALL-E
entwickelte OpenAI CLIP (Contrastive Language-Image Pre-training). Das
ist ein Modell, das ohne vorherige spezifische Anweisungen lernen kann
(Zero-Shot Learning). CLIP wurde mit 400 Millionen Bild-Text-Paaren
trainiert, um die Kreationen von DALL-E zu analysieren und die
passendsten Bilder zu identifizieren. CLIP erreicht dies, indem es
vorhersagt, welche von 32.768 möglichen, zufällig gewählten
Beschriftungen am besten zu einem Bild passt, um die relevantesten
Ergebnisse aus den von DALL-E generierten Bildern auszuwählen. Für die
Generierung von Bildern verwendet DALL-E 2 ein innovatives
Diffusionsmodell, das auf den durch CLIP erlernten Bildinformationen
basiert.
In einfacheren Worten:
CLIP hilft DALL-E 2, genau die Bilder zu malen, die wir uns vorstellen,
indem es sein großes Wissen über Geschichten und Bilder nutzt. Zusammen
können sie unglaubliche Kunstwerke schaffen, die genau zu den
Geschichten passen, die wir erzählen möchten.
💥 Aktuelle Version: DALL-E seit Oktober 2023
Mit DALL-E 3 hat OpenAI seinen KI-Bildgenerator weiterentwickelt. Seit Oktober 2023 können Nutzerinnen und Nutzer der kostenpflichtigen Version von ChatGPT DALL-E verwenden. Der KI-Bildgenerator soll seitdem Textanfragen nun noch besser verstehen, um noch passendere Bilder zu erstellen. Es soll nun deutlich einfacher und schneller möglich sein, die eigenen Vorstellungen in echte Bilder umzuwandeln.
🍿 Im Video zeigen wir, wie du DALL-E benutzen kannst
Research Paper
Community Open AI