Skip to main content

👉 Stable Diffusion

Stable Diffusion ist ein hochmodernes Deep-Learning-Modell, das für die Erzeugung von Bildern aus Textbeschreibungen (Text-to-Image) entwickelt wurde. Stable Diffusion ist wie DALL-E und Midjourney ein Teil einer neuen Generation von KI-Modellen, die in der Lage sind, komplexe und detaillierte Bilder zu generieren, die auf spezifischen Benutzeranforderungen basieren.


💥 Open-Source und Zugänglichkeit von Stable Diffusion

Ein markantes Merkmal von Stable Diffusion im Vergleich zu anderen Text-to-Image-Modellen ist seine Verfügbarkeit als Open-Source-Tool. Dies hat es Forschenden, Entwickler:innen und Künstler:innen ermöglicht, mit dem Modell zu experimentieren und eigene Anwendungen zu entwickeln. Die Open-Source-Natur trägt zu einer schnelleren Weiterentwicklung der Technologie bei, da die Community aktiv zu Verbesserungen und Erweiterungen beitragen kann. 


🧑‍💻 Anfänger sollten mit einem kostenlosen Online-Generator beginnen

Das heißt aber auch, dass Stable Diffusion nicht über eine einzige Webseite zu nutzen ist wie etwa bei ChatGPT. Fortgeschrittene und sehr technikaffine Menschen können sich ihre eigene Stable-Diffusion-Instanz aufsetzen. Dafür bedarf es aber Programmierfähigkeiten. Für Einsteiger:innen ist es sinnvoll, mit einem kostenlosen Online-Generator zu beginnen. Es gibt verschiedene Webseiten, die Stable Diffusion-Dienste anbieten. Dazu kann man in Google oder einer beliebigen Suchmaschine nach „Stable Diffusion Online Generator“ suchen und dann einen auswählen, der den Anforderungen entspricht.


🎯 Das Konzept hinter Stable Diffusion: Latent Diffusion Models (LDM)

Stable Diffusion basiert auf dem Konzept der Latent Diffusion Models (LDM). Im Gegensatz zu herkömmlichen Diffusionsmodellen, die direkt im Pixelraum arbeiten, operieren LDMs in einem komprimierten "latenten" Raum. Das bedeutet, dass Bilder zunächst in eine kompaktere Form transformiert werden, bevor der Diffusionsprozess angewendet wird. Dieser Ansatz ermöglicht eine effizientere Verarbeitung und kann zu einer schnelleren Generierung von hochwertigen Bildern führen.


🚶‍♀️ Schritt für Schritt: das Denoising

Ein Kernkonzept von Diffusionsmodellen, einschließlich Stable Diffusion, ist der Denoising-Prozess. Das Modell lernt, Bilder schrittweise zu erzeugen, indem es beginnt mit Rauschen und dieses schrittweise in ein kohärentes Bild umwandelt, basierend auf der gegebenen Textbeschreibung. Der Denoising-Prozess wird iterativ durchgeführt, wobei in jedem Schritt ein klareres Bild entsteht, bis das Endergebnis erreicht ist.


🚀 So wurde Stable Diffusion trainiert

Stable Diffusion wurde mit großen Datensätzen trainiert, die sowohl Bilder als auch die entsprechenden Textbeschreibungen enthalten. Durch dieses Training lernt das Modell, die Beziehung zwischen Textbeschreibungen und den visuellen Darstellungen dieser Beschreibungen zu verstehen. Dies ermöglicht es dem Modell, genaue und relevante Bilder basierend auf einer Vielzahl von Texteingaben zu erzeugen.

Das Training von Stable Diffusion basierte auf dem LAION-5B-Datensatz, einer umfangreichen Sammlung von Bild-Text-Paaren, die aus dem Common Crawl des Internets extrahiert und der Öffentlichkeit zugänglich gemacht wurden. Dieser Datensatz, zusammengestellt von LAION, einer in Deutschland ansässigen gemeinnützigen Organisation, die von Stability AI, dem Unternehmen hinter Stable Diffusion, unterstützt wird, umfasst 5 Milliarden Paare. Eine externe Analyse dieses Trainingsdatensatzes zeigte, dass von den ursprünglich verwendeten 12 Millionen Bildern einer kleineren Stichprobe, etwa 47 Prozent aus 100 verschiedenen Domänen stammten, wobei Pinterest allein 8,5  Prozent dieser Stichprobe ausmachte. Weitere Quellen waren populäre Plattformen wie WordPress, Blogger, Flickr, DeviantArt und Wikimedia Commons.


📚 Was ist mit Common Crawl gemeint?

Common Crawl ist eine gemeinnützige Organisation, die riesige Mengen an Webdaten sammelt und diese öffentlich zugänglich macht. Es ist quasi ein riesiges Internetarchiv. Die von Common Crawl gesammelten Daten beinhalten Webseiteninhalte, Metadaten und Hyperlinks, die aus dem Crawling des Internets gewonnen werden. Diese Datensätze werden regelmäßig aktualisiert und als riesige Archive zur Verfügung gestellt, die von jedem kostenlos heruntergeladen und genutzt werden können.

Die Archivierung des Web durch Common Crawl ermöglicht es Forschenden und Entwickler:innen, auf eine breite und vielfältige Datenquelle zuzugreifen, ohne selbst das gesamte Web crawlen zu müssen. Dies spart Ressourcen und erlaubt eine Vielzahl von Anwendungen, von der Analyse des Webwachstums und der Struktur bis hin zur Entwicklung neuer Technologien für Suchmaschinen, künstliche Intelligenz und maschinelles Lernen. Eine davon ist Stable Diffusion. 


👀 Unternehmen reagiert auf Kritik an verwendeten Daten

Aufgrund der Kritik von Künstler:innen, Fotograf:innen und anderen Kreativen hat Stability AI für die Weiterentwicklung von Stable Cascade und Stable Diffusion 3 die von dem Verein Spawning geschaffene Möglichkeit für Künstler:innen genutzt, ihre Werke von einem Training auszuschließen. Ebenso wären Daten von Institutionen und Personen ausgeschlossen worden, die Stablity AI direkt kontaktiert haben.

✨ So funktioniert Stable Diffusion auf einer eigenen Instanz

(Video folgt)


Am Ende der Kursübersicht findest du ChatGPT 3.5 zum Ausprobieren! Bitte beachte den Datenschutz und gib keine persönlichen Informationen ein.

Last modified: Thursday, 11 April 2024, 2:34 PM