Diffusionsmodelle, auch bekannt als diffusionale probabilistische Modelle oder scorebasierte generative Modelle, sind eine Art von Modellen im Bereich des maschinellen Lernens. Sie eignen sich besonders gut zum Erzeugen neuer Daten, die den Trainingsdaten ähnlich sind, beispielsweise Bilder, Videos oder Töne.
Der Name leitet sich vom physikalischen Diffusionsprozess ab, bei dem sich Partikel von einer hohen Konzentration zu einer niedrigen Konzentration bewegen. Diffusionsmodelle funktionieren im Wesentlichen, indem sie den Trainingsdaten nach und nach Rauschen hinzufügen und dann lernen, diesen Rauschprozess umzukehren.
Dabei durchläuft das Modell zwei Phasen
- Vorwärtsprozess (Diffusion): In diesem Prozess wird ein sauberes Datenpunkt (z.B. ein Bild) nach und nach mit Rauschen versetzt, bis nur noch Rauschen übrig bleibt.
- Rückwärtsprozess (Denoising): Ausgehend vom Rauschen lernt das Modell, das Rauschen wieder zu entfernen und so nach und nach den ursprünglichen Datenpunkt wiederherzustellen.
Im Gegensatz zum Vorwärtsprozess, der relativ einfach ist, muss der Umkehrungsprozess (Denoising) durch ein neuronales Netzwerk gelernt werden.
Vorteile gegenüber anderen generativen Modellen
- Bessere Bildqualität: Sie können sehr realistische und detailreiche Bilder erzeugen.
- Interpretierbarer latenter Raum: Der latente Raum, der den erzeugten Daten zugrunde liegt, kann besser interpretiert werden, was eine gezieltere Steuerung der Generierung ermöglicht.
- Robuster gegenüber Überanpassung: Sie sind weniger anfällig für Überanpassung an die Trainingsdaten.
Einsatzbereiche
- Bildbearbeitung, z. B. Rauschreduzierung
- Bildübersetzung, z. B. Umwandeln von Skizzen in Fotos
- Generierung neuer Bilder und Videos, z.B. Kleidungsstücke virtuell anprobieren:
Fazit
Diffusionsmodelle haben das Potenzial, die Datengenerierung zu revolutionieren. Die Entwicklung sollte genau beobachtet und die Implikationen für die Gesellschaft berücksichtigt werden. Beispielsweise ethische Bedenken bei der Generierung manipulierbarer Daten