Wie funktioniert die KI-Videogenerierung? Ein Blick hinter die Kulissen

Wie wird KI-Kompetenz erworben?

05.08.2025 | Die KI-Verordnung (KI-VO) sieht in Artikel 4 vor, dass jeder, der mit künstlicher Intelligenz arbeitet, eine gewisse KI-Kompetenz erwerben muss. Diese Kompetenz geht weit über die bloße Bedienung von KI-Systemen hinaus. Um tatsächlich zu verstehen, was man tut, ist es unerlässlich, auch die technischen Prozesse von generativen KI-Modellen wie der KI-Videogenerierung zu kennen. Nur wer die Funktionsweise, die zugrundeliegenden Trainingsmethoden und potenziellen Schwachstellen versteht, kann die Werkzeuge verantwortungsvoll und effektiv einsetzen. Dieses tiefe Verständnis ist entscheidend, um Risiken zu minimieren und die Vorteile der Technologie optimal zu nutzen.

Achim Weidner und ChatGPT als Synonym für generative künstliche Intelligenz
Achim Weidner und ChatGPT als Synonym für generative künstliche Intelligenz

Die Erstellung von Videos mit KI-Systemen basiert auf einem technischen Prozess, der als Diffusion bekannt ist. Dieser Prozess wandelt zufälliges Rauschen schrittweise in ein realistisches Video um. Dabei wird die Physik der Brownschen Bewegung umgekehrt.

Erklärvideo: Wie funktioniert die KI-Videogenerierung?

Hier ist der technische Ablauf der KI-Videogenerierung im Detail:

Generierung von Rauschen:

Der Prozess der KI-Videogenerierung beginnt mit einem zufällig generierten „Rauschvideo“, bei dem die Pixelintensitäten rein zufällig sind.

Initialer Durchlauf:

Dieses Rauschvideo wird in ein KI-Modell, einen sogenannten Transformator, geleitet. Dies ist derselbe Typ von Modell, der auch in großen Sprachmodellen wie ChatGPT verwendet wird. Anstelle von Text gibt dieser Transformator jedoch ein neues Video aus, das immer noch hauptsächlich aus Rauschen besteht, aber bereits erste Andeutungen von Struktur aufweist.

Schematische Darstellung eines neuronalen Netzwerks im Transformer
Schematische Darstellung eines neuronalen Netzwerks im Transformer

Iterativer Prozess (Diffusion):

Das neu erzeugte Video wird mit dem ursprünglichen Rauschvideo kombiniert und erneut in das Modell eingespeist. Dieser Vorgang wird wiederholt (typischerweise Dutzende von Malen). Bei jeder Iteration entfernt das Modell schrittweise mehr Rauschen und fügt dem Video weitere Details hinzu.

Führung durch CLIP (Contrastive Language-Image Pre-training):

Um das Video nach einer bestimmten Aufforderung (Prompt) zu erstellen, wird ein weiteres Modell namens CLIP verwendet. CLIP besteht aus zwei Teilen: einem Textmodell und einem Bildmodell. Es lernt, wie Wörter und Bilder in einem gemeinsamen, hochdimensionalen Raum, dem sogenannten Einbettungsraum, zusammenhängen. Die Textaufforderung wird in einen Vektor in diesem Einbettungsraum umgewandelt. Dieser Vektor dient als „Anleitung“ oder Konditionierung für das Diffusionsmodell und lenkt den Generierungsprozess in die gewünschte Richtung.

„Classifier-Free Guidance“ und negative Prompts:

Ein weiterer wichtiger Schritt ist die sogenannte „classifier-free guidance“. Hierbei wird der Unterschied zwischen einem unkonditionierten Modell (das keine Anweisungen hat) und einem konditionierten Modell (das die Prompt-Anweisungen befolgt) genutzt. Die Differenz dieser beiden Vektorfelder wird verstärkt, um das Modell gezielt in Richtung der gewünschten Prompt zu lenken. Eine Weiterentwicklung davon ist der negative Prompt, bei dem unerwünschte Elemente im Video explizit ausgeschlossen werden, um die Qualität zu verbessern und zu verhindern, dass die generierten Bilder in einem „Durchschnitt“ der Datenverteilung verschwommen aussehen.

Wie aus Text ein Video wird:

Das Ergebnis ist nach einer bestimmten Anzahl von Iterationen ein detailliertes und realistisches Video, das die ursprüngliche Textaufforderung wiedergibt.

Zum Video über KI-Videogenerierung

Grant Sanderson ist der Macher von 3Blue1Brown, einem Kanal, der Mathematik und angrenzende Felder wie Physik und Informatik mit Animationen veranschaulicht. Sein Ziel ist es, komplexe Themen durch Visualisierung zugänglich zu machen und selbst die schwierigsten Probleme durch einen einfachen Perspektivwechsel verständlich zu erklären. Weitere Informationen zu seinen Projekten, häufig gestellten Fragen und Kontaktmöglichkeiten finden Sie auf seiner Website: https://www.3blue1brown.com


Erreichbar über Social Media und Sichtbar auf Google

Facebook | Instagram | LinkedIn | WhatsApp | X (Twitter) | Google Seite | Google-Rezension | Bei Fragen gerne per E-Mail an post@achim-weidner.de

Meine Qualifikation

Achim Weidner

Achim Weidner ist ein Kenner des Internets, des Datenschutzes, der Datensicherheit, der sozialen Medien und der generativen KI. Mit über 20 Jahren Erfahrung hilft er Unternehmen, Institutionen und Einzelpersonen, digitale Herausforderungen zu meistern und fundierte Entscheidungen zu treffen. Er vermittelt verständliches Wissen, bietet praxistaugliche Lösungen und gibt strategische Impulse, damit seine Kunden digitale Chancen sicher und effizient nutzen können. Sein Ansatz verbindet technisches Know-how mit rechtlicher und strategischer Weitsicht, um nachhaltige und sichere digitale Strukturen zu schaffen.

Achim Weidner ist nicht nur Berater, sondern auch Navigator und Dialogpartner. Er kombiniert Fachwissen mit klarer, praxisorientierter Kommunikation und bietet digitale Lösungen, die funktionieren und echten Mehrwert schaffen. Er ist in Rüsselsheim (Kreis Groß-Gerau), in der Region Frankfurt RheinMain und bundesweit tätig.

Achim Weidner ist Absolvent des Zertifizierungsprogramms „Rechtliche Aspekte der IT- und Internet-Compliance“ der Carl von Ossietzky Universität Oldenburg. Dieses Programm deckt Datenschutz, Datensicherheit, Internetrecht sowie Computer- und Internetstrafrecht ab, ergänzt durch technische Datensicherheit. Zudem ist er zertifizierter Social Media Manager (IHK) und KI-Manager. Er koordiniert extern den Datenschutz, fungiert als externer Datenschutzbeauftragter und unterstützte #aiineurope.

Horizonterweiterung bei openHPI

Sustainability in the digital age: Environmental Impacts of AI Systems +++ KI-Biases verstehen und vermeiden +++ Profitable AI +++ Einführung in das Quantencomputing – Teil 1 +++ Digitale Medizin – Was ist ethisch verantwortbar? +++ Digitale Privatsphäre: Wie schütze ich meine persönlichen Daten im Netz? +++ Künstliche Intelligenz und maschinelles Lernen in der Praxis +++ Blick hinter den Hype: Aktuelle Entwicklungen rund um KI, Blockchain und IoT +++ ChatGPT: Was bedeutet generative KI für unsere Gesellschaft? +++ KI und Datenqualität – Perspektiven aus Data Science, Ethik, Normung und Recht +++ Blockchain: Hype oder Innovation? +++ Künstliche Intelligenz und maschinelles Lernen für Einsteiger +++ Blockchain – Sicherheit auch ohne Trust Center

Referententätigkeit

Achim Weidner war als Referent an der Volkshochschule Rüsselsheim und VHS Frankfurt am Main und für die Konrad Adanauer Stiftung tätig, wobei seine Schwerpunkte auf gesellschaftlichen und technologischen Fragestellungen lagen. Zu seinen Vortragsthemen zählten unter anderem: Künstliche Intelligenz (KI), Roboter, Atomforschung, Teilchenbeschleuniger, Digitalisierung, Silicon Valley, Neue Seidenstraße.