Wie funktioniert die KI-Videogenerierung? Ein Blick hinter die Kulissen

Wie wird KI-Kompetenz erworben?

05.08.2025 | Die KI-Verordnung (KI-VO) sieht in Artikel 4 vor, dass jeder, der mit künstlicher Intelligenz arbeitet, eine gewisse KI-Kompetenz erwerben muss. Diese Kompetenz geht weit über die bloße Bedienung von KI-Systemen hinaus. Um tatsächlich zu verstehen, was man tut, ist es unerlässlich, auch die technischen Prozesse von generativen KI-Modellen wie der KI-Videogenerierung zu kennen. Nur wer die Funktionsweise, die zugrundeliegenden Trainingsmethoden und potenziellen Schwachstellen versteht, kann die Werkzeuge verantwortungsvoll und effektiv einsetzen. Dieses tiefe Verständnis ist entscheidend, um Risiken zu minimieren und die Vorteile der Technologie optimal zu nutzen.

Achim Weidner und ChatGPT als Synonym für generative künstliche Intelligenz
Achim Weidner und ChatGPT als Synonym für generative künstliche Intelligenz

Die Erstellung von Videos mit KI-Systemen basiert auf einem technischen Prozess, der als Diffusion bekannt ist. Dieser Prozess wandelt zufälliges Rauschen schrittweise in ein realistisches Video um. Dabei wird die Physik der Brownschen Bewegung umgekehrt.

Erklärvideo: Wie funktioniert die KI-Videogenerierung?

Hier ist der technische Ablauf der KI-Videogenerierung im Detail:

Generierung von Rauschen:

Der Prozess der KI-Videogenerierung beginnt mit einem zufällig generierten „Rauschvideo“, bei dem die Pixelintensitäten rein zufällig sind.

Initialer Durchlauf:

Dieses Rauschvideo wird in ein KI-Modell, einen sogenannten Transformator, geleitet. Dies ist derselbe Typ von Modell, der auch in großen Sprachmodellen wie ChatGPT verwendet wird. Anstelle von Text gibt dieser Transformator jedoch ein neues Video aus, das immer noch hauptsächlich aus Rauschen besteht, aber bereits erste Andeutungen von Struktur aufweist.

Schematische Darstellung eines neuronalen Netzwerks im Transformer
Schematische Darstellung eines neuronalen Netzwerks im Transformer

Iterativer Prozess (Diffusion):

Das neu erzeugte Video wird mit dem ursprünglichen Rauschvideo kombiniert und erneut in das Modell eingespeist. Dieser Vorgang wird wiederholt (typischerweise Dutzende von Malen). Bei jeder Iteration entfernt das Modell schrittweise mehr Rauschen und fügt dem Video weitere Details hinzu.

Führung durch CLIP (Contrastive Language-Image Pre-training):

Um das Video nach einer bestimmten Aufforderung (Prompt) zu erstellen, wird ein weiteres Modell namens CLIP verwendet. CLIP besteht aus zwei Teilen: einem Textmodell und einem Bildmodell. Es lernt, wie Wörter und Bilder in einem gemeinsamen, hochdimensionalen Raum, dem sogenannten Einbettungsraum, zusammenhängen. Die Textaufforderung wird in einen Vektor in diesem Einbettungsraum umgewandelt. Dieser Vektor dient als „Anleitung“ oder Konditionierung für das Diffusionsmodell und lenkt den Generierungsprozess in die gewünschte Richtung.

„Classifier-Free Guidance“ und negative Prompts:

Ein weiterer wichtiger Schritt ist die sogenannte „classifier-free guidance“. Hierbei wird der Unterschied zwischen einem unkonditionierten Modell (das keine Anweisungen hat) und einem konditionierten Modell (das die Prompt-Anweisungen befolgt) genutzt. Die Differenz dieser beiden Vektorfelder wird verstärkt, um das Modell gezielt in Richtung der gewünschten Prompt zu lenken. Eine Weiterentwicklung davon ist der negative Prompt, bei dem unerwünschte Elemente im Video explizit ausgeschlossen werden, um die Qualität zu verbessern und zu verhindern, dass die generierten Bilder in einem „Durchschnitt“ der Datenverteilung verschwommen aussehen.

Wie aus Text ein Video wird:

Das Ergebnis ist nach einer bestimmten Anzahl von Iterationen ein detailliertes und realistisches Video, das die ursprüngliche Textaufforderung wiedergibt.

Zum Video über KI-Videogenerierung

Grant Sanderson ist der Macher von 3Blue1Brown, einem Kanal, der Mathematik und angrenzende Felder wie Physik und Informatik mit Animationen veranschaulicht. Sein Ziel ist es, komplexe Themen durch Visualisierung zugänglich zu machen und selbst die schwierigsten Probleme durch einen einfachen Perspektivwechsel verständlich zu erklären. Weitere Informationen zu seinen Projekten, häufig gestellten Fragen und Kontaktmöglichkeiten finden Sie auf seiner Website: https://www.3blue1brown.com


Erreichbar über Social Media und sichtbar auf Google

Facebook | Instagram | LinkedIn | WhatsApp | X (Twitter) | Google Seite | Google-Rezension | Bei Fragen gerne per E-Mail an post@achim-weidner.de

Meine Qualifikation

Kernkompetenzen

  • Datenschutz-Compliance, IT- und Internet-Compliance, externer Datenschutzbeauftragter, externer Datenschutzkoordinator, generative KI in Unternehmen, KI-Compliance und DSGVO, Social-Media-Governance, KI-gestützte Internetstrategien, digitale Sicherheitskonzepte, agentenbasierte KI-Workflows, Blockchain- und IoT-Diskurse, Digitalisierungsstrategien im Mittelstand
Achim Weidner: Mit Daten sprechen – Wie Unternehmen ihre Datenschätze mit generativer KI erschließen
Achim Weidner: Mit Daten sprechen – Wie Unternehmen ihre Datenschätze mit generativer KI erschließen

Kurzbeschreibung

  • Achim Weidner unterstützt Unternehmen und Institutionen im Raum Frankfurt RheinMain und bundesweit bei Datenschutz, Datensicherheit, sozialer Mediennutzung und generativer KI.
  • Im Mittelpunkt stehen praxisorientierte Analysen, Strategien und Schulungsformate zu digitalen Technologien und deren rechtlichen und organisatorischen Folgen.

Professional Service

  • Entwicklung und Umsetzung von Datenschutz- und IT-Compliance-Strukturen, inklusive Mandaten als externer Datenschutzkoordinator und externer Datenschutzbeauftragter.
  • Übersetzung komplexer KI-, Daten- und Plattformtechnologien in handhabbare Leitlinien, Entscheidungsunterlagen, Schulungen und FAQ-Formate für Geschäftsführung, Fachbereiche und Mitarbeitende.
  • Begleitung beim Einsatz generativer KI, beim Aufbau KI-gestützter Internet- und Social-Media-Strategien sowie bei der Bewertung von Risiken, Chancen und regulatorischen Anforderungen.

Person

Er gilt als kompetenter Übersetzer zwischen Technik, Recht und Management, tritt als Referent zu KI, Digitalisierung und Geopolitik auf und nutzt ein breites Weiterbildungsportfolio (u. a. openHPI) für aktuelle, anwendungsnahe Perspektiven.

Achim Weidner verbindet mehr als 25 Jahre operative Erfahrung in digitalen Projekten mit einer zertifizierten Qualifikation in „Rechtliche Aspekte der IT- und Internet-Compliance“ der Carl von Ossietzky Universität Oldenburg, ergänzt durch Abschlüsse als Social Media Manager (IHK) und KI-Manager.

Horizonterweiterung bei openHPI

Chatbots leicht gemacht: Große Sprachmodelle einfach nutzen +++ Lehrkräfteprofessionalisierung für KI in Schule und Unterricht +++ Sustainability in the digital age: Environmental Impacts of AI Systems +++ KI-Biases verstehen und vermeiden +++ Profitable AI +++ Einführung in das Quantencomputing – Teil 1 +++ Digitale Medizin – Was ist ethisch verantwortbar? +++ Digitale Privatsphäre: Wie schütze ich meine persönlichen Daten im Netz? +++ Künstliche Intelligenz und maschinelles Lernen in der Praxis +++ Blick hinter den Hype: Aktuelle Entwicklungen rund um KI, Blockchain und IoT +++ ChatGPT: Was bedeutet generative KI für unsere Gesellschaft? +++ KI und Datenqualität – Perspektiven aus Data Science, Ethik, Normung und Recht +++ Blockchain: Hype oder Innovation? +++ Künstliche Intelligenz und maschinelles Lernen für Einsteiger +++ Blockchain – Sicherheit auch ohne Trust Center

Referententätigkeit

Achim Weidner war als Referent an der Volkshochschule Rüsselsheim und VHS Frankfurt am Main und für die Konrad Adanauer Stiftung tätig, wobei seine Schwerpunkte auf gesellschaftlichen und technologischen Fragestellungen lagen. Zu seinen Vortragsthemen zählten unter anderem: Künstliche Intelligenz (KI), Roboter, Atomforschung, Teilchenbeschleuniger, Digitalisierung, Silicon Valley, Neue Seidenstraße.

Aktuelle Vorträge und Veranstaltungen