KI-Videogenerierung: Prozess und Technologie

Wie wird KI-Kompetenz erworben?

05.08.2025 | Die KI-Verordnung (KI-VO) sieht in Artikel 4 vor, dass jeder, der mit künstlicher Intelligenz arbeitet, eine gewisse KI-Kompetenz erwerben muss. Diese Kompetenz geht weit über die bloße Bedienung von KI-Systemen hinaus. Um tatsächlich zu verstehen, was man tut, ist es unerlässlich, auch die technischen Prozesse von generativen KI-Modellen wie der KI-Videogenerierung zu kennen. Nur wer die Funktionsweise, die zugrundeliegenden Trainingsmethoden und potenziellen Schwachstellen versteht, kann die Werkzeuge verantwortungsvoll und effektiv einsetzen. Dieses tiefe Verständnis ist entscheidend, um Risiken zu minimieren und die Vorteile der Technologie optimal zu nutzen.

Achim Weidner und ChatGPT als Synonym für generative künstliche Intelligenz

Die Erstellung von Videos mit KI-Systemen basiert auf einem technischen Prozess, der als Diffusion bekannt ist. Dieser Prozess wandelt zufälliges Rauschen schrittweise in ein realistisches Video um. Dabei wird die Physik der Brownschen Bewegung umgekehrt.

Erklärvideo: Wie funktioniert die KI-Videogenerierung?

Hier ist der technische Ablauf der KI-Videogenerierung im Detail:

Generierung von Rauschen:

Der Prozess der KI-Videogenerierung beginnt mit einem zufällig generierten „Rauschvideo“, bei dem die Pixelintensitäten rein zufällig sind.

Initialer Durchlauf:

Dieses Rauschvideo wird in ein KI-Modell, einen sogenannten Transformator, geleitet. Dies ist derselbe Typ von Modell, der auch in großen Sprachmodellen wie ChatGPT verwendet wird. Anstelle von Text gibt dieser Transformator jedoch ein neues Video aus, das immer noch hauptsächlich aus Rauschen besteht, aber bereits erste Andeutungen von Struktur aufweist.

Iterativer Prozess (Diffusion):

Das neu erzeugte Video wird mit dem ursprünglichen Rauschvideo kombiniert und erneut in das Modell eingespeist. Dieser Vorgang wird wiederholt (typischerweise Dutzende von Malen). Bei jeder Iteration entfernt das Modell schrittweise mehr Rauschen und fügt dem Video weitere Details hinzu.

Führung durch CLIP (Contrastive Language-Image Pre-training):

Um das Video nach einer bestimmten Aufforderung (Prompt) zu erstellen, wird ein weiteres Modell namens CLIP verwendet. CLIP besteht aus zwei Teilen: einem Textmodell und einem Bildmodell. Es lernt, wie Wörter und Bilder in einem gemeinsamen, hochdimensionalen Raum, dem sogenannten Einbettungsraum, zusammenhängen. Die Textaufforderung wird in einen Vektor in diesem Einbettungsraum umgewandelt. Dieser Vektor dient als „Anleitung“ oder Konditionierung für das Diffusionsmodell und lenkt den Generierungsprozess in die gewünschte Richtung.

„Classifier-Free Guidance“ und negative Prompts:

Ein weiterer wichtiger Schritt ist die sogenannte „classifier-free guidance“. Hierbei wird der Unterschied zwischen einem unkonditionierten Modell (das keine Anweisungen hat) und einem konditionierten Modell (das die Prompt-Anweisungen befolgt) genutzt. Die Differenz dieser beiden Vektorfelder wird verstärkt, um das Modell gezielt in Richtung der gewünschten Prompt zu lenken. Eine Weiterentwicklung davon ist der negative Prompt, bei dem unerwünschte Elemente im Video explizit ausgeschlossen werden, um die Qualität zu verbessern und zu verhindern, dass die generierten Bilder in einem „Durchschnitt“ der Datenverteilung verschwommen aussehen.

Wie aus Text ein Video wird:

Das Ergebnis ist nach einer bestimmten Anzahl von Iterationen ein detailliertes und realistisches Video, das die ursprüngliche Textaufforderung wiedergibt.

Zum Video über KI-Videogenerierung

Grant Sanderson ist der Macher von 3Blue1Brown, einem Kanal, der Mathematik und angrenzende Felder wie Physik und Informatik mit Animationen veranschaulicht. Sein Ziel ist es, komplexe Themen durch Visualisierung zugänglich zu machen und selbst die schwierigsten Probleme durch einen einfachen Perspektivwechsel verständlich zu erklären. Weitere Informationen zu seinen Projekten, häufig gestellten Fragen und Kontaktmöglichkeiten finden Sie auf seiner Website: https://www.3blue1brown.com

Erreichbar über Social Media und sichtbar auf Google

Meine Qualifikation

Achim Weidner ist Kenner für Datenschutz, Datensicherheit, soziale Medien und generative KI. Mit über 25 Jahren Erfahrung unterstützt er Unternehmen, Institutionen und Einzelpersonen dabei, digitale Herausforderungen zu meistern und fundierte Entscheidungen zu treffen.

Ansatz und Nutzen

Sein Ansatz verbindet technisches Know-how mit rechtlicher und strategischer Weitsicht. Er liefert praxistaugliche Lösungen und strategische Impulse, um digitale Chancen sicher und effizient nutzbar zu machen. Kunden erhalten damit die Grundlage für belastbare digitale Strukturen und Mehrwert. Achim Weidner ist in der Region Frankfurt RheinMain (Rüsselsheim) sowie bundesweit tätig.

Qualifikationen und Mandate

Achim Weidner ist Absolvent des Zertifizierungsprogramms „Rechtliche Aspekte der IT- und Internet-Compliance“ der Carl von Ossietzky Universität Oldenburg. Das Programm deckt Datenschutz, Internetrecht sowie Computer- und Internetstrafrecht ab. Zusätzlich ist er zertifizierter Social Media Manager (IHK) und KI-Manager. Er übernimmt Mandate als externer Datenschutzkoordinator und externer Datenschutzbeauftragter.

Digitale Kompetenz: Tastend durch den Wandel

Mit der KI-Revolution eröffnen sich neue Denkweisen und Arbeitsformen, die Achim Weidner in seine Praxis integriert. Er versteht agentenbasiertes Arbeiten als tastendes Durchqueren des digitalen Flusses: Mensch, KI und Agenten ergänzen sich dabei zu einem Team, das Fortschritt und Mehrwert ermöglicht. So entstehen Lösungen, die den Wandel gestalten und Herausforderungen meistern.

Horizonterweiterung bei openHPI

Lehrkräfteprofessionalisierung für KI in Schule und Unterricht +++ Sustainability in the digital age: Environmental Impacts of AI Systems +++ KI-Biases verstehen und vermeiden +++ Profitable AI +++ Einführung in das Quantencomputing – Teil 1 +++ Digitale Medizin – Was ist ethisch verantwortbar? +++ Digitale Privatsphäre: Wie schütze ich meine persönlichen Daten im Netz? +++ Künstliche Intelligenz und maschinelles Lernen in der Praxis +++ Blick hinter den Hype: Aktuelle Entwicklungen rund um KI, Blockchain und IoT +++ ChatGPT: Was bedeutet generative KI für unsere Gesellschaft? +++ KI und Datenqualität – Perspektiven aus Data Science, Ethik, Normung und Recht +++ Blockchain: Hype oder Innovation? +++ Künstliche Intelligenz und maschinelles Lernen für Einsteiger +++ Blockchain – Sicherheit auch ohne Trust Center

Referententätigkeit

Achim Weidner war als Referent an der Volkshochschule Rüsselsheim und VHS Frankfurt am Main und für die Konrad Adanauer Stiftung tätig, wobei seine Schwerpunkte auf gesellschaftlichen und technologischen Fragestellungen lagen. Zu seinen Vortragsthemen zählten unter anderem: Künstliche Intelligenz (KI), Roboter, Atomforschung, Teilchenbeschleuniger, Digitalisierung, Silicon Valley, Neue Seidenstraße.