4 Wochen her
Odyssey’s interaktive Videotechnik: Ein neues Unterhaltungsmedium?

Das in London ansässige KI-Labor Odyssey hat kürzlich eine Forschungsvorschau auf ein neues Modell vorgestellt, das Videos in interaktive Welten umwandeln kann. Diese Technologie zielt insbesondere auf Film- und Spieleproduktionen ab, eröffnet jedoch möglicherweise auch neue Perspektiven im Bereich der Unterhaltung. Das Besondere an dieser Entwicklung ist, dass die interaktiven Videos in Echtzeit auf Nutzereingaben reagieren. Dies kann über Tastatur, Handy, Controller oder in Zukunft sogar über Sprachbefehle geschehen.
An der technischen Front unterscheidet sich diese AI-generierte Videotechnik von herkömmlicher CGI oder Computerspielen durch den Einsatz eines sogenannten „World Models“. Dieses Modell arbeitet nicht mit vorgefertigten Videoclips, sondern generiert jedes Bild einzeln und passt es basierend auf dem aktuellen Zustand und den Nutzereingaben an. Dies ermöglicht eine fluidere und weniger vorhersehbare Interaktion als herkömmliche, script-basierte Modelle.
Eine der größten Herausforderungen bei der Entwicklung von KI-generiertem interaktivem Video ist die Stabilität über längere Zeiträume. Um das zu adressieren, verwendet Odyssey ein sogenanntes „narrow distribution model“, welches das KI-Modell zunächst mit allgemeinem Videomaterial vortrainiert und anschließend in spezifischeren Umgebungen verfeinert. Auf diese Weise wird die Stabilität verbessert, auch wenn dies auf Kosten der Vielfalt gehen kann. Erste Tests haben bereits vielversprechende Ergebnisse in Bezug auf die Stabilität gezeigt.
Die entstehenden Kosten für die nötige Infrastruktur, die diese Echtzeit-Erfahrungen ermöglicht, sind momentan noch relativ hoch. Odyssey nutzt Cluster aus H100 GPUs, um die Experience pro Nutzerstunde zu ermöglichen. Dennoch zeigt man sich optimistisch, dass die Kosten durch effizientere Modelle in naher Zukunft weiter gesenkt werden können.
An der technischen Front unterscheidet sich diese AI-generierte Videotechnik von herkömmlicher CGI oder Computerspielen durch den Einsatz eines sogenannten „World Models“. Dieses Modell arbeitet nicht mit vorgefertigten Videoclips, sondern generiert jedes Bild einzeln und passt es basierend auf dem aktuellen Zustand und den Nutzereingaben an. Dies ermöglicht eine fluidere und weniger vorhersehbare Interaktion als herkömmliche, script-basierte Modelle.
Eine der größten Herausforderungen bei der Entwicklung von KI-generiertem interaktivem Video ist die Stabilität über längere Zeiträume. Um das zu adressieren, verwendet Odyssey ein sogenanntes „narrow distribution model“, welches das KI-Modell zunächst mit allgemeinem Videomaterial vortrainiert und anschließend in spezifischeren Umgebungen verfeinert. Auf diese Weise wird die Stabilität verbessert, auch wenn dies auf Kosten der Vielfalt gehen kann. Erste Tests haben bereits vielversprechende Ergebnisse in Bezug auf die Stabilität gezeigt.
Die entstehenden Kosten für die nötige Infrastruktur, die diese Echtzeit-Erfahrungen ermöglicht, sind momentan noch relativ hoch. Odyssey nutzt Cluster aus H100 GPUs, um die Experience pro Nutzerstunde zu ermöglichen. Dennoch zeigt man sich optimistisch, dass die Kosten durch effizientere Modelle in naher Zukunft weiter gesenkt werden können.
Lesenswert hierzu
Dieser Artikel wurde vollständig oder teilweise durch eine Künstliche Intelligenz (KI) erstellt. Obwohl wir bemüht sind, genaue und aktuelle Informationen bereitzustellen, können wir keine Garantie für die Richtigkeit oder Vollständigkeit des Inhalts übernehmen. Bitte überprüfen Sie alle Informationen und ziehen Sie bei Bedarf eine fachkundige Beratung hinzu.