Root NationNachrichtenIT-NeuigkeitenMeta zeigte KI zum Erstellen von Videos basierend auf der Beschreibung

Meta zeigte KI zum Erstellen von Videos basierend auf der Beschreibung

-

Text-zu-Bild-Generatoren mit künstlicher Intelligenz (KI) haben in den letzten Monaten Schlagzeilen gemacht, aber die Forscher sind bereits an die nächste Grenze gegangen: KI-gestützte Text-zu-Video-Generatoren. Meta-Forscher haben einen solchen neuen Generator öffentlich vorgestellt, berichtet The Verge.

Das Machine-Learning-Engineering-Team von Meta präsentiert ein neues System namens Make-A-Video. Dieses KI-Modell ermöglicht es Benutzern, eine grobe Beschreibung der Szene einzugeben, und es generiert ein kurzes Video, das zu ihrem Text passt. Die Videos sind eindeutig künstlich, mit verschwommenen Objekten und verzerrten Animationen, aber dennoch eine bedeutende Errungenschaft auf dem Gebiet der Generierung von Inhalten mit künstlicher Intelligenz.

Make-A-Video: KI

In seinem Beitrag auf Facebook Meta-CEO Mark Zuckerberg beschrieb die Arbeit als „erstaunlichen Fortschritt“ und fügte hinzu: „Videos sind viel schwieriger zu erstellen als Fotos, da das System nicht nur jeden Pixel korrekt generieren muss, sondern auch vorhersagen muss, wie sie sich im Laufe der Zeit verändern werden.“

Make-A-Video: KI

Die Clips dauern nicht länger als fünf Sekunden und enthalten keinen Ton, decken aber eine Vielzahl von Hinweisen ab. Obwohl klar ist, dass das Video computergeneriert ist, wird sich die Qualität solcher KI-Modelle in naher Zukunft schnell verbessern. In nur wenigen Jahren haben sich KI-Bildgeneratoren von der Erstellung fast unverständlicher Bilder zu fotorealistischen Inhalten entwickelt. Und während die Fortschritte im Bereich Video angesichts der nahezu grenzenlosen Komplexität des Themenbereichs möglicherweise langsamer sind, wird die Auszeichnung für die nahtlose Videogenerierung viele Organisationen und Unternehmen motivieren, erhebliche Ressourcen in das Projekt zu investieren.

Das Unternehmen plant, eine Demoversion des Systems zu veröffentlichen, hat jedoch nicht gesagt, wann oder wie es implementiert wird. In einem Artikel, der das Modell beschreibt, stellen die Meta-Forscher fest, dass Make-A-Video sowohl mit Bild-Untertitel-Paaren als auch mit unbeschriftetem Videomaterial trainiert wird.

Die Schulungsinhalte wurden aus zwei Datensätzen, WebVid-10M und HD-VILA-100M, abgeleitet, die zusammen Millionen von Videos enthalten und Hunderttausende Stunden Videomaterial umfassen. Dazu gehört übrigens Stock Footage.

Die Forscher stellen fest, dass das Modell neben verschwommenen Frames und verstreuten Animationen viele technische Einschränkungen aufweist. Make-A-Video gibt 16 Videobilder mit einer Auflösung von 64 x 64 Pixel aus, die dann mit einem separaten KI-Modell auf 768 x 768 Pixel skaliert werden.

Sie können der Ukraine helfen, gegen die russischen Invasoren zu kämpfen. Der beste Weg, dies zu tun, besteht darin, Gelder an die Streitkräfte der Ukraine zu spenden Das Leben retten oder über die offizielle Seite NBU.

Auch interessant:

Quelletheverge
Anmelden
Benachrichtigen Sie über
Gast

0 Ihre Nachricht
Eingebettete Bewertungen
Alle Kommentare anzeigen