Root NationNyhederIT nyhederMeta viste AI til at lave videoer baseret på beskrivelsen

Meta viste AI til at lave videoer baseret på beskrivelsen

-

Tekst-til-billede-generatorer til kunstig intelligens (AI) har skabt overskrifter i de seneste måneder, men forskere er allerede gået videre til den næste grænse: AI-drevne tekst-til-video-generatorer. Metaforskere har offentligt præsenteret sådan en ny generator, rapporterer The Verge.

Metas maskinlæringsingeniørteam fremlagde et nyt system kaldet Make-A-Video. Denne AI-model giver brugerne mulighed for at indtaste en grov beskrivelse af scenen, og den genererer en kort video, der matcher deres tekst. Videoerne er tydeligt kunstige med slørede objekter og forvrængede animationer, men er stadig en betydelig bedrift inden for generering af kunstig intelligens-indhold.

- Annonce -

I sit indlæg vedr Facebook Meta CEO Mark Zuckerberg beskrev arbejdet som et "fantastisk fremskridt" og tilføjede: "Video er meget sværere at skabe end fotos, for udover at generere hver pixel korrekt, skal systemet også forudsige, hvordan de vil ændre sig over tid."

Klippene varer ikke mere end fem sekunder og indeholder ingen lyd, men dækker en lang række spor. Selvom det er klart, at videoen er computergenereret, vil kvaliteten af ​​sådanne AI-modeller hurtigt forbedres i den nærmeste fremtid. På få år er AI-billedgeneratorer gået fra at skabe næsten uforståelige billeder til fotorealistisk indhold. Og selvom fremskridtene inden for video kan være langsommere i betragtning af fagområdets næsten ubegrænsede kompleksitet, vil prisen for problemfri videogenerering motivere mange organisationer og virksomheder til at investere betydelige ressourcer i projektet.

Virksomheden siger, at det planlægger at frigive en demoversion af systemet, men har ikke sagt, hvornår eller hvordan det vil blive implementeret. I et papir, der beskriver modellen, bemærker Meta-forskerne, at Make-A-Video er trænet i billedtekstpar såvel som umærkede videooptagelser.

Træningsindholdet blev afledt af to datasæt, WebVid-10M og HD-VILA-100M, som tilsammen indeholder millioner af videoer og spænder over hundredtusindvis af timers videooptagelser. Dette inkluderer i øvrigt stock-optagelser.

Forskerne bemærker, at modellen har mange tekniske begrænsninger, foruden slørede rammer og spredte animationer. Make-A-Video udsender 16 frames video med en opløsning på 64×64 pixels, som derefter ændres ved hjælp af en separat AI-model til 768×768 pixels.

Du kan hjælpe Ukraine med at kæmpe mod de russiske angribere. Den bedste måde at gøre dette på er at donere midler til Ukraines væbnede styrker gennem Red livet eller via den officielle side NBU.

- Annonce -

Også interessant: