Meta har laget en ny generator basert på kunstig intelligens

Tekst-til-bilde-generatorer for kunstig intelligens (AI) har skapt overskrifter de siste månedene, men forskere har allerede gått videre til neste grense: AI-drevne tekst-til-video-generatorer. Metaforskere har offentlig presentert en slik ny generator, melder The Verge.

Metas maskinlæringsingeniørteam presentert et nytt system kalt Make-A-Video. Denne AI-modellen lar brukere legge inn en grov beskrivelse av scenen, og den genererer en kort video som samsvarer med teksten deres. Videoene er tydelig kunstige, med uskarpe objekter og forvrengte animasjoner, men er fortsatt en betydelig prestasjon innen generering av kunstig intelligens.

- Annonse -

I sitt innlegg på Facebook Meta-sjef Mark Zuckerberg beskrev arbeidet som et "utrolig fremskritt", og la til: "Video er mye vanskeligere å lage enn bilder, fordi i tillegg til å generere hver piksel riktig, må systemet også forutsi hvordan de vil endre seg over tid."

Klippene varer ikke mer enn fem sekunder og inneholder ingen lyd, men dekker et stort spekter av ledetråder. Selv om det er klart at videoen er datagenerert, vil kvaliteten på slike AI-modeller raskt forbedres i nær fremtid. På bare noen få år har AI-bildegeneratorer gått fra å lage nesten uforståelige bilder til fotorealistisk innhold. Og mens fremgangen innen video kan være langsommere gitt fagområdets nesten ubegrensede kompleksitet, vil prisen for sømløs videogenerering motivere mange organisasjoner og selskaper til å investere betydelige ressurser i prosjektet.

Selskapet sier de planlegger å gi ut en demoversjon av systemet, men har ikke sagt når eller hvordan det skal implementeres. I en artikkel som beskriver modellen, bemerker Meta-forskerne at Make-A-Video er trent på bildetekstpar så vel som umerket videoopptak.

Treningsinnholdet ble hentet fra to datasett, WebVid-10M og HD-VILA-100M, som til sammen inneholder millioner av videoer og spenner over hundretusenvis av timer med videoopptak. Dette inkluderer forresten arkivopptak.

Forskerne konstaterer at modellen har mange tekniske begrensninger, i tillegg til uskarpe rammer og spredte animasjoner. Make-A-Video sender ut 16 bilder med video med en oppløsning på 64×64 piksler, som deretter endres ved hjelp av en separat AI-modell til 768×768 piksler.

Du kan hjelpe Ukraina med å kjempe mot de russiske inntrengerne. Den beste måten å gjøre dette på er å donere midler til Ukrainas væpnede styrker gjennom Redd livet eller via den offisielle siden NBU.

- Annonse -

Også interessant:

Meta viste AI for å lage videoer basert på beskrivelsen