Root NationNyheterIT-nyheterMeta visade AI för att skapa videor baserat på beskrivningen

Meta visade AI för att skapa videor baserat på beskrivningen

-

Artificiell intelligens (AI) text-till-bild-generatorer har skapat rubriker de senaste månaderna, men forskare har redan gått vidare till nästa gräns: AI-drivna text-till-video-generatorer. Metaforskare har offentligt presenterat en sådan ny generator, rapporterar The Verge.

Metas maskininlärningsteam представила ett nytt system som heter Make-A-Video. Denna AI-modell låter användare ange en grov beskrivning av scenen, och den genererar en kort video som matchar deras text. Videorna är helt klart artificiella, med suddiga objekt och förvrängda animationer, men är fortfarande en betydande prestation inom området för artificiell intelligens-innehållsgenerering.

- Annons -

I sitt inlägg på Facebook Metas vd Mark Zuckerberg beskrev arbetet som ett "häpnadsväckande framsteg", och tillade: "Video är mycket svårare att skapa än foton, för förutom att korrekt generera varje pixel måste systemet också förutsäga hur de kommer att förändras över tiden."

Klippen varar inte mer än fem sekunder och innehåller inget ljud, men täcker ett stort antal ledtrådar. Även om det är tydligt att videon är datorgenererad, kommer kvaliteten på sådana AI-modeller snabbt att förbättras inom en snar framtid. På bara några år har AI-bildgeneratorer gått från att skapa nästan obegripliga bilder till fotorealistiskt innehåll. Och även om framstegen inom video kan vara långsammare med tanke på ämnesområdets nästan obegränsade komplexitet, kommer priset för sömlös videogenerering att motivera många organisationer och företag att investera betydande resurser i projektet.

Företaget säger att de planerar att släppa en demoversion av systemet, men har inte sagt när eller hur det kommer att implementeras. I en artikel som beskriver modellen, noterar Meta-forskarna att Make-A-Video tränas på bildtextpar såväl som omärkta videofilmer.

Utbildningsinnehållet härleddes från två datauppsättningar, WebVid-10M och HD-VILA-100M, som tillsammans innehåller miljontals videor och sträcker sig över hundratusentals timmars videomaterial. Detta inkluderar förresten stockfilmer.

Forskarna konstaterar att modellen har många tekniska begränsningar, förutom suddiga ramar och spridda animationer. Make-A-Video matar ut 16 bildrutor med en upplösning på 64×64 pixlar, som sedan ändras storlek med en separat AI-modell till 768×768 pixlar.

Du kan hjälpa Ukraina att slåss mot de ryska inkräktarna. Det bästa sättet att göra detta är att donera medel till Ukrainas väpnade styrkor genom Rädda liv eller via den officiella sidan NBU.

- Annons -

Också intressant: