Root NationNieuwsIT-nieuwsMeta toonde AI voor het maken van video's op basis van de beschrijving

Meta toonde AI voor het maken van video's op basis van de beschrijving

-

Tekst-naar-beeldgeneratoren met kunstmatige intelligentie (AI) hebben de afgelopen maanden de krantenkoppen gehaald, maar onderzoekers zijn al overgestapt naar de volgende grens: AI-aangedreven tekst-naar-videogeneratoren. Meta-onderzoekers hebben zo'n nieuwe generator publiekelijk gepresenteerd, meldt The Verge.

Meta's machine learning engineering team gepresenteerd een nieuw systeem genaamd Make-A-Video. Met dit AI-model kunnen gebruikers een ruwe beschrijving van de scène invoeren en wordt een korte video gegenereerd die overeenkomt met hun tekst. De video's zijn duidelijk kunstmatig, met wazige objecten en vervormde animaties, maar zijn nog steeds een belangrijke prestatie op het gebied van kunstmatige intelligentie-contentgeneratie.

Make-A-Video: AI

In zijn post op Facebook Mark Zuckerberg, CEO van Meta, omschreef het werk als een "verbazingwekkende vooruitgang" en voegde eraan toe: "Video is veel moeilijker te maken dan foto's, omdat het systeem niet alleen elke pixel correct genereert, maar ook moet voorspellen hoe ze in de loop van de tijd zullen veranderen."

Make-A-Video: AI

De clips duren niet langer dan vijf seconden en bevatten geen geluid, maar omvatten een enorm scala aan aanwijzingen. Hoewel het duidelijk is dat de video door de computer is gegenereerd, zal de kwaliteit van dergelijke AI-modellen in de nabije toekomst snel verbeteren. In slechts een paar jaar tijd zijn AI-beeldgeneratoren veranderd van het maken van bijna onbegrijpelijke afbeeldingen naar fotorealistische inhoud. En hoewel de voortgang in video misschien langzamer gaat, gezien de bijna onbeperkte complexiteit van het onderwerp, zal de prijs voor het naadloos genereren van video veel organisaties en bedrijven motiveren om aanzienlijke middelen in het project te investeren.

Het bedrijf zegt van plan te zijn een demoversie van het systeem uit te brengen, maar heeft niet gezegd wanneer en hoe het zal worden geïmplementeerd. In een paper waarin het model wordt beschreven, merken de Meta-onderzoekers op dat Make-A-Video wordt getraind op beeld-ondertitelparen en niet-gelabelde videobeelden.

De trainingsinhoud is afgeleid van twee datasets, WebVid-10M en HD-VILA-100M, die samen miljoenen video's bevatten en honderdduizenden uren aan videobeelden beslaan. Daar horen trouwens ook stockbeelden bij.

De onderzoekers merken op dat het model veel technische beperkingen heeft, naast wazige frames en verspreide animaties. Make-A-Video voert 16 videoframes uit met een resolutie van 64 × 64 pixels, die vervolgens worden verkleind met behulp van een afzonderlijk AI-model tot 768 × 768 pixels.

U kunt Oekraïne helpen vechten tegen de Russische indringers. De beste manier om dit te doen is door geld te doneren aan de strijdkrachten van Oekraïne via Red het leven of via de officiële pagina NBU.

Ook interessant:

Aanmelden
Informeer over
gast

0 Heb je vragen? Stel ze hier.
Ingesloten beoordelingen
Bekijk alle reacties