A Meta mesterséges intelligencián alapuló új generátort készített

A mesterséges intelligencia (AI) szöveg-képgenerátorai az elmúlt hónapokban a címlapokra kerültek, de a kutatók már átléptek a következő határvonal felé: az AI-alapú szöveg-videó generátorok felé. A Meta kutatói nyilvánosan bemutattak egy ilyen új generátort – írja a The Verge.

A Meta gépi tanulási mérnöki csapata bemutatott egy új rendszer, a Make-A-Video. Ez a mesterséges intelligencia modell lehetővé teszi a felhasználók számára, hogy hozzávetőlegesen leírják a jelenetet, és rövid videót készítenek, amely megfelel a szövegüknek. A videók egyértelműen mesterségesek, elmosódott objektumokkal és torz animációkkal, de így is jelentős eredménynek számítanak a mesterséges intelligencia tartalomgenerálása terén.

című bejegyzésében Facebook A Meta vezérigazgatója, Mark Zuckerberg "elképesztő előrelépésként" jellemezte a munkát, hozzátéve: "Videót sokkal nehezebb létrehozni, mint fotókat, mert amellett, hogy minden képpontot helyesen generál, a rendszernek meg kell jósolnia, hogyan fognak változni az idő múlásával."

Make-A-Video: AI

A klipek legfeljebb öt másodpercig tartanak, és nem tartalmaznak hangot, de a nyomok széles skáláját fedik le. Bár nyilvánvaló, hogy a videót számítógéppel állítják elő, az ilyen mesterséges intelligencia modellek minősége gyorsan javulni fog a közeljövőben. Alig néhány év alatt az AI képgenerátorok a szinte érthetetlen képek készítésétől a fotorealisztikus tartalommá váltak. És bár a videó terén a fejlődés lassabb lehet a téma szinte korlátlan összetettsége miatt, a zökkenőmentes videókészítésért járó díj sok szervezetet és vállalatot arra ösztönöz, hogy jelentős erőforrásokat fektessen be a projektbe.

A cég azt állítja, hogy tervezi a rendszer demóverziójának kiadását, de nem közölte, hogy mikor és hogyan kerül bevezetésre. A modellt leíró cikkben a Meta kutatói megjegyzik, hogy a Make-A-Video kép-felirat párokra, valamint címkézetlen videofelvételekre van kiképezve.

A képzési tartalom két adatkészletből, a WebVid-10M-ből és a HD-VILA-100M-ből származott, amelyek együtt több millió videót tartalmaznak, és több százezer órányi videófelvételt ölelnek fel. Ebbe egyébként a stock felvételek is beletartoznak.

A kutatók megjegyzik, hogy a modellnek számos technikai korlátja van, az elmosódott képkockákon és a szétszórt animációkon kívül. A Make-A-Video 16 képkockát ad ki 64 × 64 pixeles felbontásban, amelyeket aztán egy külön mesterséges intelligencia modell segítségével 768 × 768 képpontra méreteznek át.

Segíthet Ukrajnának az orosz megszállók elleni küzdelemben. Ennek legjobb módja, ha adományokat adományoz az ukrán fegyveres erőknek ezen keresztül Savelife vagy a hivatalos oldalon keresztül NBU.

Szintén érdekes:

forrása perem

Regisztrálj

0 Hozzászólások

Beágyazott vélemények

Az összes megjegyzés megtekintése

Egyéb cikkek

A Meta a leírás alapján AI-t mutatott meg videók készítéséhez

Legutóbbi hozzászólások