V nedávném panelovém rozhovoru s Colliderem Joe Russo, režisér stěžejních filmů od Marvelu, jako je „Avengers: Endgame“, předpověděl, že do dvou let bude umělá inteligence schopna vytvořit plnohodnotný film. Řekl bych, že je to docela optimistický časový plán. Ale už se blížíme.
Tento týden Runway, start AI podporovaný Googlem, který pomohl vyvinout generátor obrázků AI Stable Diffusion, vydal Gen-2, model, který generuje videa z textových výzev nebo existujícího obrázku. (Gen-2 měl dříve omezený přístup na čekací listině.) Gen-2, který následuje po modelu Gen-1 společnosti Runway uvedeného v únoru, je jedním z prvních komerčně dostupných modelů pro převod textu na video.
„Obchodně dostupné“ je důležitý rozdíl. Převod textu na video, který je logickou další hranicí generativní umělé inteligence po obrázcích a textu, se stává stále větší oblastí zájmu zejména mezi technologickými giganty, z nichž několik v uplynulém roce předvádělo modely převodu textu na video. Tyto modely však zůstávají pevně ve stádiu výzkumu a nejsou přístupné všem kromě několika vybraných datových vědců a inženýrů.
Samozřejmě, první nemusí být nutně lepší.
Z osobní zvědavosti a služby vám, drazí čtenáři, jsem prošel několik podnětů Gen-2, abych získal představu o tom, co model může – a co nemůže – dosáhnout. (Runway v současné době poskytuje asi 100 sekund bezplatného generování videa.) K mému šílenství nebylo mnoho metod, ale snažil jsem se zachytit řadu úhlů, žánrů a stylů, které by režisér, profesionál nebo křeslo, rád viděl. na stříbrném plátně – nebo případně notebooku.
Jedním z omezení Gen-2, které se okamžitě projevilo, je snímková frekvence čtyřsekundových videí, která model generuje. Je docela nízká a znatelně až do bodu, kdy to místy skoro připomíná slideshow.
Poděkování za obrázky: Přistávací dráha
Není jasné, zda jde o problém s technologií, nebo o pokus Runway ušetřit na výpočtech. V každém případě to dělá z Gen-2 poněkud neatraktivní nabídku pro editory, kteří doufají, že se vyhnou postprodukční práci.
Kromě problému s snímkovou frekvencí jsem zjistil, že klipy generované Gen-2 mají tendenci sdílet určitou zrnitost nebo neostrost, jako by na ně byl použit nějaký starý filtr Instagramu. Jiné artefakty se vyskytují také v místech, jako je pixelace kolem objektů, když je „kamera“ (pro nedostatek lepšího slova) krouží nebo se k nim rychle přibližuje.
Stejně jako u mnoha generativních modelů není ani Gen-2 zvlášť konzistentní s ohledem na fyziku nebo anatomii. Jako něco, co vykouzlil surrealista, se ruce a nohy lidí ve videích vytvořených Gen-2 prolínají a zase rozpadají, zatímco předměty tají do podlahy a mizí, jejich odrazy jsou zdeformované a deformované. A – v závislosti na výzvě – obličeje mohou vypadat jako panenky, s lesklýma očima bez emocí a pastovitou kůží, která evokuje levný plast.
Poděkování za obrázky: Přistávací dráha
Chcete-li se nahromadit výše, je tu problém s obsahem. Zdá se, že Gen-2 má těžké pochopení nuancí, lpí na konkrétních deskriptorech ve výzvách a ignoruje ostatní, zdánlivě náhodně.
Poděkování za obrázky: Přistávací dráha
Jeden z podnětů, které jsem zkoušel – „Video podvodní utopie natočené na starou kameru ve stylu „found footage“ filmu“ – žádnou takovou utopii nepřinesl, jen to, co vypadalo jako ponor z pohledu první osoby. anonymní korálový útes. Gen-2 se také potýkal s mými dalšími výzvami, protože nedokázal vygenerovat přibližovací snímek pro výzvu specificky vyžadující „pomalé přiblížení“ a ne zcela trefil vzhled vašeho průměrného astronauta.
Mohly by problémy spočívat v sadě tréninkových dat Gen-2? Možná.
Gen-2, stejně jako Stable Diffusion, je difúzní model, což znamená, že se učí, jak postupně odečítat šum od počátečního obrazu tvořeného výhradně šumem, aby se krok za krokem posunul blíž k výzvě. Difúzní modely se učí prostřednictvím školení na milionech až miliardách příkladů; v akademickém dokumentu popisujícím architekturu Gen-2 Runway říká, že model byl trénován na interním datovém souboru 240 milionů obrázků a 6,4 milionu videoklipů.
Rozmanitost v příkladech je klíčová. Pokud soubor dat neobsahuje mnoho záběrů, řekněme, animace, model – postrádající referenční body – nebude schopen generovat animace přiměřené kvality. (Samozřejmě, že animace je široké pole, i když soubor dat dělal mít klipy anime nebo ručně kreslené animace, model by to nutně nemusel dobře zobecňovat Všechno typy animací).
Poděkování za obrázky: Přistávací dráha
Pozitivní je, že Gen-2 projde testem zkreslení na úrovni povrchu. Zatímco bylo zjištěno, že generativní modely umělé inteligence, jako je DALL-E 2, posilují společenské předsudky, generují obrazy pozic autorit – jako „CEO nebo „ředitel“ – které zobrazují převážně bílé muže, Gen-2 byl obsahově nejrozmanitější. vygenerovalo to – alespoň při mém testování.
Poděkování za obrázky: Přistávací dráha
Na základě výzvy „Video generálního ředitele vcházejícího do konferenční místnosti“ vytvořil Gen-2 video mužů a žen (i když více mužů než žen) sedících kolem něčeho jako konferenčního stolu. Výstup pro výzvu „Video lékaře pracujícího v kanceláři“ mezitím zobrazuje za stolem lékařku nejasného asijského vzhledu.
Výsledky pro jakoukoli výzvu obsahující slovo „sestra“ však byly méně slibné a neustále ukazovaly mladé bílé ženy. Totéž pro frázi „osoba čekající na stoly“. Evidentně je na čem pracovat.
Z toho všeho pro mě plyne, že Gen-2 je spíše novinkou nebo hračkou než skutečně užitečným nástrojem v jakémkoli pracovním postupu s videem. Daly by se výstupy upravit do něčeho koherentnějšího? Možná. Ale v závislosti na videu by to vyžadovalo potenciálně více práce než natáčení záznamu.
Tak to nemá být také odmítavý tech. Je působivé, co zde Runway dokázala a efektivně porazila technologické giganty v přeměně textu na video. A jsem si jistý, že někteří uživatelé najdou využití pro Gen-2, které nevyžadují fotorealismus – nebo velkou přizpůsobitelnost. (Generální ředitel Runway Cristóbal Valenzuela nedávno řekl Bloombergu, že vidí Gen-2 jako způsob, jak nabídnout umělcům a designérům nástroj, který jim může pomoci s jejich tvůrčími procesy.)
Poděkování za obrázky: Přistávací dráha
Udělal jsem to sám. Gen-2 skutečně dokáže porozumět řadě stylů, jako je anime a claymation, které se hodí k nižší snímkové rychlosti. S trochou šťouchání a úpravy by nebylo nemožné spojit několik klipů a vytvořit tak příběh.
Aby se vás potenciál pro deepfakes netýkal, Runway říká, že používá kombinaci umělé inteligence a lidské moderování, aby uživatelům zabránil ve vytváření videí, která obsahují pornografii nebo násilný obsah nebo která porušují autorská práva. Mohu potvrdit, že existuje filtr obsahu – ve skutečnosti příliš horlivý. Ale samozřejmě to nejsou spolehlivé metody, takže budeme muset vidět, jak dobře fungují v praxi.
Poděkování za obrázky: Přistávací dráha
Ale alespoň zatím mohou být filmaři, animátoři a CGI umělci a etici v klidu. Bude to trvat alespoň několik iterací, než se technologie Runway přiblíží k generování záběrů ve filmové kvalitě – za předpokladu, že se tam někdy dostane.