Naslovnica SCI-TECH Kineska generativna video utrka se zahuktava

Kineska generativna video utrka se zahuktava

170
0

U ponedjeljak je Tencent, kineski internetski div poznat po svom carstvu videoigara i aplikaciji za chat WeChat, predstavio novu verziju svog modela za generiranje videa otvorenog koda DynamiCrafter na GitHubu. To je podsjetnik da su neke od najvećih kineskih tehnoloških tvrtki tiho pojačale napore kako bi napravile trag u prostoru teksta i slike u video.

Kao i drugi generativni video alati na tržištu, DynamiCrafter koristi metodu difuzije za pretvaranje opisa i fotografija u video zapise koji traju nekoliko sekundi. Inspirirani prirodnim fenomenom difuzije u fizici, modeli difuzije u strojnom učenju mogu transformirati jednostavne podatke u složenije i realističnije podatke, slično kao što se čestice kreću iz jednog područja visoke koncentracije u drugo područja niske koncentracije.

Druga generacija DynamiCraftera izbacuje videozapise u rezoluciji piksela od 640×1024, što je nadogradnja u odnosu na prvotno izdanje u listopadu koje je sadržavalo 320×512 videozapise. Akademski rad koji je objavio tim koji stoji iza DynamiCraftera navodi da se njegova tehnologija razlikuje od konkurentskih po tome što proširuje primjenjivost tehnika slikovne animacije na “općenitiji vizualni sadržaj”.

“Ključna ideja je iskoristiti kretanje prije modela difuzije teksta u video uključivanjem slike u generativni proces kao smjernice”, kaže se u radu. “Tradicionalne” tehnike, za usporedbu, “uglavnom se fokusiraju na animiranje prirodnih scena sa stohastičkom dinamikom (npr. oblaci i tekućina) ili pokretima specifičnim za domenu (npr. pokreti ljudske kose ili tijela).”

U demonstraciji (pogledajte dolje) koja uspoređuje DynamiCrafter, Stable Video Diffusion (lansiran u studenom) i nedavno nabrijani Pika Labs, rezultat modela Tencent izgleda malo animiranije od ostalih. Neizbježno, odabrani uzorci favorizirali bi DynamiCrafter, a niti jedan od modela, nakon mojih prvih nekoliko pokušaja, ne ostavlja dojam da će AI uskoro moći proizvoditi pune filmove.

Unatoč tome, generativnim se videozapisima polažu velike nade kao sljedećoj središnjoj točki u utrci umjetne inteligencije nakon procvata generativnog teksta i slika. Stoga se očekuje da startupi i tehnološka poduzeća ulažu resurse u to područje. To nije iznimka u Kini. Osim Tencenta, TikTokov roditelj ByteDance, Baidu i Alibaba objavili su svaki svoje modele video difuzije.

I ByteDanceov MagicVideo i Baiduov UniVG objavili su demonstracije na GitHubu, iako se čini da nijedan još nije dostupan javnosti. Poput Tencenta, Alibaba je svoj model video generacije VGen napravio open source, strategijom koja je sve popularnija među kineskim tehnološkim tvrtkama koje se nadaju da će dosegnuti globalnu zajednicu programera.


Izvor-techcrunch.com


Pratite nas na Facebook-u | Twitter-u | YouTube-u


Dio Vijesti.TV medije.

WPAP (190)