Nie je to tak dávno, čo niektoré aplikácie dokázali oživiť fotografie pomocou pohybov podobných GIF. Tím výskumníkov v oblasti umelej inteligencie zo spoločnosti Microsoft Research Asia teraz vytvoril aplikáciu AI, ktorá dokáže premeniť statické obrázky ľudí a zvukové stopy na animáciu
Minulý týždeň výskumníci spoločnosti Microsoft podrobne opísali nový model umelej inteligencie, ktorý vyvinuli a ktorý dokáže zobrať statický obrázok tváre a zvukový záznam hovoriaceho človeka a automaticky vytvoriť realisticky vyzerajúce video hovoriaceho človeka. Videá, ktoré možno vytvoriť z fotorealistických tvárí, ako aj z karikatúr alebo umeleckých diel, sú doplnené o presvedčivú synchronizáciu pier a prirodzené pohyby tváre a hlavy.
Najnovšia aplikácia s názvom Vasa-1 je rámec na generovanie realistických hovoriacich tvárí virtuálnych postáv s vizuálnymi afektívnymi schopnosťami (VAS) z jedného statického obrázka a zvukového klipu s rečou. "Náš premiérový model VASA-1 dokáže nielen vytvárať pohyby pier, ktoré sú vynikajúco synchronizované so zvukom, ale aj zachytiť veľké spektrum nuáns tváre a prirodzených pohybov hlavy, ktoré prispievajú k vnímaniu autenticity a živosti," napísali výskumníci.
Spoločnosť Microsoft uviedla, že táto inovácia by sa mohla použiť na vzdelávacie účely alebo na "zlepšenie prístupnosti pre osoby s komunikačnými problémami", prípadne na vytvorenie virtuálnych spoločníkov pre ľudí. Technologický gigant však tiež uviedol, že si vie predstaviť, ako sa tento nástroj môže zneužiť a negatívne využiť na vydávanie sa za skutočných ľudí. Niektorí sa tiež obávajú, že táto technológia by mohla ešte viac narušiť kreatívne odvetvia od filmu až po reklamu.
Spoločnosť Microsoft zatiaľ uviedla, že neplánuje model VASA-1 okamžite sprístupniť verejnosti. "Sme proti akémukoľvek vytváraniu zavádzajúcich alebo škodlivých obsahov skutočných osôb," uviedli výskumníci spoločnosti Microsoft. Dodali však, že spoločnosť "neplánuje zverejniť" produkt, "kým si nebudeme istí, že technológia sa bude používať zodpovedne a v súlade s príslušnými predpismi".
Nový model umelej inteligencie spoločnosti Microsoft bol vycvičený na mnohých videách tvárí ľudí počas rozprávania a je navrhnutý tak, aby rozpoznával prirodzené pohyby tváre a hlavy vrátane "pohybu pier, výrazu tváre, pohľadu očí a žmurkania," uviedli výskumníci. Výsledkom je realistickejšie video, v ktorom VASA-1 animuje statickú fotografiu.
Výskumníci pracujúci na systéme VASA-1 sa pustili do ambicióznej úlohy oživiť statické obrázky, prinútiť ich hovoriť, spievať a vyjadrovať emócie v dokonalej synchronizácii s akoukoľvek zvukovou stopou. Výsledkom ich úsilia je systém, ktorý pomocou umelej inteligencie premieňa nehybné vizuály, či už ide o fotografie, kresby alebo maľby, na synchronizované animácie.
Pre používanie spravodajstva Netky.sk je potrebné povoliť cookies