Neurónová Sieť Sa Naučila „animovať“portréty Založené Iba Na Jednom Statickom Obrázku - Alternatívny Pohľad

Neurónová Sieť Sa Naučila „animovať“portréty Založené Iba Na Jednom Statickom Obrázku - Alternatívny Pohľad
Neurónová Sieť Sa Naučila „animovať“portréty Založené Iba Na Jednom Statickom Obrázku - Alternatívny Pohľad

Video: Neurónová Sieť Sa Naučila „animovať“portréty Založené Iba Na Jednom Statickom Obrázku - Alternatívny Pohľad

Video: Neurónová Sieť Sa Naučila „animovať“portréty Založené Iba Na Jednom Statickom Obrázku - Alternatívny Pohľad
Video: Umelá inteligencia sa naučila hrať hry lepšie ako človek 2024, Smieť
Anonim

Ruskí špecialisti z Centra umelej inteligencie Samsung AI Center-Moscow v spolupráci s inžiniermi z Skolkovo Institute of Science and Technology vyvinuli systém schopný vytvárať realistické animované obrazy ľudských tváre na základe niekoľkých statických ľudských snímok. V tomto prípade sa zvyčajne vyžaduje použitie rozsiahlych databáz obrazov, avšak v príklade predstavenom vývojármi bol systém vyškolený na vytvorenie animovaného obrazu ľudskej tváre iba z ôsmich statických rámcov a v niektorých prípadoch stačil jeden. Viac informácií o vývoji nájdete v článku uverejnenom v online úložisku ArXiv.org.

Image
Image

Spravidla je pomerne ťažké reprodukovať fotorealistický personalizovaný modul ľudskej tváre kvôli vysokej fotometrickej, geometrickej a kinematickej zložitosti reprodukcie ľudskej hlavy. Vysvetľuje to nielen zložitosť modelovania tváre ako celku (na tento účel existuje veľké množstvo prístupov k modelovaniu), ale aj zložitosť modelovania určitých funkcií: ústnej dutiny, vlasov atď. Druhým komplikujúcim faktorom je naša tendencia zachytiť aj malé nedostatky v hotovom modeli ľudských hláv. Táto nízka tolerancia pre chyby modelovania vysvetľuje súčasnú prevalenciu ne fotorealistických avatarov používaných v telekonferenciách.

Podľa autorov je systém, prezývaný Fewshot učenie, schopný vytvárať vysoko realistické modely hovoriacich hláv ľudí a dokonca aj portrétnych obrazov. Algoritmy syntetizujú obraz hlavy tej istej osoby s čiarami referencie tváre odobratými z iného fragmentu videa alebo pomocou referenčných bodov tváre inej osoby. Ako zdroj materiálu na školenie systému vývojári použili rozsiahlu databázu videozáznamov celebrít. Aby sa dosiahla čo najpresnejšia hovoriaca hlava, systém musí používať viac ako 32 obrázkov.

Na vytvorenie realistickejších animovaných obrazov tváre vývojári použili predchádzajúci vývoj v generatívnom kontradiktórnom modelovaní (GAN, kde neurónová sieť premýšľa o detailoch obrázka, v skutočnosti sa stáva umelcom), ako aj o meta-learningový prístup, kde je každý prvok systému trénovaný a navrhnutý tak, aby vyriešil niektoré špecifická úloha.

Meta-learningová schéma
Meta-learningová schéma

Meta-learningová schéma.

Image
Image
Image
Image

Propagačné video:

Na spracovanie statických obrazov hláv ľudí a ich premeny na animované sa použili tri neurónové siete: Embedder (implementačná sieť), Generátor (generačná sieť) a Diskriminátor (sieť diskriminátorov). Prvé rozdelia hlavové obrazy (s približnými tvárovými orientačnými bodmi) na vkladacie vektory, ktoré obsahujú informácie nezávislé od postoja, druhá sieť využíva orientačné body tváre získané vkladajúcou sieťou a na základe nich generuje nové údaje prostredníctvom súboru konvolučných vrstiev, ktoré poskytujú odolnosť proti zmenám v mierke, posunom, zákruty, zmena uhla a iné skreslenia pôvodného obrázka tváre. Diskriminátor siete sa používa na hodnotenie kvality a pravosti ďalších dvoch sietí. Výsledkom je, že systém transformuje orientačné body tváre osoby na realisticky vyzerajúce personalizované fotografie.

Image
Image
Image
Image

Vývojári zdôrazňujú, že ich systém je schopný inicializovať parametre generátorovej aj diskriminačnej siete jednotlivo pre každú osobu na obrázku, takže proces učenia sa môže zakladať iba na niekoľkých obrázkoch, čo zvyšuje jeho rýchlosť napriek potrebe vybrať desiatky miliónov parametrov.

Nikolay Khizhnyak