Het Neurale Netwerk Werd Geleerd Portretten Te "animeren" Op Basis Van Slechts één Statische Afbeelding - Alternatieve Mening

Het Neurale Netwerk Werd Geleerd Portretten Te "animeren" Op Basis Van Slechts één Statische Afbeelding - Alternatieve Mening
Het Neurale Netwerk Werd Geleerd Portretten Te "animeren" Op Basis Van Slechts één Statische Afbeelding - Alternatieve Mening

Video: Het Neurale Netwerk Werd Geleerd Portretten Te "animeren" Op Basis Van Slechts één Statische Afbeelding - Alternatieve Mening

Video: Het Neurale Netwerk Werd Geleerd Portretten Te
Video: Deze AI heeft geleerd om humanoïden te animeren 2024, Mei
Anonim

Russische specialisten van het Samsung AI Center-Moscow Center for Artificial Intelligence hebben in samenwerking met ingenieurs van het Skolkovo Institute of Science and Technology een systeem ontwikkeld dat in staat is om realistische geanimeerde afbeeldingen van menselijke gezichten te maken op basis van slechts een paar statische menselijke frames. Gewoonlijk is in dit geval het gebruik van grote databases met afbeeldingen vereist, maar in het door de ontwikkelaars gepresenteerde voorbeeld is het systeem getraind om een geanimeerde afbeelding van een menselijk gezicht te maken uit slechts acht statische frames, en in sommige gevallen was één voldoende. Zie voor meer informatie over ontwikkeling een artikel dat is gepubliceerd in de online repository van ArXiv.org.

Image
Image

In de regel is het nogal moeilijk om een fotorealistische gepersonaliseerde module van een menselijk gezicht te reproduceren vanwege de hoge fotometrische, geometrische en kinematische complexiteit van het reproduceren van het menselijk hoofd. Dit wordt niet alleen verklaard door de complexiteit van het modelleren van het gezicht als geheel (hiervoor zijn er een groot aantal benaderingen voor modellering), maar ook door de complexiteit van het modelleren van bepaalde kenmerken: de mondholte, haar, enzovoort. De tweede complicerende factor is onze neiging om zelfs kleine tekortkomingen in het voltooide model van menselijke hoofden op te vangen. Deze lage tolerantie voor modelleringsfouten verklaart de huidige prevalentie van niet-fotorealistische avatars die worden gebruikt bij teleconferenties.

Volgens de auteurs is het systeem, Fewshot learning genaamd, in staat zeer realistische modellen te creëren van pratende hoofden van mensen en zelfs portretschilderijen. De algoritmen synthetiseren het beeld van het hoofd van dezelfde persoon met de lijnen van de gezichtsreferentie uit een ander fragment van de video, of gebruiken de referentiepunten van het gezicht van een andere persoon. Als bron van materiaal voor het trainen van het systeem gebruikten de ontwikkelaars een uitgebreide database met videobeelden van beroemdheden. Om een zo nauwkeurig mogelijke sprekende kop te krijgen, heeft het systeem meer dan 32 afbeeldingen nodig.

Om realistischere geanimeerde gezichtsafbeeldingen te maken, gebruikten de ontwikkelaars eerdere ontwikkelingen in generatieve vijandige modellering (GAN, waar een neuraal netwerk de details van een afbeelding bedenkt, in feite een kunstenaar worden), evenals een machine-meta-leerbenadering, waarbij elk element van het systeem wordt getraind en ontworpen om een aantal specifieke taak.

Meta-learning schema
Meta-learning schema

Meta-learning schema.

Image
Image
Image
Image

Promotie video:

Drie neurale netwerken werden gebruikt om statische beelden van de hoofden van mensen te verwerken en deze om te zetten in geanimeerde afbeeldingen: Embedder (implementatienetwerk), Generator (generatienetwerk) en Discriminator (discriminatornetwerk). De eerste verdeelt de hoofdbeelden (met benaderende gezichtsoriëntatiepunten) in inbeddingsvectoren, die informatie bevatten die onafhankelijk is van de pose, het tweede netwerk gebruikt de gezichtsoriëntatiepunten die zijn verkregen door het inbeddingsnetwerk en genereert op basis daarvan nieuwe gegevens via een reeks convolutionele lagen die weerstand bieden tegen schaalveranderingen, verplaatsingen, bochten, verandering van hoek en andere vervormingen van het originele gezichtsbeeld. Een netwerkdiscriminator wordt gebruikt om de kwaliteit en authenticiteit van de andere twee netwerken te beoordelen. Als gevolg hiervan transformeert het systeem oriëntatiepunten van het gezicht van een persoon in realistisch ogende gepersonaliseerde foto's.

Image
Image
Image
Image

De ontwikkelaars benadrukken dat hun systeem in staat is om de parameters van zowel het generatornetwerk als het discriminatornetwerk voor elke persoon op de foto afzonderlijk te initialiseren, zodat het leerproces kan worden gebaseerd op slechts een paar afbeeldingen, wat de snelheid verhoogt, ondanks de noodzaak om tientallen miljoenen parameters te selecteren.

Nikolay Khizhnyak

Aanbevolen: