Facebook untersucht den Aufbau hochwertiger, geometrisch aussehender Ganzkörper-Avatarmodelle für AR/VR

2021-08-04 Der Artikel wird durch Software übersetzt

Für das Papier mit dem Titel "Driving-Signal Aware Full-Body Avatars" ist es das Ziel von Facebook Reality Labs, hochwertige geometrische und Erscheinungsbild Ganzkörpermodelle zu erstellen, die von kommerziellen Sensoren gesteuert werden können. Die Konstruktion ausdrucksstarker und animierter virtueller Avatare ist ein heißes Thema in der grafischen Industrie. Digitale Doppelgänger sind in der Spezialeffektbranche verwurzelt, und in den letzten Jahren haben wir begonnen, Beispiele für Echtzeitanwendungen wie Siren von Epic Games und DigiDoug von Digital Domain zu sehen.

Das Modell erfordert normalerweise ein komplexes Erfassungssystem für mehrere Ansichten, um es aufzubauen. Dieses Modell beruht auf fragilen, handgemachten Annahmen, um die Verallgemeinerung unsichtbarer Gesten zu fördern, während die allgemeinen Sensoranforderungen für Animationen immer noch sehr wichtig sind. Da dieses Modell unabhängig vom Erlernen der Sensorkonfiguration des Fahrmodells ist, haben sie eine begrenzte Fähigkeit, die vom Sensor beobachtete Körperhaltung genau anzupassen.


Fahrsignalbewusste Ganzkörper-Avatare

Eine Möglichkeit, das Antriebssignal besser in den Modellbildungsprozess zu integrieren, besteht darin, sowohl Modellierungssensoren als auch Animationssensoren für die Erfassung zu verwenden. In diesem Fall kann ein Modell gelernt werden, die vollständige Form und das Aussehen direkt aus dem vom Animationssensor erfassten Fahrsignal zurückzugeben.

Obwohl dieser Ansatz die verfügbaren Arten von Antriebssignalen stark einschränkt, glaubt das Team, dass es in dieser Situation grundlegendere Probleme gibt. Die Informationsasymmetrie zwischen dem Modellierungssensor und dem Animationssensor führt zum Eins-zu-Viele-Mapping-Problem, bei dem auch mehrere Kombinationen von Modellzuständen die Messergebnisse erklären können. Beispielsweise enthalten Antriebssignale basierend auf Körpergelenkwinkeln keine vollständigen Informationen über Kleidungsfalten und Muskelkontraktionen.

Ebenso kodieren Gesichts-Keypoints normalerweise keine Haar-, Blick- oder Zungenbewegungen. Wenn diese fehlenden Informationen nicht speziell berücksichtigt werden, ist das trainierte Modell daher nicht für das Massenauftritt geeignet. Einige existierende Studien lösen das Problem der Informationsasymmetrie durch die Verwendung von Zeitmodellen und kontradiktorischem Training. Die Verfahren spezifizieren jedoch häufig spezifische Interpolationsstrategien, die für bestimmte Anwendungen nicht geeignet sind. Darüber hinaus arbeiten sie, nachdem das Modell trainiert wurde, was es schwierig macht, das mögliche Über- oder Unteranpassungsverhalten im Modell zu überwinden.

Die Forschung des Teams in der Arbeit zielt darauf ab, das Problem des Erlernens des digitalen Ganzkörper-Avatar-Modells zu lösen: Getreu dem treibenden Signal unzureichender Informationen und gleichzeitig Bereitstellung eines angemessen konfigurierten expliziten datengesteuerten Raums für fehlende Informationen. Daher schlugen die Forscher ein Variationsmodell vor, das zwei Arten von Änderungsfaktoren klar erfasst: Beobachtungsfaktoren, die während der Animation zuverlässig aus dem Fahrsignal geschätzt werden können, und fehlende Faktoren, die nur in der Modellierungsphase verfügbar sind.

Die Kernstrategie besteht darin, eine bessere Generalisierung zu fördern, indem die Korrelation zwischen Beobachtungsfaktoren minimiert und gleichzeitig die Korrelation fehlender Faktoren maximiert wird, damit das Modell ein vernünftiges/echtes Erscheinungsbild und eine Form erzeugen kann, die während des Animationsprozesses vollständig mit dem treibenden Signal übereinstimmt. Aufbau.

Den ersten Punkt erreichen die Forscher, indem sie eine Darstellung der räumlichen Variation des Antriebssignals konstruieren. Für den zweiten Punkt führte das Team einen versteckten Raum ein, der von den beobachteten Faktoren getrennt ist, wodurch es gezwungen wurde, nur die fehlenden Faktoren zu erfassen, die für die Rekonstruktion der Daten erforderlich sind. Das Team verwendete grobe Modelle der Gliedmaßenbewegungen und Umgebungsokklusionskarten, um Selbstschattierung ohne Überanpassung zu simulieren. Das erzeugte Modell kann einen vernünftigen Animationsraum erzeugen, der mit den im Fahrsignal enthaltenen Informationen übereinstimmt. Aufgrund der klaren Trennung zwischen beobachteten und fehlenden Faktoren steht es der Methode frei, die für die jeweilige Anwendung am besten geeignete Imputationstechnik zu wählen.

Das Team hat seine Wirksamkeit mit einer besonders einfachen Methode bewiesen: Die Zuordnung des Mittelwerts zum fehlenden Faktor aller Frames in der Sequenz erzeugt eine überzeugende Animation und vermeidet eine bei anderen Methoden beobachtete Über- oder Unteranpassung.

Im Allgemeinen umfassen die Hauptbeiträge dieses Papiers:

1. Eine Darstellung des Ganzkörpermodells. Das Modell kann verschiedene sinnvolle Konfigurationsräume erzeugen, die mit den im Antriebssignal enthaltenen Informationen übereinstimmen.

2. Erzielen Sie eine hervorragende Generalisierung neuer Eingaben und erstellen Sie gleichzeitig hochwertige Rekonstruktionen.

3. Demonstrierte die Praktikabilität dieser Methode in zwei Szenarien, in denen Fahrsignalinformationen fehlen.

Weitere Forschungsanweisungen und experimentelle Statistiken zum Papier finden Sie unter "Driving-Signal Aware Full-Body Avatars".


from: news.nweon.com/88122

© 2020 www.ourvrworld.com