Das AR/VR-Team von Facebook forscht an einer skalierbaren Lösung, die basierend auf Ohrfotos genaue HRTF generieren kann

2021-06-10 Der Artikel wird durch Software übersetzt

Facebook Reality Labs Research (FRLR) teilte zuvor die neuesten Entwicklungen in der immersiven Audioforschung mit und erklärte, dass die Forschung „direkt mit Facebooks Arbeit an AR-Brillen zusammenhängt“. Kurz gesagt, das Ziel des Teams ist es, verwandte Technologien auf AR-Headsets anzuwenden und es Ihnen zu ermöglichen, menschliche Stimmen in lauten Umgebungen einfach zu isolieren und gleichzeitig virtuelle Klänge so zu reproduzieren, dass sie so klingen, als kämen sie aus der realen Welt um sie herum. Eine angepasste kopfbezogene Transferfunktion (HRTF) ist der Schlüssel zu dieser Erfahrung, aber der damit verbundene Prozess ist zeitaufwändig und teuer.

Daher arbeitet das FRLR-Team an einer skalierbaren Lösung, die anhand von Ohrfotos genaue HRTF generieren kann.

Vor einigen Tagen hat das FRLR-Team ein weiteres Papier zu diesem Thema veröffentlicht. Aber werfen wir zunächst einen Blick darauf, warum die kopfbezogene Übertragungsfunktion AR/VR bedeutet.

1. Was ist die Header-bezogene Übertragungsfunktion?

Head Related Transfer Function (HRTF) wird verwendet, um den Übertragungsprozess von Schallwellen von der Schallquelle zu den Ohren zu beschreiben und ist ein Schalllokalisierungsalgorithmus. Wenn der Ton an uns übertragen wird, entspricht die HRTF dem Phasen- und Frequenzgang unseres Kopfes.

HRTF ist der Phasen- und Frequenzgang des Kopfes, wenn der Ton an uns übertragen wird. Die Veränderungen hängen von der Struktur von Kopf und Körper ab: Nase, Ohren, Mund, Stirn und Knochendichte; Schultern, Arme, Füße... Die von der Schallquelle emittierten Schallwellen werden von Kopf, Ohrmuschel, Rumpf usw. gestreut und erreichen dann die Ohren.Jedes Element, das die Schallwellen bei diesem Vorgang berühren, verändert den Klang, wodurch Frequenz und Phase der Schallwellen verändert werden anders.

Für all dies ist unser Gehirn ziemlich angepasst und in der Lage, die Richtung der Schallquelle zu verstehen. Mit diesem Mechanismus können wir bei geschlossenen Augen immer noch erkennen, woher der Ton in einer ruhigen Umgebung kommt.

Alles in allem können unsere Ohren als akustische Positionssensoren fungieren. Für die kopfbezogene Übertragungsfunktion HRTF beschreiben sie den Einfluss der menschlichen Anatomie auf den Schall von einem beliebigen Ort aus.

Die HRTF hängt von unserer akustischen Anatomie ab: den Ohren. Die Struktur des menschlichen Kopfes und Oberkörpers ist unterschiedlich, und die Form der Ohren ist gleich. Wenn die Ohren unterschiedlich sind, sind auch die Eigenschaften der Schallwellenstreuung unterschiedlich. Daher ist eine personalisierte HRTF sehr notwendig, um ein faszinierendes immersives Augmented-Reality/Virtual-Reality-System aufzubauen.

2. Probleme mit der vorherigen Methode

Grundsätzlich können wir die HRTF mit akustischen Methoden messen oder die HRTF durch numerische Simulation von hochauflösendem 3D-Scannen synthetisieren. Diese beiden Verfahren sind jedoch logisch und rechnerisch aufwendig und für eine große Anzahl von Benutzern nicht skalierbar, was für AR/VR-Anwendungen ein Hindernis darstellt. Darüber hinaus hat die Community in den letzten zehn Jahren viele Versuche unternommen, Methoden des maschinellen Lernens einzusetzen, um HRTF-Personalisierungssysteme abzuschätzen.

Im Allgemeinen verwendet das HRTF-Vorhersagemodell ohranthropometrische Merkmale oder Ohrbilder als Eingabe, wählt eine ungefähre HRTF aus einer Datenbank aus oder verwendet die Merkmale der Zielperson, um eine personalisierte HRTF zu synthetisieren.

Obwohl eine Vielzahl von Vorhersagemodellen entstanden ist, bleiben eine Reihe von inhärenten Problemen ungelöst. Erstens sind die Charakterisierungsfähigkeiten verschiedener Ohreingaben unklar. Die meisten früheren Verfahren verwenden eine ohrbezogene Eingabe und eine euklidische Verlustfunktion. Insbesondere basieren die Kernpunkte anthropometrischer Messungen in der Regel auf empirischer Auswahl und manueller Kennzeichnung, aber es gibt derzeit keine überzeugenden Beweise dafür, dass sie eine hohe Genauigkeit bei der Vorhersage der HRTF aufweisen.

Die 2D-Ohrbildvorhersage HRTF hat auch Einschränkungen. Farbbilder sind normalerweise durch den Betrachtungswinkel und die Selbstokklusion eingeschränkt. Eine kürzlich durchgeführte Studie hat gezeigt, dass einige Signale bei HRTF nicht aus menschlichen Merkmalen oder Ohrbildern extrahiert werden können.

Dann benötigen Machine-Learning-Modelle (insbesondere Deep Learning) viele Daten und die aktuelle HRTF-Datenbank ist möglicherweise zu klein.

3. Facebooks Lösung

Als Reaktion auf die oben genannten Probleme haben Forscher der Facebook Reality Labs kürzlich ein Papier mit dem Titel "On the Predictability of HRTFs from Ear Shapes Using Deep Networks" veröffentlicht, das hauptsächlich die Verwendung von tiefen Netzwerken zur Vorhersage von HRTF basierend auf Ohrformen diskutiert.

Das Hauptziel des Teams ist es, die Grenzen der ohrbezogenen Eingabedarstellungen in Bezug auf die Vorhersagbarkeit von HRTF zu untersuchen. Facebook Reality Labs verwendete einen größeren Datensatz, um ein tiefes neuronales Netzwerk (DNN) mit einer dreidimensionalen Punktwolkenohrdarstellung aufzubauen und zu bewerten, wodurch ein niedrigerer HRTF-Schätzfehler unter dieser hochinformativen (und teuren) Eingabegrenze ermittelt wurde.

Die Studie umfasste 645 Probanden und den Artec 3D-Scanner, der verwendet wurde, um 3D-Netze der Köpfe und des Oberkörpers der Probanden zu erhalten. Das Team führte umfangreiche Qualitätsprüfungen durch, um einen Gitterdarstellungsfehler von <1 mm zu gewährleisten, und verwendete die Finite-Differenz-Zeitdomäne (FDTD), um die HRIRs des linken und rechten Ohrs einer 1-Meter-Kugel mit einem dreidimensionalen Gitter zu simulieren.

Anschließend werden die Simulationsergebnisse durch Vergleich mit den akustischen Messergebnissen verifiziert. Jedes Gitter entspricht einem dreidimensionalen Tensor, dessen Größe entlang jeder Dimension gleich ist. Das Team verwendete drei verschiedene 3D-Tensorgrößen: 163, 323 und 643, die 5,6 mm, 2,8 mm bzw. 1,4 mm für jedes Voxel entsprechen. Die Ergebnisse zeigen, dass die Abtastgenauigkeit von etwa 4 mm ausreicht, um die spektrale Gesamtform der simulierten HRTF beizubehalten.

Die HRTF-Vorhersage ist ein Regressionsproblem. HRTF hat 360 Richtungen und 30 Frequenzschlitze, und die Eingabe ist ein 3D-Tensor. Facebook Reality Labs schlug zwei verschiedene DNN-Strukturen vor, um den 3D-Ohrtensor dem entsprechenden HRTF zuzuordnen: CNN-Reg und UNet-Reg. Beide Modelle ermöglichen eine richtungsübergreifende HRTF-Gelenkvorhersage und unterscheiden sich in Bezug auf den verborgenen Repräsentationsraum.

CNN Reg: Dieses Netzwerk besteht aus einer Reihe von Blöcken, wobei jeder Block eine Faltungsschicht, eine Stapelnormalisierung und eine nichtlineare ELU-Schicht enthält. Anstatt alle 30 Frequenzschlitze und 360 Richtungen gemeinsam vorherzusagen, trainiert das Team 30 unabhängige Netzwerke, eines für jeden Frequenzschlitz. Während die Größe des Netzwerks reduziert wurde, ermöglichte dies dem Team, die Auswirkungen von frequenzbezogenen Simulationsfehlern auf die Modellleistung zu untersuchen.

UNet-Reg: HRTFs sind kugelförmig, das heißt, sie können als dreidimensionales Volumen in alle Richtungen ausgedrückt werden. Als Alternative zu CNN Reg schlug das Team 3D UNet vor, das die 3D-Eingabe auf die 3D-Ausgabe abbildet. Ähnlich wie bei CNN Reg trainierte das Team auch ein UNet Reg. Da der HRTF-Wert im Gegensatz zum traditionellen UNet nur auf der Kugel existiert, gibt es keine direkte Voxel-zu-Voxel-Entsprechung zwischen Eingabe und Ausgabe. Daher definierte das Team im dreidimensionalen Ausgabetensor eine Kugel, wählte dann 360 Werte aus der Kugel aus und drückte die HRTF-Werte in 360 Richtungen entsprechend dem ausgewählten Azimut/Elevation aus. Dieses Design ermöglicht auch, die HRTF-Vorhersage auf ein dichteres räumliches Gitter zu erweitern, ohne den Rechenaufwand zu erhöhen. Das Team kann auch mehrere kleinere konzentrische Kugeln im 3D-Ausgabetensor definieren, um Nahfeld-HRTF-Vorhersagen einzubeziehen. Zweitens verkörpert die räumliche Abtastung in UNet die Hypothese, dass Ohr und HRTF gemeinsam als hyperparametrische versteckte Darstellung modelliert werden können. Dies bedeutet, dass die Informationen, die zwischen den Richtungen in UNet Reg und CNN Reg geteilt werden, unterschiedlich sein werden.

Experimente zeigen, dass das zur Vorhersage des Ohrtensors von HRTFs verwendete DNN-Modell die höchste Vorhersagegenauigkeit erreicht. Darüber hinaus kann durch die Verwendung eines ohrförmigen Eingabedisplays mit einer großen Informationsmenge eine untere Fehlergrenze erreicht werden. Natürlich gibt es beim aktuellen Modell noch Verbesserungspotential. Das Team erklärte, dass zukünftige Arbeiten die Verwendung von Wahrnehmungsverlustfunktionen und ein verbessertes Modelldesign umfassen.

Weitere Informationen zu den Forschungsmethoden und dem experimentellen Prozess der Arbeit finden Sie unter "On the Predictability of HRTFs from Ear Shapes Using Deep Networks".


from: news.nweon.com/86521

© 2020 www.ourvrworld.com