Facebook SimPoE utilise une caméra monoculaire pour obtenir une nouvelle précision d'estimation de la pose humaine

2021-04-21 Cet article est traduit par un logiciel

L'estimation précise du mouvement humain 3D à partir de la vidéo monoculaire nécessite la modélisation de la cinématique (mouvement sans force physique) et de la dynamique (mouvement avec force physique).

Afin d'améliorer la rationalité physique de l'estimation du mouvement humain dans les vidéos, des études récentes ont commencé à utiliser la dynamique dans la formule. Cette méthode estime d'abord le mouvement, puis utilise la méthode d'optimisation de trajectoire basée sur la physique pour optimiser la force qui induit le mouvement. La méthode basée sur l'optimisation des trajectoires présente certaines lacunes. Premièrement, l'optimisation de trajectoire doit résoudre un problème d'optimisation très complexe lors des tests. Cela peut être gourmand en calculs et nécessite un traitement par lots des fenêtres temporelles ou même de la séquence de mouvement entière, ce qui entraîne une latence élevée pour la prédiction de pose et ne convient pas aux applications interactives en temps réel.

Deuxièmement, l'optimisation de trajectoire nécessite un modèle physique simple et différentiable, ce qui peut conduire à de grandes erreurs d'approximation. Enfin, l'application de la physique à la méthode basée sur l'optimisation de trajectoire se fait comme une étape de post-traitement, qui projette un mouvement donné sur un mouvement physiquement raisonnable. Puisqu'il est basé sur l'optimisation, il n'y a pas de mécanisme d'apprentissage qui tente de faire correspondre le mouvement optimisé avec la vérité terrain. Par conséquent, le mouvement généré par l'optimisation de la trajectoire peut être physiquement raisonnable, mais il est loin de la vérité au sol, en particulier lorsque le mouvement d'entrée n'est pas précis.

En réponse aux limitations ci-dessus, des chercheurs de Facebook et de l'Université Carnegie Mellon ont proposé une nouvelle méthode: SimPoE (Simulated Character Control for Human Pose Estimation; Simulated Feature Control for Human Pose Estimation) .

S imPoE étroitement intégré le raisonnement basé sur l'image et la modélisation cinématique basée sur la physique de la dynamique d'un cadre d'étude conjoint. Contrairement à l'optimisation de trajectoire, SimPoE est un modèle temporel causal avec un simulateur physique intégré.

Plus précisément, SimPoE apprend la stratégie consistant à prendre la pose actuelle et l'image suivante de l'image en entrée, et génère des commandes pour le rôle d'agent dans le simulateur. Parmi eux, la commande produit l'estimation de pose de l'image suivante. Afin d'effectuer une inférence cinématique, la stratégie comprend une unité de raffinement de pose cinématique apprenable, qui utilise des preuves d'image (points clés 2D) pour affiner de manière itérative l'estimation de la pose cinématique. L'unité de raffinement prend le gradient de perte de reprojection du point clé comme entrée, code la posture et les informations géométriques du point clé, puis sort la mise à jour de la posture de mouvement.

Sur la base de cette posture cinématique améliorée, la stratégie calcule ensuite les actions de contrôle du personnage, telles que l'angle d'articulation cible du contrôleur d'entraînement proportionnel (PD) du personnage, afin de faire avancer l'état du personnage et d'obtenir la trame suivante d'estimation de la posture. La conception de la stratégie combine l'unité de raffinement d'attitude cinématique avec l'unité de génération de commande basée sur la dynamique, et coopère avec l'apprentissage par renforcement (RL) pour garantir la précision et la rationalité physique de l'estimation d'attitude. À chaque pas de temps, les récompenses sont attribuées en fonction de la similitude entre le mouvement estimé et la vérité terrain.

Afin d'améliorer encore la précision de l'estimation d'attitude, SimPoE introduit également un nouveau mécanisme de contrôle de méta-PD-contrôle. Le contrôleur PD est largement utilisé dans les recherches précédentes, et il sert principalement à transformer les actions générées par la stratégie en moments conjoints des personnages de contrôle. Cependant, les paramètres du contrôleur PD ont généralement des valeurs fixes qui nécessitent un ajustement manuel, ce qui peut produire des résultats sous-optimaux. Au contraire, dans le méta-contrôle PD, la stratégie SimPoE est formée pour ajuster dynamiquement les paramètres du contrôleur PD dans l'étape de simulation en fonction de l'état du personnage, afin d'obtenir un contrôle plus fin du mouvement du personnage.

Les chercheurs ont validé SimPoE sur deux grands ensembles de données et un ensemble de données de mouvement humain interne contenant des détails sur les mouvements des doigts. L'équipe a comparé SimPoE et les méthodes d'estimation de pose humaine 3D monoculaires les plus avancées, y compris des méthodes basées sur la cinématique et la physique. Sur ces deux ensembles de données, SimPoE surpasse les études précédentes en termes de mesures basées sur la posture et la physique. De plus, par rapport aux précédentes méthodes basées sur la physique, la précision de pose de SimPoe est considérablement améliorée.

Papier associé: SimPoE: contrôle de caractères simulé pour l'estimation 3D de la pose humaine

L'équipe présentera le document intitulé «SimPoE: Simulated Character Control for 3D Human Pose Estimation» lors de la conférence Computer Vision and Pattern Recognition en juin.


from: news.nweon.com/84980

© 2020 www.ourvrworld.com