La recherche Facebook développe des systèmes intelligents pour AR/VR qui peuvent raisonner et répondre aux questions sur les informations visuelles

2021-11-01 Cet article est traduit par un logiciel

Le Visual Question Answering (VQA) vise à développer des systèmes intelligents capables de raisonner et de répondre à des questions sur des informations visuelles. Pour étudier ce problème, les premiers ensembles de données se sont concentrés sur les images en tant qu'entrée visuelle. Récemment, de nombreux benchmarks QA ont été proposés dans l'industrie pour étendre les informations visuelles des images au domaine vidéo. Alors que le problème de référence QA image nécessite un système pour apprendre les interactions intermodales, le problème de référence QA vidéo ne se limite pas à la capture d'informations visuelles avec une variation temporelle. En tant qu'extension orthogonale du problème VQA, une autre direction de recherche consiste à étudier la VQA image/vidéo dans un contexte de dialogue.

Dans ce problème, les questions sur une vidéo ou une image donnée sont positionnées sur plusieurs tours de dialogue. Dans chaque tour de dialogue, une question présente généralement différents types de relations croisées avec d'autres questions dans les tours de dialogue précédents, telles que la co-référence d'objet et l'alignement de sujet. Dans l'étude, intitulée "DVD : A Diagnostic Dataset for Multi-step Reasoning in Video Grounded Dialogue", une équipe de Facebook et de l'Université de gestion de Singapour a examiné plusieurs séries de réponses visuelles aux questions.


from: news.nweon.com/91102

© 2020 www.ourvrworld.com