Die Facebook-Forschung entwickelt intelligente Systeme für AR/VR, die Fragen zu visuellen Informationen klären und beantworten können

2021-11-01 Der Artikel wird durch Software übersetzt

Visual Question Answering (VQA) zielt darauf ab, intelligente Systeme zu entwickeln, die in der Lage sind, Fragen zu visuellen Informationen zu argumentieren und zu beantworten. Um dieses Problem zu untersuchen, konzentrierten sich frühe Datensätze auf Bilder als visuellen Input. In letzter Zeit wurden in der Branche zahlreiche QA-Benchmarks vorgeschlagen, um visuelle Informationen von Bildern auf die Videodomäne auszudehnen. Während das Bild-QA-Benchmark-Problem ein System erfordert, um modalübergreifende Interaktionen zu lernen, ist das Video-QA-Benchmark-Problem nicht auf das Erfassen visueller Informationen mit zeitlicher Variation beschränkt. Als orthogonale Erweiterung des VQA-Problems besteht eine weitere Forschungsrichtung darin, Bild/Video-VQA in einem Dialogsetting zu untersuchen.

Bei diesem Problem werden Fragen zu einem bestimmten Video oder Bild über mehrere Dialogrunden gestellt. In jeder Dialogrunde weist eine Frage typischerweise verschiedene Arten von Kreuzwechselbeziehungen mit anderen Fragen in vorherigen Dialogrunden auf, wie z. B. Objektkoreferenz und Themenausrichtung. In der Studie mit dem Titel „DVD: A Diagnostic Dataset for Multi-step Reasoning in Video Grounded Dialogue“ untersuchte ein Team von Facebook und der Singapore Management University mehrere Runden visueller Fragebeantwortung.



from: news.nweon.com/91102

© 2020 www.ourvrworld.com