Facebookの調査では、視覚情報に関する質問を推論して回答できるAR/VR用のインテリジェントシステムを開発しています

2021-11-01 ソフトウェア翻訳論文

Visual Question Answering(VQA)は、視覚情報に関する質問を推論して回答できるインテリジェントシステムの開発を目的としています。この問題を調査するために、初期のデータセットは視覚的な入力として画像に焦点を合わせていました。最近、画像からビデオドメインに視覚情報を拡張するために、業界で多数のQAベンチマークが提案されています。画像QAベンチマーク問題は、クロスモーダル相互作用を学習するシステムを必要としますが、ビデオQAベンチマーク問題は、時間的変化を伴う視覚情報のキャプチャに限定されません。VQA問題の直交拡張として、別の研究の方向性は、対話設定で画像/ビデオVQAを研究することです。

この問題では、特定のビデオまたは画像に関する質問が、対話の複数のターンにわたって配置されます。各ダイアログターンでは、質問は通常、オブジェクトの相互参照やトピックの配置など、前のダイアログターンの他の質問とのさまざまなタイプのクロスターン関係を示します。「DVD:ビデオに基づいた対話におけるマルチステップ推論のための診断データセット」というタイトルの研究では、Facebookとシンガポール経営大学のチームが複数ラウンドの視覚的な質問応答を調べました。


from: news.nweon.com/91102

© 2020 www.ourvrworld.com