VQA(Visual Question Answering)는 시각적 정보에 대한 질문에 추론하고 답할 수 있는 지능형 시스템을 개발하는 것을 목표로 합니다. 이 문제를 조사하기 위해 초기 데이터 세트는 시각적 입력으로 이미지에 중점을 두었습니다. 최근 업계에서는 이미지에서 비디오 영역으로 시각 정보를 확장하기 위해 수많은 QA 벤치마크가 제안되었습니다. 이미지 QA 벤치마크 문제는 교차 모드 상호 작용을 학습하는 시스템이 필요하지만 비디오 QA 벤치마크 문제는 시간적 변화가 있는 시각적 정보 캡처에 국한되지 않습니다. VQA 문제의 직교 확장으로서 또 다른 연구 방향은 대화 설정에서 이미지/비디오 VQA를 연구하는 것입니다.
이 문제에서는 주어진 비디오나 이미지에 대한 질문이 여러 차례의 대화에 걸쳐 배치됩니다. 각 대화 차례에서 질문은 일반적으로 개체 상호 참조 및 주제 정렬과 같은 이전 대화 차례의 다른 질문과 서로 다른 유형의 교차 회전 관계를 나타냅니다. Facebook과 Singapore Management University의 팀은 "DVD: A Diagnostic Dataset for Multi-step Reasoning in Video Grounded Dialogue"라는 제목의 연구에서 여러 차례의 시각적 질문 답변을 살펴보았습니다.
© 2020 www.ourvrworld.com