Facebook研究为AR/VR开发能推理回答视觉信息问题的智能系统

2021-11-01

视觉问答研究(VQA)旨在开发能够推理和回答视觉信息问题的智能系统。为了研究这一问题,早期的数据集重点关注图像作为视觉输入。最近,业界提出了众多QA基准,以将视觉信息从图像扩展到视频领域。尽管图像QA基准问题需要一个系统来学习跨模态交互,但视频QA基准问题并不局限于捕获具有时间变化的视觉信息。作为VQA问题的正交延伸,另一个研究方向是在对话环境中研究图像/视频VQA。

在这个问题中,关于给定视频或图像的问题定位在多轮对话中。在每个对话轮中,一个问题通常与先前对话轮中的其他问题表现出不同类型的交叉轮关系,例如对象共同引用和主题对齐。在名为《DVD: A Diagnostic Dataset for Multi-step Reasoning in Video Grounded Dialogue》的研究中,Facebook和新加坡管理大学的团队研究了多轮视觉问答。


原文链接: news.nweon.com/91102

© 2020 www.ourvrworld.com