Исследования Facebook разрабатывают интеллектуальные системы для AR/VR, которые могут рассуждать и отвечать на вопросы о визуальной информации.

2021-11-01 Эта статья переведена по

Visual Question Answering (VQA) направлен на разработку интеллектуальных систем, способных рассуждать и отвечать на вопросы о визуальной информации. Чтобы исследовать эту проблему, ранние наборы данных были сосредоточены на изображениях как на визуальном входе. В последнее время в отрасли было предложено множество тестов QA для распространения визуальной информации с изображений на видео. В то время как задача тестирования качества изображения требует, чтобы система изучала межмодальные взаимодействия, задача тестирования качества видео не ограничивается захватом визуальной информации с временными вариациями. В качестве ортогонального расширения проблемы VQA другим направлением исследований является изучение VQA изображения/видео в условиях диалога.

В этой задаче вопросы о данном видео или изображении размещаются в нескольких оборотах диалога. В каждом ходе диалога вопрос обычно демонстрирует различные типы перекрестных отношений с другими вопросами в предыдущих ходах диалога, такие как совместная ссылка на объект и выравнивание темы. В исследовании под названием «DVD: диагностический набор данных для многоэтапного рассуждения в диалоге на основе видео» команда из Facebook и Сингапурского университета управления рассмотрела несколько раундов визуальных ответов на вопросы.


from: news.nweon.com/91102

© 2020 www.ourvrworld.com