La investigación de Facebook desarrolla sistemas inteligentes para AR/VR que pueden razonar y responder preguntas sobre información visual

2021-11-01 El artículo se tradujo en software.

Visual Question Answering (VQA) tiene como objetivo desarrollar sistemas inteligentes capaces de razonar y responder preguntas sobre información visual. Para investigar este problema, los primeros conjuntos de datos se centraron en las imágenes como entrada visual. Recientemente, se han propuesto numerosos puntos de referencia de control de calidad en la industria para extender la información visual de las imágenes al dominio del video. Mientras que el problema de referencia de control de calidad de imagen requiere un sistema para aprender interacciones multimodales, el problema de referencia de control de calidad de video no se limita a capturar información visual con variación temporal. Como una extensión ortogonal del problema VQA, otra dirección de investigación es estudiar VQA de imagen/video en un entorno de diálogo.

En este problema, las preguntas sobre un determinado video o imagen se ubican en múltiples turnos de diálogo. En cada turno de diálogo, una pregunta generalmente exhibe diferentes tipos de relaciones de turnos cruzados con otras preguntas en turnos de diálogo anteriores, como la co-referencia de objetos y la alineación de temas. En el estudio, titulado "DVD: un conjunto de datos de diagnóstico para el razonamiento de varios pasos en el diálogo basado en video", un equipo de Facebook y la Universidad de Administración de Singapur analizó varias rondas de respuestas visuales a preguntas.


from: news.nweon.com/91102

© 2020 www.ourvrworld.com