تهدف الإجابة المرئية للأسئلة (VQA) إلى تطوير أنظمة ذكية قادرة على التفكير والإجابة على الأسئلة المتعلقة بالمعلومات المرئية. للتحقيق في هذه المشكلة ، ركزت مجموعات البيانات المبكرة على الصور كمدخلات مرئية. في الآونة الأخيرة ، تم اقتراح العديد من معايير ضمان الجودة في الصناعة لتوسيع المعلومات المرئية من الصور إلى مجال الفيديو. بينما تتطلب مشكلة قياس جودة الصورة للصورة نظامًا لتعلم التفاعلات متعددة الوسائط ، فإن مشكلة قياس جودة الفيديو للفيديو لا تقتصر على التقاط المعلومات المرئية مع الاختلاف الزمني. كإمتداد متعامد لمشكلة VQA ، هناك اتجاه بحثي آخر يتمثل في دراسة الصورة / الفيديو VQA في إعداد حوار.
في هذه المشكلة ، يتم وضع الأسئلة حول مقطع فيديو أو صورة معينة في عدة دورات للحوار. في كل منعطف في الحوار ، يُظهر السؤال عادةً أنواعًا مختلفة من العلاقات التبادلية مع الأسئلة الأخرى في دورات الحوار السابقة ، مثل المرجع المشترك للكائن ومحاذاة الموضوع. في الدراسة التي تحمل عنوان "DVD: مجموعة بيانات تشخيصية للاستدلال متعدد الخطوات في الحوار المستند إلى الفيديو" ، نظر فريق من Facebook وجامعة سنغافورة للإدارة في جولات متعددة من الإجابة على الأسئلة المرئية.
© 2020 www.ourvrworld.com