يقترح Facebook نموذج Pica لتقديم عرض أفاتار افتراضي واقعي في الوقت الفعلي إلى Quest 2

2021-04-20 هذه المادة يتم ترجمتها من قبل البرنامج

تمامًا كما غيّرت أجهزة الكمبيوتر الشخصية والهواتف الذكية العالم (واستمرت) في السنوات الخمس والأربعين الماضية ، يؤمن Facebook إيمانًا راسخًا بأن الواقع المعزز والواقع الافتراضي سيصبحان الطريقة الرئيسية التي نعمل بها ونلعبها ونتواصل معها في الخمسين عامًا القادمة.

من أجل التغلب على تحديات المسافة المادية بين الأشخاص والفرص ، يعمل الفريق بنشاط على تطوير مشروع يسمى Codec Avatars. تهدف Codec Avatars إلى استخدام تقنية الالتقاط ثلاثية الأبعاد المتطورة وأنظمة الذكاء الاصطناعي لمساعدة الأشخاص بسرعة وسهولة على إنشاء صور رمزية افتراضية واقعية في المستقبل ، وجعل الاتصالات الاجتماعية في الواقع الافتراضي طبيعية وشائعة مثل العالم الحقيقي.

قبل أيام قليلة ، أعلن Facebook عن ورقة سيتم تقديمها في مؤتمر رؤية الكمبيوتر والتعرف على الأنماط (CVPR) في يونيو من هذا العام.

ببساطة ، لا يتم فك تشفير سوى وحدات البكسل المرئية لوجه الصورة الرمزية الافتراضية في مساحة الشاشة ، ويمكن تحقيق رسوم متحركة عالية الدقة للوجه على منصة ذات حوسبة محدودة.

بالنسبة لبرنامج الترميز الخفيف الوزن PiCA ، قام الفريق بعمل ابتكاريين تقنيين رئيسيين ، مما يسمح له بتحقيق فك تشفير عالي الجودة من خلال نموذج صغير: وظيفة ترميز الموضع المكتسبة ؛ الشبكة الكثيفة التلافيفية المدربة بطريقة ضعيفة الإشراف .

وأشار فريق البعثة إلى أن التواصل المباشر وجهاً لوجه ثلاثي الأبعاد بعيد المدى ، مع تجسيدات واقعية للصور في الواقع الافتراضي أو الواقع المعزز في الاتصالات هو نهج واعد. في ورقة بعنوان "Pixel Codec Avatars" ، اقترح الباحثون نموذجًا ثلاثي الأبعاد لتوليد الوجوه ، Pixel Codec Avatars (PiCA).

كتب Facebook أن PiCA لا تتمتع فقط بأداء إعادة البناء الأكثر تقدمًا ، ولكنها تتيح أيضًا عمليات حسابية فعالة وظروف عرض قابلة للتكيف أثناء التنفيذ.

يجمع هذا النموذج بين فكرتين أساسيتين: (1) هيكل تلافيفي كامل لفك تشفير الميزات المتغيرة مكانيًا ؛ (2) وحدة فك ترميز لكل بكسل مع عرض تكيفي. يتم دمج هاتين الطريقتين من خلال تمثيل سطح كثيف ، حيث يتم تعلم تمثيل السطح الكثيف من تتبع شبكة الطوبولوجيا المنخفضة بطريقة ضعيفة الإشراف.




الشكل 1 عبارة عن تكوين مؤتمر عن بعد متعدد الأشخاص يتم تنفيذه في سيناريو واقع افتراضي.

في ظل المسافة الاجتماعية العادية ، يشغل الرأس مجموعة فرعية فقط من وحدات بكسل العرض ، وتعتمد تغطيته إلى حد كبير على المسافة من العارض. بسبب انسدادها ، لا يمكن رؤية نصف الرأس من أي زاوية نظر. الجزء العلوي من الشكل 1 هو الشكل الهندسي الذي تم إنشاؤه وتنقيطه ، وخريطة النسيج تُظهر وحدات البكسل المرئية في العرض المقابل ؛ يُظهر الجزء السفلي من الشكل 2 الصور الرمزية المعروضة ونسبة البكسل التي تغطي الصورة بأكملها.

من أجل تجنب إهدار العمليات الحسابية في مساحة السطح التي لا تؤثر على العرض النهائي ، يستخدم PiCA فقط فك تشفير لكل بكسل في منطقة الصورة التي تغطيها التنقيط الهندسي. على غرار أحدث التطورات في التصيير العصبي الضمني ، يعتمد هذا النوع من مفكك الشفرات على ترميز الموضع المتمركز على الوجه البشري لإنتاج صور مفصلة للغاية.

يستخدم الفريق استراتيجيتين لإنشاء مثل هذه الرموز بكفاءة. أولاً ، يتم استخدام حساب المشاركة المكانية للشبكات التلافيفية في مساحة النسيج لإنشاء تعبيرات متغيرة مكانيًا ورموز خاصة بالعرض بدقة منخفضة (256 × 256). بعد ذلك ، يتم استكماله بدقة عالية محسوبة مسبقًا (1K × 1K). من أجل الحصول على نتائج دقة أعلى ، قام الفريق بترميز الإشارة في موضع 1D بدقة 10K (بغض النظر عن الأبعاد الأفقية والرأسية لمجال النسيج). يمكن أن يحقق هذا النوع من الخرائط تفاصيل مكانية واضحة في صور الوجه عالية الدقة.


أشرف على (أ) الصورة ، (ب) العمق ، (ج) شبكة تتبع خشنة من رؤوس 7K. من خلالها ، يمكنك معرفة شبكة سطحية كثيفة مقابلة (د) بدقة 65 كيلو من الرؤوس ، حتى بما في ذلك التتبع التقريبي للمواقع التي لا توفر فيها الشبكة أي معلومات ، مثل اللسان. يمكن أن يمثل العرض النهائي (هـ) التعبيرات التي يصعب تتبعها.

نظرًا لأن أفضل قيمة ترميز لإحداثيات الأشعة فوق البنفسجية يتم تعلمها مباشرة من البيانات ، فإن الترميز المنخفض 8 الأبعاد كافٍ لاستعادة الترددات العالية. في المقابل ، يحتاج مخطط ترميز الموضع الحالي الذي يستخدم دالة الجيب لتحقيق تفاصيل عالية إلى زيادة البعد بمقدار 20 × ، وهناك تكلفة حسابية مقابلة. بالإضافة إلى ذلك ، مقارنة بالدراسات الأخرى ، لا يستخدم PiCA الالتواء في مساحة الشاشة ، ولكنه يطبق MLP الضحل في كل بكسل مساهم. ميزة هذا هو تجنب القطع الأثرية المرئية وعدم تناسق الاستريو في عملية الحركة ، مع تجنب التحديات في التكبير / التصغير والتناوب والمنظور.

الورق ذو الصلة: Pixel Codec Avatars

في اختبارات تعبيرات الوجه ووجهة النظر للأشخاص من الجنسين وألوان البشرة المختلفة ، حقق PiCA تأثير إعادة بناء يتفوق على التكنولوجيا الحالية. الأهم من ذلك ، أن حجم نموذج PiCA أصغر من النموذج الأساسي الأكثر تقدمًا ، وهو يجعل الاتصال متعدد الأشخاص ممكنًا. باستخدام نموذج Pica ، يمكن لسماعة رأس واحدة Oculus Quest 2 عرض 5 صور رمزية افتراضية في نفس المشهد في الوقت الفعلي.



from: news.nweon.com/84950

© 2020 www.ourvrworld.com