ابتكار نظام ذكاء اصطناعي ينشئ صورًا لأشخاص من خلال أصواتهم

2022/04/11 10:10:23 مساءً

كشف علماء في مختبر علوم الكمبيوتر والذكاء الاصطناعي في معهد ”ماساتشوستس“ للتكنولوجيا، عن خوارزمية ذكاء اصطناعي تدعى ”Speech2Face“، قادرة على إعادة بناء وجه شخص المتحدث بواسطة التسجيل الصوتي.

ويعمل العلماء في المعهد على الخوارزمية، منذ العام 2019، وللوصول إلى هذه التقنية، حيث قام الباحثون أولًا بتصميم وتدريب شبكة عصبية عميقة باستخدام ملايين مقاطع الفيديو على موقع يوتيوب.

وخلال المرحلة الأولى من التدريب، تمكن الذكاء الاصطناعي من معرفة الارتباط بين صوت وملامح المتحدث، ولم تكن هناك مشاركة بشرية في هذه العملية الأولى، حيث لم يحتج الباحثون إلى تسمية أي مجموعة فرعية من البيانات يدويًا.

وبهذه الطريقة، تلقى الذكاء الاصطناعي ببساطة عددًا كبيرًا من مقاطع الفيديو، واكتشف الارتباط بين ميزات الصوت وميزات الوجه.

ولمزيد من استكشاف هذه الدقة في إعادة بناء الوجه، ابتكر الباحثون وحدة فك ترميز للوجه قادرة على تشكيل وإعادة بناء موحدة لوجه الشخص من إطار ثابت مع تجاهل الاختلافات غير ذات الصلة، مثل: الوضع، والإضاءة.

وأدت الاختبارات إلى السماح للعلماء بمقارنة إعادة بناء الصوت بسهولة أكبر مع الخصائص الحقيقية للمتحدث، وبعد المرحلة الأولى، وخلال المرحلة الثانية اقتربت نتائج الذكاء الاصطناعي بشكل مدهش من شكل المتحدث الحقيقي.

ورغم النتائج المذهلة لعمل الخوارزمية، إلا أنها ليست طريقة مضمونة، نظرًا لوجود حالات أخرى واجه فيها نظام الذكاء الاصطناعي صعوبة في تحديد الصوت الذي بدأ بالفعل.

وتتسبب عوامل، مثل: اللغة، واللهجة، ونبرة الصوت، في اختلافات بين الكلام والوجه، حيث كان الجنس، والعمر، والعرق، غير صحيح تمامًا.

وأوضح الباحثون، أنهم صمموا نموذجًا للكشف عن الارتباطات الإحصائية الموجودة بين ميزات الوجه وأصوات المتحدثين، وكانت بيانات التدريب التي استخدموها عبارة عن مجموعة من مقاطع فيديو تعليمية على موقع ”يوتيوب“، ولا تمثل سكان العالم بأسره بالتساوي.

وبقدر ما يتعلق الأمر بالتطبيقات الواقعية لهذه الخوارزمية الجديدة، يمكن أن ينتهي هذا الذكاء الاصطناعي بإنشاء رسم كرتوني لشخص في مكالمة هاتفية أو مؤتمر فيديو عندما تكون هويته غير معروفة، وهي ميزة يمكن إضافتها إلى العديد من التطبيقات.

ويمكن أيضًا للنظام، تخصيص المساعدين الصوتيين المتنوعين أكثر من ذلك، حتى أنه يمنحهم صورة وجه الشخص الذي يمتلك الجهاز.

ويمكن أن تمنح هذه التقنية ميزة لقوات إنفاذ القانون والأمن لاستخدام هذا الذكاء الاصطناعي لإنشاء صورة لما يبدو عليه المشتبه به، إذا كان الدليل الوحيد الذي لديهم هو الصوت.