صوت الذكاء الاصطناعي الآن أكثر بشرية!
في خطوة تمثل طفرة نوعية في مجال الذكاء الاصطناعي، أعلن باحثون من معهد ماساتشوستس للتكنولوجيا (MIT) عن تطوير نموذج ذكاء اصطناعي مبتكر يتميز بقدرة فائقة على تقليد وفهم الأصوات البشرية المألوفة بطرق غير تقليدية. وقد استلهم الباحثون هذا النموذج من تعقيدات الجهاز الصوتي البشري، بما يفتح آفاقًا واسعة لتحسين التفاعلات الصوتية في مختلف المجالات التقنية.
يتميز النموذج الجديد بقدرته على الارتقاء بواجهات الصوت المستخدمة في قطاعات حيوية كالترفيه والتعليم، حيث يتيح تقديم تجارب تواصل أكثر تعبيرًا وواقعية. كما يمتلك النظام الجديد القدرة على محاكاة مجموعة واسعة من الأصوات المحيطة، بدءًا من أصوات التنبيه كصفارات سيارات الإسعاف وصولًا إلى أصوات الحيوانات كالزواحف، وذلك من خلال التحكم الدقيق في نموذج يحاكي عمل الجهاز الصوتي للإنسان.
تحليل الأصوات وكشف التقليد
وبالإضافة إلى قدرته على الإنتاج الصوتي، يمتلك النموذج الجديد ميزة تحليل الأصوات البشرية والتعرف على الأصوات الحقيقية من خلال مقارنتها بالتقليد. فعلى سبيل المثال، يستطيع النموذج التمييز بدقة بين صوت “مواء” قطة حقيقي وصوت إنسان يحاول تقليده، أو حتى بين “فحيح” أفعى حقيقي وتقليد بشري له.
آلية العمل ومراحل التطوير
بدأ التطور الجديد بتصميم نموذج رقمي للجهاز الصوتي البشري، يحاكي بدقة تأثير اهتزازات الحنجرة على كل من اللسان والشفتين. ثم وظف الباحثون خوارزمية متطورة للذكاء الاصطناعي مستوحاة من مبادئ علم النفس المعرفي، وذلك للتحكم في هذا النموذج الرقمي وإنتاج تقليد صوتي يتناسب مع السياق البشري لاختيار الأصوات.
وقد مكن هذا النموذج الجديد من التمتع بقدرة فائقة على تقليد طيف واسع من الأصوات، بدءًا من أصوات الطبيعة كأوراق الشجر المتساقطة وصولًا إلى الأصوات الصناعية كصفارات الإنذار. مع القدرة على عكس العملية، أي تحليل الصوت البشري لتحديد الصوت الأصلي الذي يعبر عنه.
وقد مر تطوير النموذج بثلاث مراحل أساسية، حيث ابتكر الفريق ثلاثة نماذج تدريجية بهدف تعزيز قدرة النموذج على تقليد الأصوات. وبدأت العملية بنموذج أساسي يركز على تحقيق أعلى درجة من الواقعية في التقليد الصوتي. ثم تم تطوير نموذج تواصلي يهدف إلى فهم الخصائص المميزة لكل صوت. وأخيرًا، تم إدخال بعد اجتماعي للحسابات الصوتية في النموذج الأخير.
نتائج واعدة وتحديات قائمة
وقد أظهر النموذج نتائج إيجابية ملحوظة في التجارب السلوكية التي أجريت عليه، حيث فضل المشاركون التقليد الصوتي الذي أنتجه الذكاء الاصطناعي بنسبة تصل إلى 25% من الحالات. وقد بلغت نسبة التفضيل ذروتها عند تقليد أصوات معينة كصوت قارب بمحرك (75%) وصوت إطلاق نار (50%).
تطبيقات مستقبلية واعدة
ويتطلع الباحثون إلى استثمار هذه التكنولوجيا في مجالات إبداعية مثل تصميم المؤثرات الصوتية، والمساهمة في تطوير شخصيات افتراضية أكثر واقعية في عوالم الواقع الافتراضي. كما يرون إمكانية استخدامه في دعم تعلم اللغات الجديدة، وتطوير طرق أكثر تفاعلية لتعلم أصوات وحركات الطيور، مثل الببغاوات.
وبينما يحقق النموذج نجاحات لافتة، لا يزال الباحثون يعملون على تحسين قدرته على تقليد بعض الحروف الساكنة، مثل حرف “الزاي”، والذي قد يؤدي إلى تقليد غير دقيق لبعض الأصوات مثل صوت “الطنين” (buzzing).