هكذا نجحت غوغل في جعل مساعدها الصوتي يفكر مثل الإنسان !
نما مساعد غوغل الصوتي (Google Assistant) ليصبح نظامًا أساسيًا مستقلًا منذ إطلاقه، فهو الآن ليس فقط أذكى من أي وقت مضى، لكن مع أجهزة مثل (Nest Hub) أو (Nest Mini) لم يعد مجرد جزء من نظام أندرويد فقط.
عندما ينمو مساعد غوغل الصوتي في القدرات يصبح أيضًا أكثر تعقيدًا، وهذا يعني أن المطورين يحتاجون إلى أدوات مخصصة لبناء المحتوى الذي نريد استخدامه على شاشاتنا الذكية والأجهزة الأخرى التي تدعم المساعد. وهناك شيئان مهمان يتعين على المطورين القيام بهما لنجاح مساعد غوغل الصوتي: أن يكون سهل الاستخدام ويعمل بشكل جيد، حيث من الصعب تحقيق هذين الأمرين المهمين، لكن إصدار واجهة الويب (Actions Builder) و (Actions SDK) يبدو أنهما سيحققان ذلك.
لكي يكون مساعد غوغل الصوتي رائعًا إلا إذا كان قادرًا على التحدث والاستماع كما يفعل الإنسان، فإذا طلبت من (Google Home) إخبار أطفالك بقصة قبل النوم أو أداء أغنية (Brush Your Teeth)، فيجب أن يتعرف على ما تريد وأن يكون قادرًا على القيام بما يطلب منه دون أن يكون روبوتًا يتبع النطق والنظام فقط.
الأمران الهامان في مساعد غوغل اللذان يجعلانه متميزًا هما تدفق المحادثة وفهم اللغة الطبيعية، وبدون هذان الأمران لن يكون المساعد قادرًا على التفاعل بالطريقة التي أصبحنا نستمتع بها بالتعامل معه.
يُعد تدفق المحادثات مفهومًا سهلاً جدًا، ويعني حرفيًا بالضبط ما يبدو عليه: حيث يحتاج المساعد إلى أن يكون جاهزًا للتحدث معك عندما تقول شيئًا له. ويكون ذلك سهلاً عندما تسأل عن الطقس أو حتى تطلب منه أن يغني أغنية عن تنظيف الأسنان، ولكن عندما تصبح الأمور معقدة، مثل اختيار لعبة خاصة بك، على سبيل المثال، فهناك بعض الطرق المحددة جدًا التي تحتاج إليها لتوجيه المحادثة مع مساعد جوجل الصوتي حتى يتمكن من إعطاء الإجابة.
وهنا يأتي دور فهم اللغة الطبيعية (NLU)، حيث يحتاج مساعد غوغل إلى معرفة الأشياء، مثل (yeah وyep وyes)، كلها تعني نفس الشيء لذلك يجب عليه أن يتعرف على مدى سلاسة الكلام. فجميعنا يتحدث بشكل مختلف تمامًا عما نكتبه، ونظرًا لأن المساعد هو جهاز حاسب يعمل فقط مثل الأشخاص، فإن كل هذا يحتاج إلى الدمج في أي مشروع تحادثي، حيث لا يمكن لأجهزة الكمبيوتر أن تتعلم حقًا، فهي بحاجة إلى البرمجة.
لذلك يحتاج المطورون إلى تشغيل (Actions Builder و Actions SDK) من غوغل ، وهما أداتان جديدتان تسمحان للمطورين ببناء مشروع من البداية إلى النهاية بالطريقة الأكثر راحة لهم.
وتعرف (Actions Builder) بأنها أداة قائمة على الويب تتيح للمطورين إنشاء إجراءات حوارية بالطريقة ذاتها التي تبني بها مخططًا انسيابيًا. ولكن لديها نفس الأدوات التي تمتلكها (SDK) للتنمية التقليدية. حيث يمكن لأي مطور استخدام هذه الواجهة الرسومية لتصور تدفق المحادثات وإدخال بيانات (NLU) التي تم تدريب المشروع على فهمها، وحتى تصحيح المنتج النهائي بطريقة مريحة وسهلة الفهم.
تعمل حزمة (Actions SDK) الشيء نفسه ولكن في بيئة تطوير متكاملة، (IDE)، أكثر تقليدية للمطورين الذين يفضلون العمل محليًا أو من خلال نظرة عامة على الملف لمشروعهم. وإذا كان لدى المطورين (IDE) مفضل بالفعل، فيمكنهم استخدامه مع أدوات سطر الأوامر لإنشاء المنتج النهائي بالفوائد ذاتها.
هذه الأدوات هي الواجهة الأمامية لبناء مساعد غوغل الصوتي بشكل أفضل وأسرع، كما أن وقت التشغيل، فكر في ذلك باعتباره المحرك الذي يشغل البرنامج الذي نستخدمه، لمساعد جوجل الصوتي أصبح الآن أسرع من أي وقت مضى، ويعني نموذج التفاعل الجديد أن المساعد أكثر ذكاءً وسهولة في البناء.
تم بناء نموذج التفاعل الجديد بحيث تكون الأشياء مثل المحادثات في الوقت الفعلي أسرع وأكثر كفاءة في البناء، ويكون تدريب (NLU) أكثر قوة، حيث يمكن للمطورين إنشاء مشاهد واستخدامها ككتلة بناء حيث يحتوي كل جزء من المحادثة على بياناته ومنطقه الخاص، وأفضل ما في الأمر أنه يمكن للمطورين إنشاء مشاهد وإعادة استخدامها في الإجراء ذاته من خلال الأهداف النشطة.
لن يقوم معظمنا بتطوير أي نوع من المحتوى لمساعد جوجل الصوتي، لكن هذا لا يزال مهمًا بالنسبة لنا، حيث إن استخدام أدوات كهذه تمكننا أن نتوقع تطبيقا” أفضل للأجهزة التي تمكِّن مساعد غوغل الصوتي، لذا سنستفيد منها كثيرًا، واليوم يمكننا إعداد روتين صباحي لإشعال الأضواء والموسيقى، لكن في العام المقبل، من يدري ما الذي يمكننا فعله؟
المصدر: البوابة العربية للأخبار التقنية