فاجأت شركة أوبن إيه آي المستخدمين عندما عرضت وضع الصوت المحدث للإصدار الأكثر تقدماً من تشات جي بي تي ChatGPT في وقت سابق من هذا العام.
بعيداً عن الصوت الآلي الذي اعتاد الناس عليه مع المساعدين الرقميين مثل Alexa أو Siri، فإن وضع الصوت المتقدم في تشات جي بي تي يبدو حيوياً بشكل لافت، يردُّ في الوقت الحقيقي، يمكنه التكيف مع الانقطاعات، يمكنه إصدار ضحكات عندما يمزح المستخدم، ويمكنه الحكم على الحالة العاطفية للمتحدث بناءً على نبرة صوته، وخلال العرض التوضيحي الأوّلي، بدا أيضاً مشابها بشكل ملحوظ لصوت Scarlett Johansson.
بدءاً من يوم الثلاثاء، سيبدأ طرح وضع الصوت المتقدم -الذي يعمل مع الإصدار الأقوى من chatbot، ChatGPT-4o- للمستخدمين الذين يدفعون مقابل الخدمة، سيبدأ طرح وضع الصوت المتقدم لمجموعة صغيرة من المشتركين في وضع «Plus» للتطبيق، بهدف جعله متاحاً لجميع مستخدمي Plus في الخريف.
لدى تشات جي بي تي وضع صوت أقل تطوراً بالفعل، ولكن إطلاق وضع الصوت الأكثر تقدماً قد يمثل نقطة تحول كبيرة لشركة أوبن إيه آي، ما يحول ما كان بالفعل chatbot AI مهماً إلى شيء أقرب إلى مساعد شخصي افتراضي يمكن للمستخدمين التحدث معه بشكل طبيعي، كما يتحدثون مع صديق، يمكن أن تشجع سهولة التحدث مع وضع الصوت المتقدم في تشات جي بي تي المستخدمين على التفاعل مع الأداة بشكل متكرر، ويشكل تحدياً للمساعدين الافتراضيين الحاليين مثل أبل وأمازون.
لكن إدخال وضع الصوت المتقدم لتشات جي بي تي يثير أيضاً أسئلة كبيرة: هل ستتمكن الأداة من فهم ما يحاول المستخدمون قوله بشكل موثوق، حتى إذا كانت لديهم اختلافات في النطق؟ وهل سيكون المستخدمون أكثر ميلاً للثقة بشكل أعمى في مساعد AI بشريّ الصوت، حتى عندما يرتكب أخطاء؟
ذكرت أوبن إيه في البداية أنها كانت تخطط لبدء طرح وضع الصوت المتقدم في يونيو، لكنها قالت إنها احتاجت إلى «شهر آخر للوصول إلى مستوى الإطلاق» لاختبار سلامة الأداة وضمان إمكانية استخدامها من قبل ملايين الأشخاص مع الحفاظ على الردود في الوقت الفعلي.
قالت الشركة إنه في الأشهر الأخيرة قامت بتجريب قدرات الصوت في نموذج AI مع أكثر من 100 مختبِر يسعون لتحديد النقاط الضعيفة المحتملة «الذين يتحدثون بشكل جماعي 45 لغة مختلفة، ويمثلون 29 منطقة جغرافية مختلفة»، وفقاً لبيان صدر يوم الثلاثاء.
من بين تدابير السلامة، قالت الشركة إن وضع الصوت لن يكون قادراً على استخدام أي أصوات بخلاف أربعة خيارات مسبقة الإعداد تم إنشاؤها بالتعاون مع ممثلين صوتيين -لتجنب الانتحال- وسيتم أيضاً حجب بعض الطلبات التي تهدف إلى إنشاء موسيقى أو صوتيات محمية بحقوق الطبع والنشر، تقول أوبن إيه آي إن الأداة ستحتوي أيضاً على الحماية نفسها مثل وضع النص في تشات جي بي تي لمنعها من إنشاء محتوى غير قانوني أو «ضار».
سيكون هناك أيضاً فرق رئيسي واحد عن العرض التوضيحي الذي أظهرته أوبن إيه آي في مايو، لن يتمكن المستخدمون بعد الآن من الوصول إلى الصوت الذي يعتقد الكثيرون (بما في ذلك الممثل نفسه) أنه يشبه صوت Johansson. بينما أكدت أوبن إيه آي أن الصوت لم يكن مقصوداً أن يبدو مثل صوت Johansson وتم إنشاؤه بمساعدة ممثل آخر، إلا أنها أوقفت استخدام الصوت «احتراماً» بعد شكوى الممثل.
يأتي إطلاق وضع الصوت المتقدم في تشات جي بي تي بعد أن أعلنت أوبن إيه آي الأسبوع الماضي أنها كانت تختبر محرك بحث يستخدم تكنولوجيا الذكاء الاصطناعي الخاصة بها، حيث تستمر الشركة في توسيع محفظتها من أدوات الذكاء الاصطناعي الموجهة للمستهلكين، يمكن أن يشكل محرك البحث الخاص بأوبن إيه آي تهديداً تنافسياً كبيراً لهيمنة غوغل في البحث عبر الإنترنت.
(كلير دافي CNN)