▪︎ مجلس نيوز
أنشأت Meta نموذجًا للغة AI (في تغيير منعش للسرعة) ليس نسخة ChatGPT. يمكن لمشروع الشركة متعدد اللغات (MMS) التعرف على أكثر من 4000 لغة منطوقة وإنتاج الكلام (تحويل النص إلى كلام) في أكثر من 1100 لغة. مثل معظم مشاريع الذكاء الاصطناعي الأخرى التي تم الإعلان عنها علنًا ، فإن Meta توفر خدمة MMS مفتوحة المصدر اليوم للمساعدة في الحفاظ على التنوع اللغوي وتشجيع الباحثين على البناء على أساسها. كتبت الشركة “اليوم ، نشارك نماذجنا ورموزنا علنًا حتى يتمكن الآخرون في مجتمع البحث من البناء على عملنا”. “من خلال هذا العمل ، نأمل في تقديم مساهمة صغيرة للحفاظ على التنوع اللغوي المذهل في العالم.”
تتطلب نماذج التعرف على الكلام وتحويل النص إلى كلام تدريبًا على آلاف الساعات من الصوت مع تسميات النسخ المصاحبة. (تعتبر التسميات ضرورية للتعلم الآلي ، حيث تسمح للخوارزميات بتصنيف البيانات و “فهمها” بشكل صحيح.) ولكن بالنسبة للغات غير المستخدمة على نطاق واسع في الدول الصناعية – والكثير منها معرض لخطر الاختفاء في العقود القادمة – “هذا البيانات ببساطة غير موجودة “، على حد تعبير Meta.
استخدمت Meta نهجًا غير تقليدي لجمع البيانات الصوتية: التنصت على التسجيلات الصوتية للنصوص الدينية المترجمة. وقالت الشركة: “لجأنا إلى النصوص الدينية ، مثل الكتاب المقدس ، التي تُرجمت إلى العديد من اللغات المختلفة والتي تمت دراسة ترجماتها على نطاق واسع من أجل أبحاث الترجمة اللغوية المستندة إلى النصوص”. “هذه الترجمات لها تسجيلات صوتية متاحة للجمهور للأشخاص الذين يقرؤون هذه النصوص بلغات مختلفة.” بدمج التسجيلات غير المسماة للكتاب المقدس والنصوص المماثلة ، قام باحثو Meta بزيادة اللغات المتاحة في النموذج إلى أكثر من 4000 لغة.
إذا كنت مثلي ، فإن هذا النهج قد يثير حواجبك للوهلة الأولى ، لأنه يبدو وكأنه وصفة لنموذج AI متحيز بشدة تجاه وجهات النظر المسيحية للعالم. لكن ميتا تقول إن الأمر ليس كذلك. وكتب ميتا يقول: “في حين أن محتوى التسجيلات الصوتية هو محتوى ديني ، فإن تحليلنا يظهر أن هذا لا يؤدي إلى تحيز النموذج لإنتاج المزيد من اللغة الدينية”. “نعتقد أن هذا بسبب استخدامنا نهج التصنيف الزمني للربط (CTC) ، وهو مقيد أكثر بكثير مقارنة بنماذج اللغة الكبيرة (LLMs) أو نماذج التسلسل إلى التسلسل للتعرف على الكلام.” علاوة على ذلك ، على الرغم من قراءة معظم التسجيلات الدينية من قبل المتحدثين الذكور ، فإن ذلك لم يقدم تحيزًا للذكور أيضًا – حيث كان أداءه جيدًا في أصوات الإناث والذكور.
بعد تدريب نموذج المحاذاة لجعل البيانات أكثر قابلية للاستخدام ، استخدمت Meta wav2vec 2.0 ، نموذج الشركة “لتعليم تمثيل الكلام تحت الإشراف الذاتي” ، والذي يمكن أن يتدرب على البيانات غير المصنفة. أدى الجمع بين مصادر البيانات غير التقليدية ونموذج الكلام الخاضع للإشراف الذاتي إلى نتائج رائعة. “تُظهر نتائجنا أن نماذج الكلام متعدد اللغات بشكل كبير تعمل بشكل جيد مقارنة بالنماذج الحالية وتغطي 10 أضعاف عدد اللغات.” على وجه التحديد ، قارن Meta MMS بـ OpenAI’s Whisper ، وتجاوز التوقعات. “لقد وجدنا أن النماذج التي تم تدريبها على بيانات Massively Multilingual Speech تحقق نصف معدل أخطاء الكلمات ، بينما يغطي” Massively Multilingual Speech “11 ضعفًا.”
تحذر Meta من أن نماذجها الجديدة ليست مثالية. كتبت الشركة: “على سبيل المثال ، هناك بعض المخاطر من أن نموذج الكلام إلى نص قد يخطئ في ترجمة كلمات أو عبارات محددة”. “اعتمادًا على المخرجات ، قد يؤدي ذلك إلى لغة مسيئة و / أو غير دقيقة. ما زلنا نعتقد أن التعاون عبر مجتمع الذكاء الاصطناعي أمر بالغ الأهمية للتطوير المسؤول لتقنيات الذكاء الاصطناعي. “
الآن بعد أن أصدرت Meta رسائل MMS للبحث مفتوح المصدر ، فإنها تأمل في أن تتمكن من عكس اتجاه التكنولوجيا لتضييق لغات العالم إلى 100 لغة أو أقل مدعومة غالبًا بواسطة Big Tech. إنه يرى عالماً تسمح فيه التكنولوجيا المساعدة و TTS وحتى تقنية VR / AR للجميع بالتحدث والتعلم بلغاتهم الأصلية. قال ، “نحن نتخيل عالمًا يكون فيه للتكنولوجيا تأثير معاكس ، حيث نشجع الناس على الحفاظ على لغاتهم حية حيث يمكنهم الوصول إلى المعلومات واستخدام التكنولوجيا من خلال التحدث بلغتهم المفضلة.”
ظهر هذا المقال في الأصل على Engadget على https://www.engadget.com/metas-open-source-speech-ai-recognizes-over-4000-spoken-languages-161508200.html؟src=rss