▪︎ مجلس نيوز
قامت Google للتو بدمج DeepMind و Google Brain في فريق AI كبير واحد ، وفي يوم الأربعاء ، شاركت Google DeepMind الجديدة تفاصيل حول كيفية استخدام أحد نماذج اللغة المرئية (VLM) لإنشاء أوصاف لـ YouTube شورتات ، والتي يمكن أن تساعد في الاكتشاف.
“يتم إنشاء الأفلام القصيرة في بضع دقائق فقط وغالبًا لا تتضمن أوصافًا وعناوين مفيدة ، مما يجعل العثور عليها من خلال البحث أكثر صعوبة” ، كتب DeepMind في المنشور. يمكن أن يقوم Flamingo بعمل هذه الأوصاف من خلال تحليل الإطارات الأولية لمقطع فيديو لشرح ما يحدث. (يعطي DeepMind مثالاً على “كلب يوازن كومة من المفرقعات على رأسه.”) سيتم تخزين أوصاف النص كبيانات وصفية “لتصنيف مقاطع الفيديو بشكل أفضل ومطابقة نتائج البحث مع استفسارات المشاهد”.
أوصي حقا بالمشاهدة فيديو DeepMind يشرح كيف يعمل، والتي قمت بتضمينها أدناه. مدته دقيقة واحدة فقط ، وهو يقسم الأشياء بطريقة سهلة الهضم.
يقول كولين مردوخ ، كبير مسؤولي الأعمال في Google DeepMind ، إن هذا يحل مشكلة حقيقية الحافة: بالنسبة إلى الأفلام القصيرة ، لا يضيف منشئو المحتوى أحيانًا بيانات وصفية لأن عملية إنشاء الفيديو تكون أكثر بساطة مما هي عليه في الفيديو الأطول. أضاف تود شيرمان ، مدير إدارة المنتجات في شورتس ، أنه نظرًا لأن الشورتات تتم مشاهدتها في الغالب على موجز حيث يقوم الأشخاص بالتمرير سريعًا إلى الفيديو التالي بدلاً من تصفحهم بنشاط ، فليس هناك الكثير من الحوافز لإضافة البيانات الوصفية.
يقول شيرمان: “نموذج فلامنغو هذا – القدرة على فهم مقاطع الفيديو هذه وتقديم نص وصفي – هو حقًا مفيد جدًا لمساعدة أنظمتنا التي تبحث بالفعل عن هذه البيانات الوصفية”. “يتيح لهم فهم مقاطع الفيديو هذه بشكل أكثر فاعلية حتى نتمكن من إجراء هذه المطابقة للمستخدمين عندما يبحثون عنها”.
لن تكون الأوصاف التي تم إنشاؤها في مواجهة المستخدم. يقول شيرمان: “نحن نتحدث عن البيانات الوصفية الموجودة خلف الكواليس”. “نحن لا نقدمه لمنشئي المحتوى ، ولكن هناك الكثير من الجهد المبذول للتأكد من دقته.” بالنسبة لكيفية تأكد Google من دقة هذه الأوصاف ، يقول شيرمان: “سيتوافق كل النص الوصفي مع معايير مسؤوليتنا”. “من غير المحتمل جدًا أن يتم إنشاء نص وصفي يؤطر الفيديو بطريقة ما في ضوء سيئ. هذه ليست نتيجة نتوقعها على الإطلاق “.
دعونا نأمل أن يكون هذا صحيحًا ، بالنظر إلى ميل الذكاء الاصطناعي العرضي إلى اختلاق الأشياء أو وضع علامات على الأشياء بشكل غير صحيح: بعد ثماني سنوات من تصنيف صور Google لشخصين سوداوين على أنهما غوريلا ، لا تزال الخدمة لن يصنف أي شيء بأنه قرد بسبب الضرر المحتمل. قد تكون أي أخطاء جسيمة من Flamingo مؤذية للمبدعين وتفتح Google أمام انتقادات كبيرة.
يطبق Flamingo بالفعل الأوصاف المُنشأة تلقائيًا لتحميلات الأفلام القصيرة الجديدة
يطبق Flamingo بالفعل الأوصاف التي تم إنشاؤها تلقائيًا لتحميلات البرامج القصيرة الجديدة ، وقد فعلت ذلك من أجل “مجموعة كبيرة من مقاطع الفيديو الحالية ، بما في ذلك مقاطع الفيديو الأكثر مشاهدة” ، وفقًا لمتحدث DeepMind Duncan Smith.
كان علي أن أسأل ما إذا كان سيتم تطبيق Flamingo على مقاطع فيديو YouTube ذات الشكل الأطول. يقول شيرمان: “أعتقد أنه من المعقول تمامًا أن يحدث ذلك”. “أعتقد أن الحاجة ربما تكون أقل قليلاً ، على الرغم من ذلك.” وأشار إلى أنه بالنسبة لمقطع فيديو أطول ، قد يقضي منشئ المحتوى ساعات في أشياء مثل مرحلة ما قبل الإنتاج والتصوير والتحرير ، لذا فإن إضافة البيانات الوصفية هي جزء صغير نسبيًا من عملية إنشاء مقطع فيديو. ونظرًا لأن الأشخاص يشاهدون غالبًا مقاطع فيديو أطول تستند إلى أشياء مثل العنوان والصورة المصغرة ، فإن منشئو المحتوى لديهم حافز لإضافة بيانات وصفية تساعد في قابلية الاكتشاف.
لذا أعتقد أن الإجابة هناك هي أنه يتعين علينا الانتظار لنرى. ولكن بالنظر إلى الدفع الكبير لشركة Google لإدخال الذكاء الاصطناعي في كل ما تقدمه تقريبًا ، فإن تطبيق شيء مثل Flamingo على مقاطع فيديو YouTube ذات الشكل الأطول لا يبدو خارج نطاق الاحتمال ، مما قد يكون له تأثير كبير على بحث YouTube في المستقبل.