▪︎ مجلس نيوز
Meta هي أداة مفتوحة المصدر للذكاء الاصطناعي تسمى ImageBind يتنبأ بالصلات بين البيانات بشكل مشابه لكيفية إدراك البشر للبيئة أو تخيلهم لها. بينما تقوم مولدات الصور مثل Midjourney و Stable Diffusion و DALL-E 2 بإقران الكلمات مع الصور ، مما يسمح لك بإنشاء مشاهد مرئية بناءً على وصف نصي فقط ، فإن ImageBind يلقي بشبكة أوسع. يمكنه ربط النصوص والصور / مقاطع الفيديو والصوت والقياسات ثلاثية الأبعاد (العمق) وبيانات درجة الحرارة (الحرارية) وبيانات الحركة (من وحدات القياس بالقصور الذاتي) – ويقوم بذلك دون الحاجة إلى التدريب أولاً على كل الاحتمالات. إنها مرحلة مبكرة من إطار العمل الذي يمكن أن يولد في النهاية بيئات معقدة من إدخال بسيط مثل موجه نص أو صورة أو تسجيل صوتي (أو مزيج من الثلاثة).
يمكنك عرض ImageBind على أنه نقل التعلم الآلي أقرب إلى التعلم البشري. على سبيل المثال ، إذا كنت تقف في بيئة محفزة مثل شارع مدينة مزدحم ، فإن عقلك (إلى حد كبير دون وعي) يمتص المشاهد والأصوات والتجارب الحسية الأخرى لاستنتاج معلومات حول السيارات المارة والمشاة والمباني الشاهقة والطقس وغير ذلك الكثير. تطور البشر والحيوانات الأخرى لمعالجة هذه البيانات لمصلحتنا الجينية: البقاء على قيد الحياة وتمرير الحمض النووي الخاص بنا. (كلما زادت وعيك بمحيطك ، زادت قدرتك على تجنب الخطر والتكيف مع بيئتك من أجل بقاء وازدهار أفضل.) مع اقتراب أجهزة الكمبيوتر من محاكاة اتصالات الحيوانات متعددة الحواس ، يمكنها استخدام هذه الروابط لتوليد إدراك كامل. مشاهد تعتمد فقط على أجزاء محدودة من البيانات.
لذلك ، بينما يمكنك استخدام Midjourney لمطالبة “كلب صيد يرتدي زي Gandalf أثناء موازنة كرة الشاطئ” والحصول على صورة واقعية نسبيًا لهذا المشهد الغريب ، قد تنشئ أداة AI متعددة الوسائط مثل ImageBind في النهاية مقطع فيديو للكلب باستخدام الأصوات المقابلة ، بما في ذلك غرفة المعيشة في الضواحي ، ودرجة حرارة الغرفة والمواقع الدقيقة للكلب وأي شخص آخر في المشهد. قال باحثو ميتا اليوم في مدونة تركز على المطورين: “هذا يخلق فرصًا مميزة لإنشاء رسوم متحركة من الصور الثابتة من خلال دمجها مع المطالبات الصوتية”. “على سبيل المثال ، يمكن لمنشئ المحتوى أن يقرن صورة بمنبه ويصيح الديك ، ويستخدم موجهًا صوتيًا صاخبًا لتقسيم الديك أو صوت المنبه لتقسيم الساعة وتحريكها في تسلسل فيديو.”
أما بالنسبة لما يمكن أن يفعله المرء بهذه اللعبة الجديدة ، فإنه يشير بوضوح إلى أحد طموحات Meta الأساسية: الواقع الافتراضي والواقع المختلط والميتافيرس. على سبيل المثال ، تخيل سماعة رأس مستقبلية يمكنها إنشاء مشاهد ثلاثية الأبعاد محققة بالكامل (بالصوت والحركة وما إلى ذلك) أثناء التنقل. أو ، ربما يمكن لمطوري الألعاب الافتراضية استخدامها في النهاية لأخذ الكثير من العمل الشاق من عملية التصميم الخاصة بهم. وبالمثل ، يمكن لمنشئي المحتوى إنشاء مقاطع فيديو غامرة بمناظر صوتية واقعية وحركة تعتمد فقط على إدخال النص أو الصورة أو الصوت. من السهل أيضًا تخيل أداة مثل ImageBind تفتح أبوابًا جديدة في مساحة إمكانية الوصول ، وتنتج أوصافًا للوسائط المتعددة في الوقت الفعلي لمساعدة الأشخاص الذين يعانون من إعاقات بصرية أو سمعية على إدراك بيئاتهم المباشرة بشكل أفضل.
قال ميتا: “في أنظمة الذكاء الاصطناعي النموذجية ، هناك تضمين محدد (أي متجهات الأرقام التي يمكن أن تمثل البيانات وعلاقاتها في التعلم الآلي) لكل طريقة معنية”. يوضح ImageBind أنه من الممكن إنشاء مساحة دمج مشتركة عبر طرائق متعددة دون الحاجة إلى التدريب على البيانات مع كل مجموعة مختلفة من الأساليب. هذا مهم لأنه ليس من الممكن للباحثين إنشاء مجموعات بيانات مع عينات تحتوي ، على سبيل المثال ، بيانات صوتية وبيانات حرارية من أحد شوارع المدينة المزدحمة ، أو بيانات عميقة ووصف نصي لجرف ساحلي “.
يرى ميتا أن التكنولوجيا تتوسع في نهاية المطاف إلى ما وراء “الحواس” الست الحالية ، إذا جاز التعبير. “بينما استكشفنا ستة طرائق في بحثنا الحالي ، نعتقد أن تقديم طرائق جديدة تربط أكبر عدد ممكن من الحواس – مثل إشارات اللمس والكلام والرائحة والرنين المغناطيسي الوظيفي للدماغ – ستتيح نماذج أكثر ثراءً للذكاء الاصطناعي تتمحور حول الإنسان.” يمكن للمطورين المهتمين باستكشاف صندوق الحماية الجديد هذا أن يبدأوا بالغطس في كود ميتا مفتوح المصدر.
ظهر هذا المقال في الأصل على Engadget على https://www.engadget.com/metas-open-source-imagebind-ai-aims-to-mimic-human-perception-181500560.html؟src=rss