إطار تدريبي مفتوح المصدر لتطوير الذكاء الاصطناعي متعدد الوسائط
قام الباحثون بتطوير 4M، وهو إطار عمل مفتوح المصدر من الجيل التالي لتدريب نماذج أساسية متعددة الوسائط وقابلة للتطوير تتجاوز اللغة.
لقد غيرت نماذج اللغات الكبيرة مثل ChatGPT من OpenAI بالفعل الطريقة التي يمارس بها الكثير منا بعض مهامنا اليومية. يتم تدريب روبوتات الدردشة المولدة للذكاء الاصطناعي هذه باستخدام اللغة – مئات التيرابايت من النصوص “المستخرجة” من جميع أنحاء الإنترنت وبمليارات من المعلمات.
بالنظر إلى المستقبل، يعتقد الكثيرون أن “المحركات” التي تحرك الذكاء الاصطناعي التوليدي ستكون نماذج متعددة الوسائط لا يتم تدريبها على النص فحسب، بل يمكنها أيضًا معالجة مختلف طرائق المعلومات الأخرى، بما في ذلك الصور والفيديو والصوت والطرائق من مجالات أخرى مثل العلوم البيولوجية. أو البيانات الجوية.
ومع ذلك، حتى وقت قريب، كان تدريب نموذج واحد للتعامل مع مجموعة واسعة من الطرائق – المدخلات – والمهام – المخرجات – يواجه تحديات كبيرة. على سبيل المثال، أدى التدريب في كثير من الأحيان إلى انخفاض الأداء مقارنة بنماذج المهمة الواحدة وعادة ما يتطلب استراتيجيات دقيقة لتقليل خسائر الجودة وزيادة الدقة إلى أقصى حد. وبالإضافة إلى ذلك، فإن تدريب شبكة واحدة على طرائق مختلفة – أو مدخلات – مثل اللغة أو الصور أو مقاطع الفيديو التي تختلف اختلافًا كبيرًا، قد أدى إلى تعقيدات إضافية، وكثيرًا ما تجاهل النموذج المعلومات الأساسية في طرائق معينة بشكل غير صحيح.
النمذجة المتعددة الوسائط
في مشروع متعدد السنوات تم تنفيذه بدعم من شركة Apple في كاليفورنيا، قام باحثون من مختبر الذكاء البصري والتعلم (VILAB) في كلية علوم الكمبيوتر والاتصالات (IC) بتطوير 4M، من أجل النمذجة متعددة الوسائط على نطاق واسع، وهي واحدة من أفضل التقنيات في العالم. الشبكات العصبية الفردية الأكثر تقدمًا للتعامل مع مجموعة واسعة ومتنوعة من المهام والطرائق.
في أحدث ورقة بحثية لهم حول 4M، والتي تم تقديمها في ديسمبر في NeurIPS 2024، المؤتمر السنوي لأنظمة معالجة المعلومات العصبية، يصف الباحثون كيف توسع قدرات النماذج الحالية بطرق متعددة (انظر المربع أدناه لمزيد من التفاصيل التقنية).
“مع 4M، لدينا الآن نموذج غني يمكنه تفسير أكثر من مجرد لغة. ولكن لماذا هذا مهم؟ أحد الانتقادات الشائعة لماجستير القانون هو أن معرفتهم لا أساس لها لأن بيانات التدريب تقتصر على اللغة فقط،” أوضح الأستاذ المساعد. أمير زمير، رئيس VILAB.
“عندما نتقدم إلى النمذجة متعددة الوسائط، لا يتعين علينا أن نقتصر على اللغة. فنحن نحضر طرائق أخرى، بما في ذلك أجهزة الاستشعار. على سبيل المثال، يمكننا توصيل برتقالة من خلال كلمة “برتقالي”، تمامًا كما هو الحال في نماذج اللغة، ولكن أيضًا من خلال مجموعة من البكسلات، أي كيف تبدو البرتقالة، أو من خلال حاسة اللمس، التقاط كيفية لمس البرتقالة. إذا قمت بتجميع طرق مختلفة، سيكون لديك تغليف أكثر اكتمالًا للواقع المادي الذي نحاول تصميمه. ” واصل.
نحو نموذج عام مفتوح المصدر للاستخدام على نطاق واسع
على الرغم من هذه التطورات المثيرة للإعجاب، يقول زامير إن تطوير 4M قد قدّم بعض التحديات المثيرة للاهتمام، بما في ذلك عدم تطوير النموذج لتمثيل موحد حقيقي عبر الطرائق، ولديه نظريته الخاصة حول السبب.
“نعتقد أنه سرًا، وتحت الغطاء، تغش النماذج وتنشئ مجموعة صغيرة من النماذج المستقلة. مجموعة واحدة من المعلمات تحل مشكلة واحدة، ومجموعة أخرى من المعلمات تحل مشكلة أخرى، وبشكل جماعي، يبدو أنها تحل المشكلة الشاملة. لكنهم “إنهم لا يوحدون معارفهم حقًا بطريقة تتيح تمثيلًا مشتركًا مدمجًا للبيئة والذي من شأنه أن يكون بوابة جيدة للعالم.”
يواصل فريق VILAB العمل على بناء المزيد من الهيكلة والتوحيد في 4M، بهدف تطوير بنية عامة مفتوحة المصدر، وتمكين الخبراء في المجالات الأخرى من تكييفها مع احتياجاتهم المحددة، مثل نمذجة المناخ أو البحوث الطبية الحيوية. ويعمل الفريق أيضًا على معالجة الجوانب المهمة الأخرى، مثل تعزيز قابلية التوسع بشكل أكبر وطرق تخصيص النماذج لسياقات النشر.
“الهدف الأساسي من المصادر المفتوحة هو أن يتمكن الأشخاص من تصميم النموذج لأنفسهم ببياناتهم الخاصة ومواصفاتهم الخاصة. 4M تأتي في الوقت المناسب، ونحن متحمسون بشكل خاص للمجالات الأخرى التي تتبنى هذا الخط من النمذجة لصالحهم. وقال أوجوزان فاتح كار ورومان باخمان، مساعدا الدكتوراه في VILAB، ومؤلفان مشاركين: “نحن متحمسون لرؤية ما سيقودنا إليه هذا الأمر، ولكن لا يزال هناك الكثير من التحديات، وما زال هناك الكثير مما يتعين علينا القيام به”. من الورقة.
واستنادًا إلى خبرة الفريق في تطوير 4M والمشكلات المثيرة للاهتمام التي يواصلون العمل عليها، يعتقد زامير أن هناك بعض الأسئلة المثيرة للاهتمام حول التطوير المستقبلي لنماذج الأساس.
“كبشر، لدينا خمس حواس رئيسية، علاوة على ذلك، نتعلم اللغة بكفاءة، مما يضيف تسميات وبنية إلى المعرفة التي كانت متأصلة بالفعل في هذه الحواس الأخرى. إنه العكس مع الذكاء الاصطناعي الحالي – لدينا نماذج لغوية بدون الوصول الحسي إلى العالم ولكن يتم تدريبهم باستخدام البيانات الهائلة والموارد الحسابية. هدفنا هو دراسة دور الوسائط المتعددة وتطوير نموذج عالمي مؤرض بكفاءة يمكن استخدامه بشكل فعال في الاستخدامات النهائية.
تعمل 4M على توسيع قدرات النماذج الحالية عبر عدة محاور رئيسية، بما في ذلك:
- الأساليب: تتيح تقنية 4M إمكانيات جديدة مثل التنبؤ بعشرات الأساليب من عشرات الأساليب الأخرى، واسترجاع الوسائط المتعددة، والتوليد الذي يمكن التحكم فيه، والأداء القوي خارج الصندوق. لقد أظهر بشكل مقنع أن النموذج الواحد يمكنه حل عشرات المهام المتنوعة دون أي خسارة في الأداء مقارنة بالنماذج المخصصة ذات المهمة الواحدة والنماذج الحديثة.
- التنوع: تدعم 4M طرائق متنوعة وبيانات أكثر تنظيماً، مثل الأوضاع البشرية ومثيلات SAM والبيانات التعريفية للتوليد الذي يمكن التحكم فيه.
- الترميز: تبحث شركة 4M في الترميز المنفصل لطرائق متنوعة مثل تضمين الصور العالمية، والأوضاع البشرية، والدلالات.
- النطاق: تم توسيع نطاق النموذج العام إلى 3 مليارات معلمة وتم تدريبه على أكثر من 500 مليار رمز مميز.
- التدريب المشترك: تعرض شركة 4M تدريبًا مشتركًا على نمذجة الرؤية واللغة في وقت واحد.