ستعمل مجموعات البيانات الجديدة على تدريب نماذج الذكاء الاصطناعي على التفكير مثل العلماء
ماذا يمكن أن تعلمنا النجوم المتفجرة عن كيفية تدفق الدم عبر الشريان؟ أو البكتيريا السابحة حول كيفية امتزاج طبقات المحيط؟ المعرفة بين المجالات لدفع الاكتشافات العلمية.
تستخدم المبادرة، التي تسمى Polymathic AI، تقنية مثل تلك التي تعمل على تشغيل نماذج لغوية كبيرة مثل ChatGPT من OpenAI أو Gemini من Google. ولكن بدلاً من استيعاب النص، تتعلم نماذج المشروع باستخدام مجموعات البيانات العلمية من مختلف مجالات الفيزياء الفلكية، وعلم الأحياء، والصوتيات، والكيمياء، وديناميكيات الموائع والمزيد، مما يمنح النماذج معرفة علمية متعددة التخصصات.
وقال عضو الفريق مايكل مكابي من معهد فلاتيرون في مدينة نيويورك: “إن مجموعات البيانات هذه هي إلى حد بعيد المجموعات واسعة النطاق الأكثر تنوعًا من البيانات عالية الجودة للتدريب على التعلم الآلي التي تم تجميعها على الإطلاق في هذه المجالات”. “يعد تنظيم مجموعات البيانات هذه خطوة حاسمة في إنشاء نماذج ذكاء اصطناعي متعددة التخصصات ستمكن من اكتشافات جديدة حول عالمنا.”
اليوم (2 ديسمبر)، أصدر فريق Polymathic AI اثنتين من مجموعات البيانات التدريبية مفتوحة المصدر للجمهور – وهي كمية هائلة تبلغ 115 تيرابايت، من عشرات المصادر – ليستخدمها المجتمع العلمي لتدريب نماذج الذكاء الاصطناعي وتمكين الاكتشافات العلمية الجديدة. . للمقارنة، استخدم GPT-3 45 تيرابايت من النص غير المضغوط وغير المنسق للتدريب، والذي انتهى به الأمر إلى حوالي 0.5 تيرابايت بعد التصفية.
مجموعات البيانات الكاملة متاحة للتنزيل مجانًا على HuggingFace، وهي منصة تستضيف نماذج الذكاء الاصطناعي ومجموعات البيانات. يقدم فريق Polymathic AI مزيدًا من المعلومات حول مجموعات البيانات في الأوراق المقبولة للعرض في مؤتمر التعلم الآلي NeurIPS، الذي سيعقد في وقت لاحق من هذا الشهر في فانكوفر، كندا.
قال الدكتور مايلز كرانمر، قائد فريق كامبريدج من معهد كامبريدج لعلم الفلك: “تمامًا كما تعلم ماجستير إدارة الأعمال مثل ChatGPT استخدام البنية النحوية المشتركة عبر اللغات، فإن نماذج الأساس العلمي الجديدة هذه قد تكشف عن روابط عميقة عبر التخصصات التي لم نلاحظها من قبل”. “قد نكشف عن أنماط لا يستطيع أي إنسان رؤيتها، وذلك ببساطة لأنه لم يسبق لأحد أن امتلك هذا الاتساع من المعرفة العلمية والقدرة على ضغطها في إطار واحد.”
أصبحت أدوات الذكاء الاصطناعي، مثل التعلم الآلي، شائعة بشكل متزايد في البحث العلمي، وقد تم الاعتراف بها في اثنتين من جوائز نوبل لهذا العام. ومع ذلك، فإن مثل هذه الأدوات عادةً ما تكون مصممة خصيصًا لتطبيق معين ويتم تدريبها باستخدام بيانات من هذا المجال. الذكاء الاصطناعي المتعدد الرياضيات يعكس فريق المشروع التنوع الفكري، حيث يضم فيزيائيين، وعلماء فيزياء فلكية، وعلماء رياضيات، وعلماء كمبيوتر، وعلماء أعصاب.
تركز المجموعة الأولى من مجموعتي بيانات التدريب الجديدتين على الفيزياء الفلكية. تحتوي مجموعة البيانات، التي يطلق عليها اسم الكون المتعدد الوسائط، على مئات الملايين من الملاحظات والقياسات الفلكية، مثل صور المجرات التي التقطها تلسكوب جيمس ويب الفضائي التابع لناسا وقياسات نجوم مجرتنا التي أجرتها مركبة غايا الفضائية التابعة لوكالة الفضاء الأوروبية.
أما المجموعة الأخرى، والتي تسمى البئر، فتضم أكثر من 15 تيرابايت من البيانات من 16 مجموعة بيانات متنوعة. تحتوي مجموعات البيانات هذه على محاكاة عددية للأنظمة البيولوجية، وديناميكيات الموائع، والتشتت الصوتي، وانفجارات المستعرات الأعظم، وغيرها من العمليات المعقدة. لعب باحثو كامبريدج دورًا رئيسيًا في تطوير مجموعتي البيانات، بالعمل جنبًا إلى جنب مع PolymathicAI ومتعاونين دوليين آخرين.
في حين أن مجموعات البيانات المتنوعة هذه قد تبدو منفصلة في البداية، إلا أنها تتطلب جميعًا نمذجة معادلات رياضية تسمى المعادلات التفاضلية الجزئية. تظهر مثل هذه المعادلات في المشكلات المتعلقة بكل شيء بدءًا من ميكانيكا الكم وحتى تطور الجنين ويمكن أن يكون حلها صعبًا للغاية، حتى بالنسبة للحواسيب العملاقة. أحد أهداف البئر هو تمكين نماذج الذكاء الاصطناعي من إنتاج حلول تقريبية لهذه المعادلات بسرعة ودقة.
وقال بن بويد، مرشح الدكتوراه في معهد علم الفلك: “من خلال توحيد مجموعات البيانات الغنية هذه، يمكننا دفع التقدم في الذكاء الاصطناعي ليس فقط للاكتشافات العلمية، ولكن أيضًا لمعالجة مشاكل مماثلة في الحياة اليومية”.
وقال روبن أوهانا، عضو الفريق من معهد فلاتيرون، إن جمع البيانات الخاصة بمجموعات البيانات هذه يشكل تحديًا. تعاون الفريق مع العلماء لجمع وإنشاء البيانات للمشروع. وقال: “إن مبتكري المحاكاة الرقمية يشككون في بعض الأحيان في التعلم الآلي بسبب كل هذه الضجة، لكنهم فضوليون بشأنها وكيف يمكن أن تفيد أبحاثهم وتسريع الاكتشافات العلمية”.
يستخدم فريق Polymathic AI الآن مجموعات البيانات لتدريب نماذج الذكاء الاصطناعي. وفي الأشهر المقبلة، سوف يقومون بنشر هذه النماذج في مهام مختلفة لمعرفة مدى نجاح أنظمة الذكاء الاصطناعي الشاملة والمدربة جيدًا في معالجة المشكلات العلمية المعقدة.
وقال الدكتور بايل موكوبادياي من معهد علم الفلك: “سيكون من المثير معرفة ما إذا كان تعقيد مجموعات البيانات هذه يمكن أن يدفع نماذج الذكاء الاصطناعي إلى تجاوز مجرد التعرف على الأنماط، وتشجيعها على التفكير والتعميم عبر المجالات العلمية”. “مثل هذا التعميم ضروري إذا أردنا بناء نماذج الذكاء الاصطناعي التي يمكن أن تساعد حقًا في إجراء علوم ذات معنى.”
وقال كرنمر، وهو أيضًا عضو في قسم الرياضيات التطبيقية والفيزياء النظرية بجامعة كامبريدج: “حتى الآن، لم يكن لدينا مجموعة بيانات منسقة ذات جودة علمية تغطي مثل هذه المجموعة الواسعة من المجالات”. “تفتح مجموعات البيانات هذه الباب أمام نماذج أسس علمية عامة حقيقية لأول مرة. ما هي المبادئ العلمية الجديدة التي قد نكتشفها؟ نحن على وشك اكتشافها، وهذا أمر مثير للغاية.”
يدير مشروع الذكاء الاصطناعي المتعدد الرياضيات باحثون من مؤسسة سيمونز ومعهد فلاتيرون التابع لها، وجامعة نيويورك، وجامعة كامبريدج، وجامعة برينستون، والمركز الوطني الفرنسي للبحث العلمي، ومختبر لورانس بيركلي الوطني.
يضم أعضاء فريق الذكاء الاصطناعي المتعدد الرياضيات من جامعة كامبريدج طلاب دكتوراه وباحثين ما بعد الدكتوراه وأعضاء هيئة التدريس في أربعة أقسام: قسم الرياضيات التطبيقية والفيزياء النظرية، وقسم الرياضيات البحتة والإحصاء الرياضي، ومعهد علم الفلك ومعهد كافلي للأبحاث. علم الكونيات.