العالمي : هل بالغت OpenAI في أداء o3؟ نتائج FrontierMath تكشف عن 10% فقط

العالمي :
هل بالغت OpenAI في أداء o3؟ نتائج FrontierMath تكشف عن 10% فقط

أظهر نموذج الذكاء الاصطناعي o3 من OpenAI، الذي صدر الأسبوع الماضي، أداءً ضعيفًا في معيار محدد، حيث أشارت شركة Epoch AI، الشركة المسئولة عن معيار FrontierMath، إلى أن النسخة المتاحة للجمهور من نموذج الذكاء الاصطناعي o3 حققت 10% في الاختبار، وهي نسبة أقل بكثير من ادعاء الشركة عند الإطلاق.

وكان مارك تشين، كبير مسؤولي الأبحاث في شركة الذكاء الاصطناعي ومقرها سان فرانسيسكو، قد صرّح بأن النموذج حقق 25% في الاختبار، محققًا رقمًا قياسيًا جديدًا، ومع ذلك، فإن هذا التباين لا يعني أن OpenAI كذبت بشأن هذا المقياس.

وفي ديسمبر 2024، أجرت OpenAI بثًا مباشرًا على يوتيوب ومنصات التواصل الاجتماعي الأخرى، للإعلان عن نموذج الذكاء الاصطناعي o3، وفي ذلك الوقت، سلّطت الشركة الضوء على مجموعة القدرات المُحسّنة في نموذج اللغة الكبير (LLM)، وتحديدًا، أدائه المُحسّن في الاستعلامات القائمة على الاستدلال.

ومن الطرق التي جسّدت بها الشركة هذا الادعاء مشاركة نتائج النموذج المرجعية عبر اختبارات شائعة مُختلفة، ومن بين هذه الاختبارات اختبار FrontierMath، الذي طورته شركة Epoch AI. يُعرف هذا الاختبار الرياضي بصعوبته وقدرته على التلاعب، حيث طوّره أكثر من 70 عالم رياضيات، وجميع المسائل فيه جديدة وغير منشورة، والجدير بالذكر أنه حتى ديسمبر، لم يُجْزِ أي نموذج ذكاء اصطناعي أكثر من 9% من الأسئلة في محاولة واحدة.

ومع ذلك، عند إطلاقه، ادّعى تشين أن o3 تمكّنت من تحقيق رقم قياسي جديد بتسجيلها 25% في الاختبار، ولم يكن التحقق الخارجي من الأداء ممكنًا في ذلك الوقت، نظرًا لعدم توفر النموذج في المجال العام، وبعد إطلاق o3 وo4-mini الأسبوع الماضي، نشرت شركة Epoch AI منشورًا على منصة X (المعروفة سابقًا باسم تويتر)، مدّعيةً أن نموذج o3، في الواقع، قد حقق 10% في الاختبار.

ومع أن نسبة 10% تجعل نموذج الذكاء الاصطناعي الأعلى تصنيفًا في الاختبار، إلا أن هذا الرقم أقل من نصف ما ادّعته الشركة، وقد دفع هذا المنشور العديد من المتحمسين للذكاء الاصطناعي إلى الحديث عن صحة نتائج اختبارات الأداء المعيارية.

ولا يعني هذا التباين أن OpenAI كذبت بشأن أداء نموذج الذكاء الاصطناعي الخاص بها، بل على العكس، من المرجح أن نموذج شركة الذكاء الاصطناعي غير المُصدر استخدم قدرات حوسبة أعلى للحصول على هذه النتيجة، ومع ذلك، يُرجّح أن النسخة التجارية من النموذج قد عُدّلت لتكون أكثر كفاءة في استهلاك الطاقة، وفي هذه العملية، تم تخفيف بعض أدائها.

على صعيد منفصل، نشرت ARC Prize، وهي المنظمة التي تقف وراء اختبار ARC-AGI المعياري، الذي يختبر الذكاء العام لنموذج الذكاء الاصطناعي، أيضًا على منصة X حول هذا التباين، وأكد المنشور أن “نموذج o3 الصادر يختلف عن النموذج الذي اختبرناه في ديسمبر 2024”.

وزعمت الشركة أن مستويات الحوسبة في نموذج o3 الصادر أصغر من الإصدار الذي اختبرته. ومع ذلك، أكدت أن o3 لم يُدرّب على بيانات ARC-AGI، حتى في مرحلة ما قبل التدريب.

وأعلنت جائزة ARC أنها ستعيد اختبار نموذج الذكاء الاصطناعي o3 الصادر وستنشر النتائج المحدثة. كما ستعيد الشركة اختبار نموذج o4-mini، وستصنف النتائج السابقة على أنها “معاينة”، وليس من المؤكد أن أداء الإصدار الصادر من o3 سيكون دون المستوى في هذا الاختبار أيضًا.