تدرس Openai’s O3 في اختبار Mensa Norway ، متجاوزة 98 ٪ من البشر.

حقق نموذج لغة Openai الجديد “O3” درجة الذكاء 136 في اختبار استخبارات Mensa النرويج العام ، يتجاوز العتبة للدخول إلى فصل Mensa للبلاد لأول مرة.
تضع النتيجة ، التي يتم حسابها من المتوسط المتداول لسبعة أشواط ، النموذج أعلى من حوالي 98 في المائة من السكان البشريين ، وفقًا لتوزيع ذكاء منحنى منحنى الجرس الموحد المستخدم في القياس.
النتيجة ، التي تم الكشف عنها من خلال البيانات من منصة مستقلة Trackingai.org، يعزز نمط النماذج المغلقة ، وتتفوق النماذج الملكية على نظيرات مفتوحة المصدر في التقييمات المعرفية التي تسيطر عليها.
هيمنة السلسلة O-Series وقياسها
تم إصدار نموذج “O3” هذا الأسبوع وهو جزء من “السلسلة O” لنماذج اللغة الكبيرة ، وهو ما يمثل معظم التصنيفات من الدرجة الأولى عبر كلا النوعين من الاختبارات التي تم تقييمها بواسطة Trackingai.
تضمن التنسيقان القياسيان “اختبارًا غير متصل بالإنترنت” برعاية Trackingai.org واختبار Mensa Norway متاحًا للجمهور ، وكلاهما سجل ضد متوسط بشري قدره 100.
بينما نشرت “O3” 116 على التقييم غير المتصل ، فقد شهدت دفعة من 20 نقطة في اختبار Mensa ، مما يشير إلى إما تعزيز التوافق مع بنية الأخيرة أو الخلطية المتعلقة بالبيانات مثل الإلمام السريع.
تضمن الاختبار المتصلة 100 سؤال التعرف على النمط المصمم لتجنب أي شيء قد يكون قد ظهر في البيانات المستخدمة لتدريب نماذج الذكاء الاصطناعي.
يبلغ كلا التقييمين عن نتيجة كل نموذج كمتوسط عبر السبعة أكثر الانتهاء الأخير، ولكن لم يتم إصدار فترات انحراف أو ثقة معيارية جنبًا إلى جنب مع الدرجات النهائية.
إن عدم وجود شفافية منهجية ، وخاصة حول الاستراتيجيات المثيرة للاستراتيجيات وتحويل مقياس التسجيل ، يحد من قابلية التكاثر والتفسير.
منهجية الاختبار
Trackingai.org الدول أنه يجمع بياناته عن طريق إدارة تنسيق موجه موحد مصمم لضمان الامتثال العريض لمنظمة العفو الدولية مع تقليل الغموض التفسيري.
يتم تقديم كل نموذج لغة ببيان يتبعه أربعة خيارات استجابة على غرار ليكرت ، لا أوافق بشدة ، لا أوافق ، أوافق ، أوافق بشدة ، ويتم توجيهها إلى اختيار واحد مع تبرير اختياره في جملتين إلى خمس جمل.
يجب تنسيق الاستجابات بوضوح ، مرفقة عادةً بالخط العريض أو النجمة. إذا رفض النموذج الإجابة ، يتم تكرار المطالبة حتى عشر مرات.
ثم يتم تسجيل الاستجابة الناجحة الأخيرة لأغراض التسجيل ، مع ملاحظة أحداث الرفض بشكل منفصل.
تهدف هذه المنهجية ، التي تم تكريرها من خلال المعايرة المتكررة عبر النماذج ، إلى توفير الاتساق في التقييمات المقارنة مع توثيق عدم الاستجابة كنقطة بيانات في حد ذاته.
ينتشر الأداء عبر أنواع النماذج
شحذ اختبار مينسا النرويج التحديد بين الحدود الحقيقية النماذج، مع 136 IQ من O3 يحدد تقدمًا واضحًا على أعلى إدخال التالي.
في المقابل ، سجلت نماذج شائعة أخرى مثل GPT-4O أقل بكثير ، حيث هبطت عند 95 على Mensa و 64 في وضع عدم الاتصال ، مع التأكيد على فجوة الأداء بين إصدار “O3” لهذا الأسبوع ونماذج أخرى أخرى.
من بين التقديمات المفتوحة المصدر ، كان Meta’s Llama 4 Maverick هو الأعلى تصنيفًا ، حيث نشر 106 IQ على Mensa و 97 على المعيار غير المتصل بالإنترنت.
تقع معظم الإدخالات المرخصة من Apache ضمن نطاق 60-90 ، مما يعزز القيود الحالية للبنى المبنية على المجتمع بالنسبة لخطوط الأنابيب البحثي المدعومة من الشركات.
نماذج متعددة الوسائط ترى درجات مخفضة وقيود الاختبار
والجدير بالذكر أن النماذج المصممة خصيصًا لدمج إمكانيات إدخال الصورة قد ضعفت باستمرار إصدارات النصوص فقط. على سبيل المثال ، سجل “O1 Pro” من Openai 107 في الاختبار غير المتصل بالإنترنت في تكوين النص عليه ولكنه انخفض إلى 97 في نسخته التي تدعم الرؤية.
كان التناقض أكثر وضوحًا في اختبار Mensa ، حيث حقق المتغير النصي فقط 122 مقارنة بـ 86 للإصدار المرئي. هذا يشير إلى أن بعض طرق التدريب المتعدد الوسائط قد تقدم أوجه عدم الكفاءة التي لا تزال دون حل في الوقت الحاضر.
ومع ذلك ، يمكن لـ “O3” أيضًا تحليل الصور وتفسيرها على مستوى عالٍ للغاية ، أفضل بكثير من سابقاتها ، مما يكسر هذا الاتجاه.
في نهاية المطاف ، توفر معايير الذكاء نافذة ضيقة في إمكانية التفكير في النموذج ، مع مطابقة نمط السياق قصيرة فقط توفر رؤى محدودة فقط في السلوك المعرفي الأوسع مثل التفكير المتعدد أو التخطيط أو الدقة الواقعية.
بالإضافة إلى ذلك ، ظروف اختبار الماكينة ، مثل الوصول الفوري إلى المطالبات الكاملة وسرعة المعالجة غير المحدودة ، ومزيد من مقارنات طمس الإدراك البشري.
تظل الدرجة التي تترجم بها درجات ذكاء عالية في الاختبارات المهيكلة إلى أداء نموذج اللغة في العالم الحقيقي غير مؤكد.
كما الباحثين Trackingai.org يُقرّ، حتى محاولاتهم لتجنب تسرب التدريب لا تمنع تمامًا إمكانية التعرض غير المباشر أو التعميم على التنسيق ، لا سيما بالنظر إلى عدم وجود شفافية حول مجموعات بيانات التدريب وإجراءات ضبطها للنماذج الملكية.
يملأ المقيمون المستقلون فجوة الشفافية
تعتمد منظمات مثل LM-Eval و Gptzero و MLCommons بشكل متزايد لتوفير تقييمات الطرف الثالث مع استمرار مطوري النماذج في الحد من الإفصاحات حول البنية الداخلية وطرق التدريب.
تقوم “تقييمات الظل” هذه بتشكيل المعايير الناشئة لاختبار نموذج اللغة الكبير ، وخاصة في ضوء الإفصاحات غير المألوفة وغالبًا ما تكون مجزأة من شركات AI الرائدة.
تشغل Openai’s O-Series موقعًا قياديًا في سير عمل الاختبار هذا ، على الرغم من أن الآثار المترتبة على المدى الطويل على الذكاء العام أو السلوك الواعي أو النشر الأخلاقي لا يزال يتعين معالجتها في تجارب أكثر صلة بالمجال. إن درجات الذكاء ، على الرغم من استفزازية ، تعمل كإشارات الكفاءة في السياق قصيرة أكثر من مؤشر نهائي للقدرات الأوسع.
لكل trackingai.org ، سيكون من الضروري إجراء تحليل إضافي حول فروق الأداء القائمة على التنسيق وموثوقية التقييم لتوضيح صحة المعايير الحالية.
مع زيادة الإصدارات النموذجية المتسارعة والاختبارات المستقلة في التطور ، قد تستمر المقاييس المقارنة في التطور في كل من التنسيق والتفسير.