اكتشف الباحثون مشكلة جديدة تتعلق بأنظمة الذكاء الاصطناعي التي بدأت تتفوق في التقييمات الأكاديمية التقليدية، حيث تبين أن الاختبارات المستخدمة كانت سهلة للغاية، مثل اختبار فهم اللغة متعدد المهام الضخم (MMLU) الذي كان يُعتبر في السابق تحديًا كبيرًا، لكن لم يعد يقدم الصعوبة الكافية لاختبار فعالية الأنظمة المتقدمة بشكل موثوق.

وفقًا لموقع “techxplore”، قام اتحاد عالمي يضم حوالي 1000 باحث، بما في ذلك أستاذ من جامعة تكساس إيه آند إم، بابتكار اختبار جديد كليًا، يتميز بأنه واسع النطاق وصعب للغاية ومتجذر في المعرفة البشرية المتخصصة، بحيث تفشل فيه الأنظمة الحالية بانتظام.

يحتوي الاختبار على 2500 سؤال تغطي مجموعة متنوعة من المواضيع مثل الرياضيات، والعلوم الإنسانية، والعلوم الطبيعية، واللغات القديمة، بالإضافة إلى مجالات فرعية متخصصة.

جهد عالمي لقياس حدود الذكاء الاصطناعي

تمت كتابة الأسئلة الخاصة بمشروع HLE ومراجعتها من قبل خبراء في مجالاتهم من مختلف أنحاء العالم، حيث تم التأكيد على أن كل سؤال له إجابة واحدة واضحة وقابلة للتحقق، ولا يمكن حله بسهولة عبر الإنترنت.

تستند الأسئلة إلى مسائل أكاديمية متخصصة، بدءًا من ترجمة النقوش التدمرية القديمة، مرورًا بتحديد التراكيب التشريحية الدقيقة في الطيور، وصولًا إلى تحليل الخصائص المعقدة لنطق اللغة العبرية التوراتية.

تم اختبار كل سؤال باستخدام نماذج الذكاء الاصطناعي الرائدة، وفي حال تمكن أي نظام من الإجابة بشكل صحيح، يتم حذف السؤال، مما أدى إلى تصميم اختبار يهدف لتجاوز قدرات الذكاء الاصطناعي الحالية.

أثبت الاختبار نجاحه من خلال النتائج الأولية، حيث واجهت حتى النماذج الأكثر تطورًا صعوبة، حيث حقق GPT-40 نسبة 2.7%، بينما وصل Claude 3.5 Sonnet إلى 4.1%، ونموذج o1 الرائد من OpenAI حقق 8%، أما النماذج الأكثر تطورًا، بما في ذلك Gemini 3.1 Pro وClaude Opus 4.6، فقد تراوحت دقتها بين 40% و50%.

يهدف هذا الاختبار، الذي أطلق عليه “الاختبار الأخير للبشرية” (HLE)، إلى أن يكون معيارًا شفافًا طويل الأمد لتقييم أنظمة الذكاء الاصطناعي المتقدمة، وكجزء من هذه المهمة، أتاح الفريق بعض أسئلة الاختبار للجمهور، مع الاحتفاظ بمعظمها مخفيًا لمنع نماذج الذكاء الاصطناعي من حفظ الإجابات.