أطلقت شركة StepFun AI نموذجاً جديداً يُعرف بـ Step‑DeepResearch، وهو وكيل بحث عميق شامل يعمل بنظام end-to-end ويحتوي على 32 مليار معاملة، مبني على قاعدة Qwen2.5-32B-Base، يهدف هذا النموذج إلى تحويل عمليات البحث التقليدية على الويب إلى سير عمل بحثي متقدم يتضمن التفكير طويل الأمد واستخدام الأدوات والتقارير المنظمة مع الاستشهادات، مع الحفاظ على تكلفة استدلال منخفضة نسبياً مقارنة بالنماذج الكبيرة الأخرى.

يعيد النموذج صياغة مهمة البحث العميق كعملية اتخاذ قرار تسلسلي تعتمد على مجموعة مدمجة من أربع قدرات أساسية تشمل التخطيط وتفكيك المهمة، البحث العميق عن المعلومات، التأمل والتحقق، وإنتاج التقارير المهنية، حيث يدمج النموذج هذه القدرات داخلياً في وكيل واحد يحدد الخطوة التالية في كل مرحلة.

بناء البيانات والتدريب الموجه نحو القدرات الأساسية

وفقاً لتقرير نشر على موقع مارك تيك بوست، قام فريق البحث ببناء خطوط بيانات منفصلة لكل قدرة أساسية، حيث تم استخراج خطط بحث واقعية للتخطيط من تقارير فنية وأوراق مسحية وتحليلات مالية، ثم توليد مسارات تتبع هذه الخطط، أما بالنسبة للبحث العميق، فقد تم إنشاء استفسارات قائمة على الرسوم البيانية عبر قواعد معرفية مثل Wikidata5m وCN-DBpedia، مع التركيز على الأسئلة الصعبة التي تتطلب استرداداً متعدد الوثائق، تم توليد بيانات التأمل والتحقق عبر حلقات تصحيح ذاتي وتتبعات معلم متعدد الوكلاء، بينما تم تدريب إنتاج التقارير على مراحل مع التركيز على التنسيق الصارم والاستشهادات، ويتكون التدريب من ثلاث مراحل تشمل mid-training لإدخال القدرات الأساسية حتى 150 مليار توكن مع سياق 32k ثم 128k، supervised fine-tuning لتركيب مسارات بحث كاملة، وreinforcement learning باستخدام PPO ومحكم Rubrics لتحسين التقارير وفقاً لمعايير دقيقة.

هندسة ReAct واحدة مع مكدس بحث مختار وذاكرة خارجية

يعمل النموذج عند الاستدلال كنظام ReAct واحد يتناوب بين التفكير واستدعاء الأدوات والملاحظات حتى يقرر إصدار التقرير، تشمل الأدوات البحث الجماعي على الويب، مدير المهام، أوامر الشل، وعمليات الملفات داخل sandbox مع استمرارية الطرفية، يستخدم مكدس البحث API خاصاً يغطي أكثر من 20 مليون ورقة بحثية عالية الجودة و600 مؤشر متميز، بالإضافة إلى تصنيف سلطة يفضل أكثر من 600 نطاق موثوق مثل الحكومي والأكاديمي والمؤسسي، لتجنب تجاوز السياق، يستخدم تخزيناً ذكياً يعتمد على الملخصات وتحرير التصحيحات الجزئية للملفات، مما يعمل كذاكرة خارجية فعالة للمشاريع الطويلة.