أعلنت شركة Google عن إطلاق نموذج Gemini Embedding 2، وهو نموذج ذكاء اصطناعي متكامل يتيح تحليل النصوص والصور والصوت والفيديو ضمن نظام موحد، مما يعزز قدرة الذكاء الاصطناعي على فهم البيانات بمختلف أشكالها، حيث يربط النموذج بين أنواع المحتوى المختلفة في مساحة تضمين واحدة، مما يسهل على الذكاء الاصطناعي استيعاب المفاهيم سواء كانت مكتوبة أو مسموعة أو مرئية أو متحركة، ويعكس هذا التطور أهمية دمج البيانات المتنوعة في تحقيق فهم شامل للمعلومات.
أول نموذج تضمين متعدد الوسائط من جوجل
في تدوينة رسمية، أوضحت Google أن Gemini Embedding 2 يمثل الجيل التالي من نماذج التضمين التي طورتها، ويعتبر خليفة لنموذج التضمين السابق الذي كان يركز على النصوص فقط، حيث أصبح الآن قادراً على فهم المعاني والسياق الدلالي عبر أكثر من 100 لغة، كما يتوفر النموذج حالياً في مرحلة المعاينة العامة من خلال واجهة برمجة التطبيقات الخاصة بمنصة Gemini API ومنصة الذكاء الاصطناعي السحابية Vertex AI.
كيف تتعامل نماذج الذكاء الاصطناعي مع البيانات
عادةً ما تعتمد نماذج الذكاء الاصطناعي على أنظمة منفصلة لمعالجة أنواع البيانات المختلفة، حيث يتم تخزين النصوص في نظام خاص، بينما تُحفظ الصور ومقاطع الفيديو والملفات الصوتية في أنظمة أخرى، وعند طلب معلومات معينة، يبدأ النموذج في البحث داخل النظام المرتبط بنوع الملف المطلوب فقط، مما يؤدي إلى اختلاف في كيفية معالجة المعلومات، فعلى سبيل المثال، تتعامل نماذج اللغة الكبيرة مع كلمة “قطة” في مستند نصي بشكل مختلف عن ظهور قطة في مقطع فيديو أو صورة، كما تختلف طرق استخراج المعلومات باختلاف نوع المحتوى.
نظام موحد لمعالجة جميع أنواع المحتوى
يهدف Gemini Embedding 2 إلى معالجة هذه التحديات من خلال تقديم بنية تعتمد على مساحة تضمين موحدة، حيث يمكن للنموذج التعامل مع النصوص والصور والفيديو والصوت ضمن نظام واحد، مما يعني أنه يستطيع تحليل مستند يحتوي على نصوص وصور في الوقت نفسه، وهو ما يشبه الطريقة التي يفهم بها البشر المعلومات من مصادر متعددة، وتؤكد Google أن هذه البنية الجديدة تسهم في تبسيط الأنظمة التقنية المعقدة وتحسين أداء التطبيقات المعتمدة على الذكاء الاصطناعي.
تطبيقات واسعة للنموذج الجديد
يمكن استخدام Gemini Embedding 2 في مجموعة متنوعة من التطبيقات المتقدمة، ومنها تقنيات Retrieval-Augmented Generation المعروفة اختصاراً باسم RAG، والتي تساعد نماذج الذكاء الاصطناعي في توليد إجابات دقيقة من خلال الاستفادة من مصادر خارجية، كما يمكن استخدام النموذج في تحسين البحث الدلالي داخل قواعد البيانات، وتحليل المشاعر في النصوص، وتنظيم البيانات وتجميعها ضمن مجموعات متشابهة.
قدرات تقنية متقدمة للنموذج
يمتاز Gemini Embedding 2 بعدد من القدرات التقنية المتقدمة التي تتيح له التعامل مع أنواع مختلفة من البيانات، حيث يمتلك على مستوى النصوص نافذة سياق تصل إلى 8192 رمز إدخال، مما يمكنه من معالجة كميات كبيرة من المحتوى النصي في الطلب الواحد، كما يستطيع تحليل ما يصل إلى ست صور في الطلب الواحد بصيغ PNG وJPEG، وبالنسبة للفيديو، يمكنه معالجة مقاطع تصل مدتها إلى 120 ثانية بصيغ MP4 وMOV، كما يتميز بقدرته على معالجة البيانات الصوتية مباشرة دون الحاجة إلى تحويلها إلى نص مكتوب، مما يساهم في تسريع عملية تحليل الصوت، بالإضافة إلى إمكانية تضمين ملفات PDF تصل طولها إلى ست صفحات.

