أطلقت شركة DeepSeek الصينية نموذجًا جديدًا للذكاء الاصطناعي يُدعى DeepSeek-V3، والذي يُعتبر من أقوى النماذج مفتوحة المصدر حاليًا. يتميز هذا النموذج باعتماده على بنية “مزيج الخبراء” (MoE) مع 671 مليار معلمة، حيث يتم تفعيل 37 مليار معلمة لكل إدخال نصي، مما يعزز كفاءته في معالجة المهام المختلفة.
أبرز ميزات DeepSeek-V3:
- أداء متفوق: تفوق النموذج على العديد من النماذج مفتوحة المصدر مثل Llama-3.1-405B وQwen 2.5-72B، وحقق أداءً مقاربًا لنماذج مغلقة مثل GPT-4o وClaude 3.5 Sonnet في اختبارات متعددة.
- كفاءة في التدريب: تم تدريب النموذج على 14.8 تريليون رمز باستخدام وحدات معالجة الرسوميات H800، واستغرقت عملية التدريب حوالي شهرين بتكلفة تُقدّر بـ5.57 مليون دولار، وهي تكلفة أقل بكثير مقارنة بنماذج أخرى مماثلة.
- سرعة معالجة: يستطيع النموذج توليد 60 رمزًا في الثانية، مما يجعله أسرع بثلاث مرات من الإصدار السابق DeepSeek-V2.
- دعم سياق طويل: يتميز النموذج بقدرته على معالجة سياق يصل إلى 128 ألف رمز، مما يُمكّنه من التعامل مع نصوص طويلة ومعقدة بكفاءة عالية.
يمكن للمستخدمين والمطورين الوصول إلى DeepSeek-V3 عبر منصات مثل GitHub وHugging Face، كما يمكن تجربته مباشرة من خلال المنصة الرسمية للشركة.
للمزيد من المعلومات:
يُعد DeepSeek-V3 خطوة مهمة نحو تقليص الفجوة بين النماذج مفتوحة ومغلقة المصدر، مما يوفر خيارات متعددة للشركات والمطورين ويمنع احتكار تقنيات الذكاء الاصطناعي.
المصادر: