هل تم تدريب DeepSeek على بيانات ChatGPT؟

كشف تقرير حديث صادر عن شركة Copyleaks، المتخصصة في تحليل النصوص بالذكاء الاصطناعي وكشف السرقات الأدبية، أن نموذج الذكاء الاصطناعي DeepSeek-R1 قد يكون قد دُرّب باستخدام مخرجات ChatGPT من شركة OpenAI.
وأظهر التقرير أن البصمة الأسلوبية لنموذج DeepSeek-R1 تتطابق بنسبة 74.2% مع أسلوب OpenAI، ما أثار جدلًا واسعًا حول مصادر بياناته التدريبية.
تحليل Copyleaks لطريقة عمل DeepSeek-R1
اعتمد التقرير على تحليل أسلوب كتابة DeepSeek-R1 باستخدام ثلاثة مصنفات ذكاء اصطناعي متطورة، تمت برمجتها لتقييم النصوص بناءً على أنماط لغوية معينة. وشملت الدراسة مقارنة بيانات DeepSeek مع أربعة نماذج رئيسية للذكاء الاصطناعي، وهي:
1. Claude (من Anthropic)
2. Gemini (من Google DeepMind)
3. Llama (من Meta)
4. OpenAI (مطور ChatGPT)
وقد أظهرت نتائج التحليل أن DeepSeek-R1 يعتمد بشكل كبير على أسلوب OpenAI في اختيار المفردات، تركيب الجمل، وهيكلة المحتوى، مما يعزز الشكوك حول احتمالية استخدام مخرجات ChatGPT في تدريبه.
الجدل حول منهجية تدريب DeepSeek
وفقًا للتقرير، اعتمدت شركة DeepSeek على تقنية التقطير (Distillation)، وهي طريقة تُستخدم لخفض تكاليف تدريب نماذج الذكاء الاصطناعي عبر استخدام مخرجات نماذج أكثر تقدمًا بدلاً من جمع بيانات جديدة من الصفر. وهذا الأسلوب يُمكن أن يفسر التطابق الكبير بين DeepSeek-R1 وChatGPT.
لكن عدم كشف DeepSeek عن مصادر بياناتها التدريبية أثار تساؤلات حول مدى شرعية النموذج، ومدى دقة المعلومات التي يقدمها، خصوصًا في ظل عدم وضوح قواعد تدريب النماذج المنافسة الأخرى مثل Claude و Gemini.
التأثيرات الاقتصادية لانطلاق DeepSeek-R1
لم يقتصر تأثير نموذج DeepSeek-R1 على الجدل التقني فقط، بل كان له تداعيات اقتصادية كبيرة. إذ تسبب الإعلان عن قدراته المتقدمة في خسائر تُقدّر بتريليون دولار في سوق الأسهم الأمريكية، حيث بدأ المستثمرون يراهنون على أن تدريب نماذج الذكاء الاصطناعي لم يعد يتطلب استثمارات ضخمة تقدر بمليارات الدولارات.
ومن أبرز الشركات المتضررة كانت NVIDIA، التي تعتمد على بيع وحدات معالجة الرسومات (GPUs) المستخدمة في تطوير الذكاء الاصطناعي، إذ شهدت أسهمها تراجعًا كبيرًا مع انخفاض ثقة المستثمرين في استمرار الحاجة إلى عتادها المتقدم.
ردود الفعل: اتهامات وتهديدات بالحظر
سبق لشركة OpenAI أن اتهمت DeepSeek باستخدام مخرجات ChatGPT لتدريب نماذجها، لكن دون تقديم أدلة ملموسة حتى الآن.
ويعتقد بعض الخبراء أن الحكومة الأمريكية قد تتخذ إجراءات ضد DeepSeek في المستقبل، بما في ذلك احتمال فرض حظر على نماذجها داخل الولايات المتحدة.
مستقبل الذكاء الاصطناعي في ظل المنافسة الشرسة
يثير هذا الجدل تساؤلات أوسع حول أخلاقيات تطوير نماذج الذكاء الاصطناعي، و،حقوق الملكية الفكرية المرتبطة ببيانات التدريب.
كما يفتح الباب أمام نقاش عالمي حول ضرورة وضع أطر تنظيمية واضحة تضمن الشفافية في تطوير الذكاء الاصطناعي، خاصة مع تزايد الاعتماد عليه في مختلف المجالات.
فهل ستتمكن OpenAI من إثبات ادعاءاتها؟ أم أن DeepSeek ستواصل التوسع بدون قيود؟ الأيام القادمة قد تحمل المزيد من المفاجآت في هذا الصراع التقني المتصاعد.