انتشار نسخه جدید مدل R1 شرکت چینی DeepSeek در حالی توجه بسیاری را به خود جلب کرده که گمانهزنیهایی دربارهی منشأ دادههای آموزشی آن بالا گرفته است. آیا پای رقیب آمریکایی در میان است؟ آیا DeepSeek بدون مجوز از دادههای Gemini استفاده کرده است؟
وقتی توسعهدهندگان مستقل و محققان هوش مصنوعی نشانههایی از شباهت رفتاری مدلهای مختلف پیدا میکنند، زنگ هشدار درباره استفاده غیرمجاز از دادهها به صدا در میآید. در جدیدترین نمونه، مدل DeepSeek R1-0528 مظنون به استفاده از خروجیهای مدلهای گوگل شده؛ آن هم در شرایطی که پیشتر نیز سابقهای مشابه برای این شرکت ثبت شده است.
نشانههایی از Gemini در یادگیری DeepSeek؟
شرکت چینی DeepSeek هفته گذشته نسخه جدیدی از مدل استدلالی خود با نام R1-0528 را معرفی کرد؛ مدلی که توانسته عملکرد خوبی در آزمونهای ریاضی و برنامهنویسی از خود نشان دهد. این شرکت جزئیاتی دربارهی منبع دادههای آموزشی مدل منتشر نکرده، اما برخی محققان هوش مصنوعی گمان میبرند که بخشی از این دادهها از خانواده مدلهای Gemini گوگل استخراج شده است.
سم پیچ، توسعهدهندهای مستقر در ملبورن که در زمینه ارزیابی «هوش هیجانی» در مدلهای هوش مصنوعی فعالیت میکند، مدعی است که شواهدی یافته که نشان میدهد DeepSeek از خروجیهای Gemini برای آموزش مدل جدید خود استفاده کرده است. به گفته او، مدل R1-0528 تمایل به استفاده از واژگان و ترکیبهای زبانی مشابه با مدل Gemini 2.5 Pro دارد.
او در پستی در شبکه اجتماعی X نوشت:
«اگر فکر میکنید چرا مدل جدید DeepSeek کمی متفاوت به نظر میرسد، احتمالاً به این دلیل است که آنها منابع آموزشی خود را از خروجیهای مصنوعی OpenAI به Gemini تغییر دادهاند.»
در حالیکه این اظهارات بهتنهایی مدرک قاطعی به شمار نمیرود، یک توسعهدهنده دیگر با نام مستعار – سازنده ارزیابی “آزادی بیان” SpeechMap – نیز اعلام کرد که «ردهای فکری» (traces) تولیدشده توسط این مدل شباهت زیادی به خروجیهای Gemini دارد.
این نخستین بار نیست که DeepSeek به استفاده از دادههای مدلهای رقیب متهم میشود. در دسامبر سال گذشته، برخی توسعهدهندگان مشاهده کردند که نسخه V3 این مدل گاه خود را به اشتباه بهعنوان ChatGPT معرفی میکند. این موضوع شائبه استفاده از دادههای گفتوگویی ChatGPT برای آموزش را تقویت کرد.
در ابتدای سال جاری، OpenAI در گفتوگویی با Financial Times مدعی شد که شواهدی مبنی بر استفاده DeepSeek از روش «تقطیر» (distillation) یافته است. این روش به معنای استخراج دانش از مدلهای قویتر برای آموزش مدلهای کوچکتر است. به گزارش بلومبرگ، مایکروسافت – سرمایهگذار و شریک نزدیک OpenAI – در اواخر سال ۲۰۲۴ متوجه استخراج گسترده داده از حسابهای توسعهدهنده OpenAI شد؛ حسابهایی که ظن آن میرفت به DeepSeek مربوط باشند.
اگرچه استفاده از تقطیر در میان شرکتهای هوش مصنوعی رایج است، اما شرایط خدمات OpenAI بهطور صریح استفاده از خروجیهای مدلهایش برای ساخت مدلهای رقیب را ممنوع کرده است.
در کنار این ماجراها، آلودگی روزافزون محتوای وب با خروجیهای تولیدشده توسط مدلهای هوش مصنوعی (اصطلاحاً AI slop) موجب شده تا تمیز دادن دادههای طبیعی از مصنوعی برای آموزش مدلها روزبهروز دشوارتر شود. بهعنوان مثال، برخی مدلها ممکن است خود را اشتباه معرفی کنند یا شباهتهای زبانی داشته باشند که نه از آموزش عمدی بلکه از آلودگی دادهها ناشی شده است.
با این وجود، نیتن لمبرت، پژوهشگر مؤسسه AI2 معتقد است که استفاده DeepSeek از دادههای Gemini چندان هم دور از ذهن نیست. او در پستی در X نوشت:
«اگر جای DeepSeek بودم، قطعاً از بهترین مدلهای API موجود برای ساختن دادههای مصنوعی استفاده میکردم. آنها سختافزار کافی ندارند ولی منابع مالی خوبی دارند. این کار عملاً معادل افزایش توان محاسباتی برای آنهاست.»
تلاقی رقابت و اخلاق در دنیای مدلهای زبانی
موضوع استفاده DeepSeek از خروجیهای Gemini – چه به صورت مستقیم و چه غیرمستقیم – نقطهای حسّاس در رقابت شدید میان شرکتهای بزرگ هوش مصنوعی را آشکار میکند: مرز باریکی میان یادگیری از محیط و سرقت دانشی.
در شرایطی که تقطیر بهعنوان یک روش علمی پذیرفتهشده است، استفاده از آن برای بازتولید مدلهای رقیب، آن هم بدون اجازه، از نظر قانونی و اخلاقی محل بحث است. شرکتهایی مانند OpenAI، گوگل و Anthropic برای جلوگیری از سوءاستفادههای احتمالی، اقداماتی چون الزام به احراز هویت کاربران یا خلاصهسازی خروجیهای مدلهایشان را در پیش گرفتهاند.
بهعنوان نمونه، OpenAI از آوریل ۲۰۲۵ تنها به سازمانهایی که هویت خود را با مدارک رسمی تأیید کنند، اجازه دسترسی به برخی مدلهای پیشرفته را میدهد. چین در فهرست کشورهای مجاز قرار ندارد. همچنین گوگل در پلتفرم AI Studio خود شروع به خلاصهسازی ردهای مدلها کرده تا از استفاده احتمالی توسط رقبا جلوگیری کند. شرکت Anthropic نیز اعلام کرده که برای محافظت از مزیت رقابتی خود همین مسیر را در پیش خواهد گرفت.
تقطیر یا تخلف؟ مرزها درحال محو شدن
اتهامهای مطرحشده علیه DeepSeek – چه در مورد استفاده از خروجیهای Gemini و چه استفاده پیشین از دادههای ChatGPT – سؤالاتی جدی درباره شفافیت و مرزهای اخلاقی در آموزش مدلهای هوش مصنوعی برمیانگیزد. هرچند هنوز شواهد قطعی و رسمی منتشر نشدهاند، شباهتهای رفتاری و زبانی میان مدلها نگرانیهای فزایندهای ایجاد کردهاند.
در دنیایی که مرز میان دادههای انسانی و مصنوعی روزبهروز محوتر میشود، حفظ شفافیت، احترام به حقوق رقبا و پایبندی به اصول اخلاقی بیش از پیش اهمیت یافته است. آنچه امروز یک برتری تکنیکی محسوب میشود، فردا ممکن است به چالشی قانونی بدل گردد.
تا روشن شدن کامل ماجرا، یک چیز مسلم است: رقابت در حوزه مدلهای زبان بزرگ به فاز جدیدی وارد شده که در آن اخلاق، امنیت و مالکیت دادهها نقشهایی پررنگتر از همیشه ایفا میکنند.