ردپای جمنای در مدل جدید دیپ‌سیک؟

انتشار نسخه جدید مدل R1 شرکت چینی DeepSeek در حالی توجه بسیاری را به خود جلب کرده که گمانه‌زنی‌هایی درباره‌ی منشأ داده‌های آموزشی آن بالا گرفته است. آیا پای رقیب آمریکایی در میان است؟ آیا DeepSeek بدون مجوز از داده‌های Gemini استفاده کرده است؟

وقتی توسعه‌دهندگان مستقل و محققان هوش مصنوعی نشانه‌هایی از شباهت رفتاری مدل‌های مختلف پیدا می‌کنند، زنگ هشدار درباره استفاده غیرمجاز از داده‌ها به صدا در می‌آید. در جدیدترین نمونه، مدل DeepSeek R1-0528 مظنون به استفاده از خروجی‌های مدل‌های گوگل شده؛ آن‌ هم در شرایطی که پیش‌تر نیز سابقه‌ای مشابه برای این شرکت ثبت شده است.

نشانه‌هایی از Gemini در یادگیری DeepSeek؟

شرکت چینی DeepSeek هفته گذشته نسخه جدیدی از مدل استدلالی خود با نام R1-0528 را معرفی کرد؛ مدلی که توانسته عملکرد خوبی در آزمون‌های ریاضی و برنامه‌نویسی از خود نشان دهد. این شرکت جزئیاتی درباره‌ی منبع داده‌های آموزشی مدل منتشر نکرده، اما برخی محققان هوش مصنوعی گمان می‌برند که بخشی از این داده‌ها از خانواده مدل‌های Gemini گوگل استخراج شده است.

مرتبط مقالات

سازمان ملی هوش مصنوعی رسما شکل گرفت

ورود آلتمن به دنیای صدا؛ توسعه ابزار تولید موسیقی OpenAI

ChatGPT Atlas: تهدید جدید اکوسیستم مرورگرهای سنتی

سم پیچ، توسعه‌دهنده‌ای مستقر در ملبورن که در زمینه ارزیابی «هوش هیجانی» در مدل‌های هوش مصنوعی فعالیت می‌کند، مدعی است که شواهدی یافته که نشان می‌دهد DeepSeek از خروجی‌های Gemini برای آموزش مدل جدید خود استفاده کرده است. به گفته او، مدل R1-0528 تمایل به استفاده از واژگان و ترکیب‌های زبانی مشابه با مدل Gemini 2.5 Pro دارد.

او در پستی در شبکه اجتماعی X نوشت:
«اگر فکر می‌کنید چرا مدل جدید DeepSeek کمی متفاوت به نظر می‌رسد، احتمالاً به این دلیل است که آن‌ها منابع آموزشی خود را از خروجی‌های مصنوعی OpenAI به Gemini تغییر داده‌اند.»

در حالی‌که این اظهارات به‌تنهایی مدرک قاطعی به شمار نمی‌رود، یک توسعه‌دهنده دیگر با نام مستعار – سازنده ارزیابی “آزادی بیان” SpeechMap – نیز اعلام کرد که «ردهای فکری» (traces) تولیدشده توسط این مدل شباهت زیادی به خروجی‌های Gemini دارد.

این نخستین بار نیست که DeepSeek به استفاده از داده‌های مدل‌های رقیب متهم می‌شود. در دسامبر سال گذشته، برخی توسعه‌دهندگان مشاهده کردند که نسخه V3 این مدل گاه خود را به اشتباه به‌عنوان ChatGPT معرفی می‌کند. این موضوع شائبه استفاده از داده‌های گفت‌وگویی ChatGPT برای آموزش را تقویت کرد.

در ابتدای سال جاری، OpenAI در گفت‌وگویی با Financial Times مدعی شد که شواهدی مبنی بر استفاده DeepSeek از روش «تقطیر» (distillation) یافته است. این روش به معنای استخراج دانش از مدل‌های قوی‌تر برای آموزش مدل‌های کوچک‌تر است. به گزارش بلومبرگ، مایکروسافت – سرمایه‌گذار و شریک نزدیک OpenAI – در اواخر سال ۲۰۲۴ متوجه استخراج گسترده داده از حساب‌های توسعه‌دهنده OpenAI شد؛ حساب‌هایی که ظن آن می‌رفت به DeepSeek مربوط باشند.

اگرچه استفاده از تقطیر در میان شرکت‌های هوش مصنوعی رایج است، اما شرایط خدمات OpenAI به‌طور صریح استفاده از خروجی‌های مدل‌هایش برای ساخت مدل‌های رقیب را ممنوع کرده است.

در کنار این ماجراها، آلودگی روزافزون محتوای وب با خروجی‌های تولیدشده توسط مدل‌های هوش مصنوعی (اصطلاحاً AI slop) موجب شده تا تمیز دادن داده‌های طبیعی از مصنوعی برای آموزش مدل‌ها روزبه‌روز دشوارتر شود. به‌عنوان مثال، برخی مدل‌ها ممکن است خود را اشتباه معرفی کنند یا شباهت‌های زبانی داشته باشند که نه از آموزش عمدی بلکه از آلودگی داده‌ها ناشی شده است.

با این وجود، نیتن لمبرت، پژوهشگر مؤسسه AI2 معتقد است که استفاده DeepSeek از داده‌های Gemini چندان هم دور از ذهن نیست. او در پستی در X نوشت:
«اگر جای DeepSeek بودم، قطعاً از بهترین مدل‌های API موجود برای ساختن داده‌های مصنوعی استفاده می‌کردم. آن‌ها سخت‌افزار کافی ندارند ولی منابع مالی خوبی دارند. این کار عملاً معادل افزایش توان محاسباتی برای آن‌هاست.»

تلاقی رقابت و اخلاق در دنیای مدل‌های زبانی

موضوع استفاده DeepSeek از خروجی‌های Gemini – چه به صورت مستقیم و چه غیرمستقیم – نقطه‌ای حسّاس در رقابت شدید میان شرکت‌های بزرگ هوش مصنوعی را آشکار می‌کند: مرز باریکی میان یادگیری از محیط و سرقت دانشی.

در شرایطی که تقطیر به‌عنوان یک روش علمی پذیرفته‌شده است، استفاده از آن برای بازتولید مدل‌های رقیب، آن هم بدون اجازه، از نظر قانونی و اخلاقی محل بحث است. شرکت‌هایی مانند OpenAI، گوگل و Anthropic برای جلوگیری از سوءاستفاده‌های احتمالی، اقداماتی چون الزام به احراز هویت کاربران یا خلاصه‌سازی خروجی‌های مدل‌هایشان را در پیش گرفته‌اند.

به‌عنوان نمونه، OpenAI از آوریل ۲۰۲۵ تنها به سازمان‌هایی که هویت خود را با مدارک رسمی تأیید کنند، اجازه دسترسی به برخی مدل‌های پیشرفته را می‌دهد. چین در فهرست کشورهای مجاز قرار ندارد. همچنین گوگل در پلتفرم AI Studio خود شروع به خلاصه‌سازی ردهای مدل‌ها کرده تا از استفاده احتمالی توسط رقبا جلوگیری کند. شرکت Anthropic نیز اعلام کرده که برای محافظت از مزیت رقابتی خود همین مسیر را در پیش خواهد گرفت.

تقطیر یا تخلف؟ مرزها درحال محو شدن‌

اتهام‌های مطرح‌شده علیه DeepSeek – چه در مورد استفاده از خروجی‌های Gemini و چه استفاده پیشین از داده‌های ChatGPT – سؤالاتی جدی درباره شفافیت و مرزهای اخلاقی در آموزش مدل‌های هوش مصنوعی برمی‌انگیزد. هرچند هنوز شواهد قطعی و رسمی منتشر نشده‌اند، شباهت‌های رفتاری و زبانی میان مدل‌ها نگرانی‌های فزاینده‌ای ایجاد کرده‌اند.

در دنیایی که مرز میان داده‌های انسانی و مصنوعی روزبه‌روز محوتر می‌شود، حفظ شفافیت، احترام به حقوق رقبا و پایبندی به اصول اخلاقی بیش از پیش اهمیت یافته است. آنچه امروز یک برتری تکنیکی محسوب می‌شود، فردا ممکن است به چالشی قانونی بدل گردد.

تا روشن شدن کامل ماجرا، یک چیز مسلم است: رقابت در حوزه مدل‌های زبان بزرگ به فاز جدیدی وارد شده که در آن اخلاق، امنیت و مالکیت داده‌ها نقش‌هایی پررنگ‌تر از همیشه ایفا می‌کنند.

ما در نت باز 360 به‌دنبال ساختن یک جامعه هستیم؛ جامعه‌ای از آدم‌های دقیق، مشتاق، تحلیل‌گر و آینده‌نگر. اگر ذهن پرسش‌گر و تحلیل‌گری دارید، اگر اخبار، آموزش و ترندهای روز را نه‌فقط برای دانستن، بلکه برای فهمیدن می‌خواهید، نت باز 360 را دنبال کنید. اینجا قرار نیست صرفاً به شما اطلاعات بدهیم؛ اینجا با شما فکر می‌کنیم، مسیر می‌سازیم و هر روز یک گام از دنیای فردا را کشف می‌کنیم. بنابراین، رسانه ما را نه برای آن‌چه هست، بلکه برای آن‌چه می‌شود خلق کرد، دنبال کنید.

ردپای جمنای در مدل جدید دیپ‌سیک؟

سازمان ملی هوش مصنوعی رسما شکل گرفت

ورود آلتمن به دنیای صدا؛ توسعه ابزار تولید موسیقی OpenAI

ChatGPT Atlas: تهدید جدید اکوسیستم مرورگرهای سنتی

عضویت در خبرنامه نت باز 360

دانلود اپلیکیشن نت باز 360

نوشته‌های تازه

پیشنهاد فیلم گنجینه ملی (National Treasure)؛ ماجرای رمزآلود

پیشنهاد فیلم جنگ ارواح (Ghosts of War)؛ ترکیب ترس و جنگ

پیشنهاد فیلم land af mine 2015؛ زمین مین گذاری شده

معرفی و داستان فیلم One Battle After Another (2025)

NetBaz360

نوشته‌های تازه

لینک مفید

خوش آمدید!

رمز عبور خود را بازیابی کنید