
در عصر تکنولوژی که هر روز شاهد نوآوریهای چشمگیر هستیم، تصور محدودیت برای هوش مصنوعی بهسختی باورپذیر است. اما ایلان ماسک در مصاحبهای با مارک پن، رئیس شرکت Stagwell، که از طریق پلتفرم X پخش شد، اعلام کرد که دنیا دیگر دادههای واقعی جدیدی برای آموزش مدلهای هوش مصنوعی ندارد. این ادعا، که با نظر دیگر متخصصان برجسته این حوزه همسو است، چالشی عظیم برای آینده هوش مصنوعی و علم داده به همراه دارد.
ماسک در این مصاحبه اظهار داشت: «ما اساساً مجموع تمام دانش بشری را در آموزش هوش مصنوعی بهکار بردهایم… و این اتفاق عملاً سال گذشته رخ داد.» به بیان دیگر، منابع دادهای که تاکنون الهامبخش هوش مصنوعی بودند، به پایان رسیدهاند.
این هشدار ماسک، بازتابی از اظهارات ایلیا سوتسکِوِر، دانشمند سابق OpenAI است که در کنفرانس NeurIPS، از پدیدهای به نام “اوج داده” صحبت کرده بود. بر اساس این تحلیل، صنعت هوش مصنوعی به دلیل کمبود دادههای آموزشی واقعی، مجبور به تغییر رویکرد خود در توسعه مدلها خواهد شد.
به نظر میرسد راهحل، استفاده از دادههای مصنوعی باشد. ماسک نیز در همین راستا تأکید کرد که تنها مسیر جایگزین، دادههایی است که خودِ مدلهای هوش مصنوعی تولید میکنند. وی افزود: «با استفاده از دادههای مصنوعی، هوش مصنوعی قادر خواهد بود خودش را ارزیابی کند و فرایندی از یادگیری خودکار را طی کند.»
این استراتژی جدید، اکنون توسط غولهای فناوری همچون مایکروسافت، متا، OpenAI، و Anthropic به کار گرفته شده است. تخمینهای گارتنر نشان میدهند که تا سال ۲۰۲۴، بیش از ۶۰ درصد دادههای مورد استفاده در پروژههای هوش مصنوعی بهصورت مصنوعی تولید شدهاند.
برای نمونه، مدل Phi-4 مایکروسافت که اخیراً بهصورت متنباز ارائه شده است، ترکیبی از دادههای واقعی و مصنوعی را برای آموزش بهکار برده است. همچنین، مدل Gemma از گوگل و سیستم Claude 3.5 Sonnet از Anthropic نیز با استفاده از دادههای مصنوعی بهبود یافتهاند.
مزایا و معایب دادههای مصنوعی
استفاده از دادههای مصنوعی، مزایای بسیاری دارد، از جمله صرفهجویی قابلتوجه در هزینهها. برای مثال، استارتاپ Writer موفق شد مدل Palmyra X 004 را با هزینهای حدود ۷۰۰ هزار دلار توسعه دهد؛ در حالی که هزینه توسعه یک مدل مشابه در OpenAI به حدود ۴.۶ میلیون دلار میرسد.
اما این رویکرد خالی از ایراد نیست. مطالعات نشان دادهاند که دادههای مصنوعی میتوانند منجر به پدیدهای به نام “فروریزش مدل” شوند، جایی که خروجی مدلها خلاقیت کمتری پیدا کرده و سوگیریهای آن افزایش مییابد. این امر به دلیل تکرار و محدودیت دادههای مصنوعی رخ میدهد و در صورت وجود تعصبات در دادههای اولیه، میتواند به شدت عملکرد مدلها را مختل کند.
نتیجهگیری
هرچند استفاده از دادههای مصنوعی بهعنوان راهحلی فوری برای کمبود دادهها مطرح است، اما خطرات بلندمدت آن باید بهطور جدی در نظر گرفته شود. آینده هوش مصنوعی به تعادلی بین نوآوری، استفاده از منابع جدید و کاهش اثرات جانبی وابسته است. آیا جهان آماده است تا وارد عصر جدیدی از خودآموزی ماشینها شود؟ یا اینکه این مسیر به محدودیتهای بیشتری منجر خواهد شد؟ تنها زمان میتواند پاسخ دهد.