راز آموزش ارزان مدل R1 «دیپ‌سیک» چین فاش شد

شرکت چینی DeepSeek در مقاله‌ای که روز ۲۶ شهریور ۱۴۰۴ در نشریه علمی Nature منتشر شد، اعلام کرد هزینه آموزش مدل استدلالی R1 آن‌ها تنها ۲۹۴ هزار دلار بوده است—رقمی که کمتر از یک دهم هزینه‌های میلیارد دلاری رقبا در آمریکا است. این افشا، بار دیگر جایگاه چین را در رقابت جهانی هوش مصنوعی زیر ذره‌بین برده است.

چرا R1 این‌قدر ارزان آموزش دید؟

بر اساس گزارش Nature و همزمان با محدودیت صادرات پردازنده‌های H100 و A100 به چین از اکتبر ۲۰۲۲، DeepSeek مراحل زیر را برای بهینه‌سازی هزینه‌ها اجرا کرده است:

آموزش اصلی R1 به مدت ۸۰ ساعت روی خوشه‌ای از ۵۱۲ تراشه Nvidia H800 ویژه بازار چین
استفاده از پردازنده‌های Nvidia A100 در فاز آزمایشی اولیه برای آماده‌سازی داده‌ها

همچنین دیپ‌سیک از تکنیک «تقطیر مدل» (Model Distillation) بهره برد که طبق پژوهش هینتون و همکاران (۲۰۱۵)، می‌تواند مصرف محاسباتی مدل‌های کوچک را تا ۵۰ درصد کاهش دهد و عملکرد آن‌ها را نزدیک به نسخه‌های سنگین نگه دارد.

هزینه اندک آموزش هوش مصنوعی «دیپ سیک» چین فاش شد

مقایسه با هزینه‌های رقبای آمریکایی

سم آلتمن، مدیرعامل OpenAI، در سال ۲۰۲۳ اشاره کرد هزینه آموزش مدل‌های بنیادی این شرکت «بیش از ۱۰۰ میلیون دلار» بوده است.
شرکت‌های دیگر مانند گوگل و مایکروسافت نیز برای هر نسخه‌ی جدید GPT یا Gemini بین ۲۰۰ تا ۵۰۰ میلیون دلار صرف کرده‌اند (مطابق گزارش‌های Financial Times و Bloomberg).

این افشا نشان داد که چین با سرمایه‌گذاری هوشمند روی سخت‌افزار دسترس‌پذیر و روش‌های بهینه‌سازی نرم‌افزاری، می‌تواند از رهبر سنتی بازار AI جلو بزند. اما در سوی دیگر، پرسش‌هایی درباره شفافیت دسترسی به سخت‌افزارهای پیشرفته و استراتژی‌های مالکیت فکری مطرح می‌شود که سرنوشت رقابت‌ صنعت هوش مصنوعی را شکل خواهد داد.

منابع
Reuters, “China’s DeepSeek says its hit AI model cost just US$294,000 to train,” Sep 17, 2025.
Geoffrey Hinton et al., “Distilling the Knowledge in a Neural Network,” NIPS Deep Learning Workshop, 2015.

مجله تکنولوژی آپلود

چت‌جی‌پی‌تی و مدیریت بحران خودکشی نوجوانان: تغییرات سیاستی اوپن‌ای‌آی

بازتعریف شخصیت هوش مصنوعی؛ بازسازی تیم «رفتار مدل» در OpenAI

ابزار هوش مصنوعی جدید برای تشخیص انواع و شدت زوال عقل در ایران طراحی شد

مسعود کریمی

من فارغ‌التحصیل رشته مهندسی نرم‌افزار هستم و از همان دوران دانشگاه به دنیای تکنولوژی و تحولات آن علاقه‌مند بودم. فعالیت حرفه‌ای خودم را از سال ۱۳۹۶ با نوشتن مقالات تحلیلی درباره هوش مصنوعی و برنامه‌نویسی در یک وبلاگ شخصی آغاز کردم. پس از کسب تجربه، به عنوان نویسنده و تحلیل‌گر با مجلات و وب‌سایت‌های مختلف تکنولوژی همکاری کردم و اکنون به عنوان دبیر سرویس فناوری‌های نوظهور در یک مجله معتبر تکنولوژی فعالیت می‌کنم. تلاش من این است که آخرین پیشرفت‌ها و دستاوردهای این حوزه را به زبانی ساده و کاربردی برای مخاطبان ارائه دهم.