اوایل امسال، شرکت DeepSeek موج بزرگی در صنعت فناوری به راه انداخت. این استارتاپ چینی که تا پیش از این تقریباً ناشناخته بود، مدل R1 را عرضه کرد؛ مدلی رایگان و متنباز برای استدلال منطقی که عملکردی همسطح با مدلهای برتر شرکتهای بزرگ هوش مصنوعی مانند OpenAI، Anthropic و گوگل داشت.

علاوه بر متنباز بودن و عملکرد بالا، DeepSeek کارایی چشمگیری را نیز به نمایش گذاشت، چون برای آموزش این مدل از منابع بسیار کمتری نسبت به رقبا استفاده کرد. این موفقیت با بهکارگیری چندین تکنیک به دست آمد، از جمله معماری بهبودیافته mixture-of-experts (ترکیب متخصصان)، روشهای فشردهسازی پیشرفته، توانایی پیشبینی چندتوکنی و رویکرد آموزشی مبتنی بر یادگیری تقویتی در گام نخست.
امروز، DeepSeek اولین بهروزرسانی اصلی مدل R1 را با نام DeepSeek-R1-0528 منتشر کرد. مدل بهروزشده و وزنهای آن هماکنون در سایت Hugging Face در دسترس قرار دارند. اگرچه DeepSeek هنوز بنچمارک (ارزیابی رسمی) خود را منتشر نکرده، اما بسیاری از علاقهمندان و توسعهدهندگان حوزه هوش مصنوعی نتایج اولیه را به اشتراک گذاشتهاند — و این نتایج چشمگیر به نظر میرسند.
طبق گزارش LiveCodeBench، که معیاری برای سنجش توانایی کدنویسی مدلهای زبانی بزرگ است، مدل DeepSeek-R1-0528 اکنون در رتبه چهارم قرار گرفته و حتی مدلهایی مانند o4 Mini (Low)، Grok-3-mini (High) و Gemini 2.5 Flash Preview را پشت سر گذاشته است.