امروز، مایکروسافت از Phi-4-reasoning، یک مدل استدلال کوچک با 14 میلیارد پارامتر رونمایی کرد که گفته میشود عملکرد قوی در وظایف استدلالی پیچیده ارائه میدهد. مایکروسافت این مدل جدید را از طریق تنظیم دقیق نظارتشده Phi-4 روی مجموعهای گزینششده از پرامپتهای “قابل آموزش” که با استفاده از o3-mini تولید شده، آموزش داده است. مایکروسافت همچنین Phi-4-reasoning-plus را معرفی کرد، نسخهای 14 میلیارد پارامتری از Phi-4-reasoning که با تولید دنبالههای استدلالی طولانیتر، عملکرد حتی بهتری ارائه میدهد.

طبق مقاله سفید مایکروسافت، این مدلهای جدید Phi-4-reasoning از چندین مدل بزرگتر با وزنهای باز، مانند DeepSeek-R1-Distill-Llama-70B عملکرد بهتری دارند و حتی در برخی معیارها با سطح عملکرد مدل کامل DeepSeek-R1 برابری میکنند. همچنین گفته میشود که این مدلها از Claude 3.7 Sonnet شرکت Anthropic و مدلهای Gemini 2 Flash Thinking گوگل در تمام وظایف به جز GPQA و برنامهریزی تقویم عملکرد بهتری دارند.
عملکرد ادعا شده چشمگیر Phi-4-reasoning نشان میدهد که گزینش دقیق دادهها برای تنظیم دقیق نظارتشده (SFT) برای مدلهای زبانی استدلالگر موثر است، و عملکرد ممکن است با استفاده از یادگیری تقویتی (RL) بیشتر بهبود یابد.
Phi-4-reasoning محدودیتهایی نیز دارد. اول، مدل Phi-4 عمدتاً با متن انگلیسی کار میکند. دوم، عمدتاً روی پایتون با استفاده از بستههای کدنویسی رایج آموزش دیده است. سوم، طول متن ورودی آن فقط 32 هزار توکن است. محدودیتهای بیشتر را میتوان در مقاله سفید یافت.
این مدل با استفاده از تنظیم دقیق نظارتشده (با استفاده از مجموعه داده دقیق گزینششده از نمایش استدلال) و یادگیری تقویتی آموزش دیده است.
مایکروسافت اعلام کرد که این مدلهای جدید Phi-4-reasoning برای تسریع تحقیقات در مورد مدلهای زبانی طراحی شدهاند. انتظار میرود این مدلها برای توسعه کاربردهای هوش مصنوعی در محیطهای با محدودیت حافظه یا محاسبات، سناریوهای محدود به تأخیر، و وظایف با تمرکز بر استدلال مفید باشند.