گوگل مدل جدید Gemma 3n را معرفی کرده است؛ این نسل جدید مدلهای هوش مصنوعی باز گوگل است و نسبت به قبل یک پیشرفت بزرگ محسوب میشود. پس از پیشنمایشی که ماه گذشته در رویداد Google I/O داشتیم، حالا نسخه کامل این مدل آماده شده و میتواند مستقیماً روی سختافزار شما اجرا شود.

اگر با Gemma آشنا نیستید، باید بدانید که Gemma یک خانواده از مدلهای هوش مصنوعی باز است. تفاوت آن با Gemini در این است که Gemma برای توسعه دهندگان طراحی شده تا بتوانند آن را دانلود و تغییر دهند، در حالی که Gemini یک مدل بسته و اختصاصی قدرتمند متعلق به گوگل است.
مدل Gemma 3n اکنون میتواند ورودیهایی مانند تصویر، صدا و ویدیو را به طور مستقیم دریافت کند و خروجی متنی تولید کند؛ این یک جهش بزرگ نسبت به مدلهای صرفاً متنی قبلی است. همچنین این مدل روی سخت افزارهایی با حداقل ۲ گیگابایت رم هم قابل اجراست و گفته میشود در کارهایی مثل کدنویسی و استدلال نیز بهتر عمل میکند.
در اینجا فهرست کامل بهبودها از زبان گوگل آمده است:
-
چند رسانهای بودن به صورت ذاتی: Gemma 3n به طور بومی از ورودی تصویر، صدا، ویدیو و متن و خروجی متنی پشتیبانی میکند.
-
بهینهسازی برای اجرا روی دستگاه: این مدلها با تمرکز بر بهرهوری ساخته شدهاند و در دو اندازه E2B و E4B عرضه میشوند. تعداد پارامتر خام آنها به ترتیب ۵ میلیارد و ۸ میلیارد است، اما نوآوریهای معماری باعث شده با میزان رم مشابه مدلهای سنتی ۲ و ۴ میلیارد پارامتری اجرا شوند و فقط به ۲ گیگابایت (E2B) و ۳ گیگابایت (E4B) رم نیاز داشته باشند.
-
معماری نوآورانه: در هسته Gemma 3n اجزای جدیدی مثل معماری MatFormer برای انعطاف در پردازش، Per Layer Embeddings (PLE) برای بهرهوری حافظه، و رمزگذارهای صوتی و بینایی مبتنی بر MobileNet-v5 برای کاربردهای روی دستگاه وجود دارد.
-
کیفیت بهبود یافته: Gemma 3n کیفیت بالاتری در پشتیبانی چند زبانه (پشتیبانی از ۱۴۰ زبان برای متن و درک چند رسانهای ۳۵ زبان)، ریاضیات، برنامهنویسی و استدلال ارائه میدهد.
هسته اصلی بهرهوری این مدل معماری جدیدی است که گوگل آن را MatFormer مینامد. گوگل برای توضیح آن از مثال عروسک روسی ماتروشکا استفاده میکند: یک مدل بزرگتر، یک نسخه کوچکتر و کاملاً کاربردی را درون خود دارد.
این معماری باعث میشود یک مدل بتواند با اندازههای مختلف و برای وظایف مختلف اجرا شود. در مورد بنچمارکها هم باید گفت مدل بزرگتر E4B اولین مدلی است که با کمتر از ۱۰ میلیارد پارامتر موفق شده امتیاز ۱۳۰۰ را در LMArena کسب کند.
عملکرد Gemma 3n در LMArena
قابلیتهای صوتی مدل اکنون از تبدیل گفتار به متن (Speech-to-Text) و ترجمه روی دستگاه پشتیبانی میکند و از رمزگذاری استفاده میکند که میتواند صدا را با جزئیات بالا پردازش کند. در بخش بینایی هم رمزگذار جدید MobileNet-V5 به کار رفته که نسبت به نسخه قبلی خود بسیار سریعتر و کارآمدتر است و میتواند ویدیو را تا سرعت ۶۰ فریم بر ثانیه روی گوشیهای Google Pixel پردازش کند.
اگر علاقهمند هستید، میتوانید همین حالا با این مدلها کار کنید؛ چون از طریق پلتفرمهایی مثل Hugging Face و Kaggle در دسترس هستند و حتی میتوانید مستقیماً در Google AI Studio با آنها آزمایش انجام دهید.