مدلهای زبانی بزرگ (LLMs) از سال ۲۰۲۲، زمانی که OpenAI مدل GPT-3 را عرضه کرد و ChatGPT را معرفی نمود، توجه دنیا را به خود جلب کردند. این مدلها به طور گسترده برای انجام وظایفی مانند کدنویسی و جستجو استفاده میشوند، اما فرآیند تولید پاسخ، که به آن «استنتاج» گفته میشود، کند و نیازمند محاسبات پیچیده و پرهزینه است. با افزایش تعداد کاربران این مدلها، چالش مهم برای سازندگان LLM این است که آنها را سریعتر و ارزانتر کنند، بدون اینکه کیفیت قربانی شود.

دو روش موجود برای افزایش سرعت این مدلها وجود دارد: «آبشاریها» و «رمزگشایی احتمالی». روش آبشاری از مدلهای کوچکتر و سریعتر استفاده میکند و سپس در صورت نیاز، مدلهای بزرگتر و گرانتر را وارد فرآیند میکند. این روش هزینه محاسباتی را کاهش میدهد اما یک مشکل دارد؛ چون باید منتظر بماند تا مدل کوچکتر پاسخ بدهد، اگر این مدل در پاسخدهی مطمئن نباشد، سرعت کاهش پیدا میکند. همچنین کیفیت خروجی میتواند متغیر باشد.
در مقابل، رمزگشایی احتمالی روشی است که از یک مدل کوچکتر به عنوان «پیشنویسنویس» استفاده میکند تا به صورت موازی توکنها (واحدهای زبانی) را پیشبینی کند. سپس این توکنها توسط یک مدل بزرگتر سریعاً بررسی میشوند. هدف این روش افزایش سرعت است، اما اگر حتی یک توکن پیشنویس با مدل بزرگتر مطابقت نداشته باشد، کل پیشنویس رد میشود، حتی اگر پاسخ مدل کوچک خوب باشد. این موضوع میتواند مزیت اولیه سرعت را از بین ببرد و هیچ صرفهجویی محاسباتی به همراه نداشته باشد.
این دو روش به وضوح ایدهآل نیستند؛ بنابراین محققان گوگل یک روش جدید به نام «آبشاریهای احتمالی» توسعه دادهاند. این روش عناصر هر دو روش آبشاری و رمزگشایی احتمالی را ترکیب میکند. نوآوری اصلی این روش، قانون انعطافپذیر تصمیمگیری است که به طور پویا تعیین میکند آیا باید توکنهای پیشنویس مدل کوچکتر پذیرفته شوند یا به مدل بزرگتر ارجاع داده شود. این قانون از مشکل انتظار در روش آبشاری و رد سختگیرانه توکنها در رمزگشایی احتمالی جلوگیری میکند. این روش جدید به سیستم اجازه میدهد پاسخ خوب مدل کوچکتر را بپذیرد، حتی اگر با خروجی مدل بزرگتر مطابقت نداشته باشد، که معمولاً در روش آبشاری ضروری است.
محققان گوگل آزمایشهایی را با مدلهایی مانند Gemma و T5 در وظایف مختلف زبانی مانند خلاصهسازی، استدلال و کدنویسی انجام دادند. نتایج نشان داد که آبشاریهای احتمالی در مقایسه با روشهای پایه، تعادل بهتری بین هزینه و کیفیت ایجاد میکنند و سرعت بیشتری دارند. این روش همچنین میتواند سریعتر از رمزگشایی احتمالی یک پاسخ درست تولید کند.
در حال حاضر، همه اینها در مرحله تحقیق قرار دارد، اما اگر اثربخشی آن ثابت شود، امیدواریم که این روش به زودی اجرا شود تا تجربهای بهتر و ارزانتر برای کاربران فراهم کند.