Character.AI پژوهشی را که روی ویدئوی مولد انجام داده، به اشتراک گذاشته است. این شرکت مدل جدیدی به نام TalkingMachines توسعه داده که نوعی مدل انتشار خودرگرسیو (autoregressive diffusion) است و میتواند تنها با داشتن یک تصویر و یک سیگنال صوتی، ویدیوی شخصیتهای هوش مصنوعی را به صورت بلادرنگ و با حرکتهای هماهنگ با صدا تولید کند. با این فناوری، شرکت Character.AI یک قدم به تعاملات تصویری شبیه FaceTime با شخصیتهای هوش مصنوعی نزدیکتر شده است.
مهم است بدانید که این فناوری فعلاً در مرحله پژوهش قرار دارد. یک مقاله علمی و دموهای ویدیویی از آن منتشر شدهاند، اما هنوز امکان استفاده از این قابلیت در اپلیکیشن Character.AI وجود ندارد.

اگر این فناوری روزی وارد اپلیکیشن Character.AI شود، به کاربران اجازه میدهد نقشآفرینیهای تعاملیتر و واقعیتری با هوش مصنوعی داشته باشند، داستانپردازی تعاملی را تجربه کنند و دنیای بصری خود را بسازند.
مدل جدید TalkingMachines بر پایه فناوریای به نام Diffusion Transformer (DiT) ساخته شده است؛ این فناوری در اصل مانند یک هنرمند عمل میکند که میتواند از نویز تصادفی، تصاویر دقیق و باجزئیات تولید کند و تصویر را تا رسیدن به حالت مطلوب اصلاح کند. کاری که Character.AI انجام داده، این است که این روند را فوقالعاده سریع کرده تا حس بلادرنگ بودن ایجاد شود.
برای دستیابی به این پیشرفتها، TalkingMachines از چندین تکنیک کلیدی استفاده میکند، از جمله: Flow-Matched Diffusion، Audio-Driven Cross Attention، Sparse Causal Attention و Asymmetric Distillation.
تکنیک Flow-Matched Diffusion روی حرکات مختلف، از حالات جزئی چهره تا ژستهای بزرگتر آموزش دیده است تا حرکت شخصیتهای هوش مصنوعی طبیعیتر به نظر برسد. کار جالبتر را تکنیک Audio-Driven Cross Attention انجام میدهد؛ این روش به هوش مصنوعی کمک میکند نه فقط کلمات، بلکه ریتم، مکثها و تکیههای صدا را درک کند و آنها را به حرکت دقیق دهان، تکان دادن سر و پلک زدن تبدیل کند.
با استفاده از Sparse Causal Attention، Character.AI میتواند فریمهای ویدئو را با هزینه کمتر و کارایی بیشتر پردازش کند و با Asymmetric Distillation، تولید ویدئوها به صورت بلادرنگ انجام میشود تا شبیه تماس تصویری FaceTime به نظر برسد.
Character.AI تأکید میکند که این پیشرفت فقط به انیمیشن صورت محدود نمیشود. این شرکت میگوید این یک گام به سوی شخصیتهای هوش مصنوعی صوتی-تصویری تعاملی است که میتوانید بهصورت لحظهای با آنها ارتباط برقرار کنید. این مدل از سبکهای مختلفی پشتیبانی میکند؛ از انسانهای فوتورئال، انیمه، تا آواتارهای سهبعدی و امکان استریم با فازهای گوش دادن و صحبت کردن طبیعی را فراهم میکند.
این قابلیت هنوز برای استفاده در اپلیکیشن آماده نیست و Character.AI میگوید این فناوری فعلاً در حال پژوهش است. اگر این شرکت آن را عرضه کند، قطعاً یکی از اولین شرکتهایی خواهد بود که به این موفقیت رسیده و این دستاورد نقطه عطف مهمی در رقابت هوش مصنوعی به شمار میرود.