TL;DR
- بازگشت به داستانهای مشتری ۲۴ آوریل ۲۰۲۵ • ۴ دقیقه خواندن نسل ویدیو بسیار خشمگین بوده است و.
- لیمون اسلایس در مأموریتی است تا رساترین مدلهای نسل شخصیت در جهان را بسازد.
- Lemon Slice از همان ابتدا از Modal استفاده کرده است و ما خوشحالیم که از آخرین محصول آنها.
چه اتفاقی افتاد
بازگشت به داستانهای مشتری ۲۴ آوریل ۲۰۲۵ • ۴ دقیقه خواندن نسل ویدیو بسیار خشمگین بوده است و. لیمون اسلایس در مأموریتی است تا رساترین مدلهای نسل شخصیت در جهان را بسازد.
Lemon Slice از همان ابتدا از Modal استفاده کرده است و ما خوشحالیم که از آخرین محصول آنها. پشتیبانی میکنیم:.
مکالمات ویدیویی بیدرنگ با شخصیتهای هوش مصنوعی. انجام زمان واقعی دشوار است،.
اما با استفاده از روشهای اولیه کم تأخیر Modal و Daily،. رسیدن از ورودی کاربر به پاسخ آواتار تنها چند ثانیه طول میکشد.
مقدمه:. استنتاج مقیاس پذیر برای یک مدل ویدیویی با پارامتر 1B اولین محصول ویروسی Lemon Slice سایتی بود که.
در آن میتوانستید با وارد کردن تصویری از کاراکتر به اضافه متن یا صدا،. ویدیویی از صحبت کردن یک کاراکتر تولید کنید.
برای نمونههای با کیفیت کامل همراه با صدا به https: //lemonslice. com/gallery مراجعه کنید.
بنیانگذاران، که برگرفته از پیشینه تحقیقاتی ML، که قبلاً زیرساخت سفارشی را روی AWS و GCP ساخته بود. این چیزی نبود که آنها مشتاق تکرار آن باشند – از پیکربندی نمونهها گرفته تا کار در مناطق.
محاسباتی تا ایجاد منطق مقیاسبندی،. این امر باعث حواسپرتی بزرگی از ارسال محصولات جدید هوش مصنوعی به بازار میشد.
بدون Modal، تیم Lemon Slice باید چندین سرویس زیرساختی را راهاندازی و مدیریت کند. با Modal،.
آنها توانستند تنها با نوشتن دو تابع Modal در پایتون،. به 10000 درخواست در ساعت برسند:.
یکی که نقطه پایانی REST برای ورودی کاربر بود و دیگری که استنتاجی را بر روی مدل ویدیوی. آنها اجرا میکرد.
این راهحل:. به آنها اجازه داد تا از تنظیم یک کلاستر ECS،.
سیستم صف کار و متعادل کننده بار اجتناب کنند. مقیاس خودکار بهطور موثر انجام میشود،.
زیرا Modal ظروف GPU را برای استنتاج ویدیو بر اساس حجم درخواست بالا و پایین میچرخاند. با بهینهسازیهای عملکردی مانند عکسبرداری از حافظه عرضه شد تعبیه شده،.
زمان اولیه سازی ظرف را کاهش میدهد. با Modal، تیم Lemon Slice توابع پایتون را مینویسد و Modal اجزای زیرساخت را مدیریت میکند.
مقیاس خودکار Modal همچنین روند ارزیابی مدل آنها را سرعت بخشید. هر چند ساعت زمانی که یک ایست بازرسی مدل جدید ایجاد میشد،.
میتوان بیش از 50 ویدیوی نمونه را بهطور موازی تولید کرد و یک فهرست سریع از خروجیها را. برای تیم ارزیابی کرد.
"Modal" به ما این امکان را داد که از یک ایده در روز دوشنبه به یک برنامه زنده. در روز سهشنبه برویم.
از 70 ٪ از زمان صرف شده یک مهندس در زیرساخت به دوست داشتن،. کمتر از 10 ٪،.
این یک دلتای بزرگ است. " - لینا کولوچی، مدیر عامل و بنیانگذار Lemon Slice اکنون بیایید آن را در زمان واقعی بسازیم.
جدیدترین محصول Lemon Slice،. Lemon Slice Live،.
به کاربران امکان میدهد با شخصیتهای هوش مصنوعی چت تصویری داشته باشند. مولفه بلادرنگ به تعامل کاربر، سطح جدیدی از پیچیدگی را اضافه میکند.
برای مقابله با این،. معماری آنها،.
از ورودی کاربر (صوتی) تا خروجی هوش مصنوعی (ویدئو پلاس صدا)،. با تأخیر بهینه شده است:.
هنگامیکه کاربر یک جلسه ویدیویی را شروع میکند،. دو تابع Modal فراخوانی میشود.
یکی سرور Pipecat را راهاندازی میکند در حالی که دیگری مدل ویدیویی را برای استنتاج روی یک GPU. بارگذاری میکند.
Modal کانتینرها را برای این توابع بر اساس تعداد جلسات کاربر زنده مقیاس میکند. هنگامیکه کاربر صحبت میکند، دادهها از طریق خط لوله Pipecat شروع به جریان میکنند.
Pipecat یک چارچوب ارکستراسیون منبعباز است که خدمات هوش مصنوعی چندوجهی را با تکه تکه کردن و. پردازش مداوم دادهها در زمان واقعی فعال میکند.
خط لوله Pipecat از Deepgram برای تبدیل گفتار کاربر به متن،. Grok برای دریافت پاسخ مکالمه LLM،.
ElevenLabs برای تبدیل آن به گفتار،. و در نهایت مدلی که روی محفظه Modal دیگر برای تولید ویدئو اجرا میشود،.
فراخوانی میکند. برای به حداقل رساندن تأخیر بین ظرف Pipecat و محفظه استنتاج ویدیویی،.
دو کانتینر الف) مستقیماً از طریق ویژگی Tunnel ما ارتباط برقرار میکنند که از آن استفاده می. کند.
پورتهای TCP و b) با استفاده از ویژگی انتخاب منطقه ما به صورت مشترک قرار میگیرند. محفظه استنتاج ویدیویی فریمها را به Daily،.
یک پلتفرم زیرساخت جهانی WebRTC میفرستد،. که ویدئو و صوت نهایی را به کاربر ارسال میکند.
با ترکیب ویژگیهای تاخیر کم Modal،. Pipecat و Daily،.
Lemon Slice بهترین محصول تولید ویدیوی کاراکتر در کلاس خود را با تأخیر پاسخ ویدیویی 3 تا 6. ثانیه ارائه کرده است.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
