TL;DR
- نویسندگان:.
- Fanjiang Ye،.
- Zhangke Li،.
چه اتفاقی افتاد
نویسندگان:. Fanjiang Ye،.
Zhangke Li،. Xinrui Zhong،.
Ethan Ma،. Russell Chen،.
Kaijian Wang،. Jingwei Zuo،.
Desen Sun،. Ye Cao،.
Triston Cao،. Myungjin Lee،.
Arvind Krishnamurthy،. Yuke Wang مشاهده PDF HTML (تجربی) (T2I) و تولید متن به ویدئو (T2V)،.
با این حال پلتفرمهای تولید باید به طور فزایندهای از هر دو روش در کلاسترهای GPU مشترک استفاده. کنند،.
در حالی که SLOهای تاخیری سختگیرانه را برآورده میکنند. خدمات مشترک چنین بارهای کاری ناهمگون چالش برانگیز است:.
درخواست های T2I و T2V نیازهای محاسباتی،. ویژگی های موازی و الزامات تأخیر بسیار متفاوتی را نشان می دهند که منجر به نقض قابل توجه.
SLO در سیستم های ارائه دهنده موجود می شود. ما GENSERVE را ارائه میکنیم،.
یک سیستم خدمات مشترک که از قابلیت پیشبینی ذاتی فرآیند انتشار برای بهینهسازی راندمان خدمات استفاده میکند. یک بینش اصلی این است که استنتاج انتشار در آن انجام می شود مراحل گسسته و قابل پیش.
بینی است و به طور طبیعی در مرزهای مرحله قابل پیش گیری است و فضای طراحی جدیدی را. برای مدیریت منابع آگاه از ناهمگنی باز می کند.
GENSERVE انطباق منابع در سطح مرحله را از طریق سه مکانیسم هماهنگ معرفی میکند:. پیشدستی هوشمند ویدیویی،.
موازیسازی توالی الاستیک با دستهبندی پویا،. و یک زمانبندی آگاه از SLO که به طور مشترک تخصیص منابع را در تمام درخواستهای همزمان بهینه.
میکند. نتایج تجربی نشان میدهد که GENSERVE نرخ دستیابی به SLO را تا 44 درصد نسبت به قویترین خط.
پایه در پیکربندیهای مختلف بهبود میبخشد. موضوعات:.
محاسبات توزیع شده،. موازی و خوشه ای (cs.DC) استناد به عنوان:.
arXiv:. 2604.04335 [cs.DC] (یا arXiv:.
2604.04335v1 [cs.DC] برای این نسخه) https:. //doi.org/10.48550/arXiv.2604.04335 DOI صادر شده توسط arXiv از طریق DataCite (در انتظار ثبت نام) تاریخچه ارسال از:.
Fanjiang Ye [مشاهده ایمیل] [v1] دوشنبه،. 6 آوریل 2026،.
01:. 02:.
02 UTC (571 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
