TL;DR
- چکیده:.
- برنامههای کاربردی LLM چندعاملی اجرا را در دورهای هماهنگ دهی میکنند که در آن یک.
- زمانبندی مرکزی خروجیها را از همه عوامل جمع آوری میکند و زمینه ترکیبی را دوباره توزیع.
چه اتفاقی افتاد
چکیده:. برنامههای کاربردی LLM چندعاملی اجرا را در دورهای هماهنگ دهی میکنند که در آن یک.
زمانبندی مرکزی خروجیها را از همه عوامل جمع آوری میکند و زمینه ترکیبی را دوباره توزیع. میکند.
این الگوی ارتباطی All-Gather باعث ایجاد افزونگی عظیم KV Cache میشود،. زیرا اعلان هر عامل حاوی بلوکهای خروجی مشترک است،.
اما روشهای استفاده مجدد موجود در بهرهبرداری مؤثر از آن ناکام هستند. ما TokenDance را ارائه میکنیم،.
سیستمیکه تعداد عوامل همزمان را با استفاده از الگوی All-Gather برای اشتراکگذاری جمعی کش KV مقیاس میدهد. TokenDance's KV Collector استفاده مجدد از KV Cache را در یک مرحله جمعی در دور کامل انجام می.
دهد،. بنابراین هزینه استفاده مجدد از یک بلوک مشترک یک بار بدون توجه به تعداد عامل پرداخت میشود.
Diff-Aware Storage آن،. حافظههای پنهان خواهر و برادر را بهعنوان تفاوتهای پراکنده در برابر یک نسخه اصلی رمزگذاری میکند و به.
فشردهسازی 11-17 برابر در بارهای کاری نماینده دست مییابد. ارزیابی در GenerativeAgents و AgentSociety نشان میدهد که TokenDance تا 2.
7 برابر بیشتر از vLLM با کش پیشوندی تحت نیاز SLO پشتیبانی میکند،. ذخیرهسازی KV Cache هر عامل را تا 17.
5 برابر کاهش میدهد و تا 1. 9 برابر سرعت پیشپر را بیش از حافظه نهان مستقل از موقعیت هر درخواست افزایش میدهد.
صفحه، 14 شکل، arXiv: submit/7438760 [cs. DC]، پیش چاپ در دست بررسی محاسبات توزیع شده، موازی و خوشهای (cs.
DC) استناد بهعنوان: (یا v1 [cs. DC] برای این نسخه) https:.
// شده توسط arXiv از طریق DataCite (در انتظار ثبت نام) تاریخچه ارسال از:. Zhuohang Bian [مشاهده ایمیل] [v1] جمعه،.
3 آوریل 2026،. 16:.
04:. 40 UTC (3,.
689 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
