TL;DR
- چکیده:.
- یادگیری تقویتی چندعاملی (MARL) بهطور فزایندهای برای طراحی عاملهای یادگیری فعال که در محیطهای.
- مشترک تعامل دارند،.
چه اتفاقی افتاد
چکیده:. یادگیری تقویتی چندعاملی (MARL) بهطور فزایندهای برای طراحی عاملهای یادگیری فعال که در محیطهای.
مشترک تعامل دارند،. استفاده میشود.
با این حال،. آموزش الگوریتمهای MARL در بازیهای مجموع کلی همچنان چالش برانگیز است:.
پویایی یادگیری میتواند ناپایدار شود و تضمینهای همگرایی معمولاً فقط در تنظیمات محدود مانند بازیهای دو نفره با. جمع صفر یا بازیهای کاملاً مشارکتی برقرار است.
علاوه بر این،. هنگامیکه عوامل ترجیحات ناهمگن و بالقوه متناقض دارند،.
مشخص نیست که چه هدفی در سطح سیستم باید یادگیری را هدایت کند. در این مقاله،.
ما یک خط لوله MARL جدید به نام بهینهسازی سیاست نزدیک به پتانسیل (NePPO) برای محاسبه تعادلهای نش. تقریبی در محیطهای تعاونی مختلط - رقابتی پیشنهاد میکنیم.
ایده اصلی یادگیری یک تابع بالقوه مستقل از بازیکن است،. بهطوری که تعادل نش یک بازی مشارکتی با این پتانسیل بهعنوان حالت مشترک ابزار،.
تعادل نش بازی اصلی را تقریب میزند. برای این منظور،.
ما یک هدف جدید MARL را معرفی میکنیم به گونهای که به حداقل رساندن این هدف،. بهترین تابع بالقوه ممکن و در نتیجه تعادل نش تقریبی بازی اصلی را به دست میدهد.
ما یک خط لوله الگوریتمی ایجاد میکنیم که این هدف را با استفاده از نزول گرادیان مرتبه. صفر به حداقل میرساند و یک خط مشی تقریبی تعادل نش را برمیگرداند.
ما بهطور تجربی عملکرد برتر این رویکرد را در مقایسه با خطوط پایه محبوب مانند IPPO و MAPPO. نشان میدهیم.
یادگیری ماشین (cs. LG)؛ هوش مصنوعی (cs.
AI)؛ علوم کامپیوتر و نظریه بازی (cs. GT) استناد بهعنوان: (یا v2 [cs.
LG] برای این نسخه) https:. // شده توسط arXiv از طریق DataCite تاریخچه ارسال از:.
Addison Kalanther [مشاهده ایمیل] [v1] شنبه،. 7 مارس 2026،.
01:. 35:.
52 UTC (204 KB) [v2] شنبه،. 4 آوریل 2026،.
01:. 57:.
57 UTC (495 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
