TL;DR
- مشاهده PDF HTML (تجربی) چکیده:.
- طراحی پاداش تطبیقی برای یادگیری تقویتی عمیق (DRL) در برنامهریزی ماهوارهای LEO چند پرتوی با این شهود ایجاد.
- میشود که وزنهای پاداش آگاه از رژیم باید از وزنهای ثابت بهتر عمل کنند.
چه اتفاقی افتاد
مشاهده PDF HTML (تجربی) چکیده:. طراحی پاداش تطبیقی برای یادگیری تقویتی عمیق (DRL) در برنامهریزی ماهوارهای LEO چند پرتوی با این شهود ایجاد.
میشود که وزنهای پاداش آگاه از رژیم باید از وزنهای ثابت بهتر عمل کنند. ما به طور سیستماتیک این شهود را آزمایش میکنیم و یک معضل پایداری سوئیچینگ را کشف میکنیم:.
وزنهای پاداش تقریباً ثابت (342.1 مگابیت در ثانیه) از وزنهای دینامیکی که با دقت تنظیم شدهاند (103.3+/-96.8 مگابیت. در ثانیه) بهتر عمل میکنند،.
زیرا PPO به سیگنال پاداش شبهای برای همگرایی تابع ارزش نیاز دارد. انطباق وزن - صرف نظر از کیفیت - با شروع مکرر همگرایی، عملکرد را کاهش می دهد.
برای درک اینکه چرا وزنهای خاص اهمیت دارند،. یک روش کاوش علی تک متغیری را معرفی میکنیم که بهطور مستقل هر عبارت پاداش را 20-+% مختل.
میکند و پاسخ PPO را پس از 50 هزار مرحله اندازهگیری میکند. کاوش اهرم غیرمستقیم را نشان می دهد:.
افزایش 20 درصدی جریمه تعویض،. +157 مگابیت در ثانیه را برای انتقال قطبی و +130 مگابیت در ثانیه برای رژیمهای سرد-گرم - یافتههایی.
که برای متخصصان انسانی یا MLPهای آموزشدیده بدون کاوش سیستماتیک قابل دسترس نیستند. ما چهار نوع معمار MDP (ثابت،.
مبتنی بر قانون،. MLP آموختهشده،.
LLM دقیق) را در رژیمهای ترافیکی شناخته شده و جدید ارزیابی میکنیم. MLP به 357.9 مگابیت در ثانیه در رژیم های شناخته شده و 325.2 مگابیت در ثانیه در رژیم.
های جدید دست می یابد،. در حالی که LLM تنظیم شده به 45.3+/-43.0 مگابیت در ثانیه به دلیل نوسان وزن به جای عدم.
ثبات دامنه دانش-خروجی،. محدودیت الزام آور است.
یافتههای ما یک نقشه راه مبتنی بر تجربی برای یکپارچهسازی LLM-DRL در سیستمهای ارتباطی ارائه میکند،. و شناسایی میکند که LLMها ارزش غیرقابل جایگزینی (درک هدف زبان طبیعی) را در مقابل جایی که روشهای.
سادهتر کافی است،. اضافه میکنند.
نظرات:. 8 صفحه،.
3 شکل موضوعات:. هوش مصنوعی (cs.AI) استناد به عنوان:.
arXiv:. 2604.03562 [cs.AI] (یا arXiv:.
2604.03562v1 [cs.AI] برای این نسخه) https:. //doi.org/10.48550/arXiv.2604.03562 DOI صادر شده توسط arXiv از طریق DataCite (در انتظار ثبت نام) تاریخچه ارسال از:.
Yuanhang Li [مشاهده ایمیل] [v1] شنبه،. 4 آوریل 2026،.
03:. 04:.
53 UTC (51 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
