TL;DR
- چکیده:.
- استقرار کنترلکنندههای مبتنی بر یادگیری تقویتی (RL) در سیستمهای فیزیکی اغلب به دلیل تعمیم ضعیف به سناریوهای دنیای.
- واقعی محدود میشود،.
چه اتفاقی افتاد
چکیده:. استقرار کنترلکنندههای مبتنی بر یادگیری تقویتی (RL) در سیستمهای فیزیکی اغلب به دلیل تعمیم ضعیف به سناریوهای دنیای.
واقعی محدود میشود،. که بهعنوان شکاف شبیهسازی به واقعیت (sim-to-real) شناخته میشود.
این شکاف به ویژه در پروازهای فضایی چالش برانگیز است،. جایی که دادههای آموزشی در دنیای واقعی به دلیل هزینه بالا و دادههای اکتشاف سیاره محدود.
کمیاب است. رویکردهای سنتی،.
مانند شناسایی سیستم و تولید دادههای مصنوعی،. به دادههای کافی بستگی دارند و اغلب به دلیل مفروضات مدلسازی یا عدم محدودیتهای مبتنی بر فیزیک شکست.
میخورند. ما با معرفی سوگیری یادگیری مبتنی بر فیزیک در یک مدل تولیدی،.
پرداختن به این کمبود داده را پیشنهاد میکنیم. بهطور خاص،.
ما رمزگذار خودکار متغیر مبتنی بر اطلاعات متقابل (MI-VAE) را توسعه میدهیم،. یک VAE با اطلاعات فیزیک که تفاوتهای بین مسیرهای سیستم مشاهدهشده و موارد پیشبینیشده توسط مدلهای مبتنی بر.
فیزیک را یاد میگیرد. را فضای پنهان MI-VAE امکان تولید مجموعه دادههای مصنوعی را فراهم میکند که به محدودیتهای.
فیزیکی احترام میگذارند. ما MI-VAE را در یک مشکل فرودگر سیارهای ارزیابی میکنیم،.
با تمرکز بر دادههای محدود دنیای واقعی و آموزش آفلاین RL. نتایج نشان میدهد که افزایش مجموعه دادهها با نمونههای MI-VAE بهطور قابلتوجهی عملکرد پاییندستی RL را بهبود میبخشد،.
و از VAEهای استاندارد در وفاداری آماری،. تنوع نمونه و میزان موفقیت خطمشی بهتر عمل میکند.
این کار یک استراتژی مقیاسپذیر برای افزایش استحکام کنترلکننده مستقل در محیطهای پیچیده و با محدودیت داده را. نشان میدهد.
یادگیری ماشینی (cs. LG) استناد بهعنوان: (یا v1 [cs.
LG] برای این نسخه) https:. // شده توسط arXiv از طریق DataCite (در انتظار ثبت نام) تاریخچه ارسال از:.
Nachiket Bapat [مشاهده ایمیل] [v1] پنجشنبه،. 2 آوریل 2026،.
18:. 09:.
11 UTC (6,. 168 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
