TL;DR
- چکیده: کنترلکنندههای موقعیت به رابط غالب برای اجرای سیاستهای دستکاری آموخته شده تبدیل شدهاند.
- با این حال،.
- یک تصمیم طراحی حیاتی هنوز مورد مطالعه قرار نگرفته است:.
چه اتفاقی افتاد
چکیده: کنترلکنندههای موقعیت به رابط غالب برای اجرای سیاستهای دستکاری آموخته شده تبدیل شدهاند. با این حال،.
یک تصمیم طراحی حیاتی هنوز مورد مطالعه قرار نگرفته است:. چگونه باید دستاوردهای کنترل کننده را برای یادگیری سیاست انتخاب کنیم؟
خرد متعارف این است که دستاوردها را بر اساس انطباق یا سختی کار مورد نظر انتخاب کنید. با این حال،.
این منطق زمانی از بین میرود که کنترلکنندهها با سیاستهای مشروط حالت جفت شوند:. سختی مؤثر از تأثیر متقابل بین واکنشهای آموختهشده و پویاییهای کنترل پدید میآید،.
نه از دستاوردها. ما استدلال میکنیم که انتخاب بهره باید در عوض با یادگیری پذیری هدایت شود:.
تنظیمات بهرههای مختلف چقدر برای الگوریتم یادگیری در حال استفاده قابل قبول هستند. در این کار،.
ما بهطور سیستماتیک بررسی میکنیم که چگونه دستاوردهای کنترل کننده موقعیت بر سه مؤلفه اصلی خطوط لوله. یادگیری ربات مدرن تأثیر میگذارد:.
شبیهسازی رفتار،. یادگیری تقویتی از ابتدا،.
و انتقال سیم به واقعی از طریق آزمایشهای گسترده در چندین کار و تجسمهای ربات،. متوجه میشویم که:.
(1) شبیهسازی رفتار از رژیمهای افزایش منطبق و بیشازحد سود میبرد،. (2) یادگیری تقویتی میتواند در تمام رژیمهای افزایش با تنظیم فراپارامتر سازگار موفق باشد،.
و (3) انتقال سیم به واقعی توسط رژیمهای سود سفت و کمدفع آسیب میبیند. این یافتهها نشان میدهد که انتخاب سود بهینه به رفتار وظیفه مورد نظر بستگی ندارد،.
بلکه به الگوی یادگیری به کار گرفته شده بستگی دارد. وب سایت پروژه: این آدرس https نظرات: مشارکت برابر بین دو نویسنده اول.
ترتیب با ورق سکه تعیین میشود. وب سایت پروژه: این https URL Robotics (cs.
RO) بهعنوان: (یا v1 [cs. RO] برای این نسخه) ذکر کنید.
https:. // (در انتظار ثبت نام) تاریخچه ارسال از:.
پارک یونگیو [نمایش ایمیل] [v1] پنجشنبه،. 2 آوریل 2026،.
ساعت 21:. 23:.
08 UTC (22,. 315 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
