TL;DR
- چکیده:.
- اگرچه سیاستهای مولد چند مرحلهای با مدلسازی توزیعهای کنش چندوجهی به عملکرد قوی در دستکاری رباتیک دست مییابند،.
- اما نیاز به حذف نویز تکراری چند مرحلهای در زمان استنتاج دارند.
چه اتفاقی افتاد
چکیده:. اگرچه سیاستهای مولد چند مرحلهای با مدلسازی توزیعهای کنش چندوجهی به عملکرد قوی در دستکاری رباتیک دست مییابند،.
اما نیاز به حذف نویز تکراری چند مرحلهای در زمان استنتاج دارند. بنابراین،.
هر اقدام به دهها تا صدها ارزیابی عملکرد شبکه (NFE) نیاز دارد،. که آنها را برای کنترل حلقه بسته فرکانس بالا و یادگیری تقویت آنلاین (RL) هزینه بر میکند.
برای پرداختن به این محدودیت،. ما یک چارچوب دو مرحلهای برای سیاستهای مولد یک مرحلهای بومیپیشنهاد میکنیم که اصلاح را از استنتاج.
به آموزش تغییر میدهد. ابتدا،.
ما خط مشی مبتنی بر رانش (DBP) را معرفی میکنیم،. که از اهداف جابجایی نقطه ثابت برای درونی کردن پالایش تکراری در پارامترهای مدل استفاده میکند و با.
طراحی یک ستون فقرات مولد یک مرحلهای ایجاد میکند و در عین حال ظرفیت مدلسازی عمل چندوجهی را. حفظ میکند.
دوم،. ما بهینهسازی خط مشی مبتنی بر رانش (DBPO) را توسعه میدهیم چارچوب RL آنلاین که ستون.
فقرات از پیشآموزش دیده را به یک رابط تصادفی سازگار مجهز میکند،. به روز رسانیهای پایدار در سیاست را بدون قربانی کردن ویژگی استقرار یک مرحلهای امکان پذیر.
میکند. آزمایشهای گسترده اثربخشی چارچوب پیشنهادی را در یادگیری تقلید آفلاین،.
تنظیم دقیق آنلاین و سناریوهای کنترل دنیای واقعی نشان میدهد. DBP با عملکرد خطمشیهای انتشار چند مرحلهای مطابقت دارد یا از آن فراتر میرود در حالی که استنتاج.
سریعتر تا 100\ برابر دلار میشود. همچنین بهطور مداوم از خطوط پایه یک مرحلهای موجود در معیارهای دستکاری چالش برانگیز بهتر عمل می.
کند. علاوه بر این، DBPO بهبود سیاست موثر و پایدار را در تنظیمات آنلاین امکان پذیر میکند.
آزمایشات روی یک ربات دو بازوی واقعی کنترل فرکانس بالا قابل اعتماد را در 105. 2 هرتز نشان میدهد.
رباتیک (cs. RO) استناد بهعنوان: (یا v1 [cs.
RO] برای این نسخه) https:. // شده توسط arXiv از طریق DataCite تاریخچه ارسال از:.
Yuxuan Gao [مشاهده ایمیل] [v1] شنبه،. 4 آوریل 2026،.
01:. 32:.
01 UTC (3,. 194 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
