TL;DR
- چکیده:.
- ما محاسبات مبتنی بر داده مجموعههای ثابت کنترلشده احتمالی (PCIS) را برای یادگیری تقویتی حیاتی تحت پویایی ناشناخته.
- مطالعه میکنیم.
چه اتفاقی افتاد
چکیده:. ما محاسبات مبتنی بر داده مجموعههای ثابت کنترلشده احتمالی (PCIS) را برای یادگیری تقویتی حیاتی تحت پویایی ناشناخته.
مطالعه میکنیم. با فرض یک مدل MDP خطی،.
ما از حداقل مربعات منظم و مرزهای اطمینان خود بهنجار شده برای ایجاد یک تخمین محافظه کارانه از. حالتهایی استفاده میکنیم که از آن سیستم میتواند در داخل یک منطقه امن تجویز شده.
در یک افق مرحله \(N\) نگهداری شود،. همراه با نقشه اقدام ایمن با ارزش مجموعه مربوطه.
این ساختار از طریق یک بازگشت به عقب به دست میآید و میتواند بهعنوان یک تقریب. محافظه کارانه از عملگر پیشین ایمنی مرحله \(N\) تفسیر شود.
هنگامیکه رویداد محافظهکار-شمول مرتبط برقرار میشود،. یک نقطه ثابت محافظهکار از بازگشت تقریبی میتواند بهعنوان \((N,.
\epsilon)\)-PCIS با حداقل اطمینان \(\eta\) تأیید شود. برای فضاهای حالت پیوسته،.
یک شبکه معرفی میکنیم انتزاع و یک خطای گسسته سازی مبتنی بر Lipschitz که برای به دست. آوردن یک طرح تقریب قابل انجام است.
در نهایت،. ما از تقریب نقطه ثابت محافظهکارانه بهعنوان یک PCIS کاندید زمان اجرا در یک معماری محافظ عملی با.
بهروزرسانیهای تکراری استفاده میکنیم و رویکرد را روی یک آزمایش عددی نشان میدهیم. سیستمها و کنترل (eess.
SY) استناد بهعنوان: (یا v1 [eess. SY] برای این نسخه) https:.
// شده توسط arXiv از طریق DataCite (در انتظار ثبت نام) تاریخچه ارسال از:. Kazumune Hashimoto [مشاهده ایمیل] [v1] جمعه،.
3 آوریل 2026،. 04:.
40:. 39 UTC (1,.
021 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
