TL;DR
- چکیده:.
- استدلال ریاضی در مدلهای زبان بزرگ با یادگیری تقویتی با استفاده از پاداشهای قابل تأیید،.
- که در آن پاسخهای نهایی را میتوان بهطور خودکار بررسی کرد و به سیگنالهای آموزشی قابل اعتماد تبدیل.
چه اتفاقی افتاد
چکیده:. استدلال ریاضی در مدلهای زبان بزرگ با یادگیری تقویتی با استفاده از پاداشهای قابل تأیید،.
که در آن پاسخهای نهایی را میتوان بهطور خودکار بررسی کرد و به سیگنالهای آموزشی قابل اعتماد تبدیل. کرد،.
بهطور قابلتوجهی بهبود یافته است. اکثر این خطوط لوله فقط صحت نتیجه را بهینه میکنند،.
که بازخورد پراکندهای را برای راهحلهای طولانی و چند مرحلهای به همراه دارد و. راهنماییهای محدودی در مورد خطاهای استدلال میانی ارائه میدهد.
بنابراین،. کار اخیر مدلهای پاداش فرآیند (PRM) را برای امتیاز دادن به مراحل میانی و ارائه نظارت متراکمتر معرفی.
میکند. در عمل،.
نمرات PRM اغلب بهطور ناقص با صحت نهایی همسو میشوند و میتوانند به استدلال روان محلی. که هنوز به پاسخ نادرست ختم میشود پاداش دهد.
هنگامیکه بهعنوان پاداش مطلق بهینه میشود،. چنین سیگنالهایی میتوانند حالتهای شکست روان را تقویت کنند و باعث هک پاداش شوند.
ما PROGRS را پیشنهاد میکنیم،. چارچوبی که از PRMها در عین حفظ نتیجه استفاده میکند صحت غالب PROGRS پاداشهای فرآیند را.
بهعنوان ترجیحات نسبی در گروههای نتیجهای به جای اهداف مطلق در نظر میگیرد. ما مرکزگذاری مشروط نتیجه را معرفی میکنیم،.
که امتیازات PRM مسیرهای نادرست را به میانگین صفر در هر گروه سریع تغییر میدهد. با حفظ رتبهبندیهای آموزنده، تعصب سیستماتیک را حذف میکند.
PROGRS یک PRM رگرسیون چندکی منجمد را با یک ارزیاب انسجام چند مقیاسی ترکیب میکند. ما پاداش فرآیند متمرکز حاصل را در بهینهسازی خط مشی نسبی گروهی (GRPO) بدون اهداف کمکی یا.
اجزای قابل آموزش اضافی ادغام میکنیم. در سراسر MATH-500،.
AMC،. AIME،.
MinervaMath،. و OlympiadBench،.
PROGRS بهطور مداوم Pass@1 را بیش از خطوط پایه فقط نتیجه بهبود میبخشد و با عرضههای کمتر به. عملکرد قویتری میرسد.
این نتایج نشان میدهد که تمرکز شرطی نتیجه،. استفاده ایمن و مؤثر از پاداشهای فرآیند را برای استدلال ریاضی امکانپذیر میسازد.
صفحه، 3 شکل، 2 جدول، ارسال شده به کنفرانس IJCNN 2026 یادگیری ماشین (cs. LG); از هوش مصنوعی (cs.
AI) بهعنوان: (یا v1 [cs. LG] برای این نسخه) استناد کنید:.
https:. // رضایی راوری [مشاهده ایمیل] [v1] یکشنبه،.
8 فوریه 2026،. 06:.
38:. 20 UTC (2,.
802 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
