TL;DR
- چکیده:.
- یک جهت تحقیقاتی امیدوارکننده در توانمندسازی LLMها برای تولید کدهای صحیح بهطور مداوم شامل رسیدگی به ناتوانی.
- آنها در برآورد صحیح اجرای برنامه،.
چه اتفاقی افتاد
چکیده:. یک جهت تحقیقاتی امیدوارکننده در توانمندسازی LLMها برای تولید کدهای صحیح بهطور مداوم شامل رسیدگی به ناتوانی.
آنها در برآورد صحیح اجرای برنامه،. به ویژه برای کدهایی است که تولید میکنند.
در این کار،. ما نشان میدهیم که کد LLMها را میتوان برای شبیهسازی اجرای برنامه به صورت گام به گام آموزش.
داد و این قابلیت را میتوان برای بهبود عملکرد برنامهنویسی رقابتی مورد استفاده قرار داد. رویکرد ما ترکیبی از تنظیم دقیق نظارت شده بر روی ردپای اجرای زبان طبیعی،.
توضیحات متنی مبتنی بر اجرای واقعی،. با یادگیری تقویتی با استفاده از پاداشهای قابل تأیید است.
ما دو هدف مکمل را معرفی میکنیم:. پیشبینی خروجی کدها و ورودیها،.
و حل وظایف برنامهنویسی رقابتی با بازخورد اجرای واقعی یا خود پیشبینیشده. این اهداف،.
مدلها را قادر میسازد تا تأیید خود را بر روی چندین نامزد انجام دهند راهحلها،. و خودتثبیت تکراری با شبیهسازی اجرای آزمون.
در چندین معیار برنامهنویسی رقابتی، روش ما نسبت به رویکردهای استدلال استاندارد پیشرفتهای ثابتی را به همراه دارد. ما بیشتر ابلیشنها و تجزیه و تحلیل را برای روشن کردن نقش شبیهسازی اجرا و محدودیت.
های آن ارائه میکنیم. محاسبات و زبان (cs.
CL); یادگیری ماشینی (cs. LG) استناد بهعنوان: (یا v1 [cs.
CL] برای این نسخه) https:. // شده توسط arXiv از طریق DataCite تاریخچه ارسال از:.
گالیل میمون [مشاهده ایمیل] [v1] چهارشنبه،. 11 مارس 2026،.
15:. 28:.
22 UTC (439 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
