TL;DR
- چکیده:.
- خودبازی تکاملی،.
- که در آن یک مدل زبان مشکلاتی را ایجاد میکند و دیگری آنها را حل میکند،.
چه اتفاقی افتاد
چکیده:. خودبازی تکاملی،.
که در آن یک مدل زبان مشکلاتی را ایجاد میکند و دیگری آنها را حل میکند،. نوید یادگیری برنامه درسی مستقل بدون نظارت انسان را میدهد.
در عمل،. پیشنهاد دهنده به سرعت به توزیع محدودی از مشکلات که تابع پاداش را برآورده میکند،.
همگرا میشود. این فروپاشی تنوع،.
برنامه درسی را برای حل کننده غیر اطلاعاتی میکند و حلقه تکاملی مشترک را متوقف میکند. ما ترک واژگان را معرفی میکنیم،.
یک ماسک تصادفی که روی لوجیتهای خروجی پیشنهاد دهنده در طول آموزش خطمشی و تولید برنامه درسی اعمال. میشود،.
بهعنوان مکانیزمیسبک برای حفظ تنوع. ماسک سخت و غیر ثابت است و مانع از قفل شدن پیشنهاد دهنده در توالیهای نشانه ثابت.
میشود. با آموزش Qwen3-4B و Qwen3-8B بر روی استدلال ریاضی از طریق R-Zero،.
متوجه شدیم که ترک واژگان تنوع پیشنهاد دهنده را در معیارهای واژگانی،. معنایی و عملکردی در طول آموزش حفظ میکند.
و بهبودهای حل کننده را با میانگین +4. 4 امتیاز در 8B، با بیشترین سود در معیارهای سطح رقابت، به همراه دارد.
یافتههای ما نشان میدهد که محدودیتهای فضای کنش صریح،. مشابه نقش ساختاری که قوانین بازی در خودبازی کلاسیک ایفا میکنند،.
میتوانند به حفظ تکامل مشترک سازنده در زبان کمک کنند. ترک واژگان یک نمونه ساده از این اصل است.
محاسبات و زبان (cs. CL); هوش مصنوعی (cs.
AI) استناد بهعنوان: (یا v1 [cs. CL] برای این نسخه) https:.
// شده توسط arXiv از طریق DataCite (در انتظار ثبت نام) تاریخچه ارسال از:. Jacob Dineen [مشاهده ایمیل] [v1] جمعه،.
3 آوریل 2026،. 21:.
40:. 03 UTC (112 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
