TL;DR
- چکیده:.
- آموزش عوامل فراخوانی ابزار با یادگیری تقویتی در وظایف چند نوبتی به دلیل پاداشهای ناچیز نتیجه و تخصیص.
- اعتبار دشوار در نوبتهای مکالمه همچنان چالش برانگیز است.
چه اتفاقی افتاد
چکیده:. آموزش عوامل فراخوانی ابزار با یادگیری تقویتی در وظایف چند نوبتی به دلیل پاداشهای ناچیز نتیجه و تخصیص.
اعتبار دشوار در نوبتهای مکالمه همچنان چالش برانگیز است. ما اولین کاربرد MT-GRPO (بهینهسازی خط مشی نسبی گروه چند نوبتی) همراه با GTPO (بهینهسازی خط.
مشی سطح توکن عمومی) را برای آموزش یک عامل فراخوانی ابزار در مورد وظایف واقعی خدمات مشتری با. یک شبیهساز کاربر مبتنی بر LLM ارائه میکنیم.
از طریق تجزیه و تحلیل سیستماتیک برنامههای آموزشی،. متوجه میشویم که پاداشهای متراکم در هر نوبت طراحی سادهلوحانه عملکرد را به دلیل عدم همسویی بین تبعیض.
پاداش و جهت مزیت،. تا 14 درصد کاهش میدهند.
ما کالیبراسیون پاداش تکراری را معرفی میکنیم،. روشی برای طراحی پاداشهای هر نوبت با استفاده از تحلیل تجربی تبعیضآمیز دادههای عرضه،.
و نشان میدهیم که ترکیبی GTPO ما فرمول مزیت مشکل عدم تراز مزیت را از بین میبرد. با اعمال معیار خط هوایی Tau-Bench، رویکرد ما Qwen3.
5-4B را از 63. 8 درصد به 66.
7 درصد (+2. 9pp) و Qwen3-30B-A3B را از 58.
0 درصد به 69. 5 درصد (+11.
5pp) - با مدل آموزش دیده GPT9. 4 بیش از G4B.
(42. 8 درصد) علیرغم اینکه 50 برابر کوچکتر است، و مدل 30.
5B MoE به Claude Sonnet 4. 5 (70.
0 درصد) نزدیک میشود. طبق اطلاعات ما، اینها اولین نتایج آموزشی RL منتشر شده در Tau-Bench هستند.
ما کد، تجزیه و تحلیل کالیبراسیون پاداش و دستور العملهای آموزشی را منتشر میکنیم. هوش مصنوعی (cs.
AI) استناد بهعنوان: (یا v1 [cs. AI] برای این نسخه) https:.
// شده توسط arXiv از طریق DataCite (در انتظار ثبت نام) تاریخچه ارسال از:. دکتر Krittin Pachtrachai [مشاهده ایمیل] [v1] جمعه،.
3 آوریل 2026،. 08:.
36:. 03 UTC (30 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
