TL;DR
- نویسندگان:.
- شو لیو،.
- شین ما،.
چه اتفاقی افتاد
نویسندگان:. شو لیو،.
شین ما،. یوکسین ما،.
یونگ چانگ پنگ،. دوو وانگ،.
ژوفوتو ون،. جی ژانگ،.
کای یوان ژانگ،. شینیو چن،.
تیانچی هه،. جیانی هو،.
لیانگ هو،. زیون هوانگ،.
یونگژه هوی،. جیان پنگ جیائو،.
چننان جو،. لی کونگو،.
لی کونگی،. لیگو،.
لی کونگی Yiqing Ni،. Yueyan Qiu،.
Yanle Ren،. Zilin Shi،.
Zaiyuan Wang،. Wenjie Yue،.
Shiyu Zhang،. Xinyi Zhang،.
Kaiwen Zhao،. Zhenwei Zhu چکیده:.
بهعنوان مدلهای زبانی بزرگ (LLMs) عملکردی را به نمایش میگذارند که به چالش کشیده میشوند. در وظایف پیچیده و باز که شناخت واقعی در سطح متخصص را مشخص میکند.
چارچوبهای موجود از پوشش دامنه محدود، تکیه بر وظایف عمومییا سوگیریهای خودارزیابی رنج میبرند. برای پر کردن این شکاف،.
XpertBench را ارائه میکنیم،. یک معیار با وفاداری بالا که برای ارزیابی LLMها در دامنههای حرفهای معتبر مهندسی شده است.
XpertBench شامل 1346 وظیفه دقیق در 80 دسته است که شامل امور مالی،. مراقبتهای بهداشتی،.
خدمات حقوقی،. آموزش و تحقیقات دوگانه (STEM و علوم انسانی) میشود.
این وظایف از بیش از 1000 ارسال شده توسط متخصصان حوزه - از جمله محققان از موسسات نخبه. و متخصصان با تجربه بالینی یا صنعتی گسترده - که اعتبار زیست محیطی برتر را تضمین میکند.
- مشتق شده است. هر کار از روبریکهای دقیق با 15 تا 40 ایست بازرسی وزنی برای ارزیابی سختگیری حرفهای.
استفاده میکند. برای تسهیل ارزیابی مقیاسپذیر و در عین حال هم تراز با انسان،.
ما ShotJudge را معرفی میکنیم،. یک الگوی ارزیابی جدید که از قضات LLM کالیبرهشده با نمونههای چندتایی متخصص برای کاهش تعصبهای خود پاداش.
استفاده میکند. ارزیابی تجربی ما از پیشرفتهترین LLMها،.
سقف عملکرد مشخصی را نشان میدهد:. حتی مدلهای پیشرو به اوج میزان موفقیت تنها ~ 66% با میانگین امتیاز در حدود 55% دست مییابند.
مدلها نیز واگرایی خاص دامنه را نشان میدهد و نقاط قوت غیر همپوشانی را در استدلال کمی. در مقابل ترکیب زبانی نشان میدهد.
این یافتهها بر یک «شکاف متخصص» قابلتوجه در سیستمهای هوش مصنوعی فعلی تأکید میکند و XpertBench را بهعنوان. ابزاری حیاتی برای انتقال از دستیاران همهمنظوره به همکاران حرفهای تخصصی معرفی میکند.
هوش مصنوعی (cs. AI)؛ محاسبات و زبان (cs.
CL) استناد بهعنوان: (یا v1 [cs. AI] برای این نسخه) https:.
// شده توسط arXiv از طریق DataCite تاریخچه ارسال از:. Yuxin Ma [مشاهده ایمیل] [v1] جمعه،.
27 مارس 2026،. 11:.
28:. 15 UTC (1,.
172 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
