TL;DR
- چکیده:.
- روشهای کمیسازی عدم قطعیت (UQ) برای مدلهای زبان بزرگ عمدتاً با دست بر اساس دانش دامنه و اکتشافات.
- طراحی شدهاند و مقیاسپذیری و عمومیت آنها را محدود میکند.
چه اتفاقی افتاد
چکیده:. روشهای کمیسازی عدم قطعیت (UQ) برای مدلهای زبان بزرگ عمدتاً با دست بر اساس دانش دامنه و اکتشافات.
طراحی شدهاند و مقیاسپذیری و عمومیت آنها را محدود میکند. ما جستجوی تکاملی مبتنی بر LLM را برای کشف خودکار روشهای UQ بدون نظارت که بهعنوان برنامههای پایتون.
نشان داده میشوند،. اعمال میکنیم.
در کار راستیآزمایی ادعای اتمی،. روشهای تکاملیافته ما بهتر از خطوط پایه طراحیشده بهصورت دستی قوی عمل میکنند و تا ۶.
۷ درصد بهبود ROC-AUC نسبی را در 9 مجموعه داده به دست میآورند و در عین حال به. شدت خارج از توزیع را تعمیم میدهند.
تجزیه و تحلیل کیفی نشان میدهد که LLMهای مختلف از استراتژیهای تکاملی کیفی متمایز استفاده میکنند:. مدلهای کلود بهطور مداوم برآوردگرهای خطی با تعداد ویژگیهای بالا طراحی میکنند،.
در حالی که Gpt-oss-120B به سمت طرحهای وزندهی موقعیتی سادهتر و قابل تفسیرتر جذب میشود. با کمال تعجب، تنها Sonnet 4.
5 و Opus 4. 5 قابل اعتماد هستند اهرم افزایش پیچیدگی روش برای بهبود عملکرد - Opus 4.
6 یک رگرسیون غیرمنتظره را نسبت به نسخه قبلی خود نشان میدهد. بهطور کلی،.
نتایج ما نشان میدهد که جستجوی تکاملی مبتنی بر LLM یک الگوی امیدوارکننده برای طراحی آشکارساز توهم خودکار. و قابل تفسیر است.
محاسبات و زبان (cs. CL); هوش مصنوعی (cs.
AI) استناد بهعنوان: (یا v1 [cs. CL] برای این نسخه) https:.
// شده توسط arXiv از طریق DataCite (در انتظار ثبت نام) تاریخچه ارسال از:. Mikhail Seleznyov [مشاهده ایمیل] [v1] جمعه،.
3 آوریل 2026،. ساعت 21:.
41:. 41 UTC (3,.
788 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
