TL;DR
- چکیده:.
- ادبیات کنونی در مورد ارزیابی گزارش رادیولوژی عمدتاً بر طراحی معیارهای مبتنی بر LLM و تنظیم دقیق مدلهای.
- کوچک برای اشعه ایکس قفسه سینه متمرکز شده است.
چه اتفاقی افتاد
چکیده:. ادبیات کنونی در مورد ارزیابی گزارش رادیولوژی عمدتاً بر طراحی معیارهای مبتنی بر LLM و تنظیم دقیق مدلهای.
کوچک برای اشعه ایکس قفسه سینه متمرکز شده است. با این حال،.
مشخص نیست که آیا این رویکردها زمانی که برای گزارشهای سایر روشها و آناتومیها اعمال میشوند،. قوی هستند یا خیر.
کدام مدل و پیکربندی سریع برای ارزیابی رادیولوژی بهعنوان داور LLM مناسب است؟ ما یک تحلیل همبستگی کامل بین رتبهبندیهای متخصص و مبتنی بر LLM انجام میدهیم.
ما سه معیار LLM-as-a-judge موجود (RadFact،. GREEN،.
و FineRadScore) را در کنار VERT،. معیار پیشنهادی مبتنی بر LLM،.
با استفاده از مدلهای منبعباز و بسته (استدلال و غیراستدلال) با اندازههای مختلف در دو مجموعه دادههای. چندگانه تحلیلشده توسط متخصص،.
RadEval و RadEval anatomal و RadEval. ما بیشتر رویکردهای چند شات،.
مجموعه،. و پارامتر کارآمد را ارزیابی میکنیم تنظیم دقیق با استفاده از RaTE-Eval.
برای درک بهتر رفتار متریک،. ما یک مطالعه سیستماتیک تشخیص و طبقهبندی خطا را برای ارزیابی همسویی این معیارها در برابر قضاوتهای متخصص.
و شناسایی حوزههای توافق پایینتر و بالاتر انجام میدهیم. نتایج ما نشان میدهد که VERT همبستگی را با قضاوتهای رادیولوژیست تا 11.
7 درصد نسبت به GREEN بهبود میبخشد. علاوه بر این،.
تنظیم دقیق Qwen3 30B تنها با استفاده از 1300 نمونه آموزشی،. تا 25 درصد افزایش بازده دارد.
مدل دقیق تنظیم شده همچنین زمان استنتاج را تا 37. 2 برابر کاهش میدهد.
این یافتهها اثربخشی قضات مبتنی بر LLM را برجسته میکند و نشان میدهد که ارزیابی قابل اعتماد را. میتوان با سازگاری سبک به دست آورد.
هوش مصنوعی (cs. AI)؛ محاسبات و زبان (cs.
CL) استناد بهعنوان: (یا v1 [cs. AI] برای این نسخه) https:.
// شده توسط arXiv از طریق DataCite (در انتظار ثبت نام) تاریخچه ارسال از:. Federica Bologna [مشاهده ایمیل] [v1] جمعه،.
3 آوریل 2026،. 18:.
10:. 21 UTC (1,.
287 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
