TL;DR
- v1 نوع اعلام:.
- جدید چکیده:.
- نرمافزار علمیبر محاسبات با دقت بالا متکی است،.
چه اتفاقی افتاد
v1 نوع اعلام:. جدید چکیده:.
نرمافزار علمیبر محاسبات با دقت بالا متکی است،. اما نمایشهای ممیز شناور محدود میتوانند خطاهای دقیقی را معرفی کنند که در حوزههای حیاتی ایمنی منتشر میشوند.
علیرغم استفاده رو به رشد از مدلهای زبان بزرگ (LLM) در کاربردهای علمی،. قابلیت اطمینان آنها در مدیریت ثبات عددی ممیز شناور بهطور سیستماتیک ارزیابی نشده است.
این مقاله استدلال LLMها را در مورد محاسبات عددی با دقت بالا از طریق دو کار تثبیت. عددی ارزیابی میکند:.
(1) تشخیص بی ثباتی در عبارات عددی با تولید ورودیهای القا کننده خطا (تشخیص)،. و (2) بازنویسی عبارات برای بهبود ثبات عددی (ثبات سازی).
با استفاده از معیارهای عددی محبوب،. ما شش LLM را بر روی تقریباً 2470 ساختار عددی،.
از جمله شرطیهای تودرتو،. لفظهای با دقت بالا،.
و محاسبات چند متغیره ارزیابی میکنیم. نتایج ما نشان میدهد که LLMها به همان اندازه بهعنوان رویکردهای سنتی پیشرفته در تشخیص و.
تثبیت محاسبات عددی ناپایدار مؤثر هستند. قابل توجهتر،.
LLMها دقیقاً در جایی که دومیشکست میخورند،. از روشهای پایه بهتر عمل میکنند:.
در 17. 4 ٪ (431) از عباراتی که خط پایه دقت را بهبود نمیبخشد،.
LLMها با موفقیت 422 (97. 9 ٪) از آنها را تثبیت میکنند و در 65.
4 ٪ (1615) از تمام عبارات به ثبات بیشتری نسبت به خط پایه دست مییابند. با این حال،.
LLMها با جریان کنترل و لفظهای با دقت بالا دست و پنجه نرم میکنند و. به جای استدلال در مورد پیامدهای عددی آنها،.
بهطور مداوم چنین ساختارهایی را حذف میکنند،. در حالی که آنها در عبارات صرفا نمادین عملکرد بهتری دارند.
با هم،. این یافتهها نشان میدهند که LLMها در تثبیت عباراتی که تکنیکهای کلاسیک نمیتوانند آنها مؤثر هستند،.
اما زمانی که مقادیر دقیق عددی و معنایی جریان کنترل باید دقیقاً استدلال شوند با مشکل مواجه هستند. در مورد، بهعنوان چنین الگوهای بتنی به ندرت در طول آموزش مواجه میشوند.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
