TL;DR
- چکیده: قابلیتهای استدلال رسمی LLM برای پیشرفت مهندسی نرمافزار خودکار بسیار مهم است.
- با این حال،.
- معیارهای موجود برای LLMها فاقد ارزیابی سیستماتیک مبتنی بر محاسبات و پیچیدگی هستند و شکاف مهمیدر.
چه اتفاقی افتاد
چکیده: قابلیتهای استدلال رسمی LLM برای پیشرفت مهندسی نرمافزار خودکار بسیار مهم است. با این حال،.
معیارهای موجود برای LLMها فاقد ارزیابی سیستماتیک مبتنی بر محاسبات و پیچیدگی هستند و شکاف مهمیدر. درک قابلیتهای استدلال رسمیآنها باقی میگذارند.
بنابراین،. هنوز ناشناخته است که آیا SOTA LLMها میتوانند پیچیدگی ساختار یافته و سلسله مراتبی زبانهای.
رسمیرا همانطور که توسط تئوری محاسبات تعریف شده است درک کنند. برای پرداختن به این موضوع،.
ChomskyBench را معرفی میکنیم،. معیاری برای ارزیابی سیستماتیک LLMها از طریق لنز Chomsky Hierarchy.
برخلاف کار قبلی که از طبقهبندی برداری برای شبکههای عصبی استفاده میکرد،. چامسکی بنچ اولین کسی است که پوشش کامل سلسله مراتب چامسکی،.
ارزیابی ردیابی فرآیند از طریق زبان طبیعی و قابلیت تأیید نمادین قطعی را ترکیب میکند. ChomskyBench از مجموعهای جامع از زبان تشکیل شده است وظایف شناسایی و تولید که برای آزمایش قابلیت.
ها در هر سطح طراحی شده اند. آزمایشهای گسترده نشاندهنده یک طبقهبندی عملکرد واضح است که با سطوح پیچیدگی سلسله مراتب همبستگی دارد.
تجزیه و تحلیل ما یک رابطه مستقیم را نشان میدهد که در آن افزایش دشواری کار بهطور. قابل ملاحظهای بر طول استنتاج و عملکرد تأثیر میگذارد.
علاوه بر این،. متوجه میشویم که در حالی که مدلهای بزرگتر و روشهای استنتاج پیشرفته دستاوردهای نسبی قابلتوجهی را ارائه میدهند،.
با موانع کارایی شدیدی روبرو هستند:. دستیابی به قابلیت اطمینان عملی مستلزم هزینههای محاسباتی گزافی است،.
که نشان میدهد محدودیتهای فعلی از ناکارآمدی ناشی میشوند نه محدودیتهای مطلق. تجزیه و تحلیل پیچیدگی زمانی بیشتر نشان میدهد که LLMها بهطور قابل توجهی کمتر از برنامه.
های الگوریتمیسنتی برای این وظایف رسمیکارآمد هستند. این نتایج محدودیتهای عملی LLMهای کنونی را مشخص میکند،.
و آن را برجسته میکند ضروری بودن ابزارهای نرم افزاری سنتی،. و ارائه بینشهایی برای هدایت توسعه LLMهای آینده با قابلیتهای استدلال رسمیقویتر.
نظرات: کار در حال پیشرفت محاسبات و زبان (cs. CL); هوش مصنوعی (cs.
AI)؛ یادگیری ماشین (cs. LG)؛ مهندسی نرمافزار (cs.
SE) بهعنوان: (یا v1 [cs. CL] برای این نسخه) استناد کنید.
Yihong Dong [مشاهده ایمیل] [v1] جمعه، 3 آوریل 2026، 04: 06: 39 UTC (256 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
