TL;DR
- v1 نوع اعلام:.
- جدید چکیده:.
- مهندسان نرم افزاری که مسائل سطح مخزن را حل میکنند،.
چه اتفاقی افتاد
v1 نوع اعلام:. جدید چکیده:.
مهندسان نرم افزاری که مسائل سطح مخزن را حل میکنند،. آزمایشهای موجود را بهعنوان اوراکلهای صحت تغییرناپذیر تلقی نمیکنند.
در عوض،. آنها بهطور مکرر هم کد و هم آزمونهای مورد استفاده برای توصیف رفتار مورد نظر را اصلاح میکنند،.
زیرا اصلاحات جدید مفروضات گمشده یا شرایط شکست بد تعبیر شده را نشان میدهند. در مقابل،.
اکثر سیستمهای تعمیر مبتنی بر مدل زبان بزرگ (LLM) یک خط لوله خطی را اتخاذ میکنند که در. آن آزمایشها یا سایر سیگنالهای اعتبار سنجی بیشتر بهعنوان فیلترهای پسهک عمل میکنند و محدودیتهای رفتاری را در.
طول تعمیر ثابت میکنند. این فرمولبندی تعمیر را به بهینهسازی کد تحت محدودیتهای استاتیک و بالقوه نادرست کاهش میدهد،.
که منجر به جستجوی کممحدود و اصلاحات شکننده یا بیشازحد میشود. ما استدلال میکنیم که حل مسئله در سطح مخزن اساساً بهینهسازی تحت آزمایشهای ثابت نیست،.
بلکه جستجو بر روی محدودیتهای رفتاری در حال تکامل است. برای عملیاتی کردن این دیدگاه،.
ما Agent-CoEvo را پیشنهاد میکنیم،. یک چارچوب چند عامله تکاملی که در آن وصلههای کد نامزد و وصلههای آزمایشی بهطور مشترک بررسی و.
بهطور مکرر اصلاح میشوند. به جای تلقی تستها بهعنوان اوراکلهای تغییرناپذیر،.
چارچوب ما آنها را بهعنوان محدودیتهای پویا مدلسازی میکند که هم هدایت میکنند و هم توسط فرآیند تعمیر. اصلاح میشوند.
از طریق ارزیابی متقابل و بازترکیب معنایی،. نامزدهای کد و آزمون به تدریج فضای رفتاری را که مطابق با شرح موضوع است،.
محدود میکنند. Agent-CoEvo که بر روی SWE-bench Lite و SWT-bench Lite ارزیابی شده است،.
هم در موفقیت تعمیر و هم در کیفیت تولید مثل آزمایش،. بهطور مداوم از خطوط پایه مبتنی بر عامل و بدون عامل برتری دارد.
یافتههای ما نشان میدهد که فعال کردن عوامل تعمیر برای تجدید نظر در محدودیتهای رفتاری در طول جستجو. برای حل مشکل قابل اعتماد بسیار مهم است و به تغییر از بهینهسازی فقط کد به تکامل همزمان.
اشاره میکند. اجرا و مشخصات.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
