TL;DR
- v1 نوع اعلام:.
- جدید چکیده:.
- 2026 انفجاری از علاقه به تکامل مصنوعات عاملی تحت هدایت LLM به همراه داشته است،.
چه اتفاقی افتاد
v1 نوع اعلام:. جدید چکیده:.
2026 انفجاری از علاقه به تکامل مصنوعات عاملی تحت هدایت LLM به همراه داشته است،. با سیستمهایی مانند GEPA و AutoResearch که نشان میدهند LLMها میتوانند بهطور مکرر دستورات،.
کدها و معماریهای عامل را در دامنههای مختلف بهبود بخشند. با تسریع پذیرش،.
یک سوال اصلی مطرح میشود:. با توجه به اطلاعات یکسان،.
عامل بذر یکسان و هدف یکسان،. کدام الگوریتم بهینهسازی بهترین نتایج را در بودجه ارزیابی یکسان به دست میدهد؟
این سوال زمانی حیاتی میشود که ارزیابیها گران هستند،. مانند زمانی که نیاز به قضاوت انسانی یا تماسهای متعدد LLM دارند.
ما اولین مقایسه سیستماتیک سه پارادایم بهینهسازی - انتخاب مسابقات Elo (RoboPhD)،. انتخاب مبتنی بر پارتو (GEPA) و تپهنوردی حریصانه (جستجوی خودکار) - را در چهار معیار شامل استدلال انتزاعی،.
زمانبندی ابری،. تولید SQL ارائه میکنیم.
و کیفیت مالی، همه تحت یک بودجه ثابت 1500 ارزیابی. RoboPhD تکامل بدون اعتبار را معرفی میکند:.
به جای تقسیم بودجه بین آموزش و اعتبار سنجی،. از رقابت Elo بر روی دادههای آموزشی برای ارزیابی همزمان عوامل و هدایت تکامل استفاده میکند.
هر سه سیستم عاملهای seed را با عبارات چاپ تشخیصی () دریافت میکنند که تکامل میتواند رشد کند،. و عوامل خودآگاهی را قادر میسازد که تشخیصهای آموزندهتر را به نفع جانشینان تکاملی خود توسعه دهند.
با استفاده از یک پیکربندی پیشفرض،. RoboPhD از GEPA و Autoresearch در سه مورد از چهار معیار بهتر عمل میکند،.
و تنها در سادهترین کار،. جایی که راهحل برنده (از انطباق تحقیق خودکار ما) به کمتر از 90 خط کد نیاز دارد،.
شکست میخورد. در ARC-AGI،.
RoboPhD یک عامل 22 خطی را به یک سیستم چند استراتژی 1013 خطی تبدیل میکند و دقت را. با استفاده از Gemini 3.
1 Flash از 27. 8% به 65.
8% افزایش میدهد. Lite بهعنوان حل کننده.
ما RoboPhD را بهعنوان یک جعبه ابزار همه کاره تحت مجوز MIT با یک API ساده optimize_anything() برای. توسعه عوامل پیچیده متنوع منتشر میکنیم.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
