TL;DR
- نوع خاصی از خستگی وجود دارد که هر مهندس هوش مصنوعی از نزدیک آن را میشناسد:.
- حلقه تنظیم سریع.
- شما یک دستور سیستم مینویسید،.
چه اتفاقی افتاد
نوع خاصی از خستگی وجود دارد که هر مهندس هوش مصنوعی از نزدیک آن را میشناسد:. حلقه تنظیم سریع.
شما یک دستور سیستم مینویسید،. عامل خود را بر اساس یک معیار اجرا میکنید،.
ردیابی خرابی را میخوانید،. دستور را تغییر میدهید،.
ابزاری را اضافه میکنید،. دوباره اجرا میکنید.
این کار را چند ده بار تکرار کنید و ممکن است سوزن را حرکت دهید. این یک کار خرخر است که با فایلهای پایتون پوشیده شده است.
اکنون، یک کتابخانه منبعباز جدید به نام AutoAgent، که توسط کوین گو در thirdlayer. inc ساخته شده است،.
یک جایگزین ناراحت کننده را پیشنهاد میکند - خودتان این کار را انجام ندهید. بگذارید یک هوش مصنوعی این کار را انجام دهد.
AutoAgent یک کتابخانه منبعباز برای بهبود مستقل یک عامل در هر دامنه است. در یک دوره 24 ساعته، در SpreadsheetBench با امتیاز 96.
5% به شماره 1 رسید و امتیاز GPT-5 شماره 1 را در TerminalBench با 55. 1% کسب کرد.
https: //x. com/kevingu/status/2039843234760073341 واقعاً AutoAgent چیست؟
AutoAgent بهعنوان «مثل جستجوی خودکار اما برای مهندسی عامل» توصیف میشود. ایده:.
به یک عامل هوش مصنوعی یک وظیفه بدهید،. اجازه دهید یک شبه بهطور مستقل بر روی یک عامل مهارکننده بسازد و تکرار کند.
اعلان سیستم،. ابزارها،.
پیکربندی عامل و ارکستراسیون را اصلاح میکند،. معیار را اجرا میکند،.
امتیاز را بررسی میکند،. تغییر را نگه میدارد یا نادیده میگیرد و تکرار میکند.
برای درک این قیاس:. جستجوی خودکار آندری کارپاتی همین کار را برای آموزش ML انجام میدهد - از طریق چرخههای.
پیشنهاد-آموزش-ارزیابی حلقه میزند و فقط تغییراتی را حفظ میکند که از دست دادن اعتبارسنجی را بهبود. میبخشد.
AutoAgent همان حلقه ضامن دار را از آموزش ML به مهندسی عامل منتقل میکند. بهجای بهینهسازی وزنهای یک مدل یا فراپارامترهای آموزشی،.
مهار را بهینه میکند - اعلان سیستم،. تعاریف ابزار،.
منطق مسیریابی و استراتژی هماهنگسازی که تعیین میکنند یک عامل در یک کار چگونه رفتار میکند. یک مهار،.
در این زمینه،. داربست اطراف یک LLM است:.
چه سیستمیدرخواست دریافت میکند،. چه ابزارهایی میتواند فراخوانی کند،.
چگونه بین عوامل فرعی مسیریابی میکند،. و چگونه وظایف بهعنوان ورودی قالب بندی میشوند.
اکثر مهندسان عامل این داربست را دست ساز میسازند. AutoAgent تکرار روی آن داربست را خودکار میکند.
معماری: دو عامل، یک فایل، یک دستورالعمل مخزن GitHub یک ساختار عمدا ساده دارد. agent.
py کل هارنس تحت آزمایش در یک فایل واحد است – شامل پیکربندی،. تعاریف ابزار،.
رجیستری عامل،. مسیریابی/ارکستراسیون و مرز آداپتور Harbor است.
بخش آداپتور به صراحت بهعنوان ثابت علامت گذاری شده است. بقیه سطح ویرایش اولیه برای متا عامل است.
program. md حاوی دستورالعملهایی برای متا عامل به اضافه دستورالعمل (چه نوع عاملی برای ساخت) است،.
و این تنها فایلی است که انسان ویرایش میکند. به آن بهعنوان جدایی از نگرانی بین انسان و ماشین فکر کنید.
انسان جهت را در داخل برنامه تعیین میکند. md.
متا عامل (یک هوش مصنوعی سطح بالاتر) سپس آن دستورالعمل را میخواند، agent. py را بررسی میکند، معیار را اجرا میکند، مشکل را تشخیص میدهد، بخشهای مربوطه agent.
py را بازنویسی میکند و تکرار میکند. انسان هرگز مستقیماً agent.
py را لمس نمیکند. یک بخش حیاتی از زیرساخت که حلقه را در سراسر تکرارها منسجم نگه میدارد results.
tsv است - یک گزارش آزمایشی که بهطور خودکار توسط متا عامل ایجاد و نگهداری میشود. هر آزمایشی را ردیابی میکند و به متاعامل تاریخچهای میدهد تا از آن بیاموزد و آنچه را که.
بعداً باید امتحان کند کالیبره کند. ساختار کامل پروژه همچنین شامل Dockerfile.
base، یک دایرکتوری . agent/ اختیاری برای مصنوعات فضای کاری عامل قابل استفاده مجدد مانند دستورات و مهارتها،.
یک پوشه وظایف/پوشه برای بارهای محک (افزوده شده در هر شاخه بنچمارک)،. و یک فهرست jobs/ برای خروجیهای کار Harbor است.
این معیار، امتیاز کل است که توسط مجموعههای تست کار معیار تولید میشود. متا عامل در این امتیاز به تپه صعود میکند.
هر آزمایش یک امتیاز عددی ایجاد میکند:. اگر بهتر است نگه دارید،.
اگر نه آن را کنار بگذارید - همان حلقه جستجوی خودکار. قالب وظیفه و ادغام بندر معیارها بهعنوان وظایف در قالب Harbor بیان میشوند.
هر کار در زیر tasks/my-task/ قرار دارد و شامل یک task. toml برای پیکربندی مانند زمانبندیها و ابردادهها، یک instruction.
md که دستوری است که به عامل ارسال میشود، یک دایرکتوری tests/ با یک نقطه ورودی test. sh که امتیازی را در /logs/reward.
txt مینویسد و یک test. py برای تأیید با استفاده از چکهای قطعی-LL-ju-.
یک محیط/Dockerfile محفظه وظیفه را تعریف میکند و یک فایل/دایرکتوری فایلهای مرجع نصب شده در ظرف را نگه. میدارد.
آزمونها امتیازی بین 0. 0 تا 1.
0 را در لاگهای تأیید کننده مینویسند. متا عامل روی این تپه صعود میکند.
الگوی LLM-as-judge در اینجا ارزش پرچم گذاری دارد:. به جای اینکه فقط پاسخها را بهطور قطعی بررسی کند (مانند آزمونهای واحد)،.
مجموعه آزمون میتواند از LLM دیگری برای ارزیابی اینکه آیا خروجی عامل «به اندازه کافی صحیح است». استفاده کند.
خوراکیهای کلیدی مهندسی مهار خودکار کار میکند – AutoAgent ثابت میکند که یک متا عامل میتواند بهطور. کامل جایگزین حلقه تنظیم سریع انسانی شود،.
بدون اینکه هیچ انسانی مستقیماً فایلهای هارنس را لمس کند،. در agent.
py یک شبه تکرار شود. نتایج بنچمارک این رویکرد را تأیید میکند - در یک دوره 24 ساعته،.
AutoAgent شماره 1 را در SpreadsheetBench (96. 5 ٪) و بهترین امتیاز GPT-5 در TerminalBench (55.
1 ٪) را کسب کرد، و هر ورودی دیگری که توسط انسانها مهندسی شده بود را شکست داد. «همدلی مدل» ممکن است یک پدیده واقعی باشد - به نظر میرسد که یک فراعامل کلود که یک.
عامل وظیفه کلود را بهینه میکند،. نسبت به بهینهسازی یک عامل مبتنی بر GPT،.
خرابیها را دقیقتر تشخیص میدهد،. و نشان میدهد که جفتسازی مدلهای خانواده میتواند هنگام طراحی حلقه AutoAgent شما مهم باشد.
شغل انسان از مهندس به کارگردان تغییر میکند - شما agent. py را نمینویسید یا ویرایش نمیکنید.
شما program. md را مینویسید - یک دستورالعمل Markdown ساده که متا عامل را هدایت میکند.
این تمایز نشان دهنده تغییر گستردهتر مهندسی عامل از نوشتن کد به تعیین اهداف است. با هر معیاری قابل اتصال و بازی است - از آنجایی که وظایف از قالب باز Harbor پیروی.
میکنند و عوامل در کانتینرهای Docker اجرا میشوند،. AutoAgent دارای دامنه ناشناس است.
هر کار قابل امتیازگیری - صفحات گسترده،. دستورات ترمینال یا دامنه سفارشی شما - میتواند به هدفی برای خودبهینهسازی مستقل تبدیل شود.
Repo و توییت را بررسی کنید. همچنین،.
راحت ما را در توییتر دنبال کنید و فراموش نکنید که به ML SubReddit 120k+ ما بپیوندید و. در خبرنامه ما مشترک شوید.
صبر کن تو تلگرام هستی اکنون میتوانید در تلگرام نیز به ما بپیوندید. آیا برای تبلیغ GitHub Repo یا Hugging Face Page یا انتشار محصول یا وبینار و غیره با ما.
نیاز دارید؟ با ما ارتباط برقرار کنید.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
