TL;DR
- فراخوانی ابزار عامل چیزی است که عوامل هوش مصنوعی را در تولید مفید می کند.
- به این صورت است که آنها از پایگاه داده ها پرس و جو می کنند،.
- جریان های کاری را راه اندازی می کنند،.
چه اتفاقی افتاد
فراخوانی ابزار عامل چیزی است که عوامل هوش مصنوعی را در تولید مفید می کند. به این صورت است که آنها از پایگاه داده ها پرس و جو می کنند،.
جریان های کاری را راه اندازی می کنند،. داده های بلادرنگ را بازیابی می کنند و از طرف یک کاربر عمل می کنند.
اما مدلهای پایه اغلب ابزارها را دچار توهم میکنند،. پارامترهای نامناسبی را ارسال میکنند و زمانی که نیاز به توضیح دارند،.
اقداماتی را انجام میدهند. این شکست ها اعتماد را از بین می برد و مانع استقرار تولید می شود.
شما می توانید از سفارشی سازی مدل بدون سرور در Amazon SageMaker AI برای رفع این مشکلات بدون. مدیریت زیرساخت استفاده کنید.
با یادگیری تقویتی با پاداشهای قابل تأیید (RLVR)،. مدل پاسخهای کاندید خود را تولید میکند،.
سیگنال پاداشی را دریافت میکند که کیفیت را نشان میدهد،. و رفتار خود را بهروز میکند تا به نفع آنچه کار میکند.
شما یک مدل را انتخاب می کنید،. یک تکنیک را پیکربندی می کنید،.
به داده ها و عملکرد پاداش خود اشاره می کنید و SageMaker AI بقیه موارد را مدیریت می. کند.
در این پست،. نحوه تنظیم دقیق Qwen 2.5 7B Instruct برای فراخوانی ابزار با استفاده از RLVR را بررسی می کنیم.
ما پوشش آمادهسازی مجموعه دادهها در سه رفتار عامل متمایز،. طراحی تابع پاداش با امتیاز دهی لایهای،.
پیکربندی آموزش و تفسیر نتایج،. ارزیابی روی دادههای نگهداشتهشده با ابزارهای دیده نشده،.
و استقرار. در پایان،.
مدل تنظیم شده ما پاداش تماس ابزار را تا 57 درصد نسبت به مدل پایه در سناریوهایی که. در طول آموزش مشاهده نکرد،.
بهبود بخشید. از آنجایی که فراخوانی ابزار به طور طبیعی یک هدف قابل تأیید دارد،.
چه مدلی که تابع مناسب با پارامترهای مناسب نامیده میشود،. به خوبی به RLVR نگاشت میشود.
چالش یادگیری تقویتی خود مدیریتی (RL) سربار عملیاتی است. تهیه GPU،.
هماهنگ سازی حافظه بین مراحل عرضه و آموزش،. زیرساخت پاداش و چک پوینت به سرعت اضافه می شوند.
حساسیت فراپارامتر لایه دیگری از پیچیدگی را اضافه می کند. SageMaker AI این کار را انجام می دهد تا بتوانید روی مدل،.
داده ها و عملکرد پاداش خود تمرکز کنید. هوش مصنوعی SageMaker از خانوادههای مدل مانند Amazon Nova،.
GPT-OSS،. Llama،.
Qwen و DeepSeek با تکنیکهایی از جمله تنظیم دقیق نظارتی (SFT)،. بهینهسازی اولویت مستقیم (DPO)،.
RLVR و یادگیری تقویتی از بازخورد هوش مصنوعی (RLAIF) پشتیبانی میکند. معیارهای آموزشی و اعتبار سنجی از طریق MLflow یکپارچه ردیابی می شوند.
چرا RLVR برای فراخوانی ابزار SFT به مثالهای برچسبگذاری شده از هر رفتاری نیاز دارد که میخواهید مدل. یاد بگیرد.
برای فراخوانی ابزار، این به معنای نمونه هایی از فراخوانی یک ابزار، درخواست توضیح و امتناع است. اما فراخوانی ابزار همچنین به مدل نیاز دارد تا بین آن رفتارها تصمیم بگیرد و SFT می تواند.
در تعمیم آن تصمیم گیری فراتر از الگوهای خاص در داده های آموزشی خود تلاش کند. RLVR متفاوت عمل می کند.
برای هر درخواست، مدل چندین پاسخ نامزد تولید می کند (ما از هشت استفاده می کنیم). یک تابع پاداش تأیید می کند که کدام یک صحیح هستند.
سپس مدل خط مشی خود را به روز می کند با استفاده از بهینه سازی خط مشی نسبی. گروهی (GRPO) از آنچه کار می کرد،.
حمایت کنید. GRPO امتیاز پاداش هر نامزد را با میانگین امتیاز گروه مقایسه میکند و پاسخهایی را که امتیاز بالاتر.
از میانگین دارند،. تقویت میکند.
با گذشت زمان، مدل فرمت تماس ابزار و زمان تماس در مقایسه با زمان درخواست را میآموزد. پیش نیازها برای استفاده از سفارشی سازی مدل بدون سرور در SageMaker AI،.
باید پیش نیازهای زیر را داشته باشید:. یک حساب AWS یک نقش AWS IAM با مجوزهای مورد نیاز دامنه هوش مصنوعی SageMaker با دسترسی استودیو.
سطل سرویس ذخیره سازی ساده آمازون (Amazon S3) تنظیم دقیق Qwen 2.5 7B ماکر استودیو SMai را باز. کنید.
برای مرور مدل های پایه (FM) که برای سفارشی سازی در دسترس هستند،. مدل ها را در صفحه پیمایش سمت چپ انتخاب کنید.
در منوی Customize model، Qwen 2.5 7B Instruct را انتخاب کرده و Customize with UI را انتخاب کنید. این کار سفارشی سازی را باز می کند صفحه پیکربندی که در آن تکنیک خود را انتخاب می.
کنید،. به داده های آموزشی و عملکرد پاداش خود اشاره می کنید و هایپرپارامترها را پیکربندی می کنید.
ما یادگیری تقویتی از جوایز قابل تأیید (RLVR) را به عنوان تکنیک سفارشی سازی خود انتخاب کردیم. داده های آموزشی خود را آماده کنید یک مجموعه داده فراخوانی ابزار نیاز به آموزش فراخوانی های صحیح.
API دارد. عوامل تولید با سه موقعیت متمایز روبرو هستند:.
کاربر اطلاعات کافی را ارائه می دهد و مدل باید یک ابزار را فراخوانی کند. درخواست کاربر فاقد پارامترهای لازم است و مدل باید شفاف سازی کند.
درخواست مضر یا خارج از محدوده است و مدل باید رد کند. ما 1500 نمونه آموزشی مصنوعی را از طرحوارههای ابزار خود (آبوهوا،.
پروازها،. ترجمه،.
تبدیل ارز،. آمار) با استفاده از Kiro،.
IDE مبتنی بر هوش مصنوعی آمازون،. تولید کردیم تا اعلانهایی با تنوع واقعی در عبارات و ویژگیهای سه رفتار تولید کنیم.
اینجا یک مثالی از دستوری که استفاده کردیم:. 1500 نمونه آموزشی JSONL برای تنظیم دقیق ابزار فراخوانی RLVR در 5 طرحواره ابزار:.
get_weather_forecast،. search_flights،.
translate_text،. currency_convert،.
و get_statistics ایجاد کنید. هر خط باید از این قالب پیروی کند:.
{"prompt":. [{"نقش":.
"سیستم"،. "محتوا":.
"..."}،. {"نقش":.
"کاربر"،. "محتوا":.
"..."}]،. "reward_model":.
{"ground_truth":. "..."}} توزیع مثال ها در سه رفتار:.
1. پارامترهای مورد نیاز است: فراخوانی ابزار JSON 2.
Clarify (25%): کاربر پارامترهای لازم را ندارد → ground_truth یک سوال روشنکننده است 3. Refuse (15%):.
درخواست مضر است یا خارج از محدوده است ← ground_truth یک امتناع مودبانه است عبارتها را بین رسمی،. معمولی و مختصر تغییر دهید.
خروجی فقط JSONL معتبر، بدون تفسیر. این یک مسیر عملی برای تیمهایی است که هنوز گزارش تولید ندارند تا از آن استفاده کنند.
برای سازمان هایی که قبلاً در حال اجرا هستند جریان های کاری عامل،. درخواست های کاربر واقعی و تماس های ابزار از تولید،.
حتی داده های آموزشی با کیفیت بالاتری را به همراه خواهند داشت. هر مثال آموزشی حاوی یک دستور (دستورالعمل سیستم و درخواست کاربر) و یک حقیقت اصلی در قسمت reward_model.
است که تابع پاداش در برابر آن امتیاز میگیرد. در اینجا نمونه هایی از هر رفتار آورده شده است.
زمانی اجرا شود که کاربر همه چیز مورد نیاز ابزار را فراهم کند:. { "prompt":.
[ {"role":. "system",.
"content":. "شما دستیار مفیدی هستید.
هنگام استفاده از ابزارها،. با موارد زیر پاسخ دهید:.
[...]"}،. {"role":.
"user",. "content":.
"Get weather for San Francisco"} ],. "reward_{rudel":.
{ground":. "get_weather_forecast"،.
"arguments":. {"city":.
"san Francisco"}}]" } زمانی که یک پارامتر مورد نیاز وجود ندارد،. توضیح دهید:.
{ "prompt":. [ {"role":.
"system",. "content":.
"شما یک دستیار مفید هستید،. هنگام استفاده از ابزارها،.
پاسخ دهید با:. [...]""":.
]،. "reward_model":.
{ "ground_truth":. "برای ارائه اطلاعات آب و هوا،.
لطفا مکان را مشخص کنید؟" } } با چند پارامتر اجرا کنید:. { "prompt":.
[ {"role":. "system",.
"content":. "شما یک دستیار مفید هستید.
هنگام استفاده از ابزارها،. پاسخ دهید:.
[...]"}،. {"role":.
"user",. "content":.
"Convert 50 EUR to USD"} ],. "reward:.
"{name":. "[_model" "currency_convert"،.
"arguments":. {"amount":.
50،. "from":.
"EUR"،. "to":.
"USD"}}]" } } به تفاوت بین "Get weather for San Francisco" (تماس ابزار) و "Get the weather" (توضیح). توجه کنید.
این همان تمایزی است که GRPO به خوبی یاد می گیرد. برای هر درخواست،.
مدل هشت نامزد ایجاد میکند،. تابع پاداش به آنها امتیاز میدهد و امتیازها در گروه میانگین میشوند.
کاندیداهای بالاتر از میانگین تقویت میشوند و به مرور زمان مدل زمان تماس و زمان درخواست را تشخیص. میدهد.
تابع پاداش خود را تعریف کنید تابع پاداش تعریف می کند چه معنی درست برای مورد استفاده ما. ما آن را به عنوان یک تابع پایتون می نویسیم که پاسخ مدل و حقیقت پایه را از.
داده های آموزشی دریافت می کند و یک امتیاز عددی برمی گرداند. ابزار ما تماسهای ابزار را از پاسخ مدل استخراج میکند،.
آنها را بهعنوان JSON تجزیه میکند و با حقیقت زمین مقایسه میکند. عملکرد کامل استخراج پاسخ،.
تجزیه انعطاف پذیر برای فرمت های جایگزین در طول آموزش اولیه،. و موارد لبه در مورد عدم تطابق نوع JSON را کنترل می کند.
در اینجا منطق امتیازدهی اصلی است:. # پس از استخراج و تجزیه فراخوانی های ابزار از پاسخ مدل و حقیقت زمین:.
# نام ابزار را مقایسه کنید pred_names = {tool.get('name',. '') برای ابزار در pred_tools} gt_names = {tool.get('name',.
'') برای ابزار در gt_tools} if pred_names == gt_names:. # تابع(های) سمت راست - بررسی کنید که آیا آرگومانها نیز مطابقت دارند perfect_match = درست برای pred_tool.
در pred_tools:. برای gt_tool در gt_tools:.
if pred_tool.get('name') == gt_tool.get('name'):. اگر pred_argument.
gt_tool.get('arguments'):. perfect_match = نمره نادرست = 1.0 if perfect_match other 0.5 elif pred_names & gt_names:.
# همپوشانی جزئی در نام توابع امتیاز = 0.5 دیگری:. # تابع اشتباه به طور کامل نمره = 0.0 سه سطح (1.0،.
0.0. PO) علامت یادگیری، و GR 0.0.
اگر چند نفر از هشت نامزد تابع را درست دریافت کنند اما یک پارامتر را از دست بدهند،. امتیاز 0.5 آنها را از پاسخ های کاملاً اشتباه متمایز می کند.
این به مدل کمک می کند تا تشخیص دهد که در مسیر درست است. برای توضیح و امتناع مواردی که حقیقت اصلی زبان طبیعی است (بدون برچسب TOOLCALL)،.
تابع پاداش بررسی میکند که آیا مدل از فراخوانی ابزار نیز اجتناب کرده است یا خیر. یک فراخوانی غیر ضروری API زمانی که مدل باید یک سوال می پرسید 0.0 کسب می کند.
پیکربندی و راهاندازی آموزش در صفحه پیکربندی سفارشیسازی،. به مجموعه دادههای آموزشی و تابع پاداش اشاره میکنیم،.
سپس فراپارامترهای خود را تنظیم میکنیم. ما از یک اندازه دسته ای 128،.
نرخ یادگیری 5e-6،. 3 دوره و 8 نسخه در هر درخواست استفاده می کنیم.
تنظیمات rollouts مکانیزم اصلی GRPO است. برای هر دستور آموزشی،.
مدل هشت پاسخ مختلف تولید میکند،. تابع پاداش هر یک را امتیاز میدهد و پاسخهایی که امتیاز بالاتر از میانگین گروه دارند،.
تقویت میشوند. معیارهای آموزشی و اعتبارسنجی در MLflow ثبت میشوند.
در این مثال، آموزش تقریباً 40 دقیقه طول می کشد. نتایج آموزش آمار پاداش قطار (بالا سمت چپ) نموداری است که باید روی آن تمرکز کنید.
میانگین جوایز در همه پرتابها از حدود 0.28 شروع شد و در طی 30 پله به 0.65-0.68 رسید. که بیش از دو برابر شد.
بیشترین سود در 10 مرحله اول اتفاق می افتد این مدل قالب اصلی فراخوانی ابزار و ساختار تصمیم. گیری را می آموزد.
سپس با همگرا شدن، بعد از مرحله 20 صاف می شود. نمودارهای دیگر آموزش سالم را تأیید می کنند:.
آنتروپی سیاست کاهش می یابد،. به این معنی که مدل به جای حدس زدن،.
اعتماد به نفس بیشتری پیدا می کند. Gradient Norm تثبیت می شود،.
به این معنی که به روز رسانی ها کوچکتر و دقیق تر می شوند. برآورد مزیت میانگین به سمت صفر همگرا می شود و نشان می دهد که خط مشی مدل در.
حال تثبیت است و کیفیت پاسخ متوسط با خط پایه پاداش همسو می شود. ارزیابی مدل تنظیم شده پس از اتمام کار آموزشی،.
می توانید مدل هایی را که ایجاد کرده اید در تب My Models مشاهده کنید. برای گسترش جزئیات، مشاهده جزئیات در یکی از مدلهای خود را انتخاب کنید.
میتوانید با تنظیم فراپارامترها یا آموزش با تکنیکی دیگر، «ادامه سفارشیسازی» را برای تکرار بیشتر انتخاب کنید. برای مقایسه مدل سفارشی شده خود با مدل پایه، ارزیابی را انتخاب کنید.
ما در یک مجموعه آزمایشی جداگانه از 300 نمونه که از آموزش حذف شدند، ارزیابی کنید. مجموعه داده ارزیابی همان سه رفتار را پوشش می دهد،.
اما شامل ابزارها،. عبارات و سناریوهایی است که مدل ندیده است.
این Search_restaurants، get_stock_price، و account_standard_deviation را آزمایش می کند که هیچ کدام در طول آموزش ظاهر نشدند. همچنین شامل موارد امتناع برای درخواستهای مضر مانند تولید محتوای خشونتآمیز یا ایجاد بدافزار است و آزمایش میکند.
که آیا این مدل رفتار ایمن را به تهدیدات جدید تعمیم میدهد یا خیر. ارزیابی معیارهای استاندارد NLP را در کنار عملکرد پاداش سفارشی ما در برابر مجموعه نگهداشتهشده اجرا میکند.
Tool Call Reward معیار سفارشی ما و مستقیم ترین معیار برای چیزی است که برای آن آموزش دیده. ایم.
از 0.35 به 0.55 جهش کرد که 57 درصد بهبود داشت. از نظر عملی،.
این بدان معنی است که مدل دقیق تنظیم شده،. تصمیم درست فراخوانی ابزار را به میزان قابل توجهی بیشتر می کند.
این تابع مناسب را با پارامترهای مناسب را در مواقعی که باید مشخص کند،. در مواقعی که اطلاعات از دست رفته است،.
شفافسازی میخواهد،. و در صورت لزوم آن را رد میکند.
F1 Score Quasi،. Rouge1 و RougeL همگی 14 تا 19 درصد بهبود یافتند،.
که منعکس کننده تولید بهتر نام توابع،. کلیدهای پارامتر و مقادیر صحیح در سراسر صفحه است.
Exact Match از 11% به 21% دو برابر شد. این معیار به تطابق خروجی کاراکتر برای کاراکتر نیاز دارد،.
بنابراین حتی تفاوتهای کوچک در قالببندی بهعنوان یک اشتباه حساب میشوند. تطابق دقیق 21٪ در کنار 64.6٪ F1 نشان می دهد که مدل اغلب معنایی را درست می کند.
حتی زمانی که قالب بندی سطح کمی متفاوت است. این نتایج همه بر روی دادههای ذخیره شده با ابزارها و سناریوهایی هستند که مدل در طول آموزش.
ندیده است. پیشرفتها به ابزارهای جدید منتقل میشوند،.
به این معنی که مدل الگوهای فراخوانی ابزار عمومی را به جای حفظ مجموعه آموزشی انتخاب کرده است. در اینجا پاسخهایی از مدل تنظیمشده دقیق در درخواستها آمده است که در طول آموزش ندید:.
اجرای ابزار:. > اعلان:.
"قیمت سهام AMZN چقدر است؟" > > پاسخ مدل:. [{"name":.
"get_stock_price"،. "arguments":.
{"ticker":. "AMZN"}}] توضیح:.
> درخواست:. "برای من رستورانی در این نزدیکی پیدا کنید" > > پاسخ مدل:.
"خوشحال میشوم که به شما کمک کنم رستورانی پیدا کنید! لطفاً نوع غذا یا مکان مورد علاقهتان را ارائه دهید؟" نزدیک از دست رفته:.
> اعلان:. "انحراف معیار 10،.
20،. 30،.
40،. 50 چقدر است؟" > > پاسخ مدل:.
[{"name":. "calculate_standard_deviation",.
"arguments":. {"numbers":.
"10,. 20,.
30,. 40,.
50"}}] در حالت تقریباً از دست رفته،. مدل ابزار صحیح را انتخاب کرد اما اعداد را بهعنوان رشته به جای آرایه ارسال کرد.
این امتیاز 0.5 پاداش (عملکرد درست،. فرمت پارامتر اشتباه) به دست می آورد و نشان دهنده نوع خطایی است که در تکرار بعدی از.
طریق داده های آموزشی اضافی یا تابع پاداش هدف قرار می دهید. پالایش استقرار مدل تنظیمشده با ارزیابی تأیید بهبود، مدل تنظیمشده را مستقیماً از صفحه جزئیات مدل مستقر کنید.
Deploy را انتخاب کنید و هدف استقرار خود را انتخاب کنید: نقطه پایانی SageMaker AI یا Amazon Bedrock. همچنین میتوانید وزنهای مدل را از Amazon S3 برای استقرار خود مدیریت دانلود کنید.
نتیجه گیری در این پست،. دستورالعمل Qwen 2.5 7B را برای فراخوانی ابزار عامل با استفاده از RLVR و GRPO از طریق سفارشی.
سازی مدل بدون سرور در آمازون SageMaker AI تنظیم کردیم. ما یک مجموعه داده شامل سه رفتار فراخوانی ابزار (اجرا،.
روشن کردن،. رد کردن) آماده کردیم،.
یک تابع پاداش ردیفی تعریف کردیم،. مدل را در حدود 40 دقیقه آموزش دادیم،.
بر روی دادههای نگهداشتهشده با ابزارها و سناریوهای نادیده ارزیابی کردیم و به کار گرفتیم. مدل تنظیم شده پاداش تماس ابزار را تا 57 درصد نسبت به مدل پایه بهبود بخشید.
برای افزایش دقت،. می توانید داده های آموزشی خود را با ابزارهای اضافی گسترش دهید موارد و مکالمات چند نوبتی برای.
پوشش بیشتر سناریوهایی که عوامل شما در تولید با آن مواجه می شوند. همچنین میتوانید عملکرد پاداش خود را برای جریمه کردن حالتهای خرابی خاص،.
مانند مشکل پارامتر string-vs-array که در بخش قبل نشان داده شد،. اصلاح کنید،.
یا برای سایر الگوهای تقریباً از دست رفته اعتبار جزئی اضافه کنید. اگر گردشهای کاری عاملی را اجرا میکنید،.
گزارشهای تولید شما منبع باکیفیتی از دادههای آموزشی هستند که میتوانند مدل را برای موارد استفاده خاص شما. مؤثرتر کنند.
فراتر از فراخوانی ابزار،. RLVR برای سایر وظایف استدلالی که صحت قابل تأیید است،.
مانند برنامه ریزی چند مرحله ای،. استخراج داده های ساخت یافته یا تولید کد اعمال می شود.
در حالی که این پست در جریان کار UI می گذرد،. یک SDK برای دسترسی برنامه ریزی شده نیز در دسترس است.
برای کسب اطلاعات بیشتر، به اسناد سفارشی سازی مدل SageMaker AI مراجعه کنید. برای شروع،.
سفارشی سازی مدل هوش مصنوعی بدون سرور را در Amazon SageMaker AI امتحان کنید با موارد استفاده خودتان. درباره نویسندگان.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
