هوش گیتهوش گیترسانه، شبکه و یادگیری AI
/ ⌘K
ورود
/ ⌘K
خانهشبکهیادگیریپروژه‌ها
هوش گیتهوش گیترسانه، شبکه و یادگیری AI
صفحه اصلیشبکهاخبارپژوهشابزارهایادگیریفضاها
/ ⌘K
ورود

دسترسی سریع

دسترسی سریع تحریریه

خبرها، موضوعات، حساب کاربری و تنظیمات مطالعه همیشه در سمت راست در دسترس‌اند.

حساب کاربری

ورود سریع به حساب و ابزارهای شخصی‌سازی

ورود

با حساب کاربری، اعلان‌ها، ذخیره‌سازی خبرها و سطح مطالعه شخصی را فعال می‌کنید.

صفحه اصلیشبکهاخبارپژوهشابزارهایادگیریفضاهاچهره‌های تخصصیسیاست‌گذاریامنیترویدادهافرصت‌های شغلیسرگرمیپروژه‌هاموضوعات
مرور موضوعات
همه
تم
درباره ماحریم خصوصیتماس با ما

مالکیت و پشتیبانی

شبکه هوشمند ابتکار ویستا

هوش‌گیت به‌عنوان رسانه و لایه دانشی این شرکت، با تمرکز بر خبر، یادگیری، همکاری حرفه‌ای و محصول‌های هوش مصنوعی توسعه داده می‌شود. تمامی حقوق مالکیت و کپی‌رایت این وب‌سایت متعلق به شبکه هوشمند ابتکار ویستا است.

این شرکت به‌صورت تخصصی در حوزه هوش مصنوعی، ساخت پلتفرم‌های AI، سامانه‌های مبتنی بر LLM، تحلیل داده، طراحی تجربه دانشی و توسعه زیرساخت‌های حرفه‌ای برای تیم‌های سازمانی فعالیت می‌کند.

مالکیت: شبکه هوشمند ابتکار ویستامدیرعامل: مسعود بخشی۰۹۱۲۴۷۳۳۲۳۴Devcodebase.dev@gmail.comHooshgate@gmail.comDevcodebase.com
v0.1.0 · dev · unset/api/version
آخرین خبرهاآموزشپریمیومدرباره ماتماس با ماحریم خصوصیقوانین استفادهکوکی‌هاسیاست تحریریه
خانهشبکهیادگیریپروژه‌هاپروفایل
  1. خانه
  2. /
  3. اخبار
  4. /
  5. تسریع تماس ابزار نمایندگی با سفارشی سازی مدل بدون سرور در Amazon SageMaker AI | خدمات وب آمازون
AWS Machine Learning Blogمعتبر1405/01/17 17:54محصول و صنعت

تسریع تماس ابزار نمایندگی با سفارشی سازی مدل بدون سرور در Amazon SageMaker AI | خدمات وب آمازون

کنید. کنید،. [...]""":.

منبع: AWS Machine Learning Blog

محصول و صنعتسیاست‌گذاری و حاکمیتزیرساخت و محاسبات
نسخه مطالعهعمومی
منبعAWS Machine Learning Blog
انتشار1405/01/17 17:54
سطح مطالعه
اشتراک در تلگرام
تسریع تماس ابزار نمایندگی با سفارشی سازی مدل بدون سرور در Amazon SageMaker AI | خدمات وب آمازون

راهنمای مطالعه

منبع اصلی، تاریخ فارسی و شاخص‌های سریع این خبر.

رفتن به منبع
تاریخ فارسی1405/01/17 17:54
داستانمستقل

نکات کلیدی

این باکس براساس سطح مطالعه شما (عمومی) تنظیم شده است.

  • فراخوانی ابزار عامل چیزی است که عوامل هوش مصنوعی را در تولید مفید می کند.
  • به این صورت است که آنها از پایگاه داده ها پرس و جو می کنند،.
  • جریان های کاری را راه اندازی می کنند،.
  • داده های بلادرنگ را بازیابی می کنند و از طرف یک کاربر عمل می کنند.
  • اما مدل های پایه اغلب ابزارها را دچار توهم می کنند،.
  • پارامترهای نامناسبی را ارسال می کنند و زمانی که نیاز به توضیح دارند،.
  • اقداماتی را انجام می دهند.
  • این شکست ها اعتماد را از بین می برد و مانع استقرار تولید می شود.

فهرست مطالب

  1. TL;DR
  2. چه اتفاقی افتاد
  3. چرا مهم است
  4. منبع

سیگنال تعامل

بازدید۰
کلیک۰
امتیاز0.00
دیدگاه۰

TL;DR

  • فراخوانی ابزار عامل چیزی است که عوامل هوش مصنوعی را در تولید مفید می کند.
  • به این صورت است که آنها از پایگاه داده ها پرس و جو می کنند،.
  • جریان های کاری را راه اندازی می کنند،.

چه اتفاقی افتاد

فراخوانی ابزار عامل چیزی است که عوامل هوش مصنوعی را در تولید مفید می کند. به این صورت است که آنها از پایگاه داده ها پرس و جو می کنند،.

جریان های کاری را راه اندازی می کنند،. داده های بلادرنگ را بازیابی می کنند و از طرف یک کاربر عمل می کنند.

اما مدل‌های پایه اغلب ابزارها را دچار توهم می‌کنند،. پارامترهای نامناسبی را ارسال می‌کنند و زمانی که نیاز به توضیح دارند،.

اقداماتی را انجام می‌دهند. این شکست ها اعتماد را از بین می برد و مانع استقرار تولید می شود.

شما می توانید از سفارشی سازی مدل بدون سرور در Amazon SageMaker AI برای رفع این مشکلات بدون. مدیریت زیرساخت استفاده کنید.

با یادگیری تقویتی با پاداش‌های قابل تأیید (RLVR)،. مدل پاسخ‌های کاندید خود را تولید می‌کند،.

سیگنال پاداشی را دریافت می‌کند که کیفیت را نشان می‌دهد،. و رفتار خود را به‌روز می‌کند تا به نفع آنچه کار می‌کند.

شما یک مدل را انتخاب می کنید،. یک تکنیک را پیکربندی می کنید،.

به داده ها و عملکرد پاداش خود اشاره می کنید و SageMaker AI بقیه موارد را مدیریت می. کند.

در این پست،. نحوه تنظیم دقیق Qwen 2.5 7B Instruct برای فراخوانی ابزار با استفاده از RLVR را بررسی می کنیم.

ما پوشش آماده‌سازی مجموعه داده‌ها در سه رفتار عامل متمایز،. طراحی تابع پاداش با امتیاز دهی لایه‌ای،.

پیکربندی آموزش و تفسیر نتایج،. ارزیابی روی داده‌های نگه‌داشته‌شده با ابزارهای دیده نشده،.

و استقرار. در پایان،.

مدل تنظیم شده ما پاداش تماس ابزار را تا 57 درصد نسبت به مدل پایه در سناریوهایی که. در طول آموزش مشاهده نکرد،.

بهبود بخشید. از آنجایی که فراخوانی ابزار به طور طبیعی یک هدف قابل تأیید دارد،.

چه مدلی که تابع مناسب با پارامترهای مناسب نامیده می‌شود،. به خوبی به RLVR نگاشت می‌شود.

چالش یادگیری تقویتی خود مدیریتی (RL) سربار عملیاتی است. تهیه GPU،.

هماهنگ سازی حافظه بین مراحل عرضه و آموزش،. زیرساخت پاداش و چک پوینت به سرعت اضافه می شوند.

حساسیت فراپارامتر لایه دیگری از پیچیدگی را اضافه می کند. SageMaker AI این کار را انجام می دهد تا بتوانید روی مدل،.

داده ها و عملکرد پاداش خود تمرکز کنید. هوش مصنوعی SageMaker از خانواده‌های مدل مانند Amazon Nova،.

GPT-OSS،. Llama،.

Qwen و DeepSeek با تکنیک‌هایی از جمله تنظیم دقیق نظارتی (SFT)،. بهینه‌سازی اولویت مستقیم (DPO)،.

RLVR و یادگیری تقویتی از بازخورد هوش مصنوعی (RLAIF) پشتیبانی می‌کند. معیارهای آموزشی و اعتبار سنجی از طریق MLflow یکپارچه ردیابی می شوند.

چرا RLVR برای فراخوانی ابزار SFT به مثال‌های برچسب‌گذاری شده از هر رفتاری نیاز دارد که می‌خواهید مدل. یاد بگیرد.

برای فراخوانی ابزار، این به معنای نمونه هایی از فراخوانی یک ابزار، درخواست توضیح و امتناع است. اما فراخوانی ابزار همچنین به مدل نیاز دارد تا بین آن رفتارها تصمیم بگیرد و SFT می تواند.

در تعمیم آن تصمیم گیری فراتر از الگوهای خاص در داده های آموزشی خود تلاش کند. RLVR متفاوت عمل می کند.

برای هر درخواست، مدل چندین پاسخ نامزد تولید می کند (ما از هشت استفاده می کنیم). یک تابع پاداش تأیید می کند که کدام یک صحیح هستند.

سپس مدل خط مشی خود را به روز می کند با استفاده از بهینه سازی خط مشی نسبی. گروهی (GRPO) از آنچه کار می کرد،.

حمایت کنید. GRPO امتیاز پاداش هر نامزد را با میانگین امتیاز گروه مقایسه می‌کند و پاسخ‌هایی را که امتیاز بالاتر.

از میانگین دارند،. تقویت می‌کند.

با گذشت زمان، مدل فرمت تماس ابزار و زمان تماس در مقایسه با زمان درخواست را می‌آموزد. پیش نیازها برای استفاده از سفارشی سازی مدل بدون سرور در SageMaker AI،.

باید پیش نیازهای زیر را داشته باشید:. یک حساب AWS یک نقش AWS IAM با مجوزهای مورد نیاز دامنه هوش مصنوعی SageMaker با دسترسی استودیو.

سطل سرویس ذخیره سازی ساده آمازون (Amazon S3) تنظیم دقیق Qwen 2.5 7B ماکر استودیو SMai را باز. کنید.

برای مرور مدل های پایه (FM) که برای سفارشی سازی در دسترس هستند،. مدل ها را در صفحه پیمایش سمت چپ انتخاب کنید.

در منوی Customize model، Qwen 2.5 7B Instruct را انتخاب کرده و Customize with UI را انتخاب کنید. این کار سفارشی سازی را باز می کند صفحه پیکربندی که در آن تکنیک خود را انتخاب می.

کنید،. به داده های آموزشی و عملکرد پاداش خود اشاره می کنید و هایپرپارامترها را پیکربندی می کنید.

ما یادگیری تقویتی از جوایز قابل تأیید (RLVR) را به عنوان تکنیک سفارشی سازی خود انتخاب کردیم. داده های آموزشی خود را آماده کنید یک مجموعه داده فراخوانی ابزار نیاز به آموزش فراخوانی های صحیح.

API دارد. عوامل تولید با سه موقعیت متمایز روبرو هستند:.

کاربر اطلاعات کافی را ارائه می دهد و مدل باید یک ابزار را فراخوانی کند. درخواست کاربر فاقد پارامترهای لازم است و مدل باید شفاف سازی کند.

درخواست مضر یا خارج از محدوده است و مدل باید رد کند. ما 1500 نمونه آموزشی مصنوعی را از طرح‌واره‌های ابزار خود (آب‌وهوا،.

پروازها،. ترجمه،.

تبدیل ارز،. آمار) با استفاده از Kiro،.

IDE مبتنی بر هوش مصنوعی آمازون،. تولید کردیم تا اعلان‌هایی با تنوع واقعی در عبارات و ویژگی‌های سه رفتار تولید کنیم.

اینجا یک مثالی از دستوری که استفاده کردیم:. 1500 نمونه آموزشی JSONL برای تنظیم دقیق ابزار فراخوانی RLVR در 5 طرحواره ابزار:.

get_weather_forecast،. search_flights،.

translate_text،. currency_convert،.

و get_statistics ایجاد کنید. هر خط باید از این قالب پیروی کند:.

{"prompt":. [{"نقش":.

"سیستم"،. "محتوا":.

"..."}،. {"نقش":.

"کاربر"،. "محتوا":.

"..."}]،. "reward_model":.

{"ground_truth":. "..."}} توزیع مثال ها در سه رفتار:.

1. پارامترهای مورد نیاز است: فراخوانی ابزار JSON 2.

Clarify (25%): کاربر پارامترهای لازم را ندارد → ground_truth یک سوال روشن‌کننده است 3. Refuse (15%):.

درخواست مضر است یا خارج از محدوده است ← ground_truth یک امتناع مودبانه است عبارت‌ها را بین رسمی،. معمولی و مختصر تغییر دهید.

خروجی فقط JSONL معتبر، بدون تفسیر. این یک مسیر عملی برای تیم‌هایی است که هنوز گزارش تولید ندارند تا از آن استفاده کنند.

برای سازمان هایی که قبلاً در حال اجرا هستند جریان های کاری عامل،. درخواست های کاربر واقعی و تماس های ابزار از تولید،.

حتی داده های آموزشی با کیفیت بالاتری را به همراه خواهند داشت. هر مثال آموزشی حاوی یک دستور (دستورالعمل سیستم و درخواست کاربر) و یک حقیقت اصلی در قسمت reward_model.

است که تابع پاداش در برابر آن امتیاز می‌گیرد. در اینجا نمونه هایی از هر رفتار آورده شده است.

زمانی اجرا شود که کاربر همه چیز مورد نیاز ابزار را فراهم کند:. { "prompt":.

[ {"role":. "system",.

"content":. "شما دستیار مفیدی هستید.

هنگام استفاده از ابزارها،. با موارد زیر پاسخ دهید:.

[...]"}،. {"role":.

"user",. "content":.

"Get weather for San Francisco"} ],. "reward_{rudel":.

{ground":. "get_weather_forecast"،.

"arguments":. {"city":.

"san Francisco"}}]" } زمانی که یک پارامتر مورد نیاز وجود ندارد،. توضیح دهید:.

{ "prompt":. [ {"role":.

"system",. "content":.

"شما یک دستیار مفید هستید،. هنگام استفاده از ابزارها،.

پاسخ دهید با:. [...]""":.

]،. "reward_model":.

{ "ground_truth":. "برای ارائه اطلاعات آب و هوا،.

لطفا مکان را مشخص کنید؟" } } با چند پارامتر اجرا کنید:. { "prompt":.

[ {"role":. "system",.

"content":. "شما یک دستیار مفید هستید.

هنگام استفاده از ابزارها،. پاسخ دهید:.

[...]"}،. {"role":.

"user",. "content":.

"Convert 50 EUR to USD"} ],. "reward:.

"{name":. "[_model" "currency_convert"،.

"arguments":. {"amount":.

50،. "from":.

"EUR"،. "to":.

"USD"}}]" } } به تفاوت بین "Get weather for San Francisco" (تماس ابزار) و "Get the weather" (توضیح). توجه کنید.

این همان تمایزی است که GRPO به خوبی یاد می گیرد. برای هر درخواست،.

مدل هشت نامزد ایجاد می‌کند،. تابع پاداش به آنها امتیاز می‌دهد و امتیازها در گروه میانگین می‌شوند.

کاندیداهای بالاتر از میانگین تقویت می‌شوند و به مرور زمان مدل زمان تماس و زمان درخواست را تشخیص. می‌دهد.

تابع پاداش خود را تعریف کنید تابع پاداش تعریف می کند چه معنی درست برای مورد استفاده ما. ما آن را به عنوان یک تابع پایتون می نویسیم که پاسخ مدل و حقیقت پایه را از.

داده های آموزشی دریافت می کند و یک امتیاز عددی برمی گرداند. ابزار ما تماس‌های ابزار را از پاسخ مدل استخراج می‌کند،.

آن‌ها را به‌عنوان JSON تجزیه می‌کند و با حقیقت زمین مقایسه می‌کند. عملکرد کامل استخراج پاسخ،.

تجزیه انعطاف پذیر برای فرمت های جایگزین در طول آموزش اولیه،. و موارد لبه در مورد عدم تطابق نوع JSON را کنترل می کند.

در اینجا منطق امتیازدهی اصلی است:. # پس از استخراج و تجزیه فراخوانی های ابزار از پاسخ مدل و حقیقت زمین:.

# نام ابزار را مقایسه کنید pred_names = {tool.get('name',. '') برای ابزار در pred_tools} gt_names = {tool.get('name',.

'') برای ابزار در gt_tools} if pred_names == gt_names:. # تابع(های) سمت راست - بررسی کنید که آیا آرگومان‌ها نیز مطابقت دارند perfect_match = درست برای pred_tool.

در pred_tools:. برای gt_tool در gt_tools:.

if pred_tool.get('name') == gt_tool.get('name'):. اگر pred_argument.

gt_tool.get('arguments'):. perfect_match = نمره نادرست = 1.0 if perfect_match other 0.5 elif pred_names & gt_names:.

# همپوشانی جزئی در نام توابع امتیاز = 0.5 دیگری:. # تابع اشتباه به طور کامل نمره = 0.0 سه سطح (1.0،.

0.0. PO) علامت یادگیری، و GR 0.0.

اگر چند نفر از هشت نامزد تابع را درست دریافت کنند اما یک پارامتر را از دست بدهند،. امتیاز 0.5 آنها را از پاسخ های کاملاً اشتباه متمایز می کند.

این به مدل کمک می کند تا تشخیص دهد که در مسیر درست است. برای توضیح و امتناع مواردی که حقیقت اصلی زبان طبیعی است (بدون برچسب TOOLCALL)،.

تابع پاداش بررسی می‌کند که آیا مدل از فراخوانی ابزار نیز اجتناب کرده است یا خیر. یک فراخوانی غیر ضروری API زمانی که مدل باید یک سوال می پرسید 0.0 کسب می کند.

پیکربندی و راه‌اندازی آموزش در صفحه پیکربندی سفارشی‌سازی،. به مجموعه داده‌های آموزشی و تابع پاداش اشاره می‌کنیم،.

سپس فراپارامترهای خود را تنظیم می‌کنیم. ما از یک اندازه دسته ای 128،.

نرخ یادگیری 5e-6،. 3 دوره و 8 نسخه در هر درخواست استفاده می کنیم.

تنظیمات rollouts مکانیزم اصلی GRPO است. برای هر دستور آموزشی،.

مدل هشت پاسخ مختلف تولید می‌کند،. تابع پاداش هر یک را امتیاز می‌دهد و پاسخ‌هایی که امتیاز بالاتر از میانگین گروه دارند،.

تقویت می‌شوند. معیارهای آموزشی و اعتبارسنجی در MLflow ثبت می‌شوند.

در این مثال، آموزش تقریباً 40 دقیقه طول می کشد. نتایج آموزش آمار پاداش قطار (بالا سمت چپ) نموداری است که باید روی آن تمرکز کنید.

میانگین جوایز در همه پرتاب‌ها از حدود 0.28 شروع شد و در طی 30 پله به 0.65-0.68 رسید. که بیش از دو برابر شد.

بیشترین سود در 10 مرحله اول اتفاق می افتد این مدل قالب اصلی فراخوانی ابزار و ساختار تصمیم. گیری را می آموزد.

سپس با همگرا شدن، بعد از مرحله 20 صاف می شود. نمودارهای دیگر آموزش سالم را تأیید می کنند:.

آنتروپی سیاست کاهش می یابد،. به این معنی که مدل به جای حدس زدن،.

اعتماد به نفس بیشتری پیدا می کند. Gradient Norm تثبیت می شود،.

به این معنی که به روز رسانی ها کوچکتر و دقیق تر می شوند. برآورد مزیت میانگین به سمت صفر همگرا می شود و نشان می دهد که خط مشی مدل در.

حال تثبیت است و کیفیت پاسخ متوسط ​​با خط پایه پاداش همسو می شود. ارزیابی مدل تنظیم شده پس از اتمام کار آموزشی،.

می توانید مدل هایی را که ایجاد کرده اید در تب My Models مشاهده کنید. برای گسترش جزئیات، مشاهده جزئیات در یکی از مدل‌های خود را انتخاب کنید.

می‌توانید با تنظیم فراپارامترها یا آموزش با تکنیکی دیگر، «ادامه سفارشی‌سازی» را برای تکرار بیشتر انتخاب کنید. برای مقایسه مدل سفارشی شده خود با مدل پایه، ارزیابی را انتخاب کنید.

ما در یک مجموعه آزمایشی جداگانه از 300 نمونه که از آموزش حذف شدند، ارزیابی کنید. مجموعه داده ارزیابی همان سه رفتار را پوشش می دهد،.

اما شامل ابزارها،. عبارات و سناریوهایی است که مدل ندیده است.

این Search_restaurants، get_stock_price، و account_standard_deviation را آزمایش می کند که هیچ کدام در طول آموزش ظاهر نشدند. همچنین شامل موارد امتناع برای درخواست‌های مضر مانند تولید محتوای خشونت‌آمیز یا ایجاد بدافزار است و آزمایش می‌کند.

که آیا این مدل رفتار ایمن را به تهدیدات جدید تعمیم می‌دهد یا خیر. ارزیابی معیارهای استاندارد NLP را در کنار عملکرد پاداش سفارشی ما در برابر مجموعه نگه‌داشته‌شده اجرا می‌کند.

Tool Call Reward معیار سفارشی ما و مستقیم ترین معیار برای چیزی است که برای آن آموزش دیده. ایم.

از 0.35 به 0.55 جهش کرد که 57 درصد بهبود داشت. از نظر عملی،.

این بدان معنی است که مدل دقیق تنظیم شده،. تصمیم درست فراخوانی ابزار را به میزان قابل توجهی بیشتر می کند.

این تابع مناسب را با پارامترهای مناسب را در مواقعی که باید مشخص کند،. در مواقعی که اطلاعات از دست رفته است،.

شفاف‌سازی می‌خواهد،. و در صورت لزوم آن را رد می‌کند.

F1 Score Quasi،. Rouge1 و RougeL همگی 14 تا 19 درصد بهبود یافتند،.

که منعکس کننده تولید بهتر نام توابع،. کلیدهای پارامتر و مقادیر صحیح در سراسر صفحه است.

Exact Match از 11% به 21% دو برابر شد. این معیار به تطابق خروجی کاراکتر برای کاراکتر نیاز دارد،.

بنابراین حتی تفاوت‌های کوچک در قالب‌بندی به‌عنوان یک اشتباه حساب می‌شوند. تطابق دقیق 21٪ در کنار 64.6٪ F1 نشان می دهد که مدل اغلب معنایی را درست می کند.

حتی زمانی که قالب بندی سطح کمی متفاوت است. این نتایج همه بر روی داده‌های ذخیره شده با ابزارها و سناریوهایی هستند که مدل در طول آموزش.

ندیده است. پیشرفت‌ها به ابزارهای جدید منتقل می‌شوند،.

به این معنی که مدل الگوهای فراخوانی ابزار عمومی را به جای حفظ مجموعه آموزشی انتخاب کرده است. در اینجا پاسخ‌هایی از مدل تنظیم‌شده دقیق در درخواست‌ها آمده است که در طول آموزش ندید:.

اجرای ابزار:. > اعلان:.

"قیمت سهام AMZN چقدر است؟" > > پاسخ مدل:. [{"name":.

"get_stock_price"،. "arguments":.

{"ticker":. "AMZN"}}] توضیح:.

> درخواست:. "برای من رستورانی در این نزدیکی پیدا کنید" > > پاسخ مدل:.

"خوشحال می‌شوم که به شما کمک کنم رستورانی پیدا کنید! لطفاً نوع غذا یا مکان مورد علاقه‌تان را ارائه دهید؟" نزدیک از دست رفته:.

> اعلان:. "انحراف معیار 10،.

20،. 30،.

40،. 50 چقدر است؟" > > پاسخ مدل:.

[{"name":. "calculate_standard_deviation",.

"arguments":. {"numbers":.

"10,. 20,.

30,. 40,.

50"}}] در حالت تقریباً از دست رفته،. مدل ابزار صحیح را انتخاب کرد اما اعداد را به‌عنوان رشته به جای آرایه ارسال کرد.

این امتیاز 0.5 پاداش (عملکرد درست،. فرمت پارامتر اشتباه) به دست می آورد و نشان دهنده نوع خطایی است که در تکرار بعدی از.

طریق داده های آموزشی اضافی یا تابع پاداش هدف قرار می دهید. پالایش استقرار مدل تنظیم‌شده با ارزیابی تأیید بهبود، مدل تنظیم‌شده را مستقیماً از صفحه جزئیات مدل مستقر کنید.

Deploy را انتخاب کنید و هدف استقرار خود را انتخاب کنید: نقطه پایانی SageMaker AI یا Amazon Bedrock. همچنین می‌توانید وزن‌های مدل را از Amazon S3 برای استقرار خود مدیریت دانلود کنید.

نتیجه گیری در این پست،. دستورالعمل Qwen 2.5 7B را برای فراخوانی ابزار عامل با استفاده از RLVR و GRPO از طریق سفارشی.

سازی مدل بدون سرور در آمازون SageMaker AI تنظیم کردیم. ما یک مجموعه داده شامل سه رفتار فراخوانی ابزار (اجرا،.

روشن کردن،. رد کردن) آماده کردیم،.

یک تابع پاداش ردیفی تعریف کردیم،. مدل را در حدود 40 دقیقه آموزش دادیم،.

بر روی داده‌های نگه‌داشته‌شده با ابزارها و سناریوهای نادیده ارزیابی کردیم و به کار گرفتیم. مدل تنظیم شده پاداش تماس ابزار را تا 57 درصد نسبت به مدل پایه بهبود بخشید.

برای افزایش دقت،. می توانید داده های آموزشی خود را با ابزارهای اضافی گسترش دهید موارد و مکالمات چند نوبتی برای.

پوشش بیشتر سناریوهایی که عوامل شما در تولید با آن مواجه می شوند. همچنین می‌توانید عملکرد پاداش خود را برای جریمه کردن حالت‌های خرابی خاص،.

مانند مشکل پارامتر string-vs-array که در بخش قبل نشان داده شد،. اصلاح کنید،.

یا برای سایر الگوهای تقریباً از دست رفته اعتبار جزئی اضافه کنید. اگر گردش‌های کاری عاملی را اجرا می‌کنید،.

گزارش‌های تولید شما منبع باکیفیتی از داده‌های آموزشی هستند که می‌توانند مدل را برای موارد استفاده خاص شما. مؤثرتر کنند.

فراتر از فراخوانی ابزار،. RLVR برای سایر وظایف استدلالی که صحت قابل تأیید است،.

مانند برنامه ریزی چند مرحله ای،. استخراج داده های ساخت یافته یا تولید کد اعمال می شود.

در حالی که این پست در جریان کار UI می گذرد،. یک SDK برای دسترسی برنامه ریزی شده نیز در دسترس است.

برای کسب اطلاعات بیشتر، به اسناد سفارشی سازی مدل SageMaker AI مراجعه کنید. برای شروع،.

سفارشی سازی مدل هوش مصنوعی بدون سرور را در Amazon SageMaker AI امتحان کنید با موارد استفاده خودتان. درباره نویسندگان.

چرا مهم است

اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیم‌گیری سازمانی اثر می‌گذارد.

منبع

لینک منبع اصلی در کارت و صفحه مقاله نمایش داده می‌شود.

تعامل کاربران و کیفیت خبر

امتیاز بدهید، نظر ثبت کنید یا اگر خطایی دیدید گزارش اصلاح بفرستید.

بازدید

۰

کلیک روی خبر

۰

امتیاز میانگین

0.00 / 5

دیدگاه تایید شده

۰

امتیاز شما به خبر

هنوز امتیاز نداده‌اید.

واکنش سریع به خبر

به‌جای لایک کلی، نوع برداشت خودتان را مشخص کنید.

ثبت دیدگاه

گزارش اصلاح یا بهبود

آخرین دیدگاه‌ها

هنوز دیدگاهی ثبت نشده است.

مقایسه سه سطح مطالعه

برای همین خبر، نسخه ساده، عمومی و تخصصی کنار هم خلاصه شده‌اند.

ساده

۱۵٬۱۰۴ کاراکتر

کنید. [...]""":. "{name":.

  • فراخوانی ابزار عامل چیزی است که عوامل هوش مصنوعی را در تولید.
  • مفید می کند.
  • به این صورت است که آنها از پایگاه داده ها پرس و.
  • جو می کنند،.

عمومی

۱۵٬۰۸۳ کاراکتر

کنید. کنید،. [...]""":.

  • فراخوانی ابزار عامل چیزی است که عوامل هوش مصنوعی را در تولید مفید می کند.
  • به این صورت است که آنها از پایگاه داده ها پرس و جو می کنند،.
  • جریان های کاری را راه اندازی می کنند،.
  • داده های بلادرنگ را بازیابی می کنند و از طرف یک کاربر عمل می کنند.

تخصصی

۱۵٬۰۰۷ کاراکتر

[...]""":. "{name":. [{"name":.

  • فراخوانی ابزار عامل چیزی است که عوامل هوش مصنوعی را در تولید مفید می کند.
  • به این صورت است که آنها از پایگاه داده ها پرس و جو می کنند،.
  • جریان های کاری را راه اندازی می کنند،.
  • داده های بلادرنگ را بازیابی می کنند و از طرف یک کاربر عمل می کنند.

هایلایت‌ها و یادداشت‌ها

متن دلخواه را در خبر انتخاب کنید و با یک کلیک هایلایت بزنید. فقط برای شما قابل مشاهده است.

برای استفاده از هایلایت و یادداشت، وارد حساب کاربری شوید.

منابع اولیه

لینک‌های اصلی این خبر، شامل منبع اصلی و ارجاع‌های claim panel.

  • https://aws.amazon.com/blogs/machine-learning/accelerate-agentic-tool-calling-with-serverless-model-customization-in-amazon-sagemaker-ai/
  • https://aws.amazon.com/blogs/machine-learning/

پست‌های مرتبط نبض هوش

چهره‌های تخصصی Hooshgate این خبر را از زاویه نقش و تخصص خودشان تحلیل کرده‌اند.

رفتن به شبکه

هنوز پست تخصصی برای این خبر منتشر نشده است.

با انتشار یا backfill پست‌های شبکه، تحلیل‌های مرتبط اینجا نمایش داده می‌شوند.

خبرهای مرتبط

خبرهای نزدیک به همین موضوع برای ادامه مطالعه.

رویدادهای آیندهNIST AIبا آمازون Quick |، کارمندانی با هوش مصنوعی بسازید خدمات وب آمازونAWS Machine Learning Blogتکه‌ای از داده‌ها که در واقع می‌تواند شغل و هوش مصنوعی شما را روشن کندMIT Technology Review - AIتجزیه و تحلیل خرده فروشی با ByteTrack و RoboflowRoboflow Blog

بعدش چی بخونم؟

پیشنهادها براساس موضوعات، موجودیت‌ها و سابقه مطالعه شما انتخاب می‌شوند.

رویدادهای آیندهNIST AI7 آوریل 2026،. 13 آوریل - سه،. (2023) و Technische هوش مصنوعی برای علم مواد (AIMS) 2026 سه شنبه،.با آمازون Quick |، کارمندانی با هوش مصنوعی بسازید خدمات وب آمازونAWS Machine Learning Blogاضافی کنید. Quick ایجاد،. کنید،.تکه‌ای از داده‌ها که در واقع می‌تواند شغل و هوش مصنوعی شما را روشن کندMIT Technology Review - AIبه هوش مصنوعی در نیروی کار ممکن کند. در معرض هوش مصنوعی استفاده کردند (برای مثال،. همه مشاغلی که در معرض هوش مصنوعی قرار دارند).تجزیه و تحلیل خرده فروشی با ByteTrack و RoboflowRoboflow Blogبلوک تجسم،. کنید. ByteTrack،.اتصال سرورهای MCP به آمازون Bedrock AgentCore Gateway با استفاده از جریان کد مجوز | خدمات وب آمازونAWS Machine Learning Blogکند. فراخوانی کند. Bedrock AgentCore Gateway نشان دادیم.
دسته‌های مرتبط:خبرابزاریادگیریسرگرمی
برچسب‌ها:InfrastructureMLOpsAgentsComputeLLM
فهرست خبرها