TL;DR
- چگونه RLHF در مدلهای زبانی کار میکند؟
- یادگیری تقویتی از بازخورد انسانی فرآیندی چند مرحلهای است که مدلهای زبان را برای همسویی بهتر با انتظارات.
- و ترجیحات انسان تطبیق میدهد.
چه اتفاقی افتاد
چگونه RLHF در مدلهای زبانی کار میکند؟ یادگیری تقویتی از بازخورد انسانی فرآیندی چند مرحلهای است که مدلهای زبان را برای همسویی بهتر با انتظارات.
و ترجیحات انسان تطبیق میدهد. در اینجا نحوه عملکرد RLHF بهطور معمول در زمینه مدلهای زبان بزرگ آمده است: 1.
جمعآوری دادهها و تنظیم دقیق نظارت شده فرآیند با جمعآوری دادهها آغاز میشود،. جایی که انسانها با مدل زبان تعامل میکنند و نمایشهایی از پاسخهای ایدهآل به درخواستها یا سؤالات مختلف.
ارائه میدهند. این بازخورد برای ایجاد یک مجموعه داده با کیفیت بالا متشکل از جفتهای پاسخ سریع استفاده میشود.
سپس مدل زبان با استفاده از تنظیم دقیق نظارت شده بر روی این دادهها آموزش داده می. شود و به آن اجازه میدهد تا پاسخهای شبیه انسان را بهعنوان یک نقطه شروع قوی.
یاد بگیرد و تقلید کند. بازخورد انسانی و ایجاد مدل پاداش در ادامه،.
مدل پاسخهای متعددی را به طیف وسیعی از درخواستها تولید میکند. ارزیابهای انسانی این پاسخها را به صورت جفت یا مجموعه بررسی میکنند و نشان می.
دهد که کدام خروجیها را ترجیح میدهند. این اولویتها جمعآوری میشوند و برای آموزش یک مدل پاداش،.
یک شبکه عصبی مجزا که یاد میگیرد امتیازهای بالاتری را به پاسخهایی که با بازخورد انسانی همسوتر هستند،. اختصاص دهد،.
استفاده میشود. این مدل پاداش بهعنوان یک پروکسی برای قضاوت مستقیم انسان عمل میکند و به مدل زبان اجازه.
میدهد تا به روشی مقیاس پذیر بهینه شود. بهینهسازی با بهینهسازی سیاست پروگزیمال (PPO) پس از ایجاد مدل پاداش،.
مدل زبان با استفاده از یادگیری تقویتی،. معمولاً با الگوریتمیبه نام بهینهسازی سیاست پروگزیمال،.
بیشتر آموزش داده میشود. هدف اصلی در این مرحله،.
بهروزرسانی مدل زبان است تا پاسخهایی ایجاد کند که مدل پاداش،. براساس ترجیحات انسانی،.
کیفیت بالایی را در نظر میگیرد. یادگیری تقویتی (RL) با در نظر گرفتن مدل زبان بهعنوان عاملی که با یک محیط تعامل دارد (در.
این مورد،. تولید متن بر اساس اعلانها) کار میکند.
برای هر یک از اعلانها،. مدل پاسخی تولید میکند،.
امتیاز پاداش را از مدل پاداش دریافت میکند،. و خط مشی خود را به روز میکند،.
قوانینی را که برای تولید متن استفاده میکند،. تا احتمال تولید پاسخهای با پاداش بالا در آینده افزایش یابد.
یک تکنیک اساسی در یادگیری تقویتی، روش گرادیان خط مشی است. در این رویکرد، «سیاست» توزیع احتمال بر روی خروجیهای ممکن با یک ورودی است.
الگوریتمهای گرادیان خط مشی مستقیماً با تخمین گرادیان پاداش مورد انتظار با توجه به پارامترهای مدل،. این خط مشی را بهینه میکنند.
به بیان ساده،. الگوریتم وزن مدل را طوری تنظیم میکند که پاسخهایی که پاداشهای بالاتری را به همراه دارند در طول.
زمان محتملتر میشوند. با این حال،.
اعمال مستقیم گرادیانهای خطمشی گاهی اوقات میتواند منجر به آموزش ناپایدار یا تغییرات شدید در رفتار مدل شود،. مشکلی که بهعنوان «فروپاشی خطمشی» شناخته میشود.
بهینهسازی خط مشی پروگزیمال این مورد را توسط معرفی یک محدودیت در طول به روز رسانی. PPO تضمین میکند که مدل زبان در یک مرحله به روز رسانی خیلی از رفتار قبلی خود.
منحرف نمیشود. این کار را با استفاده از یک تابع هدف "بریده شده" انجام میدهد که اندازه به روز.
رسانی خط مشی را محدود میکند. این یک تعادل بین ایجاد بهبودها و ثابت نگه داشتن مدل و قابل پیشبینی نگه میدارد.
در طول آموزش PPO،. فرآیند معمولاً به این صورت است:.
مدل زبان فعلی (خطمشی) پاسخهایی را به درخواستهای مختلف ایجاد میکند. مدل پاداش این پاسخها را بر اساس ترجیحات انسانی امتیاز میدهد.
PPO از این امتیازها برای محاسبه مزیت هر پاسخ استفاده میکند،. اساساً درجه بندی میکند که مدل بهروزرسانی چقدر بهتر از آن است.
از پاسخهای با مزیت بالا و پاداش بالا،. اما بهروزرسانی محدود شده است تا در محدوده ایمن سیاست قبلی باقی بماند.
با تکرار این حلقه،. PPO به تدریج مدل زبان را برای تولید خروجیهایی هدایت میکند که بازخورد انسانی را بهتر.
منعکس میکند و در عین حال ثبات تمرین را حفظ میکند و از رفتارهای نامطلوب و. شدید جلوگیری میکند.
این امر باعث میشود که PPO به یک الگوریتم پرکاربرد و موثر برای تراز کردن مدلهای. زبان بزرگ با اهداف پیچیده انسانی از طریق RLHF.
4 تبدیل شود. بهبود مکرر این فرآیند تولید خروجی،.
جمعآوری بازخورد انسانی،. بهروزرسانی مدل پاداش و بهینهسازی بیشتر مدل زبان میتواند برای بهبود مستمر همسویی مدل با ارزشهای انسانی تکرار.
شود. با طی کردن این مراحل،.
مدلهای زبانی توانایی بیشتری برای تولید خروجیهایی پیدا میکنند که مفید،. ایمن و مناسب زمینه هستند.
بهطور خلاصه،. RLHF در مدلهای زبانی شامل جمعآوری بازخورد انسانی برای نظارت بر تنظیم اولیه،.
ساختن یک مدل پاداش بر اساس ترجیحات انسانی،. و استفاده از تکنیکهای پیشرفته یادگیری تقویتی،.
مانند PPO،. میشود.
بهینهسازی مدل اصلی برای عملکرد همسو با انسان این چارچوب چند مرحلهای،. مدلهای زبان را قادر میسازد تا ارزشها،.
نیازها و مقاصد افرادی را که از آنها استفاده میکنند درک و منعکس کنند.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
