TL;DR
- چکیده: تراز کردن مدلهای زبان با ترجیحات انسانی برای اطمینان از ایمنی و قابلیت اطمینان آنها ضروری است.
- اگرچه اکثر رویکردهای موجود،.
- مدلهای ترجیحی انسانی خاص مانند مدل بردلی-تری را فرض میکنند،.
چه اتفاقی افتاد
چکیده: تراز کردن مدلهای زبان با ترجیحات انسانی برای اطمینان از ایمنی و قابلیت اطمینان آنها ضروری است. اگرچه اکثر رویکردهای موجود،.
مدلهای ترجیحی انسانی خاص مانند مدل بردلی-تری را فرض میکنند،. این فرض ممکن است به دقت ترجیحات واقعی انسان را نشان ندهد،.
و در نتیجه،. این روشها فاقد ثبات آماری هستند،.
یعنی تضمینی برای همگرایی مدلهای زبانی به ترجیحات واقعی انسان با افزایش تعداد نمونهها. در مقابل، بهینهسازی نسبت چگالی مستقیم (DDRO) به ثبات آماری بدون فرض هیچ مدل ترجیحی انسانی دست مییابد.
DDRO نسبت چگالی بین توزیع دادههای ترجیحی و غیر ترجیحی را با استفاده از مدل زبان مدل. میکند و سپس آن را از طریق تخمین نسبت چگالی بهینه میکند.
با این حال،. این نسبت چگالی ناپایدار است و اغلب واگرا میشود که منجر به بی ثباتی تمرین DDRO می.
شود. در در این مقاله،.
ما یک روش هم ترازی جدید را پیشنهاد میکنیم که هم پایدار و هم از نظر آماری سازگار است. رویکرد ما بر اساس نسبت چگالی نسبی بین توزیع دادههای ترجیحی و مخلوطی از توزیع دادههای.
ترجیحی و غیر ترجیحی است. رویکرد ما پایدار است زیرا این نسبت چگالی نسبی در بالا محدود شده است و واگرا نمیشود.
علاوه بر این، از نظر آماری سازگار است و ضمانتهای همگرایی بسیار محکمتری نسبت به DDRO ارائه میکند. ما بهطور تجربی اثربخشی آن را با Qwen 2.
5 و Llama 3 نشان میدهیم. کد در این URL https موجود است یادگیری ماشین (cs.
LG)؛ هوش مصنوعی (cs. AI)؛ محاسبات و زبان (cs.
CL); یادگیری ماشینی (stat. ML) استناد بهعنوان: (یا v1 [cs.
LG] برای این نسخه) https:. // شده توسط arXiv از طریق DataCite (در انتظار ثبت نام) تاریخچه ارسال از:.
Hiroshi Takahashi [مشاهده ایمیل] [v1] دوشنبه،. 6 آوریل 2026،.
04:. 21:.
24 UTC (1,. 799 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
