TL;DR
- چکیده: RLHF فرض میکند که پاسخهای حاشیه نویسی ترجیحات واقعی انسان را منعکس میکند.
- ما استدلال میکنیم که این فرض نیاز به بررسی سیستماتیک دارد،.
- و علم رفتاری چارچوبهایی را ارائه میدهد که زمان ماندگاری و زمانی که خراب میشود،.
چه اتفاقی افتاد
چکیده: RLHF فرض میکند که پاسخهای حاشیه نویسی ترجیحات واقعی انسان را منعکس میکند. ما استدلال میکنیم که این فرض نیاز به بررسی سیستماتیک دارد،.
و علم رفتاری چارچوبهایی را ارائه میدهد که زمان ماندگاری و زمانی که خراب میشود،. شفافسازی میکند.
دانشمندان علوم رفتاری به مدت شصت سال مستند کردهاند که مردم بهطور معمول بدون داشتن نظرات واقعی پاسخهایی. را تولید میکنند،.
ترجیحات را در محل بر اساس نشانههای زمینهای ایجاد میکنند و سؤالات یکسان را بهطور متفاوت تفسیر میکنند. این پدیدهها دقیقاً برای قضاوتهای پر ارزش که بیشترین اهمیت را برای همسویی دارند،.
فراگیر هستند،. اما این ادبیات هنوز بهطور سیستماتیک در عمل ML ادغام نشده است.
ما استدلال میکنیم که جامعه ML باید اعتبار اندازهگیری را به صورت منطقی قبل از تجمیع. اولویتها در نظر بگیرد.
بهطور خاص، ما ادعا میکنیم که اندازهگیری ترجیحات انسانی در RLHF یک مشکل علوم اجتماعی است. ما یک طبقه بندی ارائه میکنیم که ترجیحات واقعی را از غیر نگرشها،.
ترجیحات ساخته شده و مصنوعات اندازهگیری متمایز میکند،. همراه با رویکردهای تشخیصی برای تشخیص هر یک.
این چارچوب دو مفهوم مهم دارد. اول،.
این سوال را مطرح میکند که آیا رویه فعلی RLHF ممکن است بهطور سیستماتیک نویز را بهعنوان. سیگنال و مصنوعات استخراج را بهعنوان ارزشهای انسانی مدل سازی کند.
دوم،. با پیشنهاد ابزارهای تشخیصی که میتواند ترجیحات معتبر را از مصنوعات قبل از ورود به خط لوله آموزشی.
متمایز کند،. مسیری رو به جلو فراهم میکند.
تعامل انسان و رایانه (cs. HC) استناد بهعنوان: (یا v1 [cs.
HC] برای این نسخه) https:. // شده توسط arXiv از طریق DataCite تاریخچه ارسال از:.
بیژن غفوری [مشاهده ایمیل] [v1] شنبه،. 31 ژانویه 2026،.
21:. 51:.
17 UTC (129 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
