TL;DR
- همانطور که LLMها در زندگی روزمره ما ادغام میشوند، درک رفتار آنها ضروری میشود.
- در تلاشهای مداوم خود برای مطالعه رفتار مدل و همسویی،.
- این کار را بهعنوان گامیاولیه در آن جهت ارائه میکنیم.
چه اتفاقی افتاد
همانطور که LLMها در زندگی روزمره ما ادغام میشوند، درک رفتار آنها ضروری میشود. در تلاشهای مداوم خود برای مطالعه رفتار مدل و همسویی،.
این کار را بهعنوان گامیاولیه در آن جهت ارائه میکنیم. ما بر گرایشهای رفتاری - گرایشهای اساسی که پاسخها را در زمینههای اجتماعی شکل میدهند - تمرکز میکنیم.
و چارچوبی را معرفی میکنیم تا بررسی کنیم که چگونه تمایلات بیانشده توسط LLM با انسانها مطابقت دارد. گرایشهای رفتاری معمولاً از طریق پرسشنامههای خودگزارشدهی تحت ویژگیهای مختلف (مانند همدلی،.
همدلی،. قاطعیت،.
میزان توافق با آنها) کمیت میشوند. سریع اظهار نظر کنید.
" پرسشنامههای مورد استفاده در این مطالعه معیارهای استاندارد شده و دارای اعتبار علمیهستند که بهطور گسترده. برای ارزیابی ویژگیهای شخصیتی در تحقیقات بینالمللی و روانشناسی استفاده میشوند،.
مانند:. IRI (همدلی)،.
ERQ (تنظیم هیجان)،. و بیشتر هر ابزار مبتنی بر ادبیات بررسی شده است که روایی روانسنجی و پایایی آن را با.
استفاده از راهبردهای مختلف ایجاد میکند. ما پرکاربردترین ابزارها را برای تحقیق خود انتخاب کردیم.
هدف ما ایجاد چنین پرسشنامههای روانشناختی است،. اما بهکارگیری مستقیم آنها برای LLM چالشهای فنی را به همراه دارد،.
زیرا خروجیهای LLM نسبت به تغییر عبارت و توزیع سریع حساس هستند. در نتیجه،.
تمایلات «ادعا شده» توسط LLMها در قالب خود گزارشی تضمین نمیشود که با موفقیت به رفتار. در تنظیمات واقعی و باز منتقل شوند.
برای رسیدگی به این چالشها،. در «ارزیابی همسویی گرایشهای رفتاری در LLM»،.
چارچوب ما رفتارهای رفتاری LLMها را ارزیابی میکند که در آن منشهای رفتاری LLM می. تواند منجر به تأثیرگذاری واقعی کاربران شود.
این مطالعه گامیاولیه در ارزیابی همسویی بین اجماع انسانی و الگوی رفتار در سناریوهای واقعی و عملی،. با تمرکز بر تعاملات روزمره انسان به انسان و موقعیتهای محل کار.
ما اطمینان میدهیم که این سناریوها بر اساس پرسشنامههای روانشناختی تثبیتشده برای دریافت ماهیت ویژگیهای رفتاری اصلی باقی. میمانند.
سناریوهای آزمایش شده شامل خونسردی حرفهای،. حل تعارض،.
وظایف عملی مانند رزرو یک سفر،. و شیوه زندگی یا تصمیمگیری روزانه،.
برجسته کردن رفتار مدل در تنظیماتی بود که نشان دهنده تجربیات معمولی روزمره انسان است. تجزیه و تحلیل در مقیاس بزرگ ما از 25 LLM دو نوع شکاف را نشان میدهد:.
یکی که در آن گرایشهای مدل از اتفاق نظر در میان حاشیه نویسان انسانی منحرف میشود،. و دیگری زمانی که گرایشهای مدل طیفی از نظرات انسانی را در صورت عدم اجماع جلب نمی.
کند. این نتایج اولیه فرصتی را برای همسویی رفتاری بهتر نشان میدهد تا اطمینان حاصل شود که مدلها میتوانند.
بهطور مناسبتری در مسیریابی قرار گیرند تفاوتهای ظریف پویایی اجتماعی،. نتایجی است که انتظار داریم تحقیقات آینده بر روی آنها بنا شود.
از گزارش خود تا قضاوت موقعیتی ما با جمعآوری گزارهها از پرسشنامههای روانشناختی معتبر و معتبر شروع میکنیم. و آنها را با بیانیههای تمایل عمومیبه مشاوره مدل تطبیق میدهیم.
سپس از گزارههای اقتباس شده برای تولید آزمونهای قضاوت موقعیتی (SJTs)،. یک روش ارزیابی که بهطور گسترده در روانشناسی،.
پیشبینی رفتاری و سایر زمینهها استفاده میشود،. استفاده میشود.
در سراسر این صنایع،. SJTها استانداردی برای ارزیابی شایستگیهای رفتاری و قضاوت در محیطهای پیچیده هستند.
این آزمونها معمولاً شامل سناریوهای واقعبینانهای هستند که دو مسیر عمل ممکن را ارائه میدهند:. یکی حمایت از یک ویژگی رفتاری خاص و دیگری مخالفت با آن.
در تحقیق ما،. هر SJT توسط سه حاشیه نویس مستقل مورد بررسی قرار میگیرد تا تأیید کند که سناریو و.
اقدامات (تولید شده توسط LLM) منسجم هستند و بهطور صادقانه نشانگرهای رفتاری زیرین را نشان میدهند. در طول ارزیابی،.
مدل با SJT بهعنوان ورودی پیشنهاد میشود و یک پاسخ طبیعی ایجاد میکند،. که با استفاده از یک LLM-as-a-a-judge به یکی از دو دوره عمل نگاشت میشود.
از آنجایی که هدف ما کمیکردن تمایلات رفتاری LLMها نیست،. بلکه مطالعه میزان همسویی آنها با رفتار انسانی است،.
ما از یک SJ به ازای هر 10 اقدام ترجیحی،. از یک اقدام ترجیحی بدون یک اقدام SJ جمعآوری میکنیم.
550 شرکتکننده، و توزیع ترجیحات انسانی حاصل را با توزیع پاسخهای مدل در هر سناریو مقایسه کنید. همسویی جهت گرایشهای رفتاری LLMها در اینجا ما بر روی زیر مجموعهای از سناریوها تمرکز.
میکنیم که در آن بین حاشیه نویسان انسانی در مورد اقدام ترجیحی اتفاق نظر وجود دارد. همسویی در این موارد مهم است،.
زیرا عدم تجلی یا سرکوب یک ویژگی تحت توافق قوی انسانی نشاندهنده نمایه رفتاری است که تمایل دارد. متفاوت از الگوهای رفتاری معمولی انسان عمل کند.
ما هم ترازی جهتدار را بهعنوان معیاری قابل تفسیر تعریف میکنیم که آزمایش میکند آیا مدل احتمال بیشتری را. به عمل مورد حمایت اکثریت انسانی اختصاص میدهد یا خیر.
سپس هم ترازی مدل با درصد سناریوهایی که این معیار برآورده میشود، کمیسازی میشود. شکل زیر نتایج را در 25 LLM مختلف و چهار صفت مجزا نشان میدهد.
نتایج بر اساس سطح اجماع در میان حاشیه نویسان انسانی (از 10 پاسخ در هر سناریو) گروه بندی. میشوند:.
اتفاق آرا (10/10)،. بسیار زیاد (9،.
10) و زیاد اجماع (8 و 9). مدلهای کوچکتر (<25B) تراز جهت جهت قابل توجهی کمتری را نشان میدهند،.
همانطور که با شیوع بیشتر سلولهای قرمز و نارنجی در ردیفهای پایین زیر خط افقی سیاه. نشان داده میشود.
این مدلهای کوچکتر اغلب بین بیان مناسب یا سرکوب صفات تمایز قائل نمیشوند،. اغلب با اجماع با نرخهای نزدیک به شانس همسو میشوند.
مدلهای ظرفیت بزرگ (> 120B) و وزنهای بسته مرزی بهبود قابلتوجهی را نشان میدهند و زمانی که اتفاق. نظر بین حاشیهنویسان انسانی اتفاق نظر باشد،.
به هم ترازی نزدیک به کامل میرسند. با این حال،.
هم ترازی این مدلها هنوز در دهه 80 پایین تا اواسط فلات است،. زمانی که اجماع کمتر از 90% است.
تجزیه و تحلیل کیفی مواردی که LLMها از حالت رفتاری ترجیحی در سناریوهای با اجماع بالا منحرف. میشوند،.
چندین الگوی جالب را نشان داد. مدلها تمایل به تشویق باز بودن احساسی در محیطهای حرفهای دارند که در آن انسانها خونسردی را توصیه.
میکنند. در اجتماعی در اختلافات، مدلها بر خلاف ترجیحات شرکتکنندگان، غالباً هماهنگی را به ایستادن در موضع اولویت میدهند.
در نهایت،. مدلها گاهی اوقات تکانشگری بالاتری نسبت به انسانها نشان میدهند،.
و توصیه میکنند که برای فرصتهای حساس به زمان،. اقدام فوری بر روی تأیید لجستیکی انجام شود.
فقدان همسویی توزیعی کثرت گرایی توزیعی یک اصل انصافی است که استدلال میکند که توزیع پاسخهای. یک مدل باید بهطور دقیق منعکس کننده تنوع دیدگاههای انسانی باشد تا اینکه بر روی یک پاسخ.
واحد و غالب همگرا شود. برای درک این موضوع در تنظیمات ما،.
در مواردی که انسانها توافق کمتری در مورد عمل ترجیحی دارند،. جرم احتمال مدل باید بهطور مساوی بین دو عمل ممکن توزیع شود و در نتیجه اطمینان کمتری نسبت.
به عملکرد ترجیحی آن ایجاد شود. شکل زیر اطمینان مدل را بهعنوان تابعی از توافق انسان نشان میدهد.
در حالی که اطمینان یک مدل کاملاً همسو با توزیع باید متناسب با اجماع بین حاشیهنویسهای انسانی مقیاس. شود (خط مشکی نقطهدار)،.
همه ۲۵ مدل ارزیابیشده (خطوط آبی) اعتماد بیش از حد سیستماتیک به تصمیم خود نشان میدهند. خط آبی یکدست - که میانگین 25 LLM را نشان میدهد - این را نشان میدهد.
مدلها نشان دهنده ابهام ذاتی و طیف کامل نظرات از حاشیه نویسان انسانی نیستند. حتی در مواردی با اجماع پایین که نظرات انسانی بهطور قابل توجهی تقسیم شده است (توافق 50 تا.
60 درصد)،. اطمینان در تمام مدلهای ارزیابی شده بالا باقی میماند.
LLMها زمانی موضع میگیرند که انسانها اجماع پایینی دارند. ما ثابت کردیم که وقتی اجماع بین حاشیه نویسان انسانی در مورد اقدام ترجیحی کم است،.
LLMها چنین ابهامیرا نشان نمیدهند که بهعنوان اعتماد بیش از حد منعکس میشود. در شکل زیر نشان میدهیم که جهت این اطمینان بیش از حد،.
حتی بین مدلهای مرزی،. بسیار متفاوت است.
این نشان میدهد که روشهای مختلف آموزش و همسویی منجر به گرایشهای رفتاری منحصربهفرد میشود. خود گزارش دهی و رفتار آشکار اعتبار ارزیابی تمایلات LLM از طریق توافق خود گزارش دهی با اظهارات.
پرسشنامه یک حوزه فعال تحقیقاتی است. در حالی که برخی از محققان اعتبار سازه این رویکرد را زیر سوال میبرند،.
برخی دیگر استدلال میکنند که چارچوبهای محرک خاص ارزیابی قابل اعتماد را امکان پذیر میکند. در حالی که حل این بحث فراتر از محدوده این کار است،.
چارچوب ما - که آیتمهای پرسشنامه را مستقیماً به سناریوهای رفتاری ترسیم میکند - یک لنز. منحصر به فرد برای مطالعه این پویاییها ارائه میدهد.
شکل زیر یک واگرایی قابل توجه بین گزارش خود LLM و رفتار آشکار آنها را نشان میدهد. بهعنوان مثال،.
مدلها اغلب خودشان گزارش میدهند که تکانشگری پایینی دارند،. اما تمایل رفتاری به سمت تکانشگری را نشان میدهند.
هنگام بررسی توزیع در هر صفت،. تناقضات واضحی نیز بین گزارش خود LLM و رفتار آشکار آنها وجود دارد.
این تحلیل محدودیتهای بالقوه را در اعتبار گزارشدهی مستقیم خود نشان میدهد و کاربرد چارچوب ما را بهعنوان. پایهای برای تحقیقات آینده برجسته میکند.
بحث بهعنوان کمک اولیه به مطالعه مداوم ما در مورد رفتار و همسویی مدل،. ما چارچوبی را برای ارزیابی تمایلات رفتاری در LLM معرفی میکنیم و رویکرد خود را در روش پرسشنامههای.
تثبیتشده پایهگذاری میکنیم و در عین حال به محدودیتهای معیارهای خودگزارشدهی سنتی میپردازیم. این چارچوب راهی را برای اندازهگیری شکافها ارائه میکند،.
که در آن مدلها بهطور مداوم اجماع میان حاشیهنویسهای انسانی را در سناریوهای با توافق بالا منعکس نمیکنند. و طیف نظرات را در سناریوهای با اجماع پایین کمتر نشان میدهند.
این یک گام به جلو در درک تمایلات رفتاری مدل است،. و تحقیقات بیشتری در زمینههای حیاتی مانند ارزیابی و رسیدگی به شکافهای شناساییشده مورد نیاز است.
برای بررسی عمیقتر روششناسی و نتایج، مقاله را در اینجا بخوانید. قدردانی این تحقیق توسط امیر تاوبنفلد،.
زوریک گخمان،. لیور نزری،.
عمری فلدمن،. ناتالی هریس،.
شاشیر ردی،. رومینا استلا،.
آریل گلدشتاین،. ماریان کرواک،.
یوسی ماتیاس و امیر فدر انجام شد. از Itay Laish،.
Renee Shelby،. Nino Scherrer،.
Sivan Eiger،. Saška Mojsilović،.
Avinatan Hassidim،. Ronit Levavi Morad و James Manyika برای بررسی کار و پیشنهادات ارزشمندشان تشکر میکنیم.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
