TL;DR
- بسیاری از جدیدترین مدلهای زبان بزرگ (LLM) برای به خاطر سپردن جزئیات مکالمات گذشته یا ذخیره نمایههای کاربر.
- طراحی شدهاند،.
- و این مدلها را قادر میسازد تا پاسخها را شخصیسازی کنند.
چه اتفاقی افتاد
بسیاری از جدیدترین مدلهای زبان بزرگ (LLM) برای به خاطر سپردن جزئیات مکالمات گذشته یا ذخیره نمایههای کاربر. طراحی شدهاند،.
و این مدلها را قادر میسازد تا پاسخها را شخصیسازی کنند. اما محققان MIT و دانشگاه ایالتی پن دریافتند که طی مکالمههای طولانی،.
چنین ویژگیهای شخصیسازی اغلب این احتمال را افزایش میدهد که LLM بیش از حد موافق شود یا شروع. به بازتاب دادن دیدگاه فرد کند.
از بین بردن دقت پاسخهای LLM. علاوه بر این،.
LLMهایی که منعکس کننده باورهای سیاسی یا جهان بینی افراد هستند،. میتوانند اطلاعات نادرست را تقویت کنند و درک کاربر از واقعیت را تحریف کنند.
بر خلاف بسیاری از مطالعات پیشینی در گذشته که درخواستها را در یک محیط آزمایشگاهی بدون زمینه. ارزیابی میکردند،.
محققان MIT دادههای مکالمه دو هفتهای را از انسانهایی که در طول زندگی خود با. یک LLM واقعی تعامل داشتند جمع آوری کردند.
زندگی روزمره آنها دو حالت را مورد مطالعه قرار دادند:. موافق بودن در توصیههای شخصی و انعکاس باورهای کاربر در توضیحات سیاسی.
اگرچه زمینه تعامل رضایتمندی را در چهار مورد از پنج LLM مورد مطالعه آنها افزایش داد،. اما وجود یک نمایه کاربر فشرده در حافظه مدل بیشترین تأثیر را داشت.
از سوی دیگر،. رفتار انعکاسی تنها در صورتی افزایش مییابد که مدل بتواند بهطور دقیق باورهای کاربر را از مکالمه استنباط.
کند. محققان امیدوارند این نتایج الهامبخش تحقیقات آینده در زمینه توسعه روشهای شخصیسازی باشد که برای شبیهسازی LLM قویتر.
هستند. «از دیدگاه کاربر،.
این کار نشان میدهد که چقدر مهم است که بفهمیم این مدلها پویا هستند و اگر رفتار آنها. میتواند در طول یک دوره زمانی صحبت با آنها تغییر کند.
شروع کنید به برون سپاری تفکر خود به آن،. ممکن است خود را در یک پژواک بیابید اتاقی که نمیتوانی از آن فرار کنی این خطری.
است که کاربران باید قطعاً به خاطر بسپارند. پروفسور توسعه شغلی برادران در EECS و محقق اصلی در LIDS و دانا کالاچی،.
استادیار در ایالت پن،. این تحقیق در کنفرانس ACM CHI در مورد عوامل انسانی در سیستمهای محاسباتی ارائه خواهد شد.
مدلی که بیش از حد موافق است اما وقتی آنها ادبیات را جستجو کردند تا تجزیه و تحلیل. خود را گسترش دهند،.
هیچ مطالعهای که سعی در درک رفتار متقابل در طول تعاملات طولانیمدت LLM داشته باشد،. پیدا نکردند.
"ما از این مدلها از طریق تعاملات گسترده استفاده میکنیم، و آنها زمینه و حافظه زیادی دارند. اما روشهای ارزیابی ما عقب ماندهاند.
ما میخواستیم LLMها را به روشی که مردم واقعاً از آنها استفاده میکنند ارزیابی کنیم تا بفهمیم چگونه. رفتار میکنند.
یک مطالعه کاربر برای کشف دو نوع همزمانی: همزمانی توافقی و همزمانی پرسپکتیو. همزبانی توافقی تمایل یک LLM به بیش از حد موافق بودن است،.
گاهی اوقات تا جایی که اطلاعات نادرست را ارائه میکند یا به کاربر نمیگوید اشتباه میکند. دورنمای دیدگاه زمانی رخ میدهد که یک مدل ارزشها و دیدگاههای سیاسی کاربر را منعکس کند.
«ما در مورد مزایای داشتن اطلاعات زیادی داریم. ارتباط اجتماعی با افرادی که دیدگاههای مشابه یا متفاوتی دارند.
اما ما هنوز در مورد مزایا یا خطرات تعامل طولانی با مدلهای هوش مصنوعی که ویژگیهای مشابهی دارند،. نمیدانیم.» محققان یک رابط کاربری با محوریت یک LLM ایجاد کردند و 38 شرکتکننده را برای صحبت با.
ربات چت در یک دوره دو هفتهای استخدام کردند. مکالمات هر شرکتکننده در یک دوره متوسط در یک پنجره مشترک انجام شد.
از 90 پرس و جو از هر کاربر. آنها رفتار پنج LLM را با این زمینه کاربر در مقابل همان LLMهایی که هیچ داده مکالمه.
ای به آنها داده نشده است،. مقایسه کردند.
"ما دریافتیم که زمینه واقعاً نحوه عملکرد این مدلها را بهطور اساسی تغییر میدهد،. و من شرط میبندم که این پدیده فراتر از همخوانی است.
و در حالی که همسویی تمایل به بالا رفتن داشت، همیشه افزایش نمییافت. این واقعا بستگی دارد ویلسون میگوید.
سرنخهای زمینهای برای مثال،. وقتی یک LLM اطلاعات کاربر را در یک نمایه خاص تقطیر میکند،.
منجر به بیشترین دستاوردها در همزمانی توافق میشود. این ویژگی نمایه کاربر بهطور فزایندهای در جدیدترین مدلها قرار میگیرد.
آنها همچنین دریافتند که متن تصادفی از مکالمات مصنوعی نیز احتمال این را افزایش میدهد که برخی از. مدلهای خاص حاوی دادهها هستند.
جین اضافه میکند که گاهی اوقات ممکن است طول مکالمه بیشتر بر روی همزبانی تأثیر بگذارد. کاربران گفتند که LLMها تقریباً نیمیاز زمانها را دقیقاً دیدگاههای سیاسی خود را درک.
میکردند. جین میگوید:.
"در آینده به راحتی میتوان گفت که شرکتهای هوش مصنوعی باید این نوع ارزیابی را انجام. دهند.
اما سخت است و زمان و سرمایه گذاری زیادی میطلبد. استفاده از انسان در حلقه ارزیابی گران است،.
اما ما نشان داده ایم که میتواند بینشهای جدیدی را آشکار کند. " بهعنوان مثال،.
برای کاهش همزمانی میتوان مدلهایی طراحی کرد که جزئیات مرتبط را در زمینه و حافظه بهتر شناسایی کنند. علاوه بر این،.
مدلهایی را میتوان برای تشخیص رفتارهای بازتابی و پاسخهای پرچم با توافق بیش از حد ایجاد کرد. توسعهدهندگان مدل همچنین میتوانند به کاربران این امکان را بدهند که در مکالمات طولانی شخصیسازی را تعدیل کنند.
«راههای زیادی برای شخصیسازی مدلها وجود دارد، بدون اینکه آنها را بیش از حد مورد قبول قرار دهند. مرز بین شخصیسازی و جین میگوید:.
«در پایان روز،. ما به روشهای بهتری برای درک پویایی و پیچیدگی آنچه در طول مکالمات طولانی با LLM میگذرد،.
و اینکه چگونه چیزها میتوانند در طول این فرآیند طولانیمدت ناهماهنگ شوند،. نیاز داریم.».
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
