TL;DR
- مدلهای زبان بزرگ (LLM) بهعنوان ابزارهایی که میتوانند دسترسی به اطلاعات را در سراسر جهان دموکراتیک کنند و.
- دانش را در یک رابط کاربر پسند بدون در نظر گرفتن پیشینه یا موقعیت مکانی فرد ارائه میکنند،.
- مورد حمایت قرار گرفتهاند.
چه اتفاقی افتاد
مدلهای زبان بزرگ (LLM) بهعنوان ابزارهایی که میتوانند دسترسی به اطلاعات را در سراسر جهان دموکراتیک کنند و. دانش را در یک رابط کاربر پسند بدون در نظر گرفتن پیشینه یا موقعیت مکانی فرد ارائه میکنند،.
مورد حمایت قرار گرفتهاند. با این حال،.
تحقیقات جدید مرکز ارتباطات سازنده MIT (CCC) نشان میدهد که این سیستمهای هوش مصنوعی ممکن است در واقع. برای کاربرانی که بیشتر از آنها سود میبرند،.
عملکرد بدتری داشته باشند. مطالعهای که توسط محققان CCC،.
مستقر در آزمایشگاه رسانهای MIT،. انجام شد،.
نشان داد که چترباتهای پیشرفته هوش مصنوعی - از جمله OpenAI's GPT-4،. گاهی اوقات LPT-4 و Anthropic's LPT-4،.
و گاهی اوقات Openaudeta3's OPUS،. و Anthropic's Opus.
پاسخهای کمتر دقیق و کمتر واقعی به کاربرانی که تسلط کمتری به زبان انگلیسی دارند،. تحصیلات رسمیکمتری دارند یا از خارج از ایالات متحده سرچشمه میگیرند.
این مدلها همچنین از پاسخ دادن به سوالات با نرخهای بالاتر برای این کاربران خودداری می. کنند و در برخی موارد با آنها پاسخ میدهند الینور پول-دایان SM '25،.
نویسنده اصلی،. یکی از همکاران فنی در دانشکده مدیریت اسلون MIT که پژوهش را بهعنوان یک وابسته به CCC و.
دانشجوی کارشناسی ارشد و کارشناسی ارشد در رسانه هنر رهبری میکرد،. میگوید:.
«ما با چشمانداز LLM برای کمک به دسترسی ناعادلانه به اطلاعات در سراسر جهان انگیزه داشتیم. اما این چشم انداز نمیتواند بدون اطمینان از اینکه تعصبات مدل و تمایلات مضر بهطور ایمن برای.
همه کاربران،. صرف نظر از زبان،.
ملیت،. یا سایر مشخصات جمعیتی کاهش مییابد،.
به واقعیت تبدیل میشود.» مقالهای که کار را توصیف میکند،. «تأثیر نامتناسب عملکرد ضعیف LLM بر کاربران آسیب پذیر است.» در Conference ArtificperialanceS AI در ArtificperialAS AI ارائه.
شد. چند بعد برای این تحقیق،.
تیم بررسی کرد که چگونه سه LLM به سؤالات دو مجموعه داده پاسخ میدهند:. TruthfulQA و SciQ.
TruthfulQA برای سنجش درستی یک مدل (با تکیه بر باورهای غلط رایج و حقایق تحت اللفظی در مورد. دنیای واقعی) طراحی شده است،.
در حالی که SciQ حاوی سوالات امتحان علوم است که دقت واقعی را آزمایش میکند. محققین برای هر سوال بیوگرافی کوتاهی از کاربر اضافه کردند که دارای سه ویژگی بود:.
سطح تحصیلات،. تسلط به زبان انگلیسی،.
و کشور مبدا. در هر سه مدل و هر دو مجموعه داده،.
هنگامیکه سوالاتی از سوی کاربرانی که دارای تحصیلات رسمیکمتر یا انگلیسی زبان نیستند،. محققان افت قابل توجهی در دقت پیدا کردند.
این تأثیرات برای کاربرانی که در تقاطع این دستهها قرار داشتند،. بارزتر بود:.
آنهایی که تحصیلات رسمیکمتری داشتند و همچنین انگلیسیزبان غیربومیبودند،. بیشترین کاهش را در کیفیت پاسخ مشاهده کردند.
این تحقیق همچنین بررسی کرد که کشور مبدأ چگونه بر عملکرد مدل تأثیر میگذارد. تست کاربران از ایالات متحده،.
ایران و چین با معادل پژوهشگران دریافتند که در زمینه تحصیلی،. به ویژه Claude 3 Opus بهطور قابل توجهی برای کاربران ایرانی در هر دو مجموعه داده عملکرد بدتری.
داشته است. جاد کابارا،.
دانشمند پژوهشی در CCC و یکی از نویسندگان مقاله،. میگوید:.
«ما بیشترین کاهش دقت را برای کاربرانی که هم زبان انگلیسی زبان مادری ندارند و هم تحصیلات کمتری. دارند،.
مشاهده میکنیم. «این نتایج نشان میدهد که تأثیرات منفی رفتار مدل با توجه به این ویژگیهای کاربر به روشهای نگرانکنندهای.
ترکیب میشود،. بنابراین نشان میدهد که چنین مدلهایی که در مقیاس به کار میروند،.
خطر انتشار رفتار مضر یا اطلاعات نادرست را در پایین دست به افرادی که کمترین توانایی را دارند،. میدهند.» امتناع و زبان تحقیرآمیز شاید مهمترین تفاوت در تعداد دفعات امتناع مدلها از پاسخ دادن به سؤالات.
بود. بهعنوان مثال،.
Claude 3 Opus از پاسخ دادن به تقریباً 11 درصد از سؤالات برای کاربران کمتر تحصیل کرده و. غیر بومیانگلیسی زبان خودداری کرد.
به تنها 3. 6 درصد برای شرایط کنترل بدون بیوگرافی کاربر.
زمانی که محققان به صورت دستی این امتناعها را تجزیه و تحلیل کردند،. دریافتند که کلود در 43.
7 درصد مواقع با زبان تحقیرآمیز،. حامییا تمسخر آمیز برای کاربران کم سواد پاسخ داده است،.
در مقایسه با کمتر از 1 درصد برای کاربران با تحصیلات عالی. در برخی موارد، این مدل از انگلیسی شکسته تقلید کرده یا گویش اغراقآمیز را اتخاذ کرده است.
این مدل همچنین از ارائه اطلاعات در مورد خاص بهخصوص برای کاربران کمسواد ایران یا روسیه،. از جمله سؤالات مربوط به انرژی هستهای،.
آناتومی،. و رویدادهای تاریخی خودداری میکند - حتی اگر به سؤالات مشابه به درستی برای سایر کاربران پاسخ داده.
است. مدل به وضوح پاسخ صحیح را میداند و آن را در اختیار سایر کاربران قرار میدهد.
دب روی،. استاد علوم و هنرهای رسانهای،.
مدیر CCC و یکی از نویسندگان مقاله میگوید:. ارزش مدلهای زبان بزرگ در جذب فوق العاده آنها توسط افراد و سرمایه گذاری هنگفتی که در.
این فناوری جریان دارد مشهود است. آگاه با توجه به اینکه ویژگیهای شخصیسازی - مانند ChatGPT's Memory که اطلاعات کاربر را در بین مکالمات.
ردیابی میکند - بهطور فزایندهای رایج میشوند،. پیامدها بهویژه نگرانکننده هستند.
پول-دایان میگوید:. «LLMها بهعنوان ابزارهایی که دسترسی عادلانهتر به اطلاعات را تقویت میکنند و یادگیری شخصیشده را متحول میکنند،.
به بازار عرضه شدهاند. اما یافتههای ما نشان میدهد که ممکن است با ارائه سیستماتیک اطلاعات نادرست یا امتناع از پاسخگویی به.
سؤالات به کاربران خاص،. نابرابریهای موجود را تشدید کنند.
افرادی که ممکن است بیشتر به این ابزارها اعتماد کنند،. میتوانند اطلاعات نادرست،.
نادرست یا حتی مضر دریافت کنند.».
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
