TL;DR
- چکیده:.
- مدلهای زبان بزرگ قابلیتهای امیدوارکنندهای را برای بررسی حقایق متنی در رسانههای اجتماعی نشان میدهند:.
- آنها میتوانند ادعاهای مورد بحث را از طریق تحقیقات عمیق تأیید کنند،.
چه اتفاقی افتاد
چکیده:. مدلهای زبان بزرگ قابلیتهای امیدوارکنندهای را برای بررسی حقایق متنی در رسانههای اجتماعی نشان میدهند:.
آنها میتوانند ادعاهای مورد بحث را از طریق تحقیقات عمیق تأیید کنند،. شواهدی را از منابع متعدد ترکیب کنند و توضیحاتی را در مقیاس پیشنویس کنند.
با این حال،. کار قبلی بررسی واقعیت LLM را تنها در تنظیمات کنترلشده با استفاده از معیارها یا قضاوتهای crowdworker ارزیابی.
میکند و نحوه عملکرد این سیستمها در محیطهای پلتفرم معتبر را باز میگذارد. ما اولین ارزیابی میدانی بررسی واقعیت مبتنی بر LLM را ارائه میکنیم که در یک پلتفرم رسانه اجتماعی.
زنده اجرا شده است،. و عملکرد را مستقیماً از طریق ویژگی نویسنده هوش مصنوعی X Community Notes در یک دوره سه ماهه.
آزمایش میکنیم. نویسنده LLM ما،.
یک خط لوله چند مرحلهای که محتوای چندوجهی (متن،. تصاویر و ویدیوها) را مدیریت میکند،.
جستجوی بومیوب و پلتفرم را انجام میدهد و یادداشتهای متنی مینویسد،. برای نوشتن 1614 یادداشت بر روی 1597 توییت استفاده شد و با هم مقایسه شد.
در مقابل 1332 یادداشت نوشته شده توسط انسان در همان توییتها با استفاده از 108169 رتبهبندی. از 42521 ارزیابی کننده.
مقایسه مستقیم نتایج پلت فرم سطح یادداشت با تفاوت در زمان ارسال و قرار گرفتن در معرض رتبه. بندی بین LLM و یادداشتهای انسانی پیچیده است.
بنابراین ما دو استراتژی مکمل را دنبال میکنیم:. یک تحلیل سطح رتبهبندی که ارزیابیهای ارزیاب فردی را مدلسازی میکند،.
و یک تحلیل سطح یادداشت که قرار گرفتن در معرض رتبهدهنده را در انواع یادداشتها برابر میکند. تجزیه و تحلیل سطح رتبهبندی نشان میدهد که یادداشتهای LLM نسبت به یادداشتهای انسانی در بین رتبهدهندگان با.
دیدگاههای سیاسی متفاوت،. رتبهبندیهای مثبت بیشتری دریافت میکنند،.
که نشاندهنده پتانسیل یادداشتهای نوشتهشده LLM برای دستیابی به اجماع بینحزبی است. تجزیه و تحلیل سطح یادداشت این مزیت را تأیید میکند:.
در بین رتبه دهندگانی که همه یادداشتها را در یک پست ارزیابی کردند،. یادداشتهای LLM بهطور قابل توجهی نمرات مفیدی بالاتری را به دست میآورند.
یافتههای ما نشان میدهد که LLMها میتوانند با کیفیت بالا و بهطور گسترده مفید. باشند بررسی واقعیت در مقیاس،.
در حالی که تاکید میکند که ارزیابی دنیای واقعی نیازمند توجه دقیق به پویایی پلت فرم است. که در تنظیمات کنترل شده وجود ندارد.
کامپیوتر و جامعه (cs. CY) استناد بهعنوان: (یا v1 [cs.
CY] برای این نسخه) https:. // شده توسط arXiv از طریق DataCite (در انتظار ثبت نام) تاریخچه ارسال از:.
Haiwen Li [مشاهده ایمیل] [v1] جمعه،. 3 آوریل 2026،.
00:. 01:.
29 UTC (299 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
