TL;DR
- 9 دسامبر 2025 مسئولیت و ایمنی تیم FACTS مدلهای زبانی بزرگ (LLM) بهطور فزایندهای به منبع اصلی برای.
- ارائه اطلاعات در موارد مختلف استفاده میشوند،.
- بنابراین مهم است که پاسخهای آنها واقعاً دقیق باشد.
چه اتفاقی افتاد
9 دسامبر 2025 مسئولیت و ایمنی تیم FACTS مدلهای زبانی بزرگ (LLM) بهطور فزایندهای به منبع اصلی برای. ارائه اطلاعات در موارد مختلف استفاده میشوند،.
بنابراین مهم است که پاسخهای آنها واقعاً دقیق باشد. برای ادامه بهبود عملکرد آنها در این چالش در سطح صنعت،.
ما باید انواع واقعیتهای دقیق را در مواردی که مدلها پاسخدهی دقیقتری ارائه میدهند و در مواردی که. مدلها در آن با دقت بیشتری مواجه هستند.
بنچمارک Suite امروز، ما با Kaggle همکاری میکنیم تا مجموعه FACTS بنچمارک Suite را معرفی کنیم. این کار قبلی ما را در زمینه توسعه معیار پایه FACTS با سه معیار واقعیت افزوده،.
از جمله:. یک معیار پارامتری که توانایی مدل را برای دسترسی دقیق به دانش داخلی خود در موارد استفاده از.
سؤالات واقعی اندازهگیری میکند. یک معیار جستجو که توانایی یک مدل را برای استفاده آزمایش میکند.
بهعنوان ابزاری برای بازیابی اطلاعات و ترکیب صحیح آنها جستجو کنید. یک معیار چندوجهی که توانایی یک مدل را برای پاسخ دادن به درخواستهای مربوط به تصاویر ورودی به.
روشی واقعی و واقعی آزمایش میکند. ما همچنین در حال بهروزرسانی معیار پایه اصلی FACTS با Grounding بنچمارک - v2 هستیم،.
یک معیار توسعهیافته برای ارائه پاسخپذیری مبتنی بر زمینهای یک مدل. معیار به دقت تنظیم شد تا در مجموع 3513 نمونه تولید شود که امروز در دسترس عموم قرار.
میدهیم. مشابه نسخه قبلی خود،.
ما از رویه استاندارد صنعت پیروی میکنیم و مجموعه ارزیابی را بهعنوان یک مجموعه خصوصی نگه می. داریم.
امتیاز مجموعه معیار FACTS (یا امتیاز FACTS) بهعنوان میانگین دقت مجموعههای عمومیو خصوصی در چهار معیار محاسبه. میشود.
Kaggle بر مدیریت FACTS بنچمارک Suite نظارت خواهد داشت. این شامل مالکیت خصوصی است مجموعههای نگهداشتهشده،.
آزمایش LLMهای پیشرو در معیارها،. و میزبانی نتایج در تابلوی امتیازات عمومی.
جزئیات بیشتر در مورد روش ارزیابی FACTS را میتوانید در گزارش فنی ما بیابید. مروری بر معیار معیار پارامتری معیار پارامتری FACTS توانایی مدلها را برای پاسخگویی دقیق به سؤالات واقعی،.
بدون کمک ابزارهای خارجی مانند جستجوی وب،. ارزیابی میکند.
همه سؤالات در معیار،. سؤالات «سبک بی اهمیت» هستند که بر اساس علاقه کاربر هدایت میشوند و میتوانند از طریق.
ویکی پدیا (یک منبع استاندارد برای پیشآموزش LLM) به آنها پاسخ دهند. معیار به دست آمده از یک مجموعه عمومی 1052 موردی و یک مجموعه خصوصی 1052 موردی تشکیل شده.
است. توزیع دامنه زمینه (چپ) و توزیع نوع پاسخ (راست) بهعنوان درصدی از کل مجموعه سؤالات در معیار پارامتری.
یک درخواست معمولی از مجموعه عمومیبه مدل نیاز دارد تا به یک سؤال ساده در مورد یک. موضوع خاص پاسخ دهد.
«چه کسی هارمونیکا را در آهنگ موضوع «فایلهای راکفورد» نواخته است؟» معیار جستجو در مقابل،. معیار جستجوی FACTS توانایی مدل را برای استفاده از ابزار جستجوی وب برای پاسخ دادن به سؤالات ارزیابی.
میکند. این معیار به گونهای طراحی شده است که برای LLMها حتی با دسترسی به وب چالش.
برانگیز باشد،. که اغلب نیازمند بازیابی چندین واقعیت به صورت متوالی برای پاسخ به یک پرسش واحد است.
ابزار جستجوی وب مشابه برای همه مدلها در دسترس است،. و اطمینان حاصل میشود که قابلیتهای مدل بهصورت مجزا و بدون عامل مخدوشکننده تنظیمات بازیابی وب سفارشی آزمایش.
میشوند. FACTS Search شامل یک مجموعه عمومی 890 موردی و یک مجموعه خصوصی 994 موردی است.
توزیع دامنه زمینه (سمت چپ) و توزیع وظیفه درخواست شده توسط کاربر (راست) بهعنوان درصدی از کل مجموعه. دستورات در معیار جستجو.
مثال زیر از مجموعه عمومیگنجانده شده است زیرا به بازیابی اطلاعات از چندین وب نیاز دارد. صفحات،.
«مجموع سالهای تولد بوکسور بریتانیایی که وازیک کازاریان را در بازیهای المپیک تابستانی ۱۹۶۰ شکست داد،. بوکسور مراکشی که در همان المپیک در مسابقات سبک وزن سبک مردان نیز شرکت کرد،.
و بوکسور دانمارکی که در المپیکهای تابستانی 1960 و 1964 شرکت کرد،. چقدر است؟
توانایی مدلها را برای تولید متن واقعی واقعی در پاسخ به سؤالات مبتنی بر تصویر ارزیابی میکند،. که یک قابلیت حیاتی برای سیستمهای چندوجهی مدرن است.
این کار مستلزم ادغام زمینه بصری است،. یعنی توانایی آن برای تفسیر دقیق و اتصال اطلاعات از ورودی بصری،.
با استفاده از دانش جهانی داخلی یا «پارامتری» خود. چارچوب ارزیابی به گونهای طراحی شده است که اطمینان حاصل شود که یک پاسخ هم صحیح است.
و هم تمام اطلاعات لازم را برای کامل بودن ارائه میدهد. معیار شامل یک مجموعه عمومی 711 موردی و یک مجموعه خصوصی 811 موردی.
توزیع تصویر (سمت چپ) و توزیع دستههای سؤال (راست) بهعنوان بخشی از معیار چندوجهی. برای مثال،.
تصویر زیر از مجموعه عمومیمعیار چندوجهی با این دستور ظاهر شد:. "این حیوان به چه جنس تعلق دارد؟
" نمونهای از تصویر از معیار چندوجهی CC BY 4. 0) Results ما LLMهای پیشرو را در مجموعه محک FACTS،.
که شامل FACTS Grounding v2 به روز شده است،. ارزیابی کردیم.
جدول زیر 15 مدل پیشرو و امتیاز کلی FACTS آنها را (به دنبال تجزیه امتیازات در چهار معیار. فردی:.
Grounding،. چندوجهی و عملکرد ProGme) فهرست میکند.
امتیاز FACTS 68. 8 ٪.
بهطور خاص، ما شاهد پیشرفتهای قابل توجهی از Gemini 2. 5 Pro به Gemini 3 Pro در بخشهای جستجو و پارامتریک بودیم.
که در آن میزان خطا در جستجوی FACTS 55 ٪ و برای FACTS Parametric 35 ٪ کاهش یافت. FACTS چندوجهی بهطور کلی کمترین امتیاز را داشت.
تمام مدلهای ارزیابیشده به دقت کلی زیر ۷۰ درصد دست یافتند،. فضای قابلتوجهی را برای پیشرفتهای آینده باقی میگذارند.
فراتر از مجموعه معیار FACTS،. بهبود واقعیت جمینی در معیار واقعی دیگر،.
SimpleQA Verified نیز منعکس شده است،. که از دقت ۵۴.
۵ درصد در Gemini 2. 5 Pro به 72.
1 درصد Procuracy میرسد. SimpleQA Verified دانش پارامتری LLM را در مورد پاسخهای فرم کوتاه آزمایش میکند.
نگاهی به آینده در حالی که واقعیت LLM هنوز حوزه تحقیقات در حال انجام است،. نتایج FACTS بنچمارک Suite و Gemini 3 Pro نماینده تعهد بلندمدت Google در جهت دسترسی جهانی و مفید.
به اطلاعات هستند. ما امیدواریم که این کار تحقیقات عمیقتری را در مورد واقعیت LLM تشویق کند،.
که منجر به مدلها و محصولات بهتر و دقیقتر شود برای افرادی که به آنها تکیه میکنند.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
