TL;DR
- v3 نوع اعلام:.
- جایگزینی متقاطع چکیده:.
- همانطور که مدلهای زبان بزرگ (LLM) در وظایف نقشآفرینی (RP) پیشرفت میکنند،.
چه اتفاقی افتاد
v3 نوع اعلام:. جایگزینی متقاطع چکیده:.
همانطور که مدلهای زبان بزرگ (LLM) در وظایف نقشآفرینی (RP) پیشرفت میکنند،. معیارهای موجود به دلیل دامنه محدود،.
پارادایمهای تعامل منسوخ و سازگاری محدود در سناریوهای کاربردی متنوع به سرعت منسوخ میشوند. برای رفع این شکاف،.
FURINA-Builder را معرفی میکنیم،. یک خط لوله همکاری چند عامله جدید که بهطور خودکار معیارهای RP کاملاً قابل تنظیم در هر مقیاسی.
را ایجاد میکند. این امکان ارزیابی کاراکترهای دلخواه را در سناریوهای مختلف و قالبهای سریع،.
بهعنوان اولین سازنده معیار در منطقه RP برای ارزیابی قابل تطبیق،. فراهم میکند.
FURINA-Builder دیالوگهای بین یک شخصیت آزمایشی و شخصیتهای دیگر را شبیهسازی میکند،. در حالی که یک داور LLM،.
ابعاد ارزیابی دقیق را انتخاب میکند و پاسخهای شخصیت آزمایشی را در گفتارهای آزمایشی نهایی تنظیم میکند. با استفاده از این خط لوله،.
ما FURINA-Bench را میسازیم،. یک معیار جامع نقشآفرینی جدید که دارای شخصیتهای آزمایشی تثبیتشده و ترکیبشده است،.
که هر کدام با معیارهای ارزیابی ابعادی خاص ارزیابی میشوند. ارزیابی انسانی و تجزیه و تحلیل اولیه تفکیک پذیری خط لوله و طراحی معیار ما را توجیه می.
کند. ما ارزیابیهای گستردهای از LLMهای پیشرفته انجام میدهیم و متوجه میشویم که o3 و DeepSeek-R1 به ترتیب بهترین.
عملکرد را در وظایف انگلیسی و چینی RP دارند. در تمام مدلها،.
کاراکترهای تثبیتشده بهطور مداوم از شخصیتهای ترکیبشده بهتر عمل میکنند،. با قابلیتهای استدلالی که این اختلاف را بیشتر تقویت میکند.
جالب توجه است، ما مشاهده میکنیم که مقیاس مدل بهطور یکنواخت توهمات را کاهش نمیدهد. انتقادیتر،.
برای استدلال LLMها،. ما یک مبادله جدید را کشف میکنیم:.
استدلال عملکرد RP را بهبود میبخشد اما همزمان توهمات RP را افزایش میدهد. این مبادله به مرز وسیعتری پارتو بین گسترش مییابد عملکرد و قابلیت اطمینان RP برای همه.
LLMها. این یافتهها اثربخشی FURINA-Builder و چالش ایجاد شده توسط FURINA-Bench را نشان میدهد.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
