این evaluation guide توضیح میدهد چرا research agentها حتی با web search هنوز citation اشتباه میسازند و برای کاهش خطا باید version awareness، field validation و human verification در pipeline گنجانده شود.
در publishing workflow، خطر فقط hallucination محتوایی نیست؛ citation ناقص یا نادرست میتواند کل فرایند نگارش، بازبینی و استناد را آلوده کند، آن هم در حالی که خروجی در ظاهر حرفهای به نظر میرسد.
چرا این مسئله مهم است؟
اگر agent نام نویسنده، سال، venue یا DOI را غلط بسازد، reviewer یا پژوهشگر زمان زیادی را صرف اصلاح میکند و اعتماد به کل pipeline افت میکند. این نوع خطا مخصوصاً در تولید BibTeX و reference list پنهانتر است.
شاخصهایی که باید پایش شوند
- صحت fieldهای نویسنده، عنوان، سال، venue، DOI و URL
- version awareness بین preprint، نسخه conference و journal
- نرخ citationهای نیازمند اصلاح انسانی
- درصد citationهایی که منبع آنها واقعاً قابلبازیابی است
ریسک سوءتعبیر
- فرض اینکه web search بهتنهایی hallucination citation را حل میکند
- نبود validation rule برای fieldهای اجباری و قالب هر venue
- اتکا به sample کوچک و خوشساخت بهجای reference list واقعی
این سنجهها چه تصمیمی را تغییر میدهند؟
ارزیابی خوب فقط برای گزارش نیست؛ باید به تصمیم عملیاتی منتهی شود. یعنی مشخص کند آیا مدل باید عوض شود، thresholdها باید تنظیم شوند، human review باید بیشتر شود یا اصلاً use case باید محدودتر تعریف شود.
سناریوی تصمیم
در یک دستیار نگارش پژوهشی، agent ممکن است paper درست را پیدا کند اما نسخه غلط یا BibTeX ناقص آن را وارد متن کند؛ نتیجه نهایی برای نویسنده پرهزینه و برای تیم اعتبارسنجی زمانبر میشود.
جمعبندی اجرایی
اگر قرار است از این الگو در محصول یا تیم خود استفاده کنید، از یک دامنه محدود و قابلاندازهگیری شروع کنید. search-enabled agent هم میتواند citation غلط اما ظاهراً معتبر بسازد. خطاهای field-level از خود متن citation سختتر تشخیص داده میشوند. تفاوت بین محتوای خوب و سیستم قابلاتکا دقیقاً در همین فاصله است: اینکه ایده از سطح خلاصه یا demo عبور کند و به تصمیم عملیاتی قابلردیابی برسد.
قدم بعدی
قبل از استفاده production، یک validator لایهای بسازید: first-pass schema check، سپس source lookup، و در نهایت human spot check روی citationهای high-stakes.
