TL;DR
- v1 نوع اعلام:.
- جدید چکیده:.
- در بسیاری از استقرارهای عملی LLM،.
چه اتفاقی افتاد
v1 نوع اعلام:. جدید چکیده:.
در بسیاری از استقرارهای عملی LLM،. یک نرده محافظ واحد برای تعدیل سریع و پاسخ استفاده میشود.
تعدیل سریع بر روی متن کاملاً مشاهده شده عمل میکند،. در حالی که تعدیل پاسخ جریانی مستلزم اتخاذ تصمیمات ایمنی در طول نسلهای جزئی است.
نردههای محافظ جریان مبتنی بر متن موجود معمولاً این مشکل سمت خروجی را بهعنوان تشخیص مرز،. مدلهای آموزشی برای شناسایی اولیهترین پیشوندی که در آن پاسخ قبلاً ناامن شده است،.
قاب میکنند. در این کار،.
StreamGuard را معرفی میکنیم،. یک نرده محافظ جریان یکپارچه مدل-آگنوستیک که در عوض اعتدال را بهعنوان یک مشکل پیشبینی فرموله میکند:.
با توجه به یک پیشوند جزئی،. مدل مضرات مورد انتظار ادامههای احتمالی آینده را پیشبینی میکند.
ما بر این پیشبینی با استفاده از برنامههای مونت کارلو نظارت میکنیم،. که مداخله زودهنگام را بدون نیاز به حاشیهنویسی دقیق مرزی در سطح نشانه امکانپذیر میسازد.
در معیارهای استاندارد ایمنی، StreamGuard هم برای تعدیل ورودی و هم برای تعدیل خروجی جریان عملکرد قوی دارد. در مقیاس 8B، StreamGuard میزان ورودی-اعتدال انبوه F1 را از 86.
7 به 88. 2 و خروجی-اعتدال جریان جمعی F1 را از 80.
4 به 81. 9 نسبت به Qwen3Guard-Stream-8B-strict بهبود میبخشد.
در معیار استریم QWENGUARDTEST answer_loc، StreamGuard به 97. 5 F1، 95.
1 فراخوان و 92. 6 درصد مداخله به موقع میرسد، در مقایسه با 95.
9 F1، 92. 1 فراخوان، و 89.
9 درصد برای Qwen3Guard-Stream، در حالی که 9. 9% از دست رفته به 8B را کاهش میدهد.
4. 9 درصد ما همچنین نشان میدهیم که نظارت مبتنی بر پیشبینی بهطور مؤثری بین توکنسازها و خانوادههای مدل.
انتقال مییابد:. با اهداف انتقالیافته،.
Gemma3-StreamGuard-1B به 81. 3 F1 با تعدیل پاسخ، 98.
2 جریان F1 و نرخ 3. 5 درصد از دست دادن میرسد.
این نتایج نشان میدهد که بدون آن میتوان به اعتدال جریانهای سرتاسر قوی دست یافت ی مرزی دقیق،. و اینکه پیشبینی ریسک آینده یک استراتژی نظارتی مؤثر برای مداخله ایمنی کم تأخیر است.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
