TL;DR
- چکیده:.
- تزریق سریع بهعنوان یک آسیب پذیری حیاتی در استقرار مدل زبان بزرگ (LLM) پدیدار شده است،.
- با این حال تحقیقات موجود به شدت به سمت دفاع اهمیت میدهند.
چه اتفاقی افتاد
چکیده:. تزریق سریع بهعنوان یک آسیب پذیری حیاتی در استقرار مدل زبان بزرگ (LLM) پدیدار شده است،.
با این حال تحقیقات موجود به شدت به سمت دفاع اهمیت میدهند. سمت حمله - بهطور خاص،.
اینکه کدام استراتژیهای تزریق مؤثرتر هستند و چرا - به اندازه کافی این URL http با AttackEval،. یک مطالعه تجربی سیستماتیک از اثربخشی حمله تزریق سریع،.
به این شکاف رسیدگی نمیکند. ما یک طبقهبندی از ده دسته حمله دهیشده در سه گروه والد (نحوی،.
متنی،. و معنایی/اجتماعی) ایجاد میکنیم،.
هر دسته را با 25 دستور با دقت ساخته شده (در مجموع 250) پر میکنیم و آنها را. در برابر یک سیستم قربانی تولید شبیهسازی شده تحت چهار لایه دفاعی قویتر ارزیابی میکنیم.
آزمایشها چندین یافته غیر واضح را نشان میدهند:. (1) مبهمسازی (OBF) به بالاترین میزان موفقیت در یک حمله (ASR = 0.
76) در برابر حتی آگاهانه از قصد دست مییابد. دفاع، زیرا هم تطبیق و هم بررسی شباهت معنایی را بهطور همزمان شکست میدهد.
(2) حملات معنایی/اجتماعی - دستکاری عاطفی (EM) و چارچوببندی پاداش (RF) - ASR بالا (0. 44-0.
48) را در برابر دفاعهای آگاهانه به دلیل سطح زبان طبیعی خود حفظ میکنند،. که از تشخیص ناهنجاری ساختاری فرار میکند.
(3) حملات مرکب با ترکیب دو استراتژی مکمل بهطور چشمگیری ASR را تقویت میکند،. با جفت OBF + EM به 97.
6 ٪ میرسد. (4) مخفی کاری با ASR باقیمانده در برابر دفاع معنایی همبستگی مثبت دارد (r = 0.
71)،. به این معنی که دفاعهای آینده باید بهطور مشترک برای سیگنالهای ساختاری و رفتاری بهینه شوند.
یافتههای ما نقاط کور بتنی در دفاعهای فعلی را شناسایی کرده و راهنماییهای عملی برای طراحی سیستمهای ایمنی. LLM قویتر ارائه میدهد.
رمزنگاری و امنیت (cs. CR) استناد بهعنوان: (یا v1 [cs.
CR] برای این نسخه) https:. // شده توسط arXiv از طریق DataCite (در انتظار ثبت نام) تاریخچه ارسال از:.
Mengxiao Wang [مشاهده ایمیل] [v1] شنبه،. 4 آوریل 2026،.
05:. 49:.
30 UTC (124 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
