TL;DR
- مشاهده PDF HTML (تجربی) چکیده:.
- از آنجایی که مدلهای زبان بزرگ چندوجهی صوتی و تصویری (MLLM) به طور فزایندهای در برنامههای کاربردی حیاتی.
- به کار گرفته میشوند،.
چه اتفاقی افتاد
مشاهده PDF HTML (تجربی) چکیده:. از آنجایی که مدلهای زبان بزرگ چندوجهی صوتی و تصویری (MLLM) به طور فزایندهای در برنامههای کاربردی حیاتی.
به کار گرفته میشوند،. درک آسیبپذیریهای آنها بسیار مهم است.
برای این منظور،. ما تایپوگرافی چند وجهی را معرفی میکنیم،.
یک مطالعه سیستماتیک که بررسی میکند چگونه حملات تایپوگرافیک در چندین روش تأثیر نامطلوب بر MLLMها دارد. در حالی که کار قبلی به طور محدود بر حملات تکوجهی تمرکز میکند،.
ما شکنندگی چندوجهی MLLMها را آشکار میکنیم. ما تعاملات بین اغتشاشات صوتی،.
بصری و متنی را تجزیه و تحلیل میکنیم و نشان میدهیم که حمله چند وجهی هماهنگ،. تهدید بسیار قویتری نسبت به حملات تکوجهی ایجاد میکند (نرخ موفقیت حمله = 83.43$\%$ در مقابل $34.93\%$).
یافتههای ما در MLLMهای مرزی چندگانه،. وظایف،.
و تعیین تکلیفهای مبتنی بر تعدیل محتوایی مبتنی بر استدلال چندگانه استراتژی حمله بحرانی و ناشناخته در استدلال. چند وجهی کد و داده ها برای عموم در دسترس خواهد بود.
موضوعات:. بینایی کامپیوتری و تشخیص الگو (cs.CV)؛
صدا (cs.SD) استناد به عنوان:. arXiv:.
2604.03995 [cs.CV] (یا arXiv:. 2604.03995v1 [cs.CV] برای این نسخه) https:.
//doi.org/10.48550/arXiv.2604.03995 DOI صادر شده توسط arXiv از طریق DataCite (در انتظار ثبت نام) تاریخچه ارسال از:. Tianle Chen [مشاهده ایمیل] [v1] یکشنبه،.
5 آوریل 2026،. 06:.
32:. 08 UTC (19,.
955 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
