TL;DR
- چکیده:.
- از آنجایی که مدلهای زبان بزرگ چندوجهی صوتی و تصویری (MLLM) بهطور فزایندهای در برنامههای کاربردی حیاتی به.
- کار گرفته میشوند،.
چه اتفاقی افتاد
چکیده:. از آنجایی که مدلهای زبان بزرگ چندوجهی صوتی و تصویری (MLLM) بهطور فزایندهای در برنامههای کاربردی حیاتی به.
کار گرفته میشوند،. درک آسیبپذیریهای آنها بسیار مهم است.
برای این منظور،. ما تایپوگرافی چند وجهی را معرفی میکنیم،.
یک مطالعه سیستماتیک که بررسی میکند چگونه حملات تایپوگرافیک در چندین روش تأثیر نامطلوب بر MLLMها دارد. در حالی که کار قبلی بهطور محدود بر حملات تکوجهی تمرکز میکند،.
ما شکنندگی چندوجهی MLLMها را آشکار میکنیم. ما تعاملات بین اغتشاشات صوتی،.
بصری و متنی را تجزیه و تحلیل میکنیم و نشان میدهیم که حمله چند وجهی هماهنگ،. تهدید بسیار قویتری نسبت به حملات تکوجهی ایجاد میکند (نرخ موفقیت حمله = 83.
43$\%$ در مقابل $34. 93\%$).
یافتههای ما در MLLMهای مرزی چندگانه،. وظایف،.
و تعیین تکلیفهای مبتنی بر تعدیل محتوایی مبتنی بر استدلال چندگانه استراتژی حمله بحرانی و ناشناخته در استدلال. چند وجهی کد و دادهها برای عموم در دسترس خواهد بود.
بینایی کامپیوتری و تشخیص الگو (cs. CV)؛ صدا (cs.
SD) استناد بهعنوان: (یا v1 [cs. CV] برای این نسخه) https:.
// شده توسط arXiv از طریق DataCite (در انتظار ثبت نام) تاریخچه ارسال از:. Tianle Chen [مشاهده ایمیل] [v1] یکشنبه،.
5 آوریل 2026،. 06:.
32:. 08 UTC (19,.
955 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
