TL;DR
- مشاهده PDF HTML (تجربی) چکیده:.
- سینک های توجه به عنوان نشانه هایی تعریف می شوند که توجه نامتناسبی را به خود جلب می.
- در حالی که اینها در ترانسفورماتورهای تک مدالی مورد مطالعه قرار گرفتهاند،.
چه اتفاقی افتاد
مشاهده PDF HTML (تجربی) چکیده:. سینک های توجه به عنوان نشانه هایی تعریف می شوند که توجه نامتناسبی را به خود جلب می.
کنند. در حالی که اینها در ترانسفورماتورهای تک مدالی مورد مطالعه قرار گرفتهاند،.
تاثیر متقابل آنها در مدلهای زبان بینایی بزرگ (LVLM) تا حد زیادی ناشناخته باقی مانده است:. آیا آنها مصنوعات اضافی هستند یا اولویتهای اساسی جهانی؟
این مقاله ابتدا سینکهای بصری را به دو دسته مجزا دستهبندی میکند:. سینکهای ViT-emerged (V-sinks)،.
که از رمزگذار بینایی منتشر میشوند،. و سینکهای پدید آمده از LLM (L-sinks)،.
که در لایههای عمیق LLM ایجاد میشوند. بر اساس تعریف جدید،.
تجزیه و تحلیل ما یک مبادله عملکرد اساسی را نشان میدهد:. در حالی که سینکها به طور موثر پیشینیان سطح صحنه جهانی را رمزگذاری میکنند،.
تسلط آنها میتواند شواهد بصری دقیق مورد نیاز برای ادراک محلی را سرکوب کند. علاوه بر این،.
ما لایههای کاربردی خاصی را شناسایی میکنیم که تعدیل این سینکها به طور قابلتوجهی در پایین دست تأثیر. میگذارد عملکرد برای استفاده از این بینش ها،.
ما Layer-wise Sink Gating (LSG) را پیشنهاد می کنیم،. یک ماژول سبک وزن و plug-and-play که به صورت پویا سهم توجه V-sink و بقیه نشانه های بصری.
را کاهش می دهد. LSG از طریق پیشبینی نشانههای بعدی استاندارد آموزش داده میشود و نیازی به نظارت ویژه کار ندارد در.
حالی که ستون فقرات LVLM را ثابت نگه میدارد. در بیشتر لایهها،.
LSG بهبودهایی را در معیارهای چندوجهی نشان میدهد،. که به طور موثر استدلال جهانی و شواهد محلی دقیق را متعادل میکند.
نظرات:. پیش چاپ موضوعات:.
بینایی کامپیوتری و تشخیص الگو (cs.CV) استناد به عنوان:. arXiv:.
2604.03316 [cs.CV] (یا arXiv:. 2604.03316v1 [cs.CV] برای این نسخه) https:.
//doi.org/10.48550/arXiv.2604.03316 DOI صادر شده توسط arXiv از طریق DataCite (در انتظار ثبت نام) تاریخچه ارسال از:. Jiho Choi [مشاهده ایمیل] [v1] چهارشنبه،.
1 آوریل 2026،. 09:.
59:. 09 UTC (6,.
240 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
