TL;DR
- چکیده:.
- سینکهای توجه بهعنوان نشانههایی تعریف میشوند که توجه نامتناسبی را به خود جلب میکنند.
- در حالی که اینها در ترانسفورماتورهای تک مدالی مورد مطالعه قرار گرفتهاند،.
چه اتفاقی افتاد
چکیده:. سینکهای توجه بهعنوان نشانههایی تعریف میشوند که توجه نامتناسبی را به خود جلب میکنند.
در حالی که اینها در ترانسفورماتورهای تک مدالی مورد مطالعه قرار گرفتهاند،. تاثیر متقابل آنها در مدلهای زبان بینایی بزرگ (LVLM) تا حد زیادی ناشناخته باقی مانده است:.
آیا آنها مصنوعات اضافی هستند یا اولویتهای اساسی جهانی؟ این مقاله ابتدا سینکهای بصری را به دو دسته مجزا دستهبندی میکند:.
سینکهای ViT-emerged (V-sinks)،. که از رمزگذار بینایی منتشر میشوند،.
و سینکهای پدید آمده از LLM (L-sinks)،. که در لایههای عمیق LLM ایجاد میشوند.
بر اساس تعریف جدید،. تجزیه و تحلیل ما یک مبادله عملکرد اساسی را نشان میدهد:.
در حالی که سینکها بهطور موثر پیشینیان سطح صحنه جهانی را رمزگذاری میکنند،. تسلط آنها میتواند شواهد بصری دقیق مورد نیاز برای ادراک محلی را سرکوب کند.
علاوه بر این،. ما لایههای کاربردی خاصی را شناسایی میکنیم که تعدیل این سینکها بهطور قابلتوجهی در پایین دست تأثیر میگذارد.
عملکرد برای استفاده از این بینشها،. ما Layer-wise Sink Gating (LSG) را پیشنهاد میکنیم،.
یک ماژول سبک وزن و plug-and-play که به صورت پویا سهم توجه V-sink و بقیه نشانههای بصری. را کاهش میدهد.
LSG از طریق پیشبینی نشانههای بعدی استاندارد آموزش داده میشود و نیازی به نظارت ویژه کار ندارد در. حالی که ستون فقرات LVLM را ثابت نگه میدارد.
در بیشتر لایهها،. LSG بهبودهایی را در معیارهای چندوجهی نشان میدهد،.
که بهطور موثر استدلال جهانی و شواهد محلی دقیق را متعادل میکند. پیش چاپ بینایی کامپیوتری و تشخیص الگو (cs.
CV) استناد بهعنوان: (یا v1 [cs. CV] برای این نسخه) https:.
// شده توسط arXiv از طریق DataCite (در انتظار ثبت نام) تاریخچه ارسال از:. Jiho Choi [مشاهده ایمیل] [v1] چهارشنبه،.
1 آوریل 2026،. 09:.
59:. 09 UTC (6,.
240 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
