هوش گیتهوش گیترسانه، شبکه و یادگیری AI
/ ⌘K
ورود
/ ⌘K
خانهشبکهیادگیریپروژه‌ها
هوش گیتهوش گیترسانه، شبکه و یادگیری AI
صفحه اصلیشبکهاخبارپژوهشابزارهایادگیریفضاها
/ ⌘K
ورود

دسترسی سریع

دسترسی سریع تحریریه

خبرها، موضوعات، حساب کاربری و تنظیمات مطالعه همیشه در سمت راست در دسترس‌اند.

حساب کاربری

ورود سریع به حساب و ابزارهای شخصی‌سازی

ورود

با حساب کاربری، اعلان‌ها، ذخیره‌سازی خبرها و سطح مطالعه شخصی را فعال می‌کنید.

صفحه اصلیشبکهاخبارپژوهشابزارهایادگیریفضاهاچهره‌های تخصصیسیاست‌گذاریامنیترویدادهافرصت‌های شغلیسرگرمیپروژه‌هاموضوعات
مرور موضوعات
همه
تم
درباره ماحریم خصوصیتماس با ما

مالکیت و پشتیبانی

شبکه هوشمند ابتکار ویستا

هوش‌گیت به‌عنوان رسانه و لایه دانشی این شرکت، با تمرکز بر خبر، یادگیری، همکاری حرفه‌ای و محصول‌های هوش مصنوعی توسعه داده می‌شود. تمامی حقوق مالکیت و کپی‌رایت این وب‌سایت متعلق به شبکه هوشمند ابتکار ویستا است.

این شرکت به‌صورت تخصصی در حوزه هوش مصنوعی، ساخت پلتفرم‌های AI، سامانه‌های مبتنی بر LLM، تحلیل داده، طراحی تجربه دانشی و توسعه زیرساخت‌های حرفه‌ای برای تیم‌های سازمانی فعالیت می‌کند.

مالکیت: شبکه هوشمند ابتکار ویستامدیرعامل: مسعود بخشی۰۹۱۲۴۷۳۳۲۳۴Devcodebase.dev@gmail.comHooshgate@gmail.comDevcodebase.com
v0.1.0 · dev · unset/api/version
آخرین خبرهاآموزشپریمیومدرباره ماتماس با ماحریم خصوصیقوانین استفادهکوکی‌هاسیاست تحریریه
خانهشبکهیادگیریپروژه‌هاپروفایل
  1. خانه
  2. /
  3. اخبار
  4. /
  5. وقتی سینک ها کمک می کنند یا آسیب می رسانند: چارچوب یکپارچه برای کاهش توجه در مدل های بزرگ بینایی-زبان
arXiv (cs.CV)معتبر1405/01/18 04:00زیرساخت و محاسبات

وقتی سینک ها کمک می کنند یا آسیب می رسانند: چارچوب یکپارچه برای کاهش توجه در مدل های بزرگ بینایی-زبان

سینک‌های ViT-emerged (V-sinks)،. arXiv:. 2604.03316 [cs.CV] (یا arXiv:.

منبع: arXiv (cs.CV)

زیرساخت و محاسباتآموزش و یادگیریپژوهش پیشرفته
نسخه مطالعهعمومی
منبعarXiv (cs.CV)
انتشار1405/01/18 04:00
سطح مطالعه
اشتراک در تلگرام
وقتی سینک ها کمک می کنند یا آسیب می رسانند: چارچوب یکپارچه برای کاهش توجه در مدل های بزرگ بینایی-زبان

راهنمای مطالعه

منبع اصلی، تاریخ فارسی و شاخص‌های سریع این خبر.

رفتن به منبع
تاریخ فارسی1405/01/18 04:00
داستانمستقل

نکات کلیدی

این باکس براساس سطح مطالعه شما (عمومی) تنظیم شده است.

  • (تجربی) .
  • سینک های توجه به عنوان نشانه هایی تعریف می شوند که توجه نامتناسبی را به خود جلب می.
  • در حالی که اینها در ترانسفورماتورهای تک مدالی مورد مطالعه قرار گرفته اند،.
  • تاثیر متقابل آنها در مدل های زبان بینایی بزرگ (LVLM) تا حد زیادی ناشناخته باقی مانده است:.
  • آیا آنها مصنوعات اضافی هستند یا اولویت های اساسی جهانی؟
  • این مقاله ابتدا سینک های بصری را به دو دسته مجزا دسته بندی می کند:.
  • سینک های ViT-emerged (V-sinks)،.
  • که از رمزگذار بینایی منتشر می شوند،.

فهرست مطالب

  1. TL;DR
  2. چه اتفاقی افتاد
  3. چرا مهم است
  4. منبع

سیگنال تعامل

بازدید۰
کلیک۰
امتیاز0.00
دیدگاه۰

TL;DR

  • مشاهده PDF HTML (تجربی) چکیده:.
  • سینک های توجه به عنوان نشانه هایی تعریف می شوند که توجه نامتناسبی را به خود جلب می.
  • در حالی که اینها در ترانسفورماتورهای تک مدالی مورد مطالعه قرار گرفته‌اند،.

چه اتفاقی افتاد

مشاهده PDF HTML (تجربی) چکیده:. سینک های توجه به عنوان نشانه هایی تعریف می شوند که توجه نامتناسبی را به خود جلب می.

کنند. در حالی که اینها در ترانسفورماتورهای تک مدالی مورد مطالعه قرار گرفته‌اند،.

تاثیر متقابل آنها در مدل‌های زبان بینایی بزرگ (LVLM) تا حد زیادی ناشناخته باقی مانده است:. آیا آنها مصنوعات اضافی هستند یا اولویت‌های اساسی جهانی؟

این مقاله ابتدا سینک‌های بصری را به دو دسته مجزا دسته‌بندی می‌کند:. سینک‌های ViT-emerged (V-sinks)،.

که از رمزگذار بینایی منتشر می‌شوند،. و سینک‌های پدید آمده از LLM (L-sinks)،.

که در لایه‌های عمیق LLM ایجاد می‌شوند. بر اساس تعریف جدید،.

تجزیه و تحلیل ما یک مبادله عملکرد اساسی را نشان می‌دهد:. در حالی که سینک‌ها به طور موثر پیشینیان سطح صحنه جهانی را رمزگذاری می‌کنند،.

تسلط آنها می‌تواند شواهد بصری دقیق مورد نیاز برای ادراک محلی را سرکوب کند. علاوه بر این،.

ما لایه‌های کاربردی خاصی را شناسایی می‌کنیم که تعدیل این سینک‌ها به طور قابل‌توجهی در پایین دست تأثیر. می‌گذارد عملکرد برای استفاده از این بینش ها،.

ما Layer-wise Sink Gating (LSG) را پیشنهاد می کنیم،. یک ماژول سبک وزن و plug-and-play که به صورت پویا سهم توجه V-sink و بقیه نشانه های بصری.

را کاهش می دهد. LSG از طریق پیش‌بینی نشانه‌های بعدی استاندارد آموزش داده می‌شود و نیازی به نظارت ویژه کار ندارد در.

حالی که ستون فقرات LVLM را ثابت نگه می‌دارد. در بیشتر لایه‌ها،.

LSG بهبودهایی را در معیارهای چندوجهی نشان می‌دهد،. که به طور موثر استدلال جهانی و شواهد محلی دقیق را متعادل می‌کند.

نظرات:. پیش چاپ موضوعات:.

بینایی کامپیوتری و تشخیص الگو (cs.CV) استناد به عنوان:. arXiv:.

2604.03316 [cs.CV] (یا arXiv:. 2604.03316v1 [cs.CV] برای این نسخه) https:.

//doi.org/10.48550/arXiv.2604.03316 DOI صادر شده توسط arXiv از طریق DataCite (در انتظار ثبت نام) تاریخچه ارسال از:. Jiho Choi [مشاهده ایمیل] [v1] چهارشنبه،.

1 آوریل 2026،. 09:.

59:. 09 UTC (6,.

240 KB).

چرا مهم است

اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیم‌گیری سازمانی اثر می‌گذارد.

منبع

لینک منبع اصلی در کارت و صفحه مقاله نمایش داده می‌شود.

تعامل کاربران و کیفیت خبر

امتیاز بدهید، نظر ثبت کنید یا اگر خطایی دیدید گزارش اصلاح بفرستید.

بازدید

۰

کلیک روی خبر

۰

امتیاز میانگین

0.00 / 5

دیدگاه تایید شده

۰

امتیاز شما به خبر

هنوز امتیاز نداده‌اید.

واکنش سریع به خبر

به‌جای لایک کلی، نوع برداشت خودتان را مشخص کنید.

ثبت دیدگاه

گزارش اصلاح یا بهبود

آخرین دیدگاه‌ها

هنوز دیدگاهی ثبت نشده است.

مقایسه سه سطح مطالعه

برای همین خبر، نسخه ساده، عمومی و تخصصی کنار هم خلاصه شده‌اند.

ساده

۲٬۰۷۰ کاراکتر

سینک‌های ViT-emerged (V-sinks)،. arXiv:. 2604.03316 [cs.CV] (یا arXiv:.

  • (تجربی) .
  • سینک های توجه به عنوان نشانه هایی تعریف می شوند که توجه.
  • نامتناسبی را به خود جلب می کنند.
  • در حالی که اینها در ترانسفورماتورهای تک مدالی مورد مطالعه قرار گرفته اند،.

عمومی

۲٬۱۳۱ کاراکتر

سینک‌های ViT-emerged (V-sinks)،. arXiv:. 2604.03316 [cs.CV] (یا arXiv:.

  • (تجربی) .
  • سینک های توجه به عنوان نشانه هایی تعریف می شوند که توجه نامتناسبی را به خود جلب می.
  • در حالی که اینها در ترانسفورماتورهای تک مدالی مورد مطالعه قرار گرفته اند،.
  • تاثیر متقابل آنها در مدل های زبان بینایی بزرگ (LVLM) تا حد زیادی ناشناخته باقی مانده است:.

تخصصی

۲٬۲۱۹ کاراکتر

سینک‌های ViT-emerged (V-sinks)،. arXiv:. 2604.03316 [cs.CV] (یا arXiv:.

  • (تجربی) سینک های توجه به عنوان نشانه هایی تعریف می شوند که توجه نامتناسبی را به خود جلب می کنند.
  • در حالی که اینها در ترانسفورماتورهای تک مدالی مورد مطالعه قرار گرفته اند،.
  • تاثیر متقابل آنها در مدل های زبان بینایی بزرگ (LVLM) تا حد زیادی ناشناخته باقی مانده است:.
  • آیا آنها مصنوعات اضافی هستند یا اولویت های اساسی جهانی؟

هایلایت‌ها و یادداشت‌ها

متن دلخواه را در خبر انتخاب کنید و با یک کلیک هایلایت بزنید. فقط برای شما قابل مشاهده است.

برای استفاده از هایلایت و یادداشت، وارد حساب کاربری شوید.

منابع اولیه

لینک‌های اصلی این خبر، شامل منبع اصلی و ارجاع‌های claim panel.

  • https://arxiv.org/abs/2604.03316v1
  • https://arxiv.org/list/cs.CV/recent

پست‌های مرتبط نبض هوش

چهره‌های تخصصی Hooshgate این خبر را از زاویه نقش و تخصص خودشان تحلیل کرده‌اند.

رفتن به شبکه

هنوز پست تخصصی برای این خبر منتشر نشده است.

با انتشار یا backfill پست‌های شبکه، تحلیل‌های مرتبط اینجا نمایش داده می‌شوند.

خبرهای مرتبط

خبرهای نزدیک به همین موضوع برای ادامه مطالعه.

رویدادهای آیندهNIST AIهوش مصنوعی متا EUPE را منتشر کرد: خانواده رمزگذار دید فشرده با پارامترهای 100 میلیونی که با مدل‌های تخصصی در درک تصویر، پیش‌بینی متراکم و وظایف VLM رقابت می‌کند.MarkTechPostتجزیه و تحلیل خودکار ابتکارات جهانی ایمنی هوش مصنوعی: یک رویکرد LLM مبتنی بر طبقه بندیarXiv (cs.AI)توهم چه زمانی ایجاد می شود؟ دیدگاه نموداری در مورد تکامل استفاده مجدد از مسیر و فشرده سازی مسیرarXiv (cs.AI)

بعدش چی بخونم؟

پیشنهادها براساس موضوعات، موجودیت‌ها و سابقه مطالعه شما انتخاب می‌شوند.

وقتی پاداش‌های تطبیقی ​​صدمه می‌زنند: بررسی علّی و معضل تغییر-پایداری در برنامه‌ریزی ماهواره‌ای LEO با هدایت LLMarXiv (cs.AI)وزن های پاداش تقریباً ثابت (342.1 مگابیت در ثانیه) از وزن های دینامیکی که با دقت تنظیم شده اند (103.3+/-96.8 مگابیت. در ثانیه) به...رویدادهای آیندهNIST AI7 آوریل 2026،. 13 آوریل - سه،. (2023) و Technische هوش مصنوعی برای علم مواد (AIMS) 2026 سه شنبه،.هوش مصنوعی متا EUPE را منتشر کرد: خانواده رمزگذار دید فشرده با پارامترهای 100 میلیونی که با مدل‌های تخصصی در درک تصویر، پیش‌بینی متراکم و وظایف VLM رقابت می‌کند.MarkTechPostRADIOv2.5-B،. نوع مقیاس ViT-B،. EUPE-ViT-B انسجام معنایی،.تجزیه و تحلیل خودکار ابتکارات جهانی ایمنی هوش مصنوعی: یک رویکرد LLM مبتنی بر طبقه بندیarXiv (cs.AI)ارزیابی انسانی توسط سه کارشناس روی دو جفت سند،. هوش مصنوعی (cs.AI) استناد به عنوان:. 2604.03533 [cs.AI] (یا arXiv:.StoryBlender: استوری‌بورد سه‌بعدی سازگار و قابل ویرایش Inter-Shot با دینامیک مکانی-زمانیarXiv (cs.CV)(1) زمینه سازی معنایی فضایی،. arXiv:. 2604.03315 [cs.CV] (یا arXiv:.
دسته‌های مرتبط:خبرپژوهشسرگرمی
برچسب‌ها:RAGComputeNLPVisionLLM
فهرست خبرها