TL;DR
- مشاهده PDF HTML (تجربی) چکیده:.
- تشخیص خشونت از صدا سود میبرد،.
- اما مناظر صوتی دنیای واقعی میتوانند نویز داشته باشند یا با صحنه قابل مشاهده ارتباط ضعیفی داشته باشند.
چه اتفاقی افتاد
مشاهده PDF HTML (تجربی) چکیده:. تشخیص خشونت از صدا سود میبرد،.
اما مناظر صوتی دنیای واقعی میتوانند نویز داشته باشند یا با صحنه قابل مشاهده ارتباط ضعیفی داشته باشند. ما CoLoRSMamba را ارائه میکنیم،.
یک معماری چندوجهی ویدیو به صوتی جهتدار که VideoMamba و AudioMamba را از طریق LoRA شرطی هدایتشده توسط. CLS جفت میکند.
در هر لایه،. توکن VideoMamba CLS یک بردار مدولاسیون کانال و یک دروازه تثبیت ایجاد میکند که پیشبینیهای AudioMamba مسئول پارامترهای.
فضای حالت انتخابی (دلتا،. B،.
C)،. از جمله مسیر اندازه گام را تطبیق میدهد،.
که پویایی صوتی آگاه از صحنه را بدون توجه متقابل در سطح نشانه ایجاد میکند. آموزش،.
طبقهبندی باینری را با هدف متقارن AV-InfoNCE ترکیب میکند که جاسازیهای صوتی و تصویری در سطح کلیپ را. تراز میکند.
برای حمایت از ارزیابی چندوجهی منصفانه،. ما زیرمجموعههای سطح کلیپ فیلتر شده صوتی مجموعهدادههای NTU-CCTV و DVD را از حالت موقت انتخاب میکنیم.
حاشیه نویسی، فقط کلیپ هایی با صدای موجود را حفظ می کند. در این زیرمجموعه ها،.
CoLoRSMamba از خطوط پایه فقط صوتی،. فقط ویدیویی و چندوجهی بهتر عمل می کند و به دقت 88.63٪ / 86.24٪ F1-V در NTU-CCTV و.
75.77٪ دقت / 72.94٪ F1-V در DVD دست می یابد. علاوه بر این،.
یک معاوضه دقت و کارایی مطلوب را ارائه می دهد،. و از چندین مدل بزرگتر با پارامترها و FLOP کمتر پیشی می گیرد.
موضوعات:. بینایی کامپیوتری و تشخیص الگو (cs.CV)؛
هوش مصنوعی (cs.AI)؛ یادگیری ماشین (cs.LG)؛
صدا (cs.SD) استناد به عنوان:. arXiv:.
2604.03329 [cs.CV] (یا arXiv:. 2604.03329v1 [cs.CV] برای این نسخه) https:.
//doi.org/10.48550/arXiv.2604.03329 DOI صادر شده توسط arXiv از طریق DataCite (در انتظار ثبت نام) تاریخچه ارسال از:. Damith Chamalke Senadeera Mr [مشاهده ایمیل] [v1] پنجشنبه،.
2 آوریل 2026،. ساعت 22:.
14:. 25 UTC (10,.
409 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
