TL;DR
- مشاهده PDF HTML (تجربی) چکیده:.
- پیشرفتهای اخیر در تولید ویدیو قابل توجه بوده است و مدلها را قادر میسازد تا ویدیوهای بصری جذابی.
- را با صدای همگامسازی شده تولید کنند.
چه اتفاقی افتاد
مشاهده PDF HTML (تجربی) چکیده:. پیشرفتهای اخیر در تولید ویدیو قابل توجه بوده است و مدلها را قادر میسازد تا ویدیوهای بصری جذابی.
را با صدای همگامسازی شده تولید کنند. در حالی که معیارهای تولید ویدیوی موجود معیارهای جامعی را برای کیفیت بصری ارائه می دهند،.
آنها فاقد ارزیابی قانع کننده برای تولید صوتی-تصویری هستند،. به ویژه برای مدل هایی که هدفشان تولید خروجی های صوتی-تصویری هماهنگ است.
برای رفع این شکاف،. VABench را معرفی میکنیم،.
یک چارچوب معیار جامع و چند بعدی که برای ارزیابی سیستماتیک قابلیتهای تولید همزمان صوتی و تصویری طراحی. شده است.
VABench شامل سه نوع کار اصلی است:. متن به صوتی-تصویری (T2AV)،.
تصویر به صوتی-تصویری (I2AV) و تولید صوتی و تصویری استریو. همچنین دو ماژول ارزیابی اصلی را ایجاد می کند که 15 بعد را پوشش می دهد.
این ابعاد به طور خاص شباهت های زوجی را ارزیابی می کنند (متن-ویدئو،. متن-صوت،.
ویدئو-صوت)،. همگام سازی صوتی-تصویری،.
یکنواختی لب-گفتار،. و جفت های پاسخگویی صوتی و تصویری (QA) با دقت تنظیم شده،.
و غیره. علاوه بر این،.
VABench هفت دسته محتوای اصلی را پوشش می دهد:. حیوانات،.
صداهای انسان،. موسیقی،.
صداهای محیطی،. صداهای فیزیکی همزمان،.
صحنه های پیچیده و جهان های مجازی. ما یک تجزیه و تحلیل سیستماتیک و تجسم نتایج ارزیابی را ارائه می کنیم،.
با هدف ایجاد استاندارد جدیدی برای ارزیابی مدل های تولید ویدیو با قابلیت های صوتی همزمان و ترویج. پیشرفت همه جانبه این زمینه.
نظرات:. 24 صفحه،.
25 شکل موضوعات:. بینایی کامپیوتری و تشخیص الگو (cs.CV)؛
صدا (cs.SD) استناد به عنوان:. arXiv:.
2512.09299 [cs.CV] (یا arXiv:. 2512.09299v2 [cs.CV] برای این نسخه) https:.
//doi.org/10.48550/arXiv.2512.09299 DOI صادر شده توسط arXiv از طریق DataCite تاریخچه ارسال از:. Bohan Zeng [مشاهده ایمیل] [v1] چهارشنبه،.
10 دسامبر 2025،. 03:.
57:. 29 UTC (13,.
374 KB) [v2] دوشنبه،. 6 آوریل 2026،.
13:. 16:.
33 UTC (12,. 297 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
