هوش گیتهوش گیترسانه، شبکه و یادگیری AI
/ ⌘K
ورود
/ ⌘K
خانهشبکهیادگیریپروژه‌ها
هوش گیتهوش گیترسانه، شبکه و یادگیری AI
صفحه اصلیشبکهاخبارپژوهشابزارهایادگیریفضاها
/ ⌘K
ورود

دسترسی سریع

دسترسی سریع تحریریه

خبرها، موضوعات، حساب کاربری و تنظیمات مطالعه همیشه در سمت راست در دسترس‌اند.

حساب کاربری

ورود سریع به حساب و ابزارهای شخصی‌سازی

ورود

با حساب کاربری، اعلان‌ها، ذخیره‌سازی خبرها و سطح مطالعه شخصی را فعال می‌کنید.

صفحه اصلیشبکهاخبارپژوهشابزارهایادگیریفضاهاچهره‌های تخصصیسیاست‌گذاریامنیترویدادهافرصت‌های شغلیسرگرمیپروژه‌هاموضوعات
مرور موضوعات
همه
تم
درباره ماحریم خصوصیتماس با ما

مالکیت و پشتیبانی

شبکه هوشمند ابتکار ویستا

هوش‌گیت به‌عنوان رسانه و لایه دانشی این شرکت، با تمرکز بر خبر، یادگیری، همکاری حرفه‌ای و محصول‌های هوش مصنوعی توسعه داده می‌شود. تمامی حقوق مالکیت و کپی‌رایت این وب‌سایت متعلق به شبکه هوشمند ابتکار ویستا است.

این شرکت به‌صورت تخصصی در حوزه هوش مصنوعی، ساخت پلتفرم‌های AI، سامانه‌های مبتنی بر LLM، تحلیل داده، طراحی تجربه دانشی و توسعه زیرساخت‌های حرفه‌ای برای تیم‌های سازمانی فعالیت می‌کند.

مالکیت: شبکه هوشمند ابتکار ویستامدیرعامل: مسعود بخشی۰۹۱۲۴۷۳۳۲۳۴Devcodebase.dev@gmail.comHooshgate@gmail.comDevcodebase.com
v0.1.0 · dev · unset/api/version
آخرین خبرهاآموزشپریمیومدرباره ماتماس با ماحریم خصوصیقوانین استفادهکوکی‌هاسیاست تحریریه
خانهشبکهیادگیریپروژه‌هاپروفایل
  1. خانه
  2. /
  3. اخبار
  4. /
  5. VABench: معیاری جامع برای تولید صدا و تصویر
arXiv (cs.SD)معتبر1405/01/18 04:00زیرساخت و محاسبات

VABench: معیاری جامع برای تولید صدا و تصویر

متن به صوتی-تصویری (T2AV)،. تصویر به صوتی-تصویری (I2AV) و تولید صوتی و تصویری استریو. همگام سازی صوتی-تصویری،.

منبع: arXiv (cs.SD)

زیرساخت و محاسباتپژوهش پیشرفته
نسخه مطالعهعمومی
منبعarXiv (cs.SD)
انتشار1405/01/18 04:00
سطح مطالعه
اشتراک در تلگرام
VABench: معیاری جامع برای تولید صدا و تصویر

راهنمای مطالعه

منبع اصلی، تاریخ فارسی و شاخص‌های سریع این خبر.

رفتن به منبع
تاریخ فارسی1405/01/18 04:00
داستانمستقل

نکات کلیدی

این باکس براساس سطح مطالعه شما (عمومی) تنظیم شده است.

  • (تجربی) .
  • پیشرفت های اخیر در تولید ویدیو قابل توجه بوده است و مدل ها را قادر می سازد تا ویدیوهای بصری جذابی.
  • را با صدای همگام سازی شده تولید کنند.
  • در حالی که معیارهای تولید ویدیوی موجود معیارهای جامعی را برای کیفیت بصری ارائه می دهند،.
  • آنها فاقد ارزیابی قانع کننده برای تولید صوتی-تصویری هستند،.
  • به ویژه برای مدل هایی که هدفشان تولید خروجی های صوتی-تصویری هماهنگ است.
  • برای رفع این شکاف،.
  • VABench را معرفی می کنیم،.

فهرست مطالب

  1. TL;DR
  2. چه اتفاقی افتاد
  3. چرا مهم است
  4. منبع

سیگنال تعامل

بازدید۰
کلیک۰
امتیاز0.00
دیدگاه۰

TL;DR

  • مشاهده PDF HTML (تجربی) چکیده:.
  • پیشرفت‌های اخیر در تولید ویدیو قابل توجه بوده است و مدل‌ها را قادر می‌سازد تا ویدیوهای بصری جذابی.
  • را با صدای همگام‌سازی شده تولید کنند.

چه اتفاقی افتاد

مشاهده PDF HTML (تجربی) چکیده:. پیشرفت‌های اخیر در تولید ویدیو قابل توجه بوده است و مدل‌ها را قادر می‌سازد تا ویدیوهای بصری جذابی.

را با صدای همگام‌سازی شده تولید کنند. در حالی که معیارهای تولید ویدیوی موجود معیارهای جامعی را برای کیفیت بصری ارائه می دهند،.

آنها فاقد ارزیابی قانع کننده برای تولید صوتی-تصویری هستند،. به ویژه برای مدل هایی که هدفشان تولید خروجی های صوتی-تصویری هماهنگ است.

برای رفع این شکاف،. VABench را معرفی می‌کنیم،.

یک چارچوب معیار جامع و چند بعدی که برای ارزیابی سیستماتیک قابلیت‌های تولید همزمان صوتی و تصویری طراحی. شده است.

VABench شامل سه نوع کار اصلی است:. متن به صوتی-تصویری (T2AV)،.

تصویر به صوتی-تصویری (I2AV) و تولید صوتی و تصویری استریو. همچنین دو ماژول ارزیابی اصلی را ایجاد می کند که 15 بعد را پوشش می دهد.

این ابعاد به طور خاص شباهت های زوجی را ارزیابی می کنند (متن-ویدئو،. متن-صوت،.

ویدئو-صوت)،. همگام سازی صوتی-تصویری،.

یکنواختی لب-گفتار،. و جفت های پاسخگویی صوتی و تصویری (QA) با دقت تنظیم شده،.

و غیره. علاوه بر این،.

VABench هفت دسته محتوای اصلی را پوشش می دهد:. حیوانات،.

صداهای انسان،. موسیقی،.

صداهای محیطی،. صداهای فیزیکی همزمان،.

صحنه های پیچیده و جهان های مجازی. ما یک تجزیه و تحلیل سیستماتیک و تجسم نتایج ارزیابی را ارائه می کنیم،.

با هدف ایجاد استاندارد جدیدی برای ارزیابی مدل های تولید ویدیو با قابلیت های صوتی همزمان و ترویج. پیشرفت همه جانبه این زمینه.

نظرات:. 24 صفحه،.

25 شکل موضوعات:. بینایی کامپیوتری و تشخیص الگو (cs.CV)؛

صدا (cs.SD) استناد به عنوان:. arXiv:.

2512.09299 [cs.CV] (یا arXiv:. 2512.09299v2 [cs.CV] برای این نسخه) https:.

//doi.org/10.48550/arXiv.2512.09299 DOI صادر شده توسط arXiv از طریق DataCite تاریخچه ارسال از:. Bohan Zeng [مشاهده ایمیل] [v1] چهارشنبه،.

10 دسامبر 2025،. 03:.

57:. 29 UTC (13,.

374 KB) [v2] دوشنبه،. 6 آوریل 2026،.

13:. 16:.

33 UTC (12,. 297 KB).

چرا مهم است

اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیم‌گیری سازمانی اثر می‌گذارد.

منبع

لینک منبع اصلی در کارت و صفحه مقاله نمایش داده می‌شود.

تعامل کاربران و کیفیت خبر

امتیاز بدهید، نظر ثبت کنید یا اگر خطایی دیدید گزارش اصلاح بفرستید.

بازدید

۰

کلیک روی خبر

۰

امتیاز میانگین

0.00 / 5

دیدگاه تایید شده

۰

امتیاز شما به خبر

هنوز امتیاز نداده‌اید.

واکنش سریع به خبر

به‌جای لایک کلی، نوع برداشت خودتان را مشخص کنید.

ثبت دیدگاه

گزارش اصلاح یا بهبود

آخرین دیدگاه‌ها

هنوز دیدگاهی ثبت نشده است.

مقایسه سه سطح مطالعه

برای همین خبر، نسخه ساده، عمومی و تخصصی کنار هم خلاصه شده‌اند.

ساده

۲٬۰۸۹ کاراکتر

تولید همزمان صوتی و تصویری طراحی شده است. متن به صوتی-تصویری (T2AV)،. همگام سازی صوتی-تصویری،.

  • (تجربی) .
  • پیشرفت های اخیر در تولید ویدیو قابل توجه بوده است و مدل ها را.
  • قادر می سازد تا ویدیوهای بصری جذابی را با صدای همگام سازی شده تولید.
  • در حالی که معیارهای تولید ویدیوی موجود معیارهای جامعی را برای کیفیت.

عمومی

۲٬۰۸۷ کاراکتر

متن به صوتی-تصویری (T2AV)،. تصویر به صوتی-تصویری (I2AV) و تولید صوتی و تصویری استریو. همگام سازی صوتی-تصویری،.

  • (تجربی) .
  • پیشرفت های اخیر در تولید ویدیو قابل توجه بوده است و مدل ها را قادر می سازد تا ویدیوهای بصری جذابی.
  • را با صدای همگام سازی شده تولید کنند.
  • در حالی که معیارهای تولید ویدیوی موجود معیارهای جامعی را برای کیفیت بصری ارائه می دهند،.

تخصصی

۲٬۱۶۱ کاراکتر

آنها فاقد ارزیابی قانع کننده برای تولید صوتی-تصویری هستند،. VABench شامل سه نوع کار اصلی است: متن به صوتی-تصویری (T2AV)، تصویر به صوتی-تصویری (I2AV) و تولید صوتی و تصویری استریو. همگام سازی صوتی-تصویری،.

  • (تجربی) .
  • پیشرفت های اخیر در تولید ویدیو قابل توجه بوده است و مدل ها را قادر می سازد تا ویدیوهای بصری جذابی را با صدا...
  • در حالی که معیارهای تولید ویدیوی موجود معیارهای جامعی را برای کیفیت بصری ارائه می دهند،.
  • آنها فاقد ارزیابی قانع کننده برای تولید صوتی-تصویری هستند،.

هایلایت‌ها و یادداشت‌ها

متن دلخواه را در خبر انتخاب کنید و با یک کلیک هایلایت بزنید. فقط برای شما قابل مشاهده است.

برای استفاده از هایلایت و یادداشت، وارد حساب کاربری شوید.

منابع اولیه

لینک‌های اصلی این خبر، شامل منبع اصلی و ارجاع‌های claim panel.

  • https://arxiv.org/abs/2512.09299v2
  • https://arxiv.org/list/cs.SD/recent

پست‌های مرتبط نبض هوش

چهره‌های تخصصی Hooshgate این خبر را از زاویه نقش و تخصص خودشان تحلیل کرده‌اند.

رفتن به شبکه

هنوز پست تخصصی برای این خبر منتشر نشده است.

با انتشار یا backfill پست‌های شبکه، تحلیل‌های مرتبط اینجا نمایش داده می‌شوند.

خبرهای مرتبط

خبرهای نزدیک به همین موضوع برای ادامه مطالعه.

رویدادهای آیندهNIST AIهوش مصنوعی متا EUPE را منتشر کرد: خانواده رمزگذار دید فشرده با پارامترهای 100 میلیونی که با مدل‌های تخصصی در درک تصویر، پیش‌بینی متراکم و وظایف VLM رقابت می‌کند.MarkTechPostتجزیه و تحلیل خودکار ابتکارات جهانی ایمنی هوش مصنوعی: یک رویکرد LLM مبتنی بر طبقه بندیarXiv (cs.AI)تنظیم دقیق بیزی متغیر مقیاس پذیر LLM از طریق آداپتورهای متعامد با رتبه پایینarXiv (stat.ML)

بعدش چی بخونم؟

پیشنهادها براساس موضوعات، موجودیت‌ها و سابقه مطالعه شما انتخاب می‌شوند.

GENSERVE: خدمات مشترک کارآمد بارهای کاری مدل انتشار ناهمگنarXiv (cs.DC)تجزیه و تحلیل جامع عملکرد Uplink سلولی در استقرار استادیوم متراکمarXiv (cs.NI)افت انتشار ذاتی باندهای فرکانس بالا،. حتی در شبکه های بدون بار محدود می کند. در حالی که باندهای TDD با فرکانس بالا،.یک چارچوب قوی و مقیاس پذیر برای تخمین نوسانات با ابعاد بالاarXiv (math.ST)BEKK-ARCH معرفی می کند. بهتر عمل می کند. 2510.17578 [math.ST] (یا arXiv:.CoLoRSMamba: مامبای مشروط LoRA برای تشخیص خشونت چندوجهی نظارت شدهarXiv (cs.SD)CLS جفت می کند. تراز می کند. 2604.03329 [cs.CV] (یا arXiv:.الگوریتم شتاب‌دار میون برای مدل‌های خطی تعمیم یافته تانسور با رتبه جدایی پایینarXiv (stat.ML)طریق پیش بینی های مکرر مبتنی بر QR اعمال می کند. کند. 2604.04726 [stat.ML] (یا arXiv:.
دسته‌های مرتبط:خبرپژوهش
برچسب‌ها:ComputeVision
فهرست خبرها