TL;DR
- چکیده: روشهای اخیر پیشرفت قابلتوجهی در کیفیت بصری سنتز ویدیوی تعامل دست-شیء داشتهاند.
- با این حال،.
- بیشتر رویکردها بر سیگنالهای کنترلی دوبعدی تکیه میکنند که فاقد بیان فضایی هستند و استفاده از دادههای مشروط.
چه اتفاقی افتاد
چکیده: روشهای اخیر پیشرفت قابلتوجهی در کیفیت بصری سنتز ویدیوی تعامل دست-شیء داشتهاند. با این حال،.
بیشتر رویکردها بر سیگنالهای کنترلی دوبعدی تکیه میکنند که فاقد بیان فضایی هستند و استفاده از دادههای مشروط. سهبعدی مصنوعی را محدود میکنند.
برای پرداختن به این محدودیتها،. ما HVG-3D را پیشنهاد میکنیم،.
یک چارچوب یکپارچه برای سنتز ویدیوی تعامل سهبعدی-آگاه شیء (HOI) مشروط به بازنماییهای سهبعدی صریح. بهطور خاص،.
ما یک معماری مبتنی بر انتشار را توسعه میدهیم که با یک ControlNet 3 بعدی تقویت شده است،. که نشانههای هندسی و حرکتی را از ورودیهای سهبعدی رمزگذاری میکند تا استدلال سهبعدی صریح را در.
طول سنتز ویدیو فعال کند. برای دستیابی به سنتز با کیفیت بالا،.
HVG-3D با دو جزء اصلی طراحی شده است:. (1) یک معماری انتشاری تولید ویدیوی HOI آگاه 3 بعدی که نشانههای هندسی و حرکتی را از.
ورودیهای 3 بعدی برای استدلال صریح سهبعدی رمزگذاری میکند. و (ii) ترکیبی خط لوله برای ساخت سیگنالهای ورودی و شرایط،.
امکان کنترل انعطاف پذیر و دقیق را در طول آموزش و استنتاج فراهم میکند. در طول استنتاج،.
با توجه به یک تصویر واقعی و یک سیگنال کنترل سهبعدی از شبیهسازی یا دادههای. واقعی،.
HVG-3D ویدیوهایی با کیفیت بالا و سازگار با زمان و کنترل مکانی و زمانی دقیق تولید میکند. آزمایشها روی مجموعه داده TASTE-Rob نشان میدهد که HVG-3D به وفاداری فضایی،.
انسجام زمانی و کنترلپذیری پیشرفتهتر دست مییابد،. در حالی که امکان استفاده مؤثر از دادههای واقعی و شبیهسازیشده را فراهم میکند.
صفحه پروژه: این آدرس https بینایی کامپیوتری و تشخیص الگو (cs. CV) استناد بهعنوان: (یا v1 [cs.
CV] برای این نسخه) https:. // شده توسط arXiv از طریق DataCite تاریخچه ارسال از:.
Mingjin Chen [مشاهده ایمیل] [v1] سهشنبه،. 31 مارس 2026،.
01:. 28:.
42 UTC (12,. 399 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
