TL;DR
- پیش بینی ویدیوی من محوری از اعمال انسان (PEVA).
- با توجه به فریمهای ویدیویی گذشته و اقدامیکه تغییر دلخواه را در حالت سهبعدی مشخص میکند،.
- PEVA فریم ویدیوی بعدی را پیشبینی میکند.
چه اتفاقی افتاد
پیش بینی ویدیوی من محوری از اعمال انسان (PEVA). با توجه به فریمهای ویدیویی گذشته و اقدامیکه تغییر دلخواه را در حالت سهبعدی مشخص میکند،.
PEVA فریم ویدیوی بعدی را پیشبینی میکند. نتایج ما نشان میدهد که با توجه به اولین فریم و دنبالهای از اقدامات،.
مدل ما میتواند ویدیوهایی از اقدامات اتمی (a)،. شبیهسازی خلاف واقع (b) و پشتیبانی از تولید ویدیوی طولانی (c) تولید کند.
سالهای اخیر پیشرفتهای قابل توجهی را در مدلهای جهانی به ارمغان آورده است که شبیه. سازی نتایج آینده را برای برنامهریزی و کنترل میآموزند.
از فیزیک بصری گرفته تا پیشبینی ویدیویی چند مرحلهای، این مدلها بهطور فزایندهای قدرتمند و گویا شدهاند. اما تعداد کمیبرای عوامل واقعی طراحی شده اند.
برای ایجاد یک مدل جهانی برای عوامل تجسم یافته،. ما به یک عامل تجسم یافته واقعی نیاز داریم که در دنیای واقعی عمل کند.
یک عامل تجسم یافته واقعی برخلاف سیگنالهای کنترل انتزاعی،. فضای عمل پیچیدهای دارد که از نظر فیزیکی پایهگذاری شده است.
آنها همچنین باید در سناریوهای مختلف زندگی واقعی عمل کنند و در مقابل صحنههای زیباییشناختی و دوربینهای ثابت،. دیدگاهی خودمحورانه داشته باشند.
💡 نکته: برای مشاهده هر تصویر با وضوح کامل روی آن کلیک کنید. چرا سخت است عمل و چشم انداز به شدت وابسته به زمینه هستند.
همین دیدگاه میتواند منجر به حرکات مختلفی شود و بالعکس. این به این دلیل است که انسانها در محیطهای پیچیده،.
تجسم یافته و هدفمند عمل میکنند. کنترل انسانی بسیار ابعادی و ساختار یافته است.
حرکت تمام بدن با دینامیک سلسله مراتبی و وابسته به زمان،. بیش از 48 درجه آزادی را در بر میگیرد.
دیدگاه خودمحورانه قصد را آشکار میکند اما بدن را پنهان میکند. دید اول شخص منعکس کننده اهداف است،.
اما نه اجرای حرکت،. مدلها باید پیامدهای اعمال فیزیکی نامرئی را استنتاج کنند.
ادراک از عمل عقب است. بازخورد بصری اغلب چند ثانیه بعد میآید و به پیش بینی افق طولانی و استدلال زمانی نیاز.
دارد. برای توسعه یک مدل جهانی برای عوامل تجسم یافته،.
ما باید رویکرد خود را در عواملی که این معیارها را برآورده میکنند،. پایه گذاری کنیم.
انسانها بهطور معمول اول نگاه میکنند و دوم عمل میکنند - چشمان ما به یک هدف قفل میشوند،. مغز یک «شبیهسازی» کوتاه بصری از نتیجه انجام میدهد و تنها پس از آن بدن حرکت میکند.
در هر لحظه،. دیدگاه خودمحورانه ما هم بهعنوان ورودی از محیط عمل میکند و هم قصد/هدف پشت حرکت بعدی را.
منعکس میکند. وقتی حرکات بدن خود را در نظر میگیریم،.
باید هم اعمال پا (حرکت و ناوبری) و هم اعمال دست (دستکاری) یا بهطور کلی کنترل کل بدن. را در نظر بگیریم.
ما چه کار کردیم؟ ما مدلی را برای پیشبینی ویدیوی من محور از اعمال انسان (PEVA) برای پیشبینی ویدیوی خودمحور با شرایط.
کل بدن آموزش دادیم. شرایط PEVA در مسیر حرکتی ژستهای حرکتی که توسط سلسله مراتب مفصلی بدن ساخته شدهاند،.
یاد میگیرند که چگونه اعمال فیزیکی انسان محیط را از دید اول شخص شکل میدهد. ما یک ترانسفورماتور انتشار شرطی اتورگرسیو را در Nymeria آموزش میدهیم،.
مجموعه دادهای در مقیاس بزرگ که ویدیوی خودمحور دنیای واقعی را با تصویربرداری از حالت بدن جفت میکند. پروتکل ارزیابی سلسله مراتبی ما وظایف چالش برانگیز فزایندهای را آزمایش میکند و تجزیه و تحلیل.
جامعی از تواناییهای پیش بینی و کنترل تجسم یافته مدل ارائه میدهد. این کار نشاندهنده تلاش اولیه برای مدلسازی محیطهای پیچیده دنیای واقعی و رفتارهای تجسمیافته عامل از طریق پیشبینی.
ویدیویی از دیدگاه انسان است. روش نمایش عمل ساختاریافته از حرکت برای پل زدن حرکت انسان و دید خود محور،.
ما هر عمل را بهعنوان یک بردار غنی و با ابعاد بالا نشان میدهیم که هم پویایی. تمام بدن و هم حرکات مفصل مفصل را به تصویر میکشد.
بهجای استفاده از کنترلهای سادهشده،. ما ترجمه جهانی و چرخشهای مفصلی نسبی را بر اساس درخت سینماتیک بدن کدگذاری میکنیم.
حرکت در فضای سهبعدی با 3 درجه آزادی برای ترجمه ریشه و 15 مفصل بالاتنه نشان داده. میشود.
استفاده از زوایای اویلر برای چرخشهای نسبی مفصل،. فضای عمل 48 بعدی (3 + 15 × 3 = 48) را ایجاد میکند.
دادههای ضبط حرکت با استفاده از مُهرهای زمانی با ویدیو هم تراز میشوند،. سپس از مختصات کلی به یک قاب محلی مرکز لگن برای تغییر موقعیت و جهت تبدیل میشوند.
تمام موقعیتها و چرخشها برای اطمینان از یادگیری پایدار نرمال شده اند. هر اکشن تغییرات حرکت بین فریم را ثبت میکند و مدل را قادر میسازد تا حرکت فیزیکی را.
به هم متصل کند با عواقب بصری در طول زمان. طراحی PEVA:.
ترانسفورماتور انتشار شرطی اتورگرسیو در حالی که ترانسفورماتور انتشار شرطی (CDiT) از مدلهای جهانی ناوبری از سیگنالهای کنترلی. ساده مانند سرعت و چرخش استفاده میکند،.
مدلسازی حرکت انسان در کل بدن چالشهای بیشتری را به همراه دارد. اعمال انسان ابعادی بالا، از نظر زمانی گسترده و از نظر فیزیکی محدود است.
برای رسیدگی به این چالشها،. روش CDiT را به سه روش گسترش میدهیم:.
رد زمانی تصادفی:. به مدل امکان میدهد هم دینامیک حرکت کوتاهمدت و هم الگوهای فعالیت طولانیمدت را بیاموزد.
آموزش سطح توالی:. کل دنبالههای حرکت را با اعمال افت بر روی هر پیشوند فریم مدل میکند.
Action Embeddings:. تمام اعمال در زمان t را به یک تانسور 1 بعدی الحاق میکند تا هر لایه AdaLN.
را برای حرکت کل بدن با ابعاد بالا آماده کند. استراتژی نمونهگیری و عرضه در زمان آزمایش،.
فریمهای آینده را با شرطی کردن مجموعهای از فریمهای زمینه گذشته تولید میکنیم. ما این فریمها را در حالتهای پنهان کدگذاری میکنیم و نویز را به فریم هدف اضافه میکنیم،.
که سپس با استفاده از مدل انتشار ما به تدریج حذف میشود. برای سرعت بخشیدن به استنتاج،.
توجه را محدود میکنیم،. جایی که توجه درون تصویر فقط به فریم هدف اعمال میشود و توجه متقاطع زمینه فقط برای.
آخرین فریم اعمال میشود. برای پیشبینی کنش-شرطی، ما از یک استراتژی انتشار خودکار رگرسیون استفاده میکنیم.
با شروع با فریمهای زمینه،. آنها را با استفاده از یک رمزگذار VAE رمزگذاری میکنیم و اکشن فعلی را اضافه میکنیم.
سپس مدل فریم بعدی را پیشبینی میکند،. که در حالی که قدیمیترین فریم را رها میکند،.
به متن اضافه میشود و این فرآیند برای هر عمل در دنباله تکرار میشود. در نهایت، ما نهفتههای پیشبینیشده را با استفاده از رمزگشای VAE در فضای پیکسل رمزگشایی میکنیم.
اقدامات اتمیما حرکات پیچیده انسان را به اعمال اتمیتجزیه میکنیم - مانند حرکات دست (بالا،. پایین،.
چپ،. راست) و حرکات کل بدن (به جلو،.
چرخش) - تا درک مدل را از اینکه چگونه حرکات خاص در سطح مفصل بر دیدگاه خود محوری. تأثیر میگذارند،.
آزمایش کنیم. ما چند نمونه را در اینجا قرار میدهیم:.
اقدامات حرکتی بدن حرکت به جلو چرخش به چپ چرخش به راست اقدامات دست چپ دست چپ را. به بالا حرکت دهید دست چپ را به پایین حرکت دهید دست چپ را به چپ حرکت دهید.
دست چپ را به راست حرکت دهید اعمال دست راست حرکت دست راست به بالا دست راست را. به پایین حرکت دهید دست راست را به چپ حرکت دهید دست راست را به راست حرکت دهید.
عرضه طولانی در اینجا میتوانید توانایی مدل را برای حفظ سازگاری بصری و معنایی در افقهای. پیش بینی گسترده مشاهده کنید.
ما برخی از نمونههای PEVA را نشان میدهیم که 16 ثانیه منسجم ایجاد میکنند که مشروط به حرکت. تمام بدن است.
ما چند نمونه ویدیو و نمونه تصویر را برای مشاهده دقیق در اینجا قرار میدهیم:. دنباله 1 دنباله 2 دنباله 3 برنامهریزی PEVA را میتوان برای برنامهریزی با شبیهسازی.
کاندیداهای اقدام متعدد و امتیازدهی به آنها بر اساس شباهت ادراکی آنها با هدف،. همانطور که توسط LPIPS اندازهگیری میشود،.
استفاده کرد. در این مثال،.
مسیرهایی را که به سینک یا بیرون از منزل منتهی میشوند که مسیر صحیح باز کردن یخچال را. پیدا میکنند را رد میکند.
در این مثال،. مسیرهایی را که منجر به چنگ زدن گیاهان مجاور و رفتن به آشپزخانه میشوند و در عین حال.
دنباله معقولی از اقداماتی که به قفسه منتهی میشوند را پیدا میکند،. رد میکند.
قابلیت برنامهریزی بصری را فعال میکند ما برنامهریزی را بهعنوان یک مسئله کمینهسازی انرژی فرموله میکنیم. و بهینهسازی عمل را با استفاده از روش متقاطع آنتروپی (CEM)،.
به دنبال رویکرد معرفیشده در مدلهای جهانی ناوبری [] انجام میدهیم. بهطور خاص،.
در حالی که سایر قسمتهای بدن را ثابت نگه میداریم،. دنبالههای عمل را برای بازوی چپ یا راست بهینه میکنیم.
نمونههایی از طرحهای به دست آمده در زیر نشان داده شده است:. در این حالت،.
ما میتوانیم دنبالهای از اقدامات را پیش بینی کنیم که بازوی راست ما را به سمت. چوب مخلوط کردن بالا میبرد.
ما محدودیتی را در روش خود مشاهده میکنیم،. زیرا فقط بازوی راست را پیشبینی میکنیم،.
بنابراین پیشبینی نمیکنیم که بازوی چپ را مطابق با آن به پایین حرکت دهیم. در این مورد،.
ما میتوانیم دنبالهای از اقدامات را پیش بینی کنیم که به سمت کتری میرسد اما. آن را کاملاً مانند هدف نمیگیرد.
در این حالت،. میتوانیم دنبالهای از اقدامات را پیشبینی کنیم که بازوی چپ ما را شبیه به هدف میکشد.
نتایج کمیما PEVA را در چندین معیار ارزیابی میکنیم تا اثربخشی آن را در تولید ویدیوهای خودمحور. با کیفیت بالا از اقدامات کل بدن نشان دهیم.
مدل ما بهطور مداوم در کیفیت ادراکی از خطوط پایه بهتر عمل میکند،. انسجام را در افقهای زمانی طولانی حفظ میکند و ویژگیهای مقیاس بندی قوی با اندازه.
مدل را نشان میدهد. معیارهای ادراکی پایه مقایسه معیارهای ادراکی پایه در مدلهای مختلف.
عملکرد اقدام اتمیمقایسه مدلها در تولید فیلمهای اقدامات اتمی. مقایسه FID مقایسه FID در مدلهای مختلف و افقهای زمانی.
مقیاس بندی PEVA توانایی پوستهگیری خوبی دارد. مدلهای بزرگتر منجر به عملکرد بهتر میشوند.
مسیرهای آینده مدل ما نتایج امیدوارکنندهای را در پیشبینی ویدیوی خودمحور از حرکت کل بدن نشان میدهد،. اما این یک گام اولیه به سمت برنامهریزی مجسم است.
برنامهریزی به شبیهسازی اقدامات بازوی نامزد محدود میشود و فاقد برنامهریزی افق بلند و. بهینهسازی کامل مسیر است.
گسترش PEVA به کنترل حلقه بسته یا محیطهای تعاملی یک گام کلیدی بعدی است. مدل در حال حاضر فاقد شرطی شدن صریح در مورد هدف کار یا اهداف معنایی است.
ارزیابی ما از شباهت تصویر بهعنوان یک هدف پراکسی استفاده میکند. کار آینده میتواند از ترکیب PEVA با شرطی سازی هدف سطح بالا و ادغام نمایشهای شی.
محور استفاده کند. قدردانیها نویسندگان از Rithwik Nukala برای کمک او در حاشیه نویسی اقدامات اتمیتشکر میکنند.
ما از Katerina Fragkiadaki،. Philipp Krähenbühl،.
Bharath Hariharan،. Guanya Shi،.
Shubham Tulsiani و Deva Ramanan برای پیشنهادات و بازخوردهای مفید برای بهبود مقاله تشکر میکنیم. جیانبو شی برای بحث در مورد نظریه کنترل؛
Yilun Du برای پشتیبانی در Diffusion Forcing؛ برنت یی برای کمک در کارهای مربوط به حرکت انسان و الکسی افروس برای بحث و مناظره در.
مورد مدلهای جهانی. این کار تا حدی توسط ONR MURI N00014-21-1-2801 پشتیبانی میشود.
برای جزئیات بیشتر، مقاله کامل را بخوانید یا به وب سایت پروژه مراجعه کنید.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
