TL;DR
- 22 ژانویه 2026 ResearchGuillaume Le Moing و Mehdi S.
- Sajjadi معرفی D4RT،.
- یک مدل هوش مصنوعی یکپارچه برای بازسازی صحنههای 4 بعدی و ردیابی در فضا و زمان.
چه اتفاقی افتاد
22 ژانویه 2026 ResearchGuillaume Le Moing و Mehdi S. M.
Sajjadi معرفی D4RT،. یک مدل هوش مصنوعی یکپارچه برای بازسازی صحنههای 4 بعدی و ردیابی در فضا و زمان.
هر زمان که به جهان نگاه میکنیم،. یک شاهکار خارق العاده از حافظه و پیش بینی انجام میدهیم.
ما چیزها را همانطور که در یک لحظه معین از زمان هستند،. همانطور که یک لحظه پیش بودند،.
میبینیم و درک میکنیم که قرار است در لحظه بعدی چگونه باشند. مدل ذهنی ما از جهان،.
بازنمایی دائمیاز واقعیت را حفظ میکند و ما از آن مدل برای نتیجهگیری شهودی در مورد رابطه. علی بین گذشته،.
حال و آینده استفاده میکنیم. برای کمک به ماشینها برای اینکه دنیا را بیشتر شبیه ما ببینند،.
میتوانیم آنها را به دوربین مجهز کنیم،. اما این فقط مشکل ورودی را حل میکند.
برای درک این ورودی،. کامپیوترها باید یک مشکل پیچیده و معکوس را حل کنند:.
گرفتن یک ویدیو - که دنبالهای از پیش بینیهای دو بعدی تخت است - و بازیابی. یا درک دنیای غنی و حجمیسهبعدی در حال حرکت.
امروز،. D4RT (بازسازی و ردیابی پویا 4 بعدی) را معرفی میکنیم،.
یک مدل هوش مصنوعی جدید که بازسازی صحنه پویا را در یک چارچوب واحد و کارآمد یکپارچه می. کند و ما را به مرز بعدی هوش مصنوعی نزدیک میکند:.
درک کامل واقعیت پویا ما. ویدئوی دوبعدی،.
یک مدل هوش مصنوعی باید هر پیکسل از هر جسم را هنگام حرکت در سه بعد فضا و. بعد چهارم زمان ردیابی کند.
علاوه بر این،. باید این حرکت را از حرکت دوربین جدا کند،.
حتی زمانی که اشیاء پشت سر هم حرکت میکنند یا بهطور کامل از کادر خارج میشوند،. بازنمایی منسجمیرا حفظ کند.
بهطور سنتی،. ثبت این سطح از هندسه و حرکت از ویدئوهای دو بعدی نیازمند فرآیندهای محاسباتی فشرده یا مجموعهای از.
مدلهای تخصصی هوش مصنوعی است. - برخی برای عمق،.
برخی دیگر برای حرکت یا زوایای دوربین - منجر به بازسازیهای هوش مصنوعی میشود که آهسته و تکهتکه. هستند.
معماری سادهشده و مکانیسم جستجوی جدید D4RT آن را در خط مقدم بازسازی 4 بعدی قرار میدهد در. حالی که تا 300 برابر کارآمدتر از روشهای قبلی است - به اندازه کافی سریع برای برنامههای بلادرنگ.
در رباتیک،. واقعیت افزوده Augmented APPQQRT4-WorksD.
بهعنوان یک معماری ترانسفورماتور رمزگذار-رمزگشا. رمزگذار ابتدا ویدیوی ورودی را به صورت یک نمایش فشرده از هندسه و حرکت صحنه پردازش میکند.
برخلاف سیستمهای قدیمیتر که از ماژولهای مجزا برای کارهای مختلف استفاده میکردند،. D4RT تنها آنچه را که نیاز دارد با استفاده از یک مکانیسم جستجوی انعطافپذیر که حول یک سوال.
اساسی متمرکز شده است،. محاسبه میکند:.
"یک پیکسل معین از ویدئو در یک زمان دلخواه در فضای سهبعدی،. همانطور که از دوربین انتخاب شده مشاهده میشود،.
کجا قرار دارد؟ کار قبلی ما،.
یک رمزگشای سبک وزن،. سپس این نمایش را برای پاسخ به نمونههای خاصی از سؤال مطرح شده جستجو میکند.
از آنجایی که کوئریها مستقل هستند،. میتوان آنها را به صورت موازی در سخت افزار هوش مصنوعی مدرن پردازش کرد.
این امر D4RT را بسیار سریع و مقیاسپذیر میکند،. خواه فقط چند نقطه را ردیابی کند یا کل صحنه را بازسازی کند.
D4RT یک رمزگذار قدرتمند را ترکیب میکند که درک گسترده و جهانی از ویدیو ایجاد میکند،. و یک رمزگشای سبک وزن که به هزاران پرسش به صورت موازی پاسخ میدهد.
با پرسیدن سؤالات خاص - شناسایی محل قرارگیری پیکسل منبع در یک زمان هدف و نمای دوربین -. این مدل بهطور موثر وظایف مختلفی مانند ردیابی،.
تخمین عمق و تخمین پوز را از طریق یک رابط منعطف حل میکند. قابلیتها:.
درک 4 بعدی سریع و دقیق با این فرمولبندی انعطافپذیر،. میتوان طیف گستردهای از مدلهای 4 بعدی را حل کرد.
با جستجوی مکان پیکسل در مراحل مختلف زمانی،. D4RT میتواند مسیر سهبعدی آن را پیش بینی کند.
نکته مهم این است که برای پیشبینی مدل،. نیازی نیست یک شی در فریمهای دیگر ویدیو قابل مشاهده باشد.
بازسازی ابر نقطه:. با انجماد زمان و زاویه دید دوربین،.
D4RT میتواند مستقیماً ساختار سهبعدی کامل یک صحنه را تولید کند و مراحل اضافی مانند تخمین دوربین جداگانه. یا بهروزرسانی تکراری در هر ویدیو را حذف کند.
D4RT از دیدگاههای مختلف میتواند به راحتی مسیر دوربین را بازیابی کند. همانطور که در گزارش فنی زیربنایی توضیح داده شده است،.
D4RT از روشهای قبلی در طیف گستردهای از وظایف بازسازی 4 بعدی بهتر عمل میکند. مقایسههای کیفی نشان میدهد که در حالی که روشهای دیگر با اشیاء پویا دست و پنجه نرم میکنند.
- اغلب آنها را کپی میکنند یا بهطور کامل بازسازی نمیکنند - D4RT یک جامد را حفظ میکند. درک مداوم دنیای متحرک.
نکته مهم این است که دقت D4RT به قیمت کارآمدی تمام نمیشود. در آزمایش، 18 برابر تا 300 برابر سریعتر از حالت قبلی هنر عمل کرد.
بهعنوان مثال،. D4RT یک ویدیوی یک دقیقهای را در حدود پنج ثانیه روی یک تراشه TPU پردازش کرد.
روشهای پیشرفته قبلی میتوانست تا ده دقیقه برای همان کار طول بکشد - بهبود 120x. Downstream ApplicationsD4RT نشان میدهد که ما نیازی به انتخاب بین دقت و کارایی در بازسازی 4 بعدی نداریم.
سیستم انعطاف پذیر و مبتنی بر پرس و جو میتواند دنیای پویای ما را در زمان واقعی. به تصویر بکشد و راه را برای نسل بعدی محاسبات فضایی هموار کند.
این شامل موارد زیر است:. رباتیک:.
رباتها باید در محیطهای پویا که با افراد و اشیاء متحرک پر شده است حرکت کنند. D4RT میتواند آگاهی فضایی مورد نیاز برای ناوبری ایمن و دستکاری ماهرانه را فراهم کند.
واقعیت افزوده (AR):. برای عینکهای AR برای پوشاندن اشیاء دیجیتالی بر روی دنیای واقعی،.
آنها نیاز به درک فوری و کم تاخیر از هندسه صحنه دارند. کارایی D4RT به ایجاد واقعیت ملموس بر روی دستگاه کمک میکند.
مدلهای جهانی:. با تفکیک مؤثر حرکت دوربین،.
حرکت جسم و هندسه استاتیک،. D4RT ما را یک قدم به هوش مصنوعی نزدیکتر میکند که دارای یک «مدل جهانی» واقعی از واقعیت.
فیزیکی است - گامیضروری در مسیر AGI و قابلیتهای بالقوه برای کاوش در مسیر AGI. در سراسر رباتیک، واقعیت افزوده و فراتر از آن.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
