TL;DR
- چکیده:.
- مدلهای زبان بزرگ چندوجهی (MLLM) بهطور فزایندهای برای وظایف شناخت فضایی استفاده میشوند،.
- جایی که انتظار میرود محیطهای پیچیده را درک کرده و با آنها تعامل داشته باشند.
چه اتفاقی افتاد
چکیده:. مدلهای زبان بزرگ چندوجهی (MLLM) بهطور فزایندهای برای وظایف شناخت فضایی استفاده میشوند،.
جایی که انتظار میرود محیطهای پیچیده را درک کرده و با آنها تعامل داشته باشند. بیشتر کارهای موجود،.
استدلال فضایی را با معرفی پیشینهای سهبعدی یا نظارت هندسی بهبود میبخشند،. که عملکرد را افزایش میدهد،.
اما هزینههای قابلتوجهی را برای آمادهسازی و تراز کردن دادهها متحمل میشود. در مقابل،.
رویکردهای صرفاً دوبعدی اغلب با استدلال فضایی چند فریمیبه دلیل توانایی محدودشان در گرفتن روابط فضایی متقابل. فریمیدست و پنجه نرم میکنند.
برای پرداختن به این محدودیتها،. EgoMind را پیشنهاد میکنیم،.
یک چارچوب زنجیرهای از فکر که استدلال فضایی بدون هندسه را از طریق شرح نقشآفرینی،. که بهطور مشترک یک نمودار صحنه زبانی منسجم را در فریمها ایجاد میکند،.
و تحلیل فضایی پیشرونده،. که به تدریج به سمت سؤالهای مربوط به کار استدلال میکند،.
ممکن میسازد. فقط با 5K نمونههای SFT تولید شده بهطور خودکار و نمونههای RL 20 هزار،.
EgoMind به نتایج رقابتی در VSI-Bench،. SPAR-Bench،.
SITE-Bench و SPBench دست مییابد که اثربخشی خود را در تقویت قابلیتهای استدلال فضایی MLLMها و برجسته. کردن پتانسیل استدلال زبانی برای فضایی نشان میدهد.
کد و دادهها در این URL https منتشر میشوند. توسط CVPR 2026 پذیرفته شده است بینایی کامپیوتری و تشخیص الگو (cs.
CV) استناد بهعنوان: (یا v1 [cs. CV] برای این نسخه) https:.
// شده توسط arXiv از طریق DataCite تاریخچه ارسال از:. Zhenghao Chen [مشاهده ایمیل] [v1] چهارشنبه،.
1 آوریل 2026،. 15:.
28:. 13 UTC (5,.
548 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
