TL;DR
- محققان MIT یک رویکرد مبتنی بر هوش مصنوعی مولد برای برنامهریزی کارهای بصری طولانیمدت،.
- مانند ناوبری ربات،.
- توسعه دادهاند که تقریباً دو برابر بیشتر از برخی تکنیکهای موجود مؤثر است.
چه اتفاقی افتاد
محققان MIT یک رویکرد مبتنی بر هوش مصنوعی مولد برای برنامهریزی کارهای بصری طولانیمدت،. مانند ناوبری ربات،.
توسعه دادهاند که تقریباً دو برابر بیشتر از برخی تکنیکهای موجود مؤثر است. روش آنها از یک مدل تخصصی زبان بینایی برای درک سناریو در یک تصویر و شبیهسازی اقدامات لازم.
برای رسیدن به یک هدف استفاده میکند. سپس مدل دوم آن شبیهسازیها را به یک زبان برنامهنویسی استاندارد برای مسائل برنامهریزی ترجمه میکند و راهحل.
را اصلاح میکند. در پایان،.
سیستم بهطور خودکار مجموعهای از فایلها را تولید میکند که میتوانند به نرمافزار برنامهریزی کلاسیک وارد شوند،. که برنامهای را برای دستیابی به هدف محاسبه میکند.
این سیستم دو مرحلهای برنامههایی را با نرخ موفقیت متوسط حدود 70 درصد تولید میکند که از بهترین. روشهای پایه که تنها میتوانست به حدود 30 درصد برسد،.
بهتر عمل میکند. نکته مهم این است که این سیستم میتواند مشکلات جدیدی را که قبلاً با آن مواجه نشده بود.
حل کند و آن را به خوبی برای آنها مناسب کند. محیطهای واقعی که شرایط میتوانند در یک لحظه تغییر کنند.
ییلون هائو،. دانشجوی فارغالتحصیل هوانوردی و فضانوردی (AeroAstro) در MIT و نویسنده اصلی مقاله در این تکنیک با دسترسی آزاد،.
میگوید:. «چارچوب ما مزایای مدلهای زبان بینایی،.
مانند توانایی آنها در درک تصاویر،. با قابلیتهای برنامهریزی قوی یک حلکننده رسمیرا ترکیب میکند.
"این میتواند یک تصویر را بگیرد و آن را از طریق شبیهسازی و سپس به یک. طرح قابل اعتماد و افق طولانی که میتواند در بسیاری از برنامههای کاربردی زندگی واقعی مفید.
باشد،. منتقل کند.
" چوچو فن، دانشیار در AeroAstro و محقق اصلی در LIDS. و یانگ ژانگ، دانشمند محقق در آزمایشگاه هوش مصنوعی واتسون MIT-IBM.
این مقاله در کنفرانس بین المللی یادگیری ارائه خواهد شد نمایشها. مقابله با وظایف بصری در چند سال گذشته،.
فن و همکارانش استفاده از مدلهای هوش مصنوعی مولد را برای انجام استدلال و برنامهریزی پیچیده،. اغلب از مدلهای زبان بزرگ (LLM) برای پردازش ورودیهای متن مورد مطالعه قرار دادهاند.
بسیاری از مشکلات برنامهریزی دنیای واقعی،. مانند مونتاژ رباتیک و رانندگی مستقل،.
ورودیهای بصری دارند که یک LLM میتواند به خوبی از عهده آن برآید. محققان با استفاده از مدلهای زبان بینایی (VLM)،.
سیستمهای هوش مصنوعی قدرتمندی که میتوانند تصاویر و متن را پردازش کنند،. به دنبال گسترش دامنه بصری بودند.
اما VLMها برای درک روابط فضایی بین اشیاء در صحنه تلاش میکنند و اغلب در بسیاری از مراحل. به درستی استدلال نمیکنند.
این امر استفاده از VLMها را برای برنامهریزی دوربرد دشوار میکند. از سوی دیگر،.
دانشمندان برنامه ریزان قوی و رسمی ایجاد کرده اند که میتوانند برنامههای افق بلند موثری را. برای موقعیتهای پیچیده ایجاد کنند.
با این حال،. این سیستمهای نرم افزاری نمیتواند ورودیهای بصری را پردازش کند و برای رمزگذاری یک مشکل به زبانی.
که حلکننده میتواند آن را درک کند،. به دانش تخصصی نیاز دارد.
فن و تیمش یک سیستم برنامهریزی خودکار ساختهاند که بهترین هر دو روش را دارد. این سیستم که برنامهریزی رسمیبا هدایت VLM (VLMFP) نام دارد از دو VLM تخصصی استفاده میکند که.
با هم کار میکنند تا مشکلات برنامهریزی بصری را به فایلهای آماده برای استفاده برای نرمافزار برنامهریزی رسمی. تبدیل کنند.
محققان ابتدا مدل کوچکی را که SimVLM نامیدهاند به دقت آموزش دادند تا در توصیف سناریو در یک. تصویر با استفاده از زبان طبیعی و شبیهسازی کنشها در یک تصویر تخصص داشته باشد.
سپس یک مدل بسیار بزرگتر،. که آنها آن را GenVLM مینامند،.
از توضیحات SimVLM برای تولید مجموعهای از فایلهای اولیه در یک زبان برنامهریزی رسمیبه. نام زبان تعریف دامنه برنامهریزی (PDDL) استفاده میکند.
فایلها آماده هستند تا به یک حل کننده PDDL کلاسیک وارد شوند،. که یک برنامه گام به گام را محاسبه میکند.
تکلیف را حل کند GenVLM نتایج حلکننده را با نتایج شبیهساز مقایسه میکند و بهطور مکرر فایلهای PDDL. را اصلاح میکند.
هائو میگوید:. «مولد و شبیهساز با هم کار میکنند تا بتوانند دقیقاً به همان نتیجه برسند،.
که یک شبیهسازی عملی است که به هدف دست مییابد.» از آنجایی که GenVLM یک هوش مصنوعی مولد. بزرگ است و میتواند در طول آموزش الگوی AI نمونهای از این زبان را فراگرفته باشد.
از مشکلات این دانش موجود مدل را قادر میسازد تا فایلهای PDDL دقیقی تولید کند. یک رویکرد انعطافپذیر VLMFP دو فایل PDDL مجزا تولید میکند.
اولی یک فایل دامنه است که محیط، اقدامات معتبر و قوانین دامنه را تعریف میکند. همچنین یک فایل مشکل تولید میکند که حالتهای اولیه و هدف یک مشکل خاص را تعریف میکند.
«یکی از مزایای PDDL این است که فایل دامنه برای همه نمونههای آن محیط یکسان است. این باعث میشود چارچوب ما خوب باشد.
در تعمیم به نمونههای غیرقابل مشاهده در یک دامنه، "هائو توضیح میدهد. برای اینکه سیستم بتواند بهطور موثر تعمیم دهد،.
محققان نیاز داشتند که دادههای آموزشی کافی را برای SimVLM با دقت طراحی کنند تا مدل یاد بگیرد. که مشکل و هدف را بدون به خاطر سپردن الگوها در سناریو درک کند.
وقتی SimVLM مورد آزمایش قرار گرفت،. سناریو را با موفقیت توصیف کرد،.
و در صورت انجام 8 درصد،. به هدف شبیهسازی شد.
بهطور کلی،. چارچوب VLMFP در شش کار برنامهریزی دوبعدی به نرخ موفقیت حدود 60 درصد و در دو کار.
سهبعدی،. از جمله همکاری چند روباتی و مونتاژ رباتیک،.
به بیش از 80 درصد دست یافت. این به سیستم ما انعطاف پذیری برای حل میدهد بسیاری از انواع مشکلات برنامهریزی مبتنی بر بصری.».
در آینده،. محققان میخواهند VLMFP را قادر سازند تا سناریوهای پیچیدهتری را مدیریت کند و روشهایی را برای شناسایی و.
کاهش توهمات توسط VLMها کشف کند. اما داشتن ابزار مناسب به چه معناست و چگونه آن ابزارها را ترکیب کنیم؟
هنوز راه درازی در پیش است،. اما با وارد کردن برنامهریزی مبتنی بر بصری به تصویر،.
این اثر بخش مهمیاز پازل است.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
