TL;DR
- آموزش مدلهای انتشار با یادگیری تقویتی ما 100 خودروی تحت کنترل با یادگیری تقویتی (RL) را در.
- ترافیک بزرگراهی در ساعات شلوغی به کار بردیم تا ازدحام را هموار کنیم و مصرف سوخت را برای.
- همه کاهش دهیم.
چه اتفاقی افتاد
آموزش مدلهای انتشار با یادگیری تقویتی ما 100 خودروی تحت کنترل با یادگیری تقویتی (RL) را در. ترافیک بزرگراهی در ساعات شلوغی به کار بردیم تا ازدحام را هموار کنیم و مصرف سوخت را برای.
همه کاهش دهیم. هدف ما مقابله با امواج "ایست و رفتن" است،.
آن کاهش سرعت و افزایش سرعت ناامیدکننده که معمولاً دلیل مشخصی ندارد اما منجر به ازدحام و اتلاف. انرژی قابل توجهی میشود.
برای آموزش کنترلکنندههای کارآمد صافکننده جریان،. شبیهسازیهای سریع و مبتنی بر دادهها را ساختیم که عوامل RL با آنها تعامل دارند و یاد میگیرند.
که بازده انرژی را به حداکثر برسانند و در عین حال توان عملیاتی را حفظ کنند و با. ایمنی در اطراف رانندگان انسانی کار کنند.
بهطور کلی،. بخش کوچکی از وسایل نقلیه خودران به خوبی کنترل شده (AVs) برای بهبود قابل توجه جریان ترافیک و.
کارایی سوخت برای همه رانندگان در جاده کافی است. علاوه بر این،.
کنترلکنندههای آموزشدیده به گونهای طراحی شدهاند که بر روی اکثر وسایل نقلیه مدرن قابل استقرار باشند،. به صورت غیرمتمرکز و با تکیه بر حسگرهای رادار استاندارد کار کنند.
در آخرین مقاله خود،. چالشهای استقرار کنترلکنندههای RL را در مقیاس بزرگ،.
از شبیهسازی تا میدانی،. در طول این آزمایش ۱۰۰ ماشین بررسی میکنیم.
چالشهای فانتوم جم یک موج توقف و حرکت که به سمت عقب در ترافیک بزرگراه حرکت می. کند.
اگر رانندگی میکنید،. مطمئناً ناامیدی امواج توقف و حرکت را تجربه کرده اید،.
آن کاهش سرعت ترافیک بهظاهر غیرقابل توضیحی که از ناکجاآباد ظاهر میشوند و سپس بهطور ناگهانی پاک میشوند. این امواج اغلب به دلیل نوسانات کوچک در رفتار رانندگی ما ایجاد میشوند که از طریق جریان.
ترافیک تقویت میشوند. ما بهطور طبیعی سرعت خود را بر اساس وسیله نقلیه جلویی تنظیم میکنیم.
اگر شکاف باز شود، سرعت را افزایش میدهیم تا ادامه دهیم. اگر ترمز کنند ما هم کم میکنیم.
اما به دلیل زمان واکنش غیر صفر ما، ممکن است کمیسختتر از خودروی جلویی ترمز کنیم. راننده بعدی که پشت سر ما قرار دارد همین کار را میکند و این همچنان تقویت می.
شود. با گذشت زمان، چیزی که با کاهش ناچیز شروع شد، به یک توقف کامل در ترافیک تبدیل میشود.
این امواج در جریان ترافیک به سمت عقب حرکت میکنند که منجر به کاهش قابل توجه بهره. وری انرژی به دلیل شتابهای مکرر و همراه با افزایش انتشار CO2 و تصادف میشود.
خطر و این یک پدیده منفرد نیست! این امواج در جادههای شلوغ زمانی که تراکم ترافیک از یک آستانه بحرانی فراتر میرود،.
همه جا وجود دارند. پس چگونه میتوانیم این مشکل را برطرف کنیم؟
رویکردهای سنتی مانند اندازهگیری رمپ و محدودیتهای سرعت متغیر سعی در مدیریت جریان ترافیک دارند،. اما اغلب به زیرساختهای پرهزینه و هماهنگی متمرکز نیاز دارند.
یک رویکرد مقیاس پذیرتر استفاده از AVها است که میتوانند به صورت پویا رفتار رانندگی خود. را در زمان واقعی تنظیم کنند.
با این حال،. قرار دادن AV به سادگی در بین رانندگان انسانی کافی نیست:.
آنها همچنین باید به روشی هوشمندتر رانندگی کنند که ترافیک را برای همه بهتر کند،. جایی که RL وارد میشود.
نمودار اساسی جریان ترافیک تعداد خودروها در جاده (تراکم) بر میزان حرکت رو به جلو (جریان) تأثیر می. گذارد.
در چگالی کم،. افزودن خودروهای بیشتر جریان را افزایش میدهد زیرا وسایل نقلیه بیشتری میتوانند از آن عبور کنند.
اما فراتر از یک آستانه بحرانی،. اتومبیلها شروع به مسدود کردن یکدیگر میکنند که منجر به ازدحام میشود،.
جایی که افزودن اتومبیلهای بیشتر در واقع حرکت کلی را کند میکند. RL یک رویکرد کنترلی قدرتمند است که در آن یک عامل یاد میگیرد تا سیگنال پاداش را از.
طریق تعامل با یک محیط به حداکثر برساند. عامل تجربه را از طریق آزمون و خطا جمع آوری میکند،.
از اشتباهات خود درس میگیرد و در طول زمان بهبود مییابد. در مورد ما،.
محیط یک سناریوی ترافیکی مختلط است که در آن خودروهای AV راهبردهای رانندگی را برای کاهش امواج توقف. و حرکت و کاهش مصرف سوخت برای خود و وسایل نقلیه انسانی مجاور میآموزند.
آموزش این عوامل RL نیازمند شبیهسازیهای سریع با دینامیک ترافیک واقعی است که میتواند رفتار. توقف و حرکت بزرگراه را تکرار کند.
برای دستیابی به این هدف،. ما از دادههای تجربی جمعآوریشده در Interstate 24 (I-24) در نزدیکی نشویل،.
تنسی استفاده کردیم و از آن برای ساختن شبیهسازیهایی استفاده کردیم که در آن وسایل نقلیه مسیرهای بزرگراه. را دوباره پخش میکنند و ترافیک ناپایداری ایجاد میکنند که AVهایی که پشت سرشان میرانند،.
یاد میگیرند آن را هموار کنند. شبیهسازی در حال پخش مجدد یک مسیر بزرگراه که چندین موج توقف و حرکت را نشان می.
دهد. ما AVها را با در نظر گرفتن استقرار طراحی کردیم و اطمینان حاصل کردیم که آنها می.
توانند تنها با استفاده از اطلاعات پایه حسگر در مورد خود و وسیله نقلیه جلویی کار کنند. مشاهدات شامل سرعت AV، سرعت وسیله نقلیه پیشرو و فاصله فضایی بین آنهاست.
با توجه به این ورودیها،. عامل RL یا یک شتاب آنی یا یک سرعت دلخواه را برای AV تجویز میکند.
مزیت اصلی استفاده از این اندازهگیریهای محلی این است که کنترلکنندههای RL را میتوان بر روی اکثر وسایل. نقلیه مدرن به صورت غیرمتمرکز و بدون نیاز به زیرساخت اضافی مستقر کرد.
طراحی پاداش چالش برانگیزترین بخش طراحی یک تابع پاداش است که در صورت به حداکثر رساندن،. با اهداف مختلفی که مایل هستیم AVها به آن دست یابند،.
همسو میشود:. هموارسازی موج:.
نوسانات توقف و حرکت را کاهش دهید. بهره وری انرژی: مصرف سوخت کمتر برای همه خودروها، نه فقط AV.
ایمنی: از فواصل معقول زیر اطمینان حاصل کنید و از ترمزهای ناگهانی خودداری کنید. راحتی رانندگی: از شتاب و کاهش سرعت تهاجمیخودداری کنید.
پایبندی به هنجارهای رانندگی انسانی:. از یک رفتار رانندگی "عادی" اطمینان حاصل کنید که باعث ناراحتی رانندگان اطراف نشود.
ایجاد تعادل بین این اهداف دشوار است، زیرا ضرایب مناسب برای هر عبارت باید یافت شود. بهعنوان مثال،.
اگر به حداقل رساندن مصرف سوخت بر پاداش غالب باشد،. خودروهای RL AV یاد میگیرند که در وسط بزرگراه توقف کنند،.
زیرا انرژی بهینه است. برای جلوگیری از این امر،.
حداقل و حداکثر آستانه شکاف پویا را برای اطمینان از رفتار ایمن و معقول و در عین حال. بهینهسازی بهره وری سوخت معرفی کردیم.
ما همچنین مصرف سوخت وسایل نقلیه انسان محور پشت AV را جریمه کردیم تا آن را از یادگیری. یک رفتار خودخواهانه که صرفه جویی در مصرف انرژی را برای AV به هزینه ترافیک اطراف بهینه می.
کند،. منصرف کنیم.
بهطور کلی،. هدف ما ایجاد تعادل بین صرفه جویی در انرژی و داشتن یک رفتار رانندگی منطقی و ایمن است.
نتایج شبیهسازی تصویر آستانه پویایی حداقل و حداکثر شکاف،. که در آن AV میتواند آزادانه عمل کند تا ترافیک را تا حد امکان بهینه کند.
رفتار معمولی که توسط AVها آموخته میشود حفظ شکافهای کمیبزرگتر از رانندگان انسانی است. که به آنها اجازه میدهد تا کاهش سرعت ترافیک آینده،.
احتمالاً ناگهانی را بهطور موثرتری جذب کنند. در شبیهسازی،.
این رویکرد منجر به صرفهجویی قابلتوجهی در مصرف سوخت تا 20 درصد در تمام کاربران جاده در شلوغترین. سناریوها شد،.
با کمتر از 5 درصد از AV در جاده. و این AVها نباید وسایل نقلیه خاصی باشند!
آنها به سادگی میتوانند خودروهای مصرفی استاندارد مجهز به کروز کنترل تطبیقی هوشمند (ACC) باشند،. که همان چیزی است که ما در مقیاس آزمایش کردیم.
رفتار هموارسازی RL AVs. قرمز: یک مسیر انسانی از مجموعه داده.
آبی: AVهای متوالی در جوخه، جایی که AV 1 نزدیکترین پشت مسیر انسان است. بهطور معمول بین 20 تا 25 وسیله نقلیه انسانی بین AV وجود دارد.
هر AV به اندازه رهبر خود کند یا شتاب نمیگیرد،. که منجر به کاهش دامنه موج در طول زمان و در نتیجه صرفه جویی در انرژی میشود.
آزمایش میدانی 100 AV:. استقرار RL در مقیاس 100 ماشین ما در طول هفته آزمایش در مرکز عملیاتی ما پارک کردند.
با توجه به نتایج امیدوارکننده شبیهسازی،. گام طبیعی بعدی،.
پر کردن شکاف از شبیهسازی به بزرگراه بود. ما کنترلرهای آموزش دیده RL را گرفتیم و آنها را در 100 وسیله نقلیه در I-24 در ساعات.
اوج ترافیک طی چند روز مستقر کردیم. این آزمایش در مقیاس بزرگ،.
که ما آن را MegaVanderTest نامیدیم،. بزرگترین آزمایش هموارسازی ترافیک با خودمختاری مختلط است که تاکنون انجام شده است.
قبل از استقرار کنترلرهای RL در میدان،. ما آنها را بهطور گسترده در شبیهسازی آموزش و ارزیابی کردیم و آنها را روی سخت افزار.
اعتبار سنجی کردیم. بهطور کلی،.
مراحل به سمت استقرار شامل:. آموزش در شبیهسازیهای مبتنی بر داده:.
ما از دادههای ترافیک بزرگراه از I-24 برای ایجاد یک محیط آموزشی با دینامیک موج واقعی استفاده کردیم،. سپس عملکرد و استحکام عامل آموزشدیده را در انواع سناریوهای ترافیکی جدید تأیید کردیم.
استقرار بر روی سخت افزار:. پس از تأیید اعتبار در نرم افزار رباتیک،.
کنترلر آموزش دیده بر روی خودرو بارگذاری میشود و قادر است سرعت تنظیم شده خودرو را کنترل. کند.
ما از طریق کروز کنترل خودرو که بهعنوان یک کنترل کننده ایمنی سطح پایینتر عمل میکند،. کار میکنیم.
چارچوب کنترل مدولار: یکی از چالشهای کلیدی در طول آزمایش، عدم دسترسی به حسگرهای اطلاعات خودرو پیشرو بود. برای غلبه بر این،.
کنترلر RL در یک سیستم سلسله مراتبی به نام MegaController ادغام شد که یک راهنمای برنامه ریز سرعت. را که شرایط ترافیک پایین دستی را محاسبه میکند و کنترل کننده RL بهعنوان تصمیم گیرنده نهایی.
ترکیب میکند. اعتبار سنجی روی سخت افزار:.
عوامل RL برای کار در محیطی طراحی شده بودند که اکثر وسایل نقلیه توسط انسان هدایت میشدند. و به سیاستهای قویای نیاز داشتند که با رفتار غیرقابل پیش بینی سازگار شوند.
ما این موضوع را با رانندگی وسایل نقلیه تحت کنترل RL در جاده تحت نظارت دقیق انسان تأیید. میکنیم و بر اساس بازخورد،.
تغییراتی در کنترل ایجاد میکنیم. هر یک از 100 خودرو به Raspberry Pi متصل هستند که کنترلر RL (یک شبکه عصبی کوچک) روی.
آن مستقر شده است. کنترلر RL مستقیماً سیستم کروز کنترل تطبیقی (ACC) را کنترل میکند و سرعت آن و مسافت مورد.
نظر را تنظیم میکند. پس از تأیید اعتبار،.
کنترلکنندههای RL روی 100 خودرو مستقر شدند و در ساعت شلوغی صبحگاهی در I-24 راندند. ترافیک اطراف از آزمایش بی اطلاع بود و از رفتار بی طرفانه راننده اطمینان حاصل کرد.
دادهها در طول آزمایش از دهها دوربین بالای سر قرار گرفته در امتداد بزرگراه جمعآوری شد که منجر. به استخراج میلیونها مسیر وسیله نقلیه فردی از طریق یک خط لوله بینایی کامپیوتری شد.
معیارهای محاسبه شده در این مسیرها نشان دهنده روند کاهش مصرف سوخت در اطراف AVها است،. همانطور که از نتایج شبیهسازی و استقرارهای اعتبارسنجی کوچکتر قبلی انتظار میرود.
برای مثال،. میتوانیم مشاهده کنیم که هرچه افراد نزدیکتر پشت خودروهای AV ما رانندگی میکنند،.
به نظر میرسد بهطور متوسط سوخت کمتری مصرف میکنند (که با استفاده از یک مدل انرژی کالیبره شده. محاسبه میشود):.
میانگین مصرف سوخت بهعنوان تابعی از فاصله پشت نزدیکترین AV کنترل شده با RL درگیر در ترافیک پایین. دست.
همانطور که رانندگان انسان از پشت خودروهای AV دورتر میشوند، میانگین مصرف سوخت آنها افزایش مییابد. روش دیگر برای اندازهگیری ضربه،.
اندازهگیری واریانس سرعتها و شتابها است:. هرچه واریانس کمتر باشد،.
امواج باید دامنه کمتری داشته باشند،. چیزی که از دادههای آزمایش میدانی مشاهده میکنیم.
بهطور کلی،. اگرچه اندازهگیری دقیق از حجم زیادی از دادههای ویدئویی دوربین پیچیده است،.
اما ما روندی بین 15 تا 20 درصد از صرفه جویی در انرژی را در اطراف خودروهای کنترل. شده خود مشاهده میکنیم.
نقاط داده از تمام وسایل نقلیه در بزرگراه در طول یک روز آزمایش،. در فضای سرعت-شتاب رسم شده است.
خوشه سمت چپ خط قرمز نشان دهنده تراکم است،. در حالی که خوشه سمت راست مربوط به جریان آزاد است.
ما مشاهده میکنیم که وقتی AVها وجود دارند،. خوشه تراکم کوچکتر است،.
همانطور که با محاسبه مساحت یک پوشش محدب نرم یا با برازش هسته گاوسی اندازهگیری میشود. افکار نهایی آزمایش عملیاتی میدانی 100 خودرو غیرمتمرکز بود،.
بدون همکاری یا ارتباط صریح بین AVها،. که منعکس کننده استقرار خودمختاری فعلی است و ما را یک گام به بزرگراههای هموارتر و کم مصرفتر.
نزدیکتر میکند. با این حال، هنوز پتانسیل زیادی برای بهبود وجود دارد.
مقیاسگذاری شبیهسازیها برای سریعتر و دقیقتر شدن با مدلهای بهتر رانندگی انسان برای پر کردن شکاف شبیهسازی تا. واقعیت بسیار مهم است.
تجهیز AV به دادههای ترافیکی اضافی،. چه از طریق سنسورهای پیشرفته یا برنامهریزی متمرکز،.
میتواند عملکرد کنترلرها را بیشتر بهبود بخشد. بهعنوان مثال،.
در حالی که RL چندعاملی برای بهبود استراتژیهای کنترل مشارکتی امیدوارکننده است،. این یک سوال باز باقی میماند که چگونه برقراری ارتباط صریح بین AVها از طریق شبکههای 5G.
میتواند ثبات را بیشتر کند و امواج توقف و حرکت را کاهش دهد. مهمتر از همه،.
کنترل کنندههای ما بهطور یکپارچه با آنها ادغام میشوند سیستمهای کنترل کروز تطبیقی (ACC) موجود،. استقرار میدانی را در مقیاس امکان پذیر میکند.
هر چه وسایل نقلیه مجهز به کنترل هوشمند کنترل ترافیک بیشتر باشد،. امواج کمتری را در جادههای خود مشاهده خواهیم کرد،.
یعنی آلودگی و صرفهجویی در مصرف سوخت برای همه کمتر است! بسیاری از مشارکت کنندگان در ساخت MegaVanderTest شرکت کردند!
لیست کامل به همراه جزئیات بیشتر در مورد پروژه در صفحه پروژه CIRCLES موجود است. بیشتر بخوانید: [کاغذ].
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
