隨著智能網(wǎng)聯(lián)汽車、5G通信和智能交通系統(tǒng)的發(fā)展,有望在保證通行安全,提升通行能力的情況下實(shí)現(xiàn)道路交叉口無信號(hào)燈控制。
研究背景
自動(dòng)交叉口管理系統(tǒng)(Autonomous Intersection Management systems,AIMs)能夠?qū)崿F(xiàn)無交通信號(hào)下對(duì)網(wǎng)聯(lián)智能汽車(CAV)進(jìn)行控制,保障安全有效的交通流。但目前的AIM算法主要基于控制算法,不具備適應(yīng)或不斷學(xué)習(xí)新情況的能力。如:
(1)基于固定時(shí)間的交通燈控制算法(Fix Time,FT)
(2)基于排隊(duì)理論的智能交通燈控制算法(iREDVD )
(3)近期提出的AIMs。
本文要解決的問題
讓AIMs系統(tǒng)具有對(duì)真實(shí)且復(fù)雜的交通場(chǎng)景(不斷變化的十字交叉口流量密度,雙向6車道,直行,左轉(zhuǎn),右轉(zhuǎn)三個(gè)行駛方向,100m內(nèi))進(jìn)行自主學(xué)習(xí)和主動(dòng)協(xié)同控制CAV的能力,且保證不發(fā)生碰撞事故。
解決的方案:先進(jìn)AIM方法(本文定義為adv.RAIM)。基于端到端多主體深度強(qiáng)化學(xué)習(xí)(MADRL)(LSTM)+通過自我游戲進(jìn)行基于課程的學(xué)習(xí)
方案的效果:通行時(shí)間,等待時(shí)間,和時(shí)間損失的減少,附帶的讓經(jīng)濟(jì)性和排放性能都得到改善。
傳統(tǒng)的AIMs
主要包括兩個(gè)模塊:沖突模塊和優(yōu)先級(jí)模塊 1、沖突模塊:負(fù)責(zé)確定兩輛車在接近或穿過交叉口時(shí)是否會(huì)發(fā)生沖突。四種沖突識(shí)別方法:i)基于交叉口的,ii)基于網(wǎng)格的,iii)基于沖突點(diǎn)的,iv)基于車輛自由選擇的。 2、優(yōu)先級(jí)模塊:在遇到?jīng)_突時(shí),對(duì)車輛狀態(tài)(例如速度、加速度、路線等)采取行動(dòng)并管理車輛的通行權(quán)來解決沖突。通行權(quán)的分配有以下五個(gè)方法:i)基于到達(dá)交叉口的順序,先到先得(FCFS);ii)根據(jù)車輛/交叉口狀態(tài)分配優(yōu)先級(jí),如快速優(yōu)先服務(wù)(FFS)(到達(dá)交叉口最快的車輛獲得最高優(yōu)先級(jí))或長(zhǎng)隊(duì)優(yōu)先(LQF)(進(jìn)入隊(duì)列最長(zhǎng)的車輛具有最高優(yōu)先級(jí));iii)使用一些啟發(fā)式方法,如動(dòng)態(tài)規(guī)劃(DP)或線性混合整數(shù)規(guī)劃(MILP)(通過一系列方程和條件用于求解,實(shí)時(shí)性和復(fù)雜適應(yīng)性差);iv)通過拍賣,對(duì)出價(jià)最高的車輛給予更高的優(yōu)先權(quán)(不行,平等問題);v)通過人工智能機(jī)制,如遺傳算法或強(qiáng)化學(xué)習(xí)。
注意:在車輛流量較低的情況下,F(xiàn)CFS提供了更好的性能,但當(dāng)交通流量較高(>800輛/小時(shí))時(shí),紅綠燈控制提供了更好性能。此外,當(dāng)交通不對(duì)稱、突發(fā)或有主干道和街道連接時(shí),F(xiàn)CFS的性能比紅綠燈控制差。
本文提出的方案:adv.RAIM(狀態(tài)/沖突編碼器+運(yùn)動(dòng)規(guī)劃器)
1、狀態(tài)/沖突編碼器(使用LSTM).輸入為車輛狀態(tài)(位置,速度,角度,車道,行駛方向,行駛趨勢(shì)等),輸出為待控制車輛與其他車輛之間沖突的編碼。 2、運(yùn)動(dòng)規(guī)劃器。包括具有ReLU激活函數(shù)的四個(gè)全連接層。 3、更新時(shí)間步長(zhǎng)為250ms.使用雙延遲深度確定性策略梯度(TD3)優(yōu)化控制器. 4、獎(jiǎng)懲機(jī)制:如果發(fā)生碰撞給予?100(強(qiáng)負(fù)獎(jiǎng)勵(lì))。如果通過交叉口,給予+100(強(qiáng)正獎(jiǎng)勵(lì))。?timestep(弱負(fù)獎(jiǎng)勵(lì))鼓勵(lì)盡可能快地通過交叉口。確保車輛盡可能快地通過交叉口,同時(shí)保證安全。 5、實(shí)現(xiàn)更穩(wěn)定和快速的訓(xùn)練模型的兩個(gè)技術(shù): i) Prioritized Experience Replay: (PER)。在DRL中,添加了一個(gè)重放緩沖區(qū)來存儲(chǔ)過去的經(jīng)驗(yàn),最“可學(xué)習(xí)”的經(jīng)驗(yàn)是當(dāng)預(yù)測(cè)Q值和實(shí)際Q值差值(時(shí)間差(TD)誤差)高時(shí), 在優(yōu)化過程中從重放緩沖區(qū)中選擇體驗(yàn)的可能性就越大。 ii) Learning by curriculum:訓(xùn)練任務(wù)由易到難,且逐漸增加仿真車輛數(shù)。 6、仿真軟件:SUMO;算法編寫:Pytorch1.5.0和Python3.7;仿真包含一個(gè)訓(xùn)練場(chǎng)景和四個(gè)測(cè)試場(chǎng)景。使用的車輛分布為:35%的柴油車、35%的汽油車和30%的零排放電動(dòng)汽車。 7、分析指標(biāo): (1)訓(xùn)練場(chǎng)景:全局獎(jiǎng)勵(lì)、碰撞次數(shù)和時(shí)間損失
(2)測(cè)試場(chǎng)景:直接指標(biāo):行程時(shí)間、等待時(shí)間和擁堵造成的時(shí)間損失。間接指標(biāo):排放污染物和燃油/電力消耗。
結(jié)果
訓(xùn)練出的模型系統(tǒng)穩(wěn)定性好。在最接近真實(shí)復(fù)雜交通場(chǎng)景的第四個(gè)測(cè)試場(chǎng)景中,行程時(shí)間最多減少59%。時(shí)間損失最多可減少95%。污染氣體(CO、CO2、HC、PMx和NOx)的排放量減少了37%、13%、28%、37%、50%,燃料和電力的消耗量分別減少21%和27%。(因?yàn)闇p少了加減速的次數(shù))
讀后感:本文最大的創(chuàng)新點(diǎn)是將深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)運(yùn)用到AIMs中,并且將交通場(chǎng)景擴(kuò)展得更為復(fù)雜。
審核編輯 :李倩
-
管理系統(tǒng)
+關(guān)注
關(guān)注
1文章
2485瀏覽量
35903 -
信號(hào)燈
+關(guān)注
關(guān)注
2文章
69瀏覽量
13387
原文標(biāo)題:未來交叉口無信號(hào)燈可行嗎?
文章出處:【微信號(hào):智能浪尖,微信公眾號(hào):智能浪尖】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論