自動駕駛車輛采用神經網絡來執行許多駕駛任務,從檢測物體和預測其他人的行為方式,到規劃汽車的下一步動作。一般情況下,訓練單獨的神經網絡需要數周的微調和實驗,以及大量的算力。現在,Waymo與DeepMind的研究合作,從達爾文對進化論中汲取靈感,使這項訓練更加有效和高效。
神經網絡的性能受訓練方案的影響非常大,主要思路就是找到最優學習率、讓神經網絡在每次迭代后變得更好,但性能波動不需要太大。
尋找最佳訓練方案(或“超參數方案”)通常是通過工程師的經驗和直覺,或通過廣泛的搜索來實現的。在隨機搜索中,研究人員在多種類型的超參數上應用了許多隨機超參數調度,以便獨立地并行地訓練不同的網絡 ,然后可以選擇性能最佳的模型。
因為并行訓練大量模型在計算上是昂貴的,所以研究人員通常通過在訓練期間監視網絡,手動調整隨機搜索,定期剔除最弱表現的運算并釋放資源,以從頭開始用新的隨機超參數訓練新網絡。這種類型的手動調整可以更快地產生更好的結果,但這是非常耗費人力的。
為了提高這一過程的效率,DeepMind 的研究人員設計了一種基于進化競爭(PBT)自動確定良好超參數調度的方法,該方案結合了手動調整和隨機搜索的優點。
基于PBT模型如何運作:
PBT的工作原理是同時啟動許多超參數搜索,并定期進行“競爭”以比較模型的性能。從訓練池中刪除失敗的模型,并且僅使用獲勝模型繼續訓練,使用稍微突變的超參數更新。
PBT比研究人員采用的傳統方法更有效,例如隨機搜索,因為每個新的神經網絡都繼承了其父網絡的完整狀態,并且不需要從一開始就重新開始訓練。此外,超參數不是靜態的,而是在整個培訓過程中積極更新。與隨機搜索相比,PBT將更多的資源培訓用于成功的超參數值。
實驗取得了不錯的進展,PBT算法不僅實現了更高的精度,并且減少24%的誤報、保持了較高的召回率。
同時,PBT還節省了時間和資源。通過PBT訓練的網絡,時間和資源只有原來的一半。24%的誤報,同時也能保持較高的召回率。此外,PBT所需的訓練時間和計算資源僅為原來的一半。
現在,Waymo 已將 PBT 納入了技術基礎設施中,研究人員點點按鈕就能應用該算法,DeepMind 每隔 15 分鐘就會對模型進行一次評估,以讓測試結果更準確。
這是Waymo第一次曝光的與DeepMind在網絡上的合作,然而這種異步優化的PBT方法其實早就出現了。
它在Multi-Agent或者并行訓練中被提到過,甚至在DeepMind 星際爭霸II里的AlphaStar中都使用了該方法。主要用來自適應調節超參數。打破了通常的深度學習,超參數都是憑經驗預先設計好的,會花費大量精力且不一定有好的效果,特別是在深度強化學習這種非靜態(non-stationary)的環境中,要想得到SOTA效果,超參數還應隨著環境變化而自適應調整,比如探索率等等。這種基于種群(population)的進化方式,淘汰差的模型,利用(exploit)好的模型并添加隨機擾動(explore)進一步優化,最終得到最優的模型。
有學者曾分別從強化學習,監督學習,GAN三個方面做實驗,論證了這個簡單但有效的算法。
與其他領域不同的是,自動駕駛會涉及人身安全,所以應用起來不像博弈游戲一樣隨便,通過競爭篩選模型是一個優勢,但同樣也可能是個劣勢,需要提供足夠的種群才能讓篩選出的網絡結構變得意義。
-
傳感器
+關注
關注
2550文章
51046瀏覽量
753119 -
DeepMind
+關注
關注
0文章
130瀏覽量
10850 -
waymo
+關注
關注
2文章
312瀏覽量
24670
原文標題:Waymo無人車啟用 DeepMind 異步優化方法,提高傳感器識別效率
文章出處:【微信號:IV_Technology,微信公眾號:智車科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論