在线观看视频一区二区三区,亚洲美女爱爱,一区二区视频免费观看

自動駕駛車輛采用神經網絡來執行許多駕駛任務，從檢測物體和預測其他人的行為方式，到規劃汽車的下一步動作。一般情況下，訓練單獨的神經網絡需要數周的微調和實驗，以及大量的算力。現在，Waymo與DeepMind的研究合作，從達爾文對進化論中汲取靈感，使這項訓練更加有效和高效。

神經網絡的性能受訓練方案的影響非常大，主要思路就是找到最優學習率、讓神經網絡在每次迭代后變得更好，但性能波動不需要太大。

尋找最佳訓練方案（或“超參數方案”）通常是通過工程師的經驗和直覺，或通過廣泛的搜索來實現的。在隨機搜索中，研究人員在多種類型的超參數上應用了許多隨機超參數調度，以便獨立地并行地訓練不同的網絡，然后可以選擇性能最佳的模型。

因為并行訓練大量模型在計算上是昂貴的，所以研究人員通常通過在訓練期間監視網絡，手動調整隨機搜索，定期剔除最弱表現的運算并釋放資源，以從頭開始用新的隨機超參數訓練新網絡。這種類型的手動調整可以更快地產生更好的結果，但這是非常耗費人力的。

為了提高這一過程的效率，DeepMind 的研究人員設計了一種基于進化競爭（PBT）自動確定良好超參數調度的方法，該方案結合了手動調整和隨機搜索的優點。

基于PBT模型如何運作：

PBT的工作原理是同時啟動許多超參數搜索，并定期進行“競爭”以比較模型的性能。從訓練池中刪除失敗的模型，并且僅使用獲勝模型繼續訓練，使用稍微突變的超參數更新。

PBT比研究人員采用的傳統方法更有效，例如隨機搜索，因為每個新的神經網絡都繼承了其父網絡的完整狀態，并且不需要從一開始就重新開始訓練。此外，超參數不是靜態的，而是在整個培訓過程中積極更新。與隨機搜索相比，PBT將更多的資源培訓用于成功的超參數值。

實驗取得了不錯的進展，PBT算法不僅實現了更高的精度，并且減少24%的誤報、保持了較高的召回率。

同時，PBT還節省了時間和資源。通過PBT訓練的網絡，時間和資源只有原來的一半。24%的誤報，同時也能保持較高的召回率。此外，PBT所需的訓練時間和計算資源僅為原來的一半。

現在，Waymo 已將 PBT 納入了技術基礎設施中，研究人員點點按鈕就能應用該算法，DeepMind 每隔 15 分鐘就會對模型進行一次評估，以讓測試結果更準確。

這是Waymo第一次曝光的與DeepMind在網絡上的合作，然而這種異步優化的PBT方法其實早就出現了。

它在Multi-Agent或者并行訓練中被提到過，甚至在DeepMind 星際爭霸II里的AlphaStar中都使用了該方法。主要用來自適應調節超參數。打破了通常的深度學習，超參數都是憑經驗預先設計好的，會花費大量精力且不一定有好的效果，特別是在深度強化學習這種非靜態(non-stationary)的環境中，要想得到SOTA效果，超參數還應隨著環境變化而自適應調整，比如探索率等等。這種基于種群(population)的進化方式，淘汰差的模型，利用(exploit)好的模型并添加隨機擾動(explore)進一步優化，最終得到最優的模型。

有學者曾分別從強化學習,監督學習,GAN三個方面做實驗，論證了這個簡單但有效的算法。

與其他領域不同的是，自動駕駛會涉及人身安全，所以應用起來不像博弈游戲一樣隨便，通過競爭篩選模型是一個優勢，但同樣也可能是個劣勢，需要提供足夠的種群才能讓篩選出的網絡結構變得意義。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴