午夜亚洲国产,一级黄视频,在线亚洲综合

導(dǎo)航是一個(gè)內(nèi)容豐富、基礎(chǔ)扎實(shí)的問題領(lǐng)域，它推動(dòng)了許多不同領(lǐng)域的研究進(jìn)展：尤其是感知、計(jì)劃、記憶、探索和優(yōu)化。從歷史上看，這些挑戰(zhàn)都是單獨(dú)考慮的，并且建立的解決方案依賴于固定的數(shù)據(jù)集——例如，通過環(huán)境的記錄軌跡。然而，這些數(shù)據(jù)集不能用于決策和強(qiáng)化學(xué)習(xí)，總的來說，導(dǎo)航作為一項(xiàng)交互式的學(xué)習(xí)任務(wù)，其中學(xué)習(xí)agent的行動(dòng)和行為是與感知和規(guī)劃同時(shí)學(xué)習(xí)的，這一觀點(diǎn)相對(duì)來說沒有得到支持。因此，現(xiàn)有的導(dǎo)航基準(zhǔn)測(cè)試通常依賴于靜態(tài)數(shù)據(jù)集(Geiger等人，2013;Kendall等人，2015)或模擬器(Beattie等人，2016;Shah等人，2018年)。為了支持和驗(yàn)證端到端導(dǎo)航的研究，我們提出了StreetLearn：一個(gè)交互式的、第一人稱的、部分觀察的視覺環(huán)境，使用谷歌街景的照片內(nèi)容和廣泛的覆蓋范圍，并給出了一個(gè)具有挑戰(zhàn)性的目標(biāo)驅(qū)動(dòng)的導(dǎo)航任務(wù)的性能基線。

I.簡(jiǎn)介

圖1 l 我們的環(huán)境是由來自StreetView的真實(shí)世界的地方建立的。圖中顯示了紐約市（時(shí)代廣場(chǎng)、中央公園）和倫敦（圣保羅大教堂）的不同景觀和相應(yīng)的本地地圖。綠色的圓錐體代表agent的位置和方向。

導(dǎo)航這一課題對(duì)各種研究學(xué)科和技術(shù)領(lǐng)域都具有吸引力，是希望破解網(wǎng)格和位置細(xì)胞密碼的神經(jīng)科學(xué)家的研究課題(Banino等人，2018;Cueva和Wei, 2018)，同時(shí)也是機(jī)器人研究的一個(gè)基本方面，希望建造可以到達(dá)給定目的地的移動(dòng)機(jī)器人。大多數(shù)導(dǎo)航算法涉及在探索階段建立一個(gè)明確的地圖，然后通過該表征進(jìn)行規(guī)劃和行動(dòng)。最近，研究人員試圖通過探索和與環(huán)境的互動(dòng)來直接學(xué)習(xí)導(dǎo)航策略，例如使用端到端的深度強(qiáng)化學(xué)習(xí)（Lample和Chaplot，2017；Mirowski等人，2017；Wu等人，2018；Zhu等人，2017）。為了支持這項(xiàng)研究，我們?cè)O(shè)計(jì)了一個(gè)名為StreetLearn的互動(dòng)環(huán)境，使用谷歌街景的圖像和基礎(chǔ)連接信息（見圖1），包括匹茲堡和紐約市的兩個(gè)大區(qū)域。該環(huán)境以高分辨率的攝影圖片為特色，展示了多樣化的城市環(huán)境，并以真實(shí)的街道連接圖跨越了城市規(guī)模的區(qū)域。在這個(gè)環(huán)境中，我們開發(fā)了幾個(gè)穿越任務(wù)，要求agent從一個(gè)目標(biāo)到另一個(gè)目標(biāo)進(jìn)行長(zhǎng)距離的導(dǎo)航。

其中一項(xiàng)任務(wù)在現(xiàn)實(shí)世界中類似于一個(gè)在特定城市工作的速遞員，他從一個(gè)被稱為 "A "的任意地點(diǎn)開始，然后被指示去一個(gè)用絕對(duì)坐標(biāo)定義的特定地點(diǎn)"B"，但他從來沒有被告知這些地點(diǎn)的地圖或從A到B的路徑，或被告知自己的位置。另一項(xiàng)任務(wù)是模仿谷歌地圖，遵循由自然語言導(dǎo)航指示和圖像縮略圖組成的一步一步的指示。額外的導(dǎo)航任務(wù)可以在StreetLearn環(huán)境中開發(fā)。我們?cè)诘?節(jié)中描述了數(shù)據(jù)集、環(huán)境和任務(wù)，在第3節(jié)中解釋了環(huán)境代碼，在第4節(jié)中描述了已實(shí)施的方法和基線方法，在第5節(jié)中描述了結(jié)果，在第6節(jié)中詳細(xì)介紹了相關(guān)工作。 II.環(huán)境

本節(jié)介紹了StreetLearn，一個(gè)利用谷歌街景構(gòu)建的互動(dòng)環(huán)境。由于街景數(shù)據(jù)是在全球范圍內(nèi)收集的，并且包括高分辨率圖像和圖表連接，因此它是研究導(dǎo)航的寶貴資源。

街景提供了一組地理定位的360°全景圖像，這些圖像構(gòu)成了一個(gè)無向圖的節(jié)點(diǎn)（我們交替使用節(jié)點(diǎn)和全景這一術(shù)語）。我們選擇了紐約市和匹茲堡的一些地區(qū)。紐約市可供下載的地區(qū)是曼哈頓第81街以南的地區(qū)。

這包括在一個(gè)由（40.695，-74.028）和（40.788，-73.940）定義的長(zhǎng)/寬邊界框內(nèi)的近似56K全景圖像。請(qǐng)注意，布魯克林、皇后區(qū)、羅斯福島以及曼哈頓的橋梁和隧道都不包括在內(nèi)，我們只包括曼哈頓海濱和第79/81街的多邊形內(nèi)的全景圖，覆蓋面積為31.6平方公里。匹茲堡數(shù)據(jù)集包括58K張圖像，由(40.425, -80.035)和(40.460, -79.930)之間的經(jīng)度/緯度邊界框來定義，覆蓋8.9公里乘3.9公里的區(qū)域。

此外，我們?cè)诿總€(gè)城市確定了三個(gè)區(qū)域，可以單獨(dú)用于訓(xùn)練或轉(zhuǎn)移學(xué)習(xí)實(shí)驗(yàn)。表1給出了每個(gè)地區(qū)的統(tǒng)計(jì)數(shù)據(jù)。

無向圖的邊描述了節(jié)點(diǎn)與其他節(jié)點(diǎn)的接近性和可及性。我們不減少或簡(jiǎn)化基礎(chǔ)的連接性，而是使用完整的圖；因此，有許多節(jié)點(diǎn)的擁擠地區(qū)，復(fù)雜的閉塞交叉口，隧道和人行道，以及其他偶發(fā)事件。

平均節(jié)點(diǎn)間距為10米，在交叉口的密度更高。雖然圖形被用來構(gòu)建環(huán)境，但agent從未觀察到底層圖形--只觀察到RGB圖像（公共街景產(chǎn)品中可見的疊加信息，如箭頭，也不被agent看到）。

圖1中顯示了RGB圖像和圖表的例子。在我們的數(shù)據(jù)集中，每個(gè)全景圖都被存儲(chǔ)為一個(gè)協(xié)議緩沖區(qū)（Google，2008）對(duì)象，包含一個(gè)高質(zhì)量的壓縮JPEG格式的字符串，對(duì)等角圖像進(jìn)行編碼，并以下列屬性加以裝飾：一個(gè)獨(dú)特的字符串標(biāo)識(shí)符，全景相機(jī)的位置（經(jīng)度/緯度坐標(biāo)和高度，以米為單位）和方向（俯仰、滾動(dòng)和偏航角度），圖像的采集日期，以及直接連接的相鄰對(duì)象列表。 2.1.界定數(shù)據(jù)集內(nèi)的區(qū)域在StreetLearn數(shù)據(jù)集中，整個(gè)曼哈頓和匹茲堡的環(huán)境包含了大的城市區(qū)域，每個(gè)區(qū)域代表了超過56000張街景全景圖，從一個(gè)極端到另一個(gè)極端，穿越這些區(qū)域可能需要經(jīng)過街景圖中接近1千的節(jié)點(diǎn)。為了使學(xué)習(xí)具有可操作性，也為了確定訓(xùn)練和轉(zhuǎn)移的不同區(qū)域，我們可以將環(huán)境切割成更小的區(qū)域。例如，圖3顯示了將曼哈頓和匹茲堡切割成6個(gè)區(qū)域（"華爾街"、"聯(lián)合廣場(chǎng)"、"哈德遜"、"CMU"、"阿勒格尼 "和"南岸"）的情況，這在我們第5節(jié)的實(shí)驗(yàn)中使用。在街道圖上劃分區(qū)域有許多可能性：最明顯的是用經(jīng)緯度邊界框來切割圖形，其缺點(diǎn)是會(huì)產(chǎn)生不相連的部分。第二種是用多邊形來切割圖形，但必須指定該多邊形的所有頂點(diǎn)，依靠凸面體來選擇包含在多邊形內(nèi)的節(jié)點(diǎn)，這很不方便。我們選擇了第三種方法來確定我們的區(qū)域，通過廣度優(yōu)先搜索（BFS）（Moore, 1959; Zuse, 1972）從一個(gè)給定的節(jié)點(diǎn)開始增長(zhǎng)圖形區(qū)域，這只需要選擇一個(gè)中心全景圖和一個(gè)圖形深度，并確保產(chǎn)生的圖形是連接的。我們?cè)诒?中列出了這些區(qū)域的大小（以節(jié)點(diǎn)、邊和區(qū)域覆蓋率計(jì)）、高度變化和描述，包括中央全景圖的ID和BFS圖的深度。 2.2.agent界面和速遞任務(wù)

RL環(huán)境需要指定agent的觀察和行動(dòng)空間，并定義任務(wù)。StreetLearn環(huán)境在每個(gè)時(shí)間點(diǎn)提供可視化觀察xt。視覺輸入是為了模擬第一人稱，部分觀察到的環(huán)境，因此xt是一個(gè)裁剪過的、60°正方形的RGB圖像，被縮放為84×84像素（即不是整個(gè)全景圖）。

動(dòng)作空間由五種離散的動(dòng)作組成。"緩慢 "向左或向右旋轉(zhuǎn)（±22.5°），"快速"向左或向右旋轉(zhuǎn)（±67.5°），或向前移動(dòng)（如果從當(dāng)前agent的姿勢(shì)來看，沒有一個(gè)邊緣，這個(gè)動(dòng)作就會(huì)成為一個(gè)noop）。

如果在agent的視錐中有多個(gè)邊，那么就選擇最中心的一個(gè)。

StreetLearn提供了一個(gè)額外的觀察，即目標(biāo)描述符gt，它向agent傳達(dá)了任務(wù)目標(biāo)--去哪里領(lǐng)取下一個(gè)收獲。

如何指定目標(biāo)有很多選擇：例如，圖像是一個(gè)自然的選擇（如（Zhu等人，2017）），但在城市范圍內(nèi)很快就變得模糊不清；可以使用基于語言的指示或街道地址（如（Chen等人，2018）），盡管這將把重點(diǎn)放在語言基礎(chǔ)而不是導(dǎo)航上；和地標(biāo)可用于以可擴(kuò)展的、無坐標(biāo)的方式對(duì)目標(biāo)位置進(jìn)行編碼（Mirowski等人，2018）。

對(duì)于這項(xiàng)快遞任務(wù)，我們采取最簡(jiǎn)單的路線，并將目標(biāo)地點(diǎn)直接定為連續(xù)值坐標(biāo) (Lattg, Longtg)。注意目標(biāo)描述是絕對(duì)的;它與agent的位置無關(guān)，只在繪制新目標(biāo)時(shí)發(fā)生變化(無論是在成功獲得目標(biāo)時(shí)還是在任務(wù)事件開始時(shí))。

在快遞任務(wù)中，可以概括為導(dǎo)航到城市中一系列隨機(jī)地點(diǎn)的問題，agent從StreetLearn圖中隨機(jī)抽樣的位置和方向開始每一個(gè)任務(wù)。從圖中隨機(jī)抽出一個(gè)目標(biāo)位置，計(jì)算出目標(biāo)描述符g0并輸入給agent。如果agent到達(dá)一個(gè)接近目標(biāo)的節(jié)點(diǎn)（100米，或大約一個(gè)城市街區(qū)），agent就會(huì)得到獎(jiǎng)勵(lì)，并隨機(jī)選擇下一個(gè)目標(biāo)并輸入給agent。

每一個(gè)任務(wù)在1000個(gè)agent步驟后結(jié)束。agent在到達(dá)目標(biāo)時(shí)獲得的獎(jiǎng)勵(lì)與目標(biāo)和agent首次分配目標(biāo)時(shí)的位置之間的最短路徑成正比；很像速遞服務(wù)，agent在較長(zhǎng)的旅程中獲得較高的獎(jiǎng)勵(lì)。

直觀地說，為了解決速遞任務(wù)，agent需要學(xué)會(huì)將目標(biāo)編碼與在目標(biāo)位置觀察到的圖像相關(guān)聯(lián)，以及將在當(dāng)前位置觀察到的圖像與到達(dá)不同目標(biāo)位置的策略相關(guān)聯(lián)。

2.3.課程

課程學(xué)習(xí)通過選擇更多更難的例子來呈現(xiàn)給學(xué)習(xí)算法，逐漸增加學(xué)習(xí)任務(wù)的復(fù)雜性（Bengio等人，2009；Graves等人，2017；Zaremba和Sutskever，2014）。我們發(fā)現(xiàn)，對(duì)于目的地較遠(yuǎn)的速遞任務(wù)，課程可能很重要。與其他RL問題（如Montezuma’s Revenge）類似，速遞員任務(wù)的獎(jiǎng)勵(lì)非常稀少；與該游戲不同，我們能夠制定一個(gè)自然的課程計(jì)劃。我們首先對(duì)agent位置500米范圍內(nèi)的新目標(biāo)進(jìn)行采樣（第1階段）。在第二階段，我們逐步擴(kuò)大允許目標(biāo)的最大范圍，以覆蓋整個(gè)圖形。

注意，雖然本文主要關(guān)注速遞任務(wù)，但正如下面第3節(jié)所述，該環(huán)境已經(jīng)豐富了，通過一步步的（圖像、自然語言指令）和目標(biāo)圖像指定方向的可能性。

III.編碼

3.1.編碼結(jié)構(gòu)

我們?cè)趆ttps://github.com/deepmind/streetlearn提供了環(huán)境和agent的編碼。該編碼庫包含以下組件：

? 我們的C++ StreetLearn引擎用于加載、緩存和提供谷歌街景全景圖，并根據(jù)城市街道圖和agent的當(dāng)前位置和方向處理導(dǎo)航（從一個(gè)全景圖移動(dòng)到另一個(gè)）。每個(gè)全景圖都從其等矩形(Wikipedia, 2005)表示投影到第一人稱視圖，可以指定偏航、俯仰和視場(chǎng)角度。

? 用于存儲(chǔ)全景圖和街道圖的消息協(xié)議緩沖區(qū)（Google, 2008）。

表1 l 紐約的三個(gè)地區(qū)（華爾街、聯(lián)合廣場(chǎng)和哈德遜河）和匹茲堡的三個(gè)地區(qū)（CMU、阿勒格尼和南岸）的相關(guān)信息。

? 一個(gè)基于Python的接口，用于調(diào)用具有自定義動(dòng)作空間的StreetLearn環(huán)境。

? 在Python StreetLearn界面中，幾個(gè)游戲被定義在單獨(dú)的文件中，文件名以game.py結(jié)尾。

? 一個(gè)簡(jiǎn)單的人類agent，使用Pygame在Python中實(shí)現(xiàn)，在所要求的地圖上實(shí)例化StreetLearn環(huán)境，并使用戶能夠玩速遞或跟隨指令的游戲

? Oracleagent，類似于人類agent，自動(dòng)導(dǎo)航到指定的目標(biāo)，并報(bào)告Oracle在速遞或指令遵循游戲中的表現(xiàn)。

?agent的TensorFlow實(shí)施。

3.2.編碼界面

我們的Python StreetLearn環(huán)境遵循OpenAI Gym2（Brockman等人，2016）的規(guī)范。

在實(shí)例化了一個(gè)特定的游戲和環(huán)境后，可以通過調(diào)用函數(shù)reset()來初始化環(huán)境。注意，如果在構(gòu)建時(shí)將auto_reset的flag設(shè)置為True，那么每當(dāng)一個(gè)情節(jié)結(jié)束時(shí)，reset()將被自動(dòng)調(diào)用。

如清單4所示，agent在環(huán)境中通過迭代生成一個(gè)動(dòng)作，將其發(fā)送到(逐步通過)環(huán)境，并處理環(huán)境返回的觀察結(jié)果和獎(jiǎng)勵(lì)。對(duì)函數(shù)step(動(dòng)作)的調(diào)用返回:

? 觀察（構(gòu)造時(shí)要求的觀察數(shù)組和標(biāo)量的元組），

?獎(jiǎng)勵(lì)（一個(gè)帶有agent當(dāng)前獎(jiǎng)勵(lì)的浮動(dòng)標(biāo)度數(shù)），

?done（布爾值，表示一個(gè)游戲情節(jié)是否已經(jīng)結(jié)束并被重置），

?以及info(環(huán)境狀態(tài)變量字典，用于調(diào)試agent行為或訪問特權(quán)環(huán)境信息以進(jìn)行可視化和分析)。

3.3.行動(dòng)和觀察

我們向agent提供了四個(gè)行動(dòng)：

? 在全景圖中向左或向右旋轉(zhuǎn)一個(gè)指定的角度（改變agent的偏航）。 ? 在全景圖中按指定的角度向上或向下旋轉(zhuǎn)（改變agent的間距）。 ? 如果agent從A到B的當(dāng)前方位在30度的公差角度內(nèi)，則從當(dāng)前全景圖A向前移動(dòng)到另一個(gè)全景圖B。 ? 在全景圖中放大和縮小。因此，agent行動(dòng)通過step(action)作為4個(gè)標(biāo)量數(shù)字的圖組被發(fā)送到環(huán)境中。然而，對(duì)于通過強(qiáng)化學(xué)習(xí)訓(xùn)練離散策略agent，行動(dòng)空間被離散為整數(shù)。例如，我們?cè)冢∕irowski等人，2018）中使用了5個(gè)動(dòng)作：（向前移動(dòng)，左轉(zhuǎn)22.5度，左轉(zhuǎn)67.5度，右轉(zhuǎn)22.5度，右轉(zhuǎn)67.5度）。目前可以要求從環(huán)境中獲得以下觀察結(jié)果：?view_image：從環(huán)境中返回并由agent看到的第一人稱視角圖像的RGB圖像； ?graph_image:自上而下的街道圖圖像的RGB圖像，通常不被agent看到； ?pitch:agent的俯仰角的標(biāo)量值，單位是度（零對(duì)應(yīng)于水平）； ?yaw:agent的偏航角度的標(biāo)量值，單位是度（零對(duì)應(yīng)于北）； ?yaw_label:agent偏航的整數(shù)離散值，使用16個(gè)bin； ?metadata:具有當(dāng)前全景圖元數(shù)據(jù)的Pano類型的消息協(xié)議緩沖區(qū)； ?target_metadata:具有目的/目標(biāo)全景圖元數(shù)據(jù)的Pano類型的消息協(xié)議緩沖區(qū)； ?latlng:agent當(dāng)前位置的緯度/經(jīng)度標(biāo)量值的元組； ?latlng:當(dāng)前agent位置的整數(shù)離散值，使用1024個(gè)bins（32個(gè)bins為緯度，32個(gè)bins為經(jīng)度）； ?target_latlng:目的/目標(biāo)位置的緯度/經(jīng)度度標(biāo)量值的元組； ?target_latlng:目標(biāo)位置的整數(shù)離散值，使用1024個(gè)bins （32個(gè)bins 為緯度，32個(gè)bins 為經(jīng)度）； ?thumbnails:從環(huán)境中返回的第一人稱視角圖像的n+1個(gè)RGB圖像集，當(dāng)用n個(gè)指令進(jìn)行指令追蹤游戲時(shí)，agent應(yīng)該在特定的航點(diǎn)和目標(biāo)位置看到這些圖像； ?instructions:當(dāng)用n個(gè)指令進(jìn)行指令追蹤游戲時(shí)，在特定的航點(diǎn)和目標(biāo)地點(diǎn)為agent提供n個(gè)指令集； ?neighbors:agent周圍的近鄰以自我為中心的可穿越性網(wǎng)格的矢量，agent周圍的方向有16個(gè)bin，bin 0對(duì)應(yīng)于agent正前方的可穿越性； ?ground_truth_direction:為了遵循最短路徑到達(dá)下一個(gè)目標(biāo)或航點(diǎn)，agent要采取的相對(duì)地面真實(shí)方向的標(biāo)量值。這種觀察應(yīng)該只對(duì)使用模仿學(xué)習(xí)訓(xùn)練的agent提出要求。

3.4.游戲

以下游戲可在StreetLearn環(huán)境中使用：

3.4.1.硬幣_(tái)游戲在硬幣游戲中，獎(jiǎng)勵(lì)包括散落在地圖上的無形硬幣，每個(gè)硬幣的獎(jiǎng)勵(lì)為1。一旦被撿到，這些獎(jiǎng)勵(lì)在劇情結(jié)束前不會(huì)再出現(xiàn)。3.4.2.速遞_游戲在速遞游戲中，agent被賦予了一個(gè)目標(biāo)目的地，以經(jīng)/緯度對(duì)的形式加以說明。一旦達(dá)到目標(biāo)（有100米的容許偏差），就會(huì)對(duì)新的目標(biāo)進(jìn)行采樣，直到情節(jié)結(jié)束。在一個(gè)目標(biāo)上的獎(jiǎng)勵(lì)與agent得到新的目標(biāo)分配時(shí)從其位置到該目標(biāo)位置的最短路徑上的全景圖數(shù)量成正比。額外的獎(jiǎng)勵(lì)形成包括當(dāng)agent到達(dá)距離目標(biāo)200米范圍內(nèi)時(shí)的早期獎(jiǎng)勵(lì)。額外的硬幣也可以分散在整個(gè)環(huán)境中。硬幣的比例、目標(biāo)半徑和早期獎(jiǎng)勵(lì)半徑是可參數(shù)化的。課程_速遞游戲與速遞游戲類似，但在任務(wù)的難度上有一個(gè)課程（分配任務(wù)時(shí)，從agent的位置到目標(biāo)的最大直線距離）。3.4.3.指令游戲目標(biāo)指令游戲及其變體--遞增指令游戲和逐步指令游戲使用導(dǎo)航指令來引導(dǎo)agent到達(dá)目標(biāo)。agent被提供了一個(gè)指令清單以及縮略圖，引導(dǎo)agent從其起始位置到目標(biāo)位置。在逐步游戲中，agent每次提供一個(gè)指令和兩個(gè)縮略圖，在其他游戲變體中，整個(gè)列表在整個(gè)游戲中都可以使用。到達(dá)目標(biāo)地點(diǎn)（所有變體），以及擊中單個(gè)航點(diǎn)（僅增量和逐步）時(shí)，均可獲得獎(jiǎng)勵(lì)。在訓(xùn)練過程中，有各種課程策略可供agent使用，并且可以采用獎(jiǎng)勵(lì)塑造法，當(dāng)agent進(jìn)入到距離一個(gè)航點(diǎn)或目標(biāo)50米的范圍內(nèi)時(shí)，提供零星的獎(jiǎng)勵(lì)。

IV.方法

本節(jié)簡(jiǎn)要介紹了在速遞任務(wù)中被評(píng)估的一系列方法。

4.1.Goal-dependent Actor-Critic 強(qiáng)化學(xué)習(xí) 我們將學(xué)習(xí)問題形式化為馬爾科夫決策過程，有狀態(tài)空間s，行動(dòng)空間A，環(huán)境s，以及一組可能的目標(biāo)g。獎(jiǎng)勵(lì)函數(shù)取決于當(dāng)前的目標(biāo)和狀態(tài)：R : s ×g ×A → R. 通常的強(qiáng)化學(xué)習(xí)目標(biāo)是找到使預(yù)期收益最大化的政策，該策略被定義為從狀態(tài)s0開始的折現(xiàn)獎(jiǎng)勵(lì)之和，折現(xiàn)率為γ。 I在這個(gè)導(dǎo)航任務(wù)中，一個(gè)狀態(tài)st的預(yù)期回報(bào)也取決于一系列的采樣目標(biāo){gk}k。策略是：給定當(dāng)前狀態(tài)st和目標(biāo)gt下，在動(dòng)作上的分布:π(als, g) = Pr(at = alst= s, gt = g)。我們將值函數(shù)定義為代理的期望返回值，該代理從狀態(tài)st的策略π中采樣動(dòng)作，目標(biāo)gt: 我們假設(shè)agent應(yīng)該從兩種類型的學(xué)習(xí)中獲益：第一，學(xué)習(xí)一般的、與位置無關(guān)的表征和探索行為；第二，學(xué)習(xí)本地特定的結(jié)構(gòu)和特征。一個(gè)導(dǎo)航代理不僅需要一個(gè)通用的內(nèi)部表征，以支持認(rèn)知過程，如場(chǎng)景理解，而且還需要組織和記憶一個(gè)地方特有的特征和結(jié)構(gòu)。因此，為了支持這兩種類型的學(xué)習(xí)，我們專注于具有多種途徑的神經(jīng)架構(gòu)。我們?cè)诒?中描述的六個(gè)區(qū)域評(píng)估了兩個(gè)agent。我們?cè)诖藢?duì)該方法進(jìn)行總結(jié)，因?yàn)檫@些agent的全部架構(gòu)細(xì)節(jié)之前已經(jīng)描述過（Mirowski等人，2018）。策略和價(jià)值函數(shù)都由一個(gè)神經(jīng)網(wǎng)絡(luò)設(shè)定參數(shù)，該網(wǎng)絡(luò)共享除最終線性輸出以外的所有層。該agent對(duì)原始像素圖像xt進(jìn)行操作，這些圖像通過卷積網(wǎng)絡(luò)，如（Mnih等人，2016）。長(zhǎng)短期記憶（LSTM）（Hochreiter和Schmidhuber，1997）接收對(duì)話編碼器的輸出，以及過去的獎(jiǎng)勵(lì)rt＋1和以前的行動(dòng)at＋1。這兩種不同的結(jié)構(gòu)描述如下。

圖4 l 與環(huán)境互動(dòng)的主要循環(huán)。

圖5l 架構(gòu)的比較。左圖：City-Nav是一個(gè)具有策略LSTM、獨(dú)立目標(biāo)LSTM和操作輔助航向（θ）的單一城市導(dǎo)航架構(gòu)。右圖：多城市導(dǎo)航是一個(gè)多城市架構(gòu)，每個(gè)城市都有獨(dú)立的目標(biāo)LSTM路徑。

CityNav架構(gòu)（圖5b）有一個(gè)卷積編碼器和兩個(gè)LSTM層，它們被指定為策略LSTM和目標(biāo)LSTM。目標(biāo)描述gt與之前的動(dòng)作和獎(jiǎng)勵(lì)以及卷積編碼器的視覺特征一起被輸入到目標(biāo)LSTM。CityNav agent還在目標(biāo)LSTM的輸出上增加了一個(gè)輔助的航向（θ）預(yù)測(cè)任務(wù)。

多城市導(dǎo)航架構(gòu)（圖5c）擴(kuò)展了CityNav agent，以便在不同城市學(xué)習(xí)。目標(biāo)LSTM的職責(zé)是編碼和封裝當(dāng)?shù)靥囟ǖ奶卣骱屯負(fù)浣Y(jié)構(gòu)，這樣就可以添加多個(gè)路徑，每個(gè)城市或地區(qū)一個(gè)。此外，在對(duì)一些城市進(jìn)行訓(xùn)練后，我們證明卷積編碼器和政策LSTM變得足夠通用，只需要為新的城市訓(xùn)練一個(gè)新的目標(biāo)LSTM。

為了訓(xùn)練agent，我們使用IMPALA（Espeholt等人，2018），這是一個(gè)actor-critic的實(shí)現(xiàn)，將行動(dòng)和學(xué)習(xí)分離開來。在我們的實(shí)驗(yàn)中，IMPALA的性能與A3C（Mnih等人，2016）相似。我們對(duì)CityNav使用256個(gè)行為體，對(duì)MultiCityNav使用512個(gè)行為體，批次大小分別為256或512，序列長(zhǎng)度為50。

我們注意到，這些計(jì)算資源并不是所有人都能得到的，所以我們驗(yàn)證了只用16個(gè)行動(dòng)者和1個(gè)學(xué)習(xí)者，在一臺(tái)帶有圖形處理單元（GPU）的臺(tái)式電腦上運(yùn)行，就能獲得類似的結(jié)果。

我們使用的臺(tái)式機(jī)有很大的內(nèi)存（192GB），用于實(shí)例化16個(gè)StreetLearn環(huán)境（每個(gè)環(huán)境都需要一個(gè)大的緩存內(nèi)存來緩存全景圖），但更小的內(nèi)存也可以使用，但要權(quán)衡一下更頻繁的磁盤訪問。

CityNav和基線架構(gòu)的TensorFlow實(shí)現(xiàn)(Mirowski等人，2018)可在https://github.com/deepmind/streetlearn的代碼回收庫中獲得。

訓(xùn)練器代碼是對(duì)（Espeholt等人，2018）的直接修改，來自https://github.com/deepmind/scalable_ agent，可單獨(dú)提供。

4.2.Oracle

我們還通過使用廣度優(yōu)先搜索計(jì)算從所有全景位置到指定目標(biāo)位置的最短路徑來計(jì)算所有任務(wù)的上限(Moore, 1959;Zuse, 1972)的全景連通性圖。這使我們能夠計(jì)算agent應(yīng)該去的下一個(gè)全景圖是哪一個(gè)，以及agent為了向前移動(dòng)到那個(gè)全景圖應(yīng)該對(duì)齊的方向，重復(fù)這個(gè)過程直到到達(dá)目的地。

這個(gè)ground_truth_position可以作為一個(gè)觀察值被請(qǐng)求（對(duì)于模仿學(xué)習(xí)代理），或者從環(huán)境返回的信息字典中提取。清單6顯示了如何實(shí)現(xiàn) oracle agent，以提供一個(gè)有價(jià)值的衡量標(biāo)準(zhǔn)來衡量任務(wù)。

V.速遞任務(wù)的結(jié)構(gòu)

為了評(píng)估所描述的方法，我們給出了每個(gè)區(qū)域的單獨(dú)性能，以及多個(gè)區(qū)域的聯(lián)合訓(xùn)練結(jié)果。我們還展示了該方法的概括能力，即通過評(píng)估保留區(qū)域的目標(biāo)，以及只對(duì)一個(gè)全新的區(qū)域進(jìn)行agent訓(xùn)練。表2給出了在圖3和表1中定義的紐約市和匹茲堡市的六個(gè)不同地區(qū)，不同的代理在每1000步事件中取得的平均總獎(jiǎng)勵(lì)。盡管代理人接受了獎(jiǎng)勵(lì)塑造的訓(xùn)練（即，當(dāng)他們?cè)谀繕?biāo)的小半徑范圍內(nèi)時(shí)，他們會(huì)得到部分獎(jiǎng)勵(lì)），這里給出的每集回報(bào)只包括達(dá)到目標(biāo)時(shí)給予的全部獎(jiǎng)勵(lì)。實(shí)驗(yàn)都是用5個(gè)不同的種子重復(fù)進(jìn)行的。在表2中，Oracle的結(jié)果是直接在圖上進(jìn)行廣度搜索的結(jié)果，因此它們反映了完美的性能。單一結(jié)果顯示了使用CityNav架構(gòu)為每個(gè)區(qū)域單獨(dú)訓(xùn)練的agent的性能。訓(xùn)練有素的agent在紐約市表現(xiàn)良好，實(shí)現(xiàn)了85%至97%的oracle收益，而在匹茲堡表現(xiàn)較差，尤其是在南岸地區(qū)，agent完全失敗。這可能是由于該地區(qū)具有挑戰(zhàn)性的海拔變化，即使在附近的節(jié)點(diǎn)之間也會(huì)產(chǎn)生錯(cuò)綜復(fù)雜的路線，這也是我們指定課程任務(wù)的一個(gè)偽命題（基于從agent位置到目標(biāo)的最大歐氏距離，不考慮實(shí)際旅行時(shí)間）。特別是，當(dāng) agent在南岸的杜肯山頂時(shí)，在河對(duì)岸的目標(biāo)地點(diǎn)，如果乘坐飛機(jī)500米遠(yuǎn)，公路距離可能會(huì)有數(shù)公里。聯(lián)合結(jié)果顯示了在五個(gè)地區(qū)聯(lián)合訓(xùn)練的多城市導(dǎo)航agent在每個(gè)地區(qū)的表現(xiàn)（不包括南岸）。盡管現(xiàn)在在更大的范圍內(nèi)進(jìn)行了訓(xùn)練：兩個(gè)城市和五個(gè)地區(qū)，但所產(chǎn)生的agent 在性能上只下降了一點(diǎn)。最后，轉(zhuǎn)移給出了一個(gè)agent的表現(xiàn)，該agent在四個(gè)地區(qū)接受訓(xùn)練（用斜體字給出），然后轉(zhuǎn)移到第五個(gè)地區(qū)（華爾街）。在這種轉(zhuǎn)移中，只有目標(biāo)LSTM被修改；架構(gòu)的其他兩個(gè)部分（卷積編碼器或策略LSTM）沒有梯度更新。

表2 l Oracle的每個(gè)城市目標(biāo)獎(jiǎng)勵(lì)，單一訓(xùn)練的CityNav和多個(gè)CityNav agent在5個(gè)城市（華爾街、曼哈頓的聯(lián)合廣場(chǎng)和哈德遜河、匹茲堡的CMU和阿勒格尼）聯(lián)合訓(xùn)練或在4個(gè)城市（聯(lián)合廣場(chǎng)、哈德遜河、CMU和阿勒格尼）聯(lián)合訓(xùn)練。

圖6 l Oracle的實(shí)施，使用地面真實(shí)方向/方位到下一個(gè)全景圖。

表3 l CityNav agent在一組目標(biāo)地點(diǎn)（中等和粗略的網(wǎng)格）上的概括表現(xiàn)（獎(jiǎng)勵(lì)和失敗指標(biāo)）。我們還計(jì)算了半程時(shí)間（T1/2），即到達(dá)目標(biāo)的一半。

為了研究受過訓(xùn)練的agent的概括能力，我們掩蓋了25%的可能目標(biāo)，并對(duì)剩余的目標(biāo)進(jìn)行訓(xùn)練（見圖5（Mirowski等人，2018）的說明）。在測(cè)試時(shí)，我們只對(duì)agent在封閉區(qū)域達(dá)到目標(biāo)的能力進(jìn)行評(píng)估。注意，agent仍然能夠穿越這些區(qū)域，只是它從未在那里采樣過目標(biāo)。更確切地說，封閉的區(qū)域是經(jīng)緯度為0.01°（粗網(wǎng)格）或0.005°（中網(wǎng)格）的方塊（分別大約為1平方公里和0.5平方公里）。

在實(shí)驗(yàn)中，我們對(duì)CityNavagent進(jìn)行了1B步的訓(xùn)練，接下來凍結(jié)了agent的權(quán)重，并對(duì)其在100M步的封閉區(qū)域的表現(xiàn)進(jìn)行了評(píng)估。表3顯示，隨著封閉區(qū)面積的增加，agent的性能有所下降。為了進(jìn)一步理解，除了測(cè)試獎(jiǎng)勵(lì)指標(biāo)，我們還使用了未完成目標(biāo)(Fail)和半行程時(shí)間(T1/2)指標(biāo)。

錯(cuò)過目標(biāo)的指標(biāo)衡量的是沒有達(dá)到目標(biāo)的百分比。半程時(shí)間衡量的是完成agent與目標(biāo)之間的一半距離所需的agent步驟數(shù)量。

我們還在表4中比較了使用（經(jīng)緯度）目標(biāo)描述符與之前提出的地標(biāo)描述符（Mirowski等人，2018）時(shí)取得的性能。雖然地標(biāo)方案有一些優(yōu)勢(shì)，比如避免了固定的坐標(biāo)框架，但（緯度，緯度）描述符的表現(xiàn)要優(yōu)于紐約聯(lián)合廣場(chǎng)地區(qū)的地標(biāo)。

表4 lCityNav代理在聯(lián)合廣場(chǎng)上使用不同類型的目標(biāo)表示時(shí)的表現(xiàn)：（緯度，長(zhǎng)度）標(biāo)量與地標(biāo)。

VI.相關(guān)工作

StreetLearn環(huán)境與近年來出現(xiàn)的許多其他模擬器和數(shù)據(jù)集相關(guān)，這些模擬器和數(shù)據(jù)集是為了響應(yīng)增強(qiáng)學(xué)習(xí)和更普遍地通過交互學(xué)習(xí)導(dǎo)航的更大興趣而出現(xiàn)的。

我們重點(diǎn)列舉了這些相關(guān)的數(shù)據(jù)集和環(huán)境，請(qǐng)讀者參考Mirowski等人（2018）對(duì)相關(guān)方法的更完整討論。

許多基于RL的導(dǎo)航方法依賴于模擬器，這些模擬器具有程序化生成的變化等特點(diǎn)，但在視覺上往往是簡(jiǎn)單和不真實(shí)的，包括合成的3D環(huán)境，如VizDoom（Kempka等人，2016）、HoME（Brodeur等人，2017）、House 3D（Wu等人，2018）、Chalet（Yan等人）等。2016）、DeepMind Lab（Beattie等人，2016）、HoME（Brodeur等人，2017）、House 3D（Wu等人，2018）、Chalet（Yan等人，2018），或AI2-THOR（Kolve等人，2017）。

為了彌補(bǔ)模擬和真實(shí)之間的差距，研究人員開發(fā)了更真實(shí)、更高保真度的模擬環(huán)境(Dosovit- skiy等人，2017;Kolve等，2017;沙阿等人，2018;吳等人，2018)。然而，盡管模擬環(huán)境越來越具有照片真實(shí)感，但其固有的問題在于環(huán)境的有限多樣性和觀察結(jié)果的清潔性。

我們的真實(shí)世界數(shù)據(jù)集是多樣化和視覺逼真的，包括行人、汽車、公共汽車或卡車、不同的天氣條件和植被的場(chǎng)景，覆蓋了很大的地理區(qū)域。然而，我們注意到我們的環(huán)境有明顯的局限性:它不包含動(dòng)態(tài)元素，行動(dòng)空間必然是離散的，因?yàn)樗仨氃谌皥D之間跳躍，而且街道拓?fù)浣Y(jié)構(gòu)不能被任意改變或再生。

最近引入了更多視覺逼真的環(huán)境，如MatterportRoom-to-Room (Chang等人，2017)、AdobeIndoorNav(Mo等人，2018)、Stanford 2D- 3D-S(Armeni等人，2016)、ScanNet (Dai等人，2017)、Gibson環(huán)境(Xia等人，2018)和MI- NOS (Savva等人，2017)來表示室內(nèi)場(chǎng)景，其中一些還添加了導(dǎo)航指令。

deVries等人（2018）使用紐約的圖像，但依靠對(duì)附近地標(biāo)的分類注釋，而不是視覺觀察，并且只使用了500張全景圖的數(shù)據(jù)集（我們的數(shù)據(jù)集要大兩個(gè)數(shù)量級(jí)）。最近，Cirik等人（2018），特別是Chen等人（2018）也提出了以街景圖像為基礎(chǔ)的較大的駕駛指令數(shù)據(jù)集。

VII.總結(jié)

導(dǎo)航是一項(xiàng)重要的認(rèn)知任務(wù)，它使人類和動(dòng)物能夠在沒有地圖的情況下穿越一個(gè)復(fù)雜的世界。為了幫助理解這種認(rèn)知技能，它的出現(xiàn)和穩(wěn)健性，以及它在現(xiàn)實(shí)世界中的應(yīng)用，我們公開了一個(gè)數(shù)據(jù)集和一個(gè)基于谷歌街景的互動(dòng)環(huán)境。

我們精心策劃的數(shù)據(jù)集是由經(jīng)過人工審查和隱私審查的攝影圖片構(gòu)成的--我們采取了這些額外的預(yù)防措施，以確保所有的人臉和車牌都被適當(dāng)?shù)啬：恕?/p>

該數(shù)據(jù)集可獲得，并根據(jù)要求進(jìn)行分發(fā)；在個(gè)人要求刪除或模糊谷歌街景網(wǎng)站上的特定全景圖的情況下，我們將其要求傳播給StreetLearn數(shù)據(jù)集的用戶，并向用戶提供符合刪除要求的最新版本。

我們的環(huán)境使agent的訓(xùn)練能夠純粹基于視覺觀察和絕對(duì)目標(biāo)位置表征來導(dǎo)航到不同的目標(biāo)位置。我們還用文字說明擴(kuò)展了該數(shù)據(jù)集，以實(shí)現(xiàn)基于獎(jiǎng)勵(lì)的任務(wù)，重點(diǎn)是遵循相對(duì)方向來達(dá)到目標(biāo)。我們將依靠這個(gè)數(shù)據(jù)集和環(huán)境來解決接地的、長(zhǎng)距離的、目標(biāo)驅(qū)動(dòng)的導(dǎo)航的基本問題。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6173

瀏覽量
105645
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1208

瀏覽量
24743

原文標(biāo)題：自動(dòng)駕駛“環(huán)境和數(shù)據(jù)集”

文章出處：【微信號(hào)：阿寶1990，微信公眾號(hào)：阿寶1990】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

如何利用遙感監(jiān)測(cè)環(huán)境變化遙感衛(wèi)星的工作原理與種類

利用遙感監(jiān)測(cè)環(huán)境變化是一個(gè)復(fù)雜但高效的過程，它主要依賴于遙感衛(wèi)星的工作原理及其種類。以下是對(duì)這兩個(gè)方面的介紹：遙感監(jiān)測(cè)環(huán)境變化的步驟選擇合適的傳感器：不同類型的傳感器可以獲取不同

發(fā)表于 12-05 10:25 ?357次閱讀

HarmonyOS Next元服務(wù)蒹葭動(dòng)卡體驗(yàn)互動(dòng)

各位大佬，純血鴻蒙HarmonyOS NEX手機(jī)、平板，應(yīng)用市場(chǎng)搜索“蒹葭動(dòng)卡”即可體驗(yàn)，打開留言即可發(fā)表你的文學(xué)觀點(diǎn),謝謝互動(dòng)。您也可以通過以下方式，打開“蒹葭動(dòng)卡”互動(dòng)。

發(fā)表于 11-26 10:31

HarmonyOS Next元服務(wù)大學(xué)之道動(dòng)卡互動(dòng)

各位大佬，純血鴻蒙HarmonyOS NEX手機(jī)、平板，應(yīng)用市場(chǎng)搜索“大學(xué)之道動(dòng)卡”即可體驗(yàn)，打開留言即可發(fā)表你的文學(xué)觀點(diǎn),謝謝互動(dòng)。您也可以通過以下方式，打開“大學(xué)之道動(dòng)卡”互動(dòng)。

發(fā)表于 11-26 10:18

純凈IP：構(gòu)建可信網(wǎng)絡(luò)環(huán)境的基石

純凈IP，作為構(gòu)建可信網(wǎng)絡(luò)環(huán)境的基石，其重要性不言而喻。在網(wǎng)絡(luò)日益復(fù)雜、攻擊手段層出不窮的今天，純凈IP成為了確保網(wǎng)絡(luò)安全、提升用戶信任度、網(wǎng)絡(luò)環(huán)境健康發(fā)展的關(guān)鍵因素。

發(fā)表于 10-25 07:27 ?228次閱讀

深圳特信電子 4G5G大功率屏蔽器：如何構(gòu)建安全通信環(huán)境

深圳特信電子｜4G5G大功率屏蔽器：如何構(gòu)建安全通信環(huán)境

發(fā)表于 07-30 09:03 ?418次閱讀

谷歌推出Project Oscar:利用代理技術(shù)高效管理軟件程序

在科技日新月異的今天，谷歌再次以其前瞻性的視野引領(lǐng)著軟件開發(fā)領(lǐng)域的新一輪變革。7月18日，谷歌官方宣布了一項(xiàng)重大創(chuàng)新成果——Project Oscar，一個(gè)旨在賦能開源開發(fā)團(tuán)隊(duì)，通過智能化手段優(yōu)化軟件管理與構(gòu)建流程的開源平臺(tái)。這

發(fā)表于 07-18 15:49 ?256次閱讀

如何使用Cygwin在Win64中構(gòu)建環(huán)境？

如何使用Cygwin在Win64中構(gòu)建環(huán)境？我已經(jīng)下載了cross_tool、cygwin_x86-84.exe和 sdk，那么我應(yīng)該采取什么步驟來構(gòu)建一個(gè)好的編譯環(huán)境呢？

發(fā)表于 07-10 06:59

如何在不同應(yīng)用場(chǎng)景下構(gòu)建音頻測(cè)試環(huán)境

在之前的文章中，我們已經(jīng)詳細(xì)介紹了基礎(chǔ)音頻參數(shù)和AP525的軟硬件配置。本文將延續(xù)這一主題，以泰凌TLSR9518A EVB作為測(cè)試設(shè)備（DUT），向大家展示如何在不同應(yīng)用場(chǎng)景下構(gòu)建音頻測(cè)試環(huán)境。

發(fā)表于 07-03 15:00 ?610次閱讀

如何在不同應(yīng)用場(chǎng)景下<b class='flag-5'>構(gòu)建</b>音頻測(cè)試<b class='flag-5'>環(huán)境</b>

谷歌計(jì)劃推出明星網(wǎng)紅AI聊天機(jī)器人，與Meta展開技術(shù)競(jìng)爭(zhēng)

在科技界風(fēng)起云涌的當(dāng)下，谷歌再次憑借其前瞻性的戰(zhàn)略布局和創(chuàng)新能力，成為了公眾關(guān)注的焦點(diǎn)。據(jù)The Information的獨(dú)家爆料，谷歌正秘密研發(fā)一款全新的AI聊天機(jī)器人，該機(jī)器人將基于明星和YouTube網(wǎng)紅的數(shù)據(jù)構(gòu)建，為用戶

發(fā)表于 06-26 18:23 ?1033次閱讀

求助，通過VScode構(gòu)建的集成開發(fā)環(huán)境如何更新環(huán)境下的ESP-IDF版本?

通過VScode構(gòu)建的集成開發(fā)環(huán)境如何更新 環(huán)境下的ESP-IDF版本? 通過VScode 構(gòu)建開發(fā)環(huán)境的時(shí)候其中的esp-idf版本

發(fā)表于 06-17 06:38

谷歌模型框架是什么軟件？谷歌模型框架怎么用？

谷歌模型框架通常指的是谷歌開發(fā)的用于機(jī)器學(xué)習(xí)和人工智能的軟件框架，其中最著名的是TensorFlow。TensorFlow是一個(gè)開源的機(jī)器學(xué)習(xí)框架，由谷歌的機(jī)器學(xué)習(xí)團(tuán)隊(duì)開發(fā)，用于構(gòu)建和

發(fā)表于 03-01 16:25 ?914次閱讀

谷歌發(fā)布全新AI模型Genie

谷歌近日發(fā)布了其全新的AI模型Genie，這一模型徹底改變了我們與數(shù)字世界的互動(dòng)方式。Genie不僅可以接收文本提示、草圖或想法，還能將這些創(chuàng)意迅速轉(zhuǎn)化為一個(gè)可互動(dòng)和玩耍的虛擬世界。

發(fā)表于 02-28 18:25 ?1722次閱讀

谷歌交互世界模型重磅發(fā)布

谷歌模型

北京中科同志科技股份有限公司

發(fā)布于 :2024年02月28日 09:13:06

鴻蒙開發(fā)【編譯構(gòu)建】講解

Version 8~9在編譯構(gòu)建體系、工程目錄及配置文件等存在差異，接下來將詳細(xì)介紹兩者之間的差異。 構(gòu)建體系 HarmonyOS應(yīng)用/服務(wù)API Version 47和API Version 89的

發(fā)表于 02-27 17:41

自動(dòng)化構(gòu)建環(huán)境在FPGA設(shè)計(jì)中的應(yīng)用

為了加快實(shí)現(xiàn) FPGA 構(gòu)建環(huán)境的自動(dòng)化（如用于持續(xù)集成 (CI)），并確保在開發(fā)與生命周期后期階段完整重現(xiàn)設(shè)計(jì)結(jié)果，Missing Link Electronics 團(tuán)隊(duì)已整合出一套腳本。

發(fā)表于 02-20 11:05 ?442次閱讀