通常,我們的人工智能系統(tǒng)都是以人的視角去構(gòu)造的,這些系統(tǒng)已經(jīng)用于自動(dòng)駕駛、人臉識(shí)別、操作重型機(jī)器,甚至檢測(cè)疾病。那么,我們可以從動(dòng)物的角度構(gòu)建一個(gè)智能系統(tǒng)嗎?比如讓 AI 去模擬狗的行為。
華盛頓大學(xué)與 Allen 人工智能研究所的研究人員最新的論文公開(kāi)了他們開(kāi)發(fā)的一種深度學(xué)習(xí)系統(tǒng),該系統(tǒng)可以訓(xùn)練并模擬狗的行為特征。研究人員表示訓(xùn)練智能機(jī)器的目標(biāo)是使其能夠充當(dāng)一個(gè)智能視覺(jué)體的角色。不過(guò),讓智能機(jī)器充當(dāng)狗的角色這個(gè)想法是非常具有挑戰(zhàn)性的任務(wù)。
簡(jiǎn)介
我們研究了如何直接構(gòu)建一個(gè)視覺(jué)智能體(visually intelligent agent)。通常,計(jì)算機(jī)視覺(jué)技術(shù)專注于解決與視覺(jué)智能相關(guān)的各種子任務(wù)。但我們的研究不同于這種標(biāo)準(zhǔn)的計(jì)算機(jī)視覺(jué)方法。相反,我們嘗試直接構(gòu)建一個(gè)視覺(jué)智能體,我們的模型將視覺(jué)信息作為輸入,并直接預(yù)測(cè)智能體在未來(lái)的行為。
此外,我們引入了 DECADE 數(shù)據(jù)集,這是一個(gè)以狗的視角所搜集的狗的行為數(shù)據(jù)集。利用這些數(shù)據(jù),我們可以模擬狗的行為和動(dòng)作規(guī)劃方式。在多種度量方法下,對(duì)于給定的視覺(jué)輸入,我們成功地構(gòu)建了一個(gè)視覺(jué)智能體,它能夠準(zhǔn)確預(yù)測(cè)并模擬狗的行為。不僅如此,與圖像分類任務(wù)學(xué)到的特征表征相比,我們的智能體學(xué)習(xí)到的特征能夠編碼不同的信息,也可以推廣到其他領(lǐng)域。尤其需要指出的是,通過(guò)將這種狗的建模任務(wù)作為表示學(xué)習(xí),我們?cè)诳尚凶邊^(qū)域預(yù)測(cè)和場(chǎng)景分類任務(wù)中取得非常卓越的結(jié)果。
方法與模型
為了訓(xùn)練,研究人員使用了一個(gè)叫做 Kelp 的阿拉斯加雪橇犬,并在其腿部配備了 GoPro 相機(jī),尾部和后備箱上配備六個(gè)慣性測(cè)量傳感器,一個(gè)麥克風(fēng)以及一個(gè)把這些數(shù)據(jù)綁在一起的 Arduino 開(kāi)發(fā)板。研究人員在超過(guò) 50 個(gè)不同的地點(diǎn),在長(zhǎng)達(dá)數(shù)小時(shí)的時(shí)間內(nèi),記錄了 Kelp 的活動(dòng)數(shù)據(jù),如步行、追蹤、抓取,與其他狗互動(dòng)以及跟蹤物體等。利用英偉達(dá)提供的 GeForce GTX 1080 GPU,TITAN X GPU 以及 cuDNN 加速的深度學(xué)習(xí)框架,研究人員用所獲得的視覺(jué)和感官信息來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
在這里,研究人員解決了三個(gè)問(wèn)題:
像狗一樣行動(dòng):根據(jù)一系列先前看到的圖像,神經(jīng)網(wǎng)絡(luò)的目標(biāo)是預(yù)測(cè)狗未來(lái)的運(yùn)動(dòng)軌跡;
像狗一樣規(guī)劃:目標(biāo)是找到一系列動(dòng)作,讓狗在給定的一對(duì)圖像的位置之間移動(dòng)。
從狗身上學(xué)習(xí):我們將學(xué)習(xí)的表現(xiàn)用于第三項(xiàng)任務(wù)(如可行走的表面評(píng)估(Walkable surface estimation),預(yù)測(cè)狗的可行走區(qū)域)。
這些任務(wù)需要一些相當(dāng)復(fù)雜的數(shù)據(jù):例如,就像真的狗一樣,我們的 AI 系統(tǒng)必須知道,當(dāng)它需要從一個(gè)地點(diǎn)移動(dòng)到另一地點(diǎn)的時(shí)候,可行走區(qū)域的位置有哪些。它不能在樹(shù)上或汽車上行走,也不能在沙發(fā)上行走(這也取決于房子)。因此,我們的模型也要學(xué)會(huì)這一點(diǎn),它可以作為一個(gè)獨(dú)立的計(jì)算機(jī)視覺(jué)模型,在一張給定圖像中找出一個(gè)寵物(或一個(gè)有足機(jī)器人)所能夠到達(dá)的位置。下面我們將逐一介紹這三個(gè)任務(wù)所用到的模型結(jié)構(gòu)。
這是用于模擬狗的行為的模型結(jié)構(gòu)。這個(gè)模型是一個(gè)編碼-解碼器結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),編碼器接收成對(duì)的圖片流作為輸入,而解碼器輸出每個(gè)節(jié)點(diǎn)未來(lái)的行動(dòng)決策。在編碼器和解碼器之間有一個(gè)全連接層(FC),它能夠更好地捕捉區(qū)域內(nèi)的行為變化。在解碼器中,每個(gè)時(shí)步輸出的行動(dòng)概率將被用于下一個(gè)時(shí)步(timestep)。我們?cè)趦蓚€(gè) ResNet 中共享模型的權(quán)重參數(shù)。
這是用于規(guī)劃狗的行為的模型結(jié)構(gòu)。這個(gè)模型是卷積神經(jīng)網(wǎng)絡(luò) CNN 和長(zhǎng)短期記憶模型 LSTM 的結(jié)合體。模型的輸入是兩張圖片 I1 和 IN,這是在視頻系列的第 N-1 時(shí)間步截取來(lái)的數(shù)據(jù)。長(zhǎng)短期記憶模型 LSTM 接收 CNN 的特征作為輸入,并輸出狗從 I1 移動(dòng)到 IN 過(guò)程的行動(dòng)序列。
這是用于可行走區(qū)域預(yù)測(cè)的模型結(jié)構(gòu)。我們用 ResNet 模型的后四層,對(duì)其進(jìn)行卷積、反卷積來(lái)推斷可行走區(qū)域。
評(píng)估指標(biāo)
在實(shí)驗(yàn)評(píng)估階段,我們使用多種不同的評(píng)價(jià)指標(biāo)來(lái)綜合地評(píng)判我們的方法,包括分類精度、混淆度(perplexity)等。
定量分析結(jié)果:我們展示了模型識(shí)別視頻中 5 幀數(shù)據(jù)的結(jié)果,視頻中一個(gè)男人開(kāi)始向一只狗投擲一個(gè)球。在視頻中,當(dāng)球飛向那只狗時(shí),狗會(huì)向右方移動(dòng)以躲避球飛過(guò)來(lái)的方向。僅僅使用這 5 幀數(shù)據(jù),模型就能夠在球飛來(lái)時(shí)準(zhǔn)確地預(yù)測(cè)出狗的移動(dòng)方向。
實(shí)驗(yàn)結(jié)果
“像狗一樣行動(dòng)”的結(jié)果: 我們觀察了 5 幀的視頻序列并預(yù)測(cè)了接下來(lái)的 5 個(gè)動(dòng)作。
“像狗一樣規(guī)劃”的結(jié)果:在開(kāi)始和結(jié)束幀之間進(jìn)行規(guī)劃, 我們考慮了相隔 5 步的起始圖像。
持續(xù)評(píng)估和全節(jié)點(diǎn)評(píng)估。在第一欄中數(shù)值越低越好,在第二欄中數(shù)值越高越好。
“步行式表面評(píng)估”結(jié)果。我們將在 ImageNet 上訓(xùn)練的網(wǎng)絡(luò)結(jié)果與為我們做任務(wù)訓(xùn)練的網(wǎng)絡(luò)進(jìn)行了比較。 評(píng)估指標(biāo)是 IOU。
實(shí)驗(yàn)結(jié)果表明,我們的模型能夠在不同的情況下學(xué)習(xí)并模擬狗的行為,并像狗一樣的規(guī)劃并采取行動(dòng)。
在研究報(bào)告中,研究人員指出,“狗的行動(dòng)空間比人類要簡(jiǎn)單得多,這使得我們的任務(wù)更加易于處理。然而,它們能夠清楚地表現(xiàn)出智能視覺(jué)的能力,如識(shí)別食物、障礙物、其他人類和動(dòng)物,并對(duì)這些輸入做出相應(yīng)地反應(yīng),但我們對(duì)于這些行為的目標(biāo)和動(dòng)機(jī)常常知之甚少。”
未來(lái)展望
研究人員提到,他們的評(píng)估實(shí)驗(yàn)顯示出有趣而富有希望的結(jié)果。他們的模型可以在各種情況下預(yù)測(cè)狗的行為,并能像狗一樣采取行動(dòng),還能像狗一樣計(jì)劃如何從一種狀態(tài)轉(zhuǎn)移到另一種狀態(tài)。
在未來(lái)的應(yīng)用中,研究團(tuán)隊(duì)表示這只是一個(gè)初步的實(shí)驗(yàn)。他們打算從多只狗身上收集更多數(shù)據(jù)(建立多樣的數(shù)據(jù)庫(kù)),并考慮引入更多的感官信息,如找到一些捕捉聲音、觸覺(jué)和嗅覺(jué)的方法。他們希望這項(xiàng)工作能夠?yàn)槿祟惛美斫庖曈X(jué)智能和生物智能奠定基礎(chǔ)。
-
AI
+關(guān)注
關(guān)注
87文章
31335瀏覽量
269712 -
人工智能
+關(guān)注
關(guān)注
1793文章
47535瀏覽量
239344 -
測(cè)量傳感器
+關(guān)注
關(guān)注
0文章
49瀏覽量
13354
原文標(biāo)題:AI變身記:不光能有人的智能,還要像狗一樣“思考”
文章出處:【微信號(hào):AI_Thinker,微信公眾號(hào):人工智能頭條】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論