视频在线观看高清免费,亚洲成人一区,色婷婷在线播放

今天，OpenAI在官方博客上丟出了7個(gè)研究過(guò)程中發(fā)現(xiàn)的未解決問(wèn)題。

OpenAI希望這些問(wèn)題能夠成為新手入坑AI的一種有趣而有意義的方式，也幫助從業(yè)者提升技能。

OpenAI版AI界七大未解之謎，現(xiàn)在正式揭曉——

丨1. Slitherin

難度指數(shù)：☆☆

實(shí)現(xiàn)并解決貪吃蛇的多玩家版克隆作為Gym環(huán)境。

環(huán)境：場(chǎng)地很大，里面有多條蛇，蛇通過(guò)吃隨機(jī)出現(xiàn)的水果生長(zhǎng)，一條蛇在與另一條蛇、自己或墻壁相撞時(shí)即死亡，當(dāng)所有的蛇都死了，游戲結(jié)束。

智能體：使用自己選擇的自我對(duì)弈的RL算法解決環(huán)境問(wèn)題。你需要嘗試各種方法克服自我對(duì)弈的不穩(wěn)定性。

檢查學(xué)習(xí)行為：智能體是否學(xué)會(huì)了適時(shí)捕捉食物并避開(kāi)其他蛇類？是否學(xué)會(huì)了攻擊、陷害、或者聯(lián)合起來(lái)對(duì)付競(jìng)爭(zhēng)對(duì)手？

丨2. 分布式強(qiáng)化學(xué)習(xí)中的參數(shù)平均

難度指數(shù)：☆☆☆

這指的是探究參數(shù)平均方案對(duì)RL算法中樣本復(fù)雜度和通信量影響。一種簡(jiǎn)單的解決方法是平均每個(gè)更新的每個(gè)worker的梯度，但也可以通過(guò)獨(dú)立地更新worker、減少平均參數(shù)節(jié)省通信帶寬。

這樣做還有一個(gè)好處：在任何給定的時(shí)間內(nèi)，我們都有不同參數(shù)的智能體，可能出現(xiàn)更好的探測(cè)行為。另一種可能是使用EASGD這樣的算法，它可以在每次更新時(shí)將參數(shù)部分結(jié)合在一起。

丨3. 通過(guò)生成模型完成的不同游戲中的遷移學(xué)習(xí)

難度指數(shù)：☆☆☆

這個(gè)流程如下：

訓(xùn)練11個(gè)Atari游戲的策略。從每個(gè)游戲的策略中，生成1萬(wàn)個(gè)軌跡，每個(gè)軌跡包含1000步行動(dòng)。

將一個(gè)生成模型（如論文Attention Is All You Need提出的Transformer）與10個(gè)游戲產(chǎn)生的軌跡相匹配。

然后，在第11場(chǎng)比賽中微調(diào)上述模型。

你的目標(biāo)是量化10場(chǎng)比賽預(yù)訓(xùn)練時(shí)的好處。這個(gè)模型需要什么程度的訓(xùn)練才能發(fā)揮作用？當(dāng)?shù)?1個(gè)游戲的數(shù)據(jù)量減少10x時(shí)，效果的大小如何變化？如果縮小100x呢？

丨4. 線性注意Transformer

難度指數(shù)：☆☆☆

Transformer模型使用的是softmax中的軟注意力（soft attention）。如果可以使用線性注意力（linear attention），我們就能將得到的模型用于強(qiáng)化學(xué)習(xí)。

具體來(lái)說(shuō)，在復(fù)雜環(huán)境下使用Transformer部署RL不切實(shí)際，但運(yùn)行一個(gè)具有快速權(quán)重（fast weight）的RNN可行。

你的目標(biāo)是接受任何語(yǔ)言建模任務(wù)，訓(xùn)練Transformer，然后找到一種在不增加參數(shù)總數(shù)情況下，用具有不同超參數(shù)的線性注意Transformer獲取每個(gè)字符/字的相同位元的方法。

先給你潑盆冷水：這可能是無(wú)法實(shí)現(xiàn)的。再給你一個(gè)潛在的有用提示，與使用softmax注意力相比，線性注意轉(zhuǎn)化器很可能需要更高的維度key/value向量，這能在不顯著增加參數(shù)數(shù)量的情況下完成。

丨5. 已學(xué)習(xí)數(shù)據(jù)的擴(kuò)充

難度指數(shù)：☆☆☆

可以用學(xué)習(xí)過(guò)的數(shù)據(jù)VAE執(zhí)行“已學(xué)習(xí)數(shù)據(jù)的擴(kuò)充”。

我們首先可能需要在輸入數(shù)據(jù)上訓(xùn)練一個(gè)VAE，然后將每個(gè)訓(xùn)練點(diǎn)編碼到一個(gè)潛在的空間，之后在其中應(yīng)用一個(gè)簡(jiǎn)單（如高斯）擾動(dòng)，最后解碼回到觀察的空間。用這種方法是否能得到更好的泛化，目前還是一個(gè)謎題。

這種數(shù)據(jù)擴(kuò)充的一個(gè)潛在優(yōu)勢(shì)是，它可能包含視角變換、場(chǎng)景光纖變化等很多非線性

轉(zhuǎn)換。

丨6. 強(qiáng)化學(xué)習(xí)中的正則化

難度指數(shù)：☆☆☆☆

這指的是實(shí)驗(yàn)性研究和定性解釋不同正則化方法對(duì)RL算法的影響。

在監(jiān)督學(xué)習(xí)中，正則化對(duì)于優(yōu)化模型和防止過(guò)擬合具有極其重要的意義，其中包含一些效果很贊的方法，如dropout、批標(biāo)準(zhǔn)化和L2正則化等。

然而，在策略梯度和Q-learning等強(qiáng)化學(xué)習(xí)算法上，研究人員還沒(méi)有找到合適的正則化方法。順便說(shuō)一下，人們?cè)赗L中使用的模型要比在監(jiān)督學(xué)習(xí)中使用的模型小得多，因?yàn)榇竽Ｐ捅憩F(xiàn)更差。

丨7. Olympiad Inequality問(wèn)題的自動(dòng)解決方案

難度指數(shù)：☆☆☆☆☆

Olympiad Inequality問(wèn)題很容易表達(dá)，但解決這個(gè)問(wèn)題往往需要巧妙的手法。

建立一個(gè)關(guān)于Olympiad Inequality問(wèn)題的數(shù)據(jù)集，編寫(xiě)一個(gè)可以解決大部分問(wèn)題的程序。目前還不清楚機(jī)器學(xué)習(xí)在這里是否有用，但你可以用一個(gè)學(xué)習(xí)的策略減少分支因素。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴