一个人看的www的视频,一区二区视频在线免费观看,外出2在线观看

蓋坤，江湖人稱(chēng)“靖世”，是阿里巴巴集團(tuán)“負(fù)責(zé)變現(xiàn)”的阿里媽媽精準(zhǔn)展示技術(shù)部的資深總監(jiān)。在 3 月 29 日新智元產(chǎn)業(yè) · 躍遷 AI 技術(shù)峰會(huì)上，蓋坤詳解了阿里媽媽的深度學(xué)習(xí)演進(jìn)之路，在用深度學(xué)習(xí)進(jìn)行廣告推薦、全庫(kù)搜索等的經(jīng)驗(yàn)和問(wèn)題。干貨滿(mǎn)滿(mǎn)，本文帶來(lái)精彩實(shí)錄。

作為阿里媽媽精準(zhǔn)展示技術(shù)部資深總監(jiān)的蓋坤在阿里的花名是靖世，被外界成為“算法天才”。2011 年，剛進(jìn)阿里的蓋坤提出了分片線性模型 MLR，這對(duì)當(dāng)時(shí)主要使用簡(jiǎn)單線性模型做 CTR 預(yù)估的業(yè)界來(lái)說(shuō)，因?yàn)闃O大地提高了 CTR 預(yù)估的準(zhǔn)確性而頗具意義。幾年來(lái)，MLR 模型已經(jīng)被廣泛應(yīng)用在直通車(chē)定向和鉆展業(yè)務(wù)中。

蓋坤又帶領(lǐng)團(tuán)隊(duì)在 CTR 預(yù)估方面推出了一個(gè)新的模型結(jié)構(gòu)——深層用戶(hù)網(wǎng)絡(luò)興趣分布網(wǎng)絡(luò)，提出用戶(hù)的興趣是多樣的，利用深度學(xué)習(xí)在用戶(hù)歷史性行為和廣告CTR預(yù)估之間建立部分匹配，匹配度越高的歷史數(shù)據(jù)對(duì)預(yù)估結(jié)果影響越大，以此分辨出當(dāng)下的用戶(hù)興趣點(diǎn)。在3月29日新智元產(chǎn)業(yè) · 躍遷 AI 技術(shù)峰會(huì)上，蓋坤對(duì)這些算法進(jìn)行了解讀。

蓋坤：非常高興與大家進(jìn)行“深度學(xué)習(xí)演進(jìn)之路”的交流，阿里媽媽是阿里巴巴集團(tuán)下的大數(shù)據(jù)營(yíng)銷(xiāo)平臺(tái)，是負(fù)責(zé)阿里巴巴變現(xiàn)的一個(gè)事業(yè)部。我在阿里有一個(gè)花名，阿里內(nèi)部大家都是用花名溝通和聯(lián)系，我在阿里內(nèi)部的名字是靖世，研究的方向是機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、推薦系統(tǒng)和計(jì)算廣告。我在清華大學(xué)讀的本科和博士，專(zhuān)業(yè)是計(jì)算機(jī)視覺(jué)，畢業(yè)之后加入阿里巴巴廣告技術(shù)部，后來(lái)組成阿里媽媽事業(yè)部，這個(gè)事業(yè)部負(fù)責(zé)阿里所有的廣告變現(xiàn)產(chǎn)品。我現(xiàn)在是阿里媽媽的研究員，負(fù)責(zé)精準(zhǔn)定向廣告技術(shù)團(tuán)隊(duì)，負(fù)責(zé)的產(chǎn)品有智能鉆展、直通車(chē)定向廣告，熟悉阿里系統(tǒng)的同學(xué)可能會(huì)知道這兩個(gè)產(chǎn)品。

我將分三個(gè)部分來(lái)講一下。先講互聯(lián)網(wǎng)數(shù)據(jù)下的深度學(xué)習(xí)演進(jìn)，然后講一下廣告推薦或者搜索業(yè)務(wù)里面怎么用深度學(xué)習(xí)，在檢索里碰見(jiàn)的問(wèn)題怎么用深度學(xué)習(xí)解決，最后對(duì)未來(lái)的挑戰(zhàn)進(jìn)行展望。

首先，互聯(lián)網(wǎng)下的大數(shù)據(jù)。互聯(lián)網(wǎng)的數(shù)據(jù)有什么特點(diǎn)？第一個(gè)特點(diǎn)是規(guī)模大，轉(zhuǎn)化成機(jī)器學(xué)習(xí)的語(yǔ)言就是維度特別高，樣本特別多，另外互聯(lián)網(wǎng)數(shù)據(jù)內(nèi)部也有豐富的內(nèi)在的關(guān)系。

這里舉一個(gè)例子，比如這是一個(gè)典型的APP或者互聯(lián)網(wǎng)網(wǎng)站上的數(shù)據(jù)，一邊是很多用戶(hù)，另外一邊很多物料，以電商為例，物料就是商品。我們現(xiàn)在有很多的用戶(hù)有很多的商品物料，這兩個(gè)都是大數(shù)據(jù)，歷史上會(huì)看到很多的行為，這是用戶(hù)跟商品的某種連接關(guān)系。再延展下去，每個(gè)用戶(hù)都有他的Profile信息，用戶(hù)看到商品的標(biāo)題、詳情頁(yè)以及評(píng)論等等，這樣延展下去規(guī)模非常大的數(shù)據(jù)會(huì)被這些關(guān)系連接到一起，這就是互聯(lián)網(wǎng)數(shù)據(jù)的特點(diǎn)。

CTR預(yù)估。以經(jīng)典的問(wèn)題為例，為什么CTR預(yù)估很重要？這是廣告、推薦、搜索業(yè)務(wù)里的核心技術(shù)，這些業(yè)務(wù)的重要性相信已經(jīng)不用多提，這三個(gè)業(yè)務(wù)在很多公司來(lái)講都是最核心的業(yè)務(wù)。以廣告為例，為什么廣告里的CTR預(yù)估很重要？有兩點(diǎn)。第一，CTR預(yù)估是廣告市場(chǎng)深度學(xué)習(xí)研究的沃土，有很多新的技術(shù)可以去探索和演進(jìn)。第二，CTR預(yù)估直接跟互聯(lián)網(wǎng)企業(yè)的平臺(tái)收入相關(guān)，它其實(shí)對(duì)AI更重要。大家知道現(xiàn)在很多AI公司，包括公司內(nèi)部的研究方向其實(shí)是對(duì)未來(lái)的布局。現(xiàn)金流從哪兒來(lái)？很多互聯(lián)網(wǎng)企業(yè)的現(xiàn)金從廣告來(lái)，所以廣告重要。

以廣告為例展開(kāi)，在深度學(xué)習(xí)CTR預(yù)估核心問(wèn)題上的應(yīng)用進(jìn)展，CTR預(yù)估的傳統(tǒng)方法分兩類(lèi)，第一類(lèi)是人工設(shè)計(jì)的強(qiáng)特征，維度不會(huì)非常高，一般來(lái)講就是一些強(qiáng)的統(tǒng)計(jì)特征，這種特征上傳統(tǒng)的做法，以雅虎為代表的公司用的是GBDT的方法。這樣的方法問(wèn)題在于雖然很簡(jiǎn)單有效，但是數(shù)據(jù)的人工處理使數(shù)據(jù)喪失了分辨力，數(shù)據(jù)維度降得非常低。第二種主流做法，把數(shù)據(jù)展開(kāi)成高維度的數(shù)據(jù)，經(jīng)典的做法用大規(guī)模的邏輯回歸，邏輯回歸是廣義的線性模型，模型非常簡(jiǎn)單，但它的模型能力有限。

在介紹深度學(xué)習(xí)介紹之前，我首先展開(kāi)一下在阿里媽媽的第一個(gè)工作，我們把邏輯回歸從簡(jiǎn)單的線性模型變成非線性模型，變成三層的神經(jīng)網(wǎng)絡(luò)。前面提到一個(gè)經(jīng)典的做法用大規(guī)模的數(shù)據(jù)+邏輯回歸，這個(gè)邏輯回歸的一個(gè)問(wèn)題是線性太簡(jiǎn)單，我們需要去做大量的人工特征工程才能把這個(gè)效果變好。這里面我們第一個(gè)想法是，如何能夠讓算法更智能，自動(dòng)在大規(guī)模的數(shù)據(jù)里面提取非線性的模式。

我們做了這樣一個(gè)嘗試，去做了一個(gè)分片線性的模型，背后的思路也比較直觀。把整個(gè)空間分成很多的區(qū)域，每個(gè)區(qū)域里面是一個(gè)線性模型。不同的區(qū)域做一些平滑的連接，整個(gè)空間就是分片線性的模型，當(dāng)這個(gè)區(qū)域數(shù)足夠多、分片數(shù)足夠多，就可以逼近任意復(fù)雜的非線性曲面。

這是模型用神經(jīng)網(wǎng)絡(luò)的觀點(diǎn)來(lái)看的示意圖。來(lái)了一個(gè)樣本之后怎么計(jì)算？首先計(jì)算對(duì)每個(gè)區(qū)域的隸屬度，假設(shè)有四個(gè)區(qū)域，會(huì)計(jì)算一個(gè)隸屬度。假設(shè)正好這個(gè)樣本屬于第一個(gè)區(qū)，隸屬度是1000，對(duì)每個(gè)區(qū)域里面還有一個(gè)預(yù)測(cè)器或者線性分類(lèi)器，對(duì)每個(gè)區(qū)域里面有一個(gè)預(yù)測(cè)值，這四個(gè)預(yù)測(cè)值組成起來(lái)又是一個(gè)向量。上面的四維向量和下面的四維向量做內(nèi)積，第一個(gè)區(qū)域的預(yù)測(cè)值選出來(lái)，實(shí)際為了數(shù)學(xué)處理方便用一個(gè)軟的隸屬度表述而并不是1000這種硬的方式。

怎么學(xué)習(xí)這個(gè)學(xué)習(xí)模型是一個(gè)主要的問(wèn)題。我們還加入了分組系數(shù)的技術(shù)，使得大數(shù)據(jù)下的模型有自動(dòng)選擇特征的能力。最終，它會(huì)轉(zhuǎn)化成非凸非光滑的問(wèn)題，這是在2011年提出的模型，2012年上線的算法。非凸非光滑的問(wèn)題當(dāng)時(shí)沒(méi)有很好的手段，非光滑數(shù)學(xué)上表現(xiàn)的不是處處可導(dǎo)，數(shù)學(xué)上沒(méi)有導(dǎo)數(shù)怎么進(jìn)行下降也是一個(gè)問(wèn)題。雖然不是處處可導(dǎo)，這個(gè)函數(shù)處處方向可導(dǎo)，我們用方向?qū)?shù)找到最快下降方向，并用擬牛頓法進(jìn)行加速。這個(gè)工作的名稱(chēng)叫混合邏輯回歸MLR，做過(guò)CTR預(yù)估的同學(xué)可能會(huì)知道這樣一個(gè)工作。這是在我們探索深度學(xué)習(xí)在廣告中應(yīng)用的一個(gè)基礎(chǔ)。

MLR是三層神經(jīng)網(wǎng)絡(luò)，把大規(guī)模稀疏的離散化輸入變成兩個(gè)向量做內(nèi)積，兩個(gè)向量拼接起來(lái)就是一個(gè)長(zhǎng)的向量，跟現(xiàn)在的嵌入式技術(shù)是一樣的。把一個(gè)特別大規(guī)模的數(shù)據(jù)、不好處理的數(shù)據(jù)嵌入到一個(gè)空間里面變成一個(gè)向量，在連續(xù)空間一些連續(xù)的向量用深度學(xué)習(xí)比如多層感知機(jī)，就非常容易處理。第一步嘗試的深度學(xué)習(xí)是一個(gè)非常重要的經(jīng)驗(yàn)，貫穿了所有的深度學(xué)習(xí)的設(shè)計(jì)理念，用MLR產(chǎn)生的中間層向量抽取出來(lái)，后面直接去做多層感知機(jī)，把這個(gè)潛入向量作為多層感知機(jī)的輸入。這樣沒(méi)有提升效果，原因有兩點(diǎn)。第一點(diǎn)，MLR本來(lái)就是非線性模式；第二點(diǎn)，因?yàn)闆](méi)有端到端的訓(xùn)練。

后面一個(gè)突破，把embedding的學(xué)習(xí)和多層感知機(jī)的訓(xùn)練放在一起端到端學(xué)習(xí)，比原來(lái)的技術(shù)有非常明顯的提升。這也能夠解釋為什么深度學(xué)習(xí)近十年才有大的突破和進(jìn)展。如果沒(méi)有端到端訓(xùn)練，用淺層模型每次訓(xùn)練產(chǎn)生feature再訓(xùn)練再產(chǎn)生feature一層一層疊下去。之前很多人嘗試都沒(méi)有得出過(guò)這種深度的層疊網(wǎng)絡(luò)，直到端到端學(xué)習(xí)，使得我們?cè)诤芏鄦?wèn)題上得到突破。我們把分組的embedding豎過(guò)來(lái)，上面是多層感知機(jī)，這就變成阿里媽媽第一代深度學(xué)習(xí)網(wǎng)絡(luò)，基于數(shù)百億樣本、數(shù)億的特征維度，多GPU的端到端的訓(xùn)練來(lái)完成這樣一個(gè)業(yè)務(wù)上線。這個(gè)上線的效果使CTR和GMV的提升非常明顯。

前面介紹了經(jīng)典的比較標(biāo)準(zhǔn)化的深度學(xué)習(xí)在廣告里面的應(yīng)用，接下來(lái)我們的方向在互聯(lián)網(wǎng)數(shù)據(jù)中，怎么樣能夠通過(guò)對(duì)用戶(hù)行為的洞察做更好的深度學(xué)習(xí)模型。這里是一個(gè)例子，我們剛才講到嵌入式技術(shù)，把每個(gè)商品通過(guò)嵌入式技術(shù)在嵌入空間表示一個(gè)點(diǎn)，一組特點(diǎn)用戶(hù)的一系列行為通過(guò)嵌入技術(shù)表述成一個(gè)點(diǎn)，這個(gè)可能會(huì)代表用戶(hù)。這個(gè)用戶(hù)點(diǎn)跟商品做最后的興趣度的計(jì)算，假設(shè)說(shuō)這個(gè)計(jì)算就是跟距離成正比的話(huà)，用戶(hù)的點(diǎn)會(huì)表示成這樣一個(gè)興趣函數(shù)在空間里面就會(huì)變成一個(gè)單峰函數(shù)，用戶(hù)所處的點(diǎn)的地方的興趣度最大，越遠(yuǎn)興趣度越小。

實(shí)際上，我們用戶(hù)的興趣到底是不是一個(gè)單峰的？我們認(rèn)為不是的。大家在雙11有沒(méi)有購(gòu)物經(jīng)驗(yàn)？是不是購(gòu)物車(chē)?yán)锩婕訚M(mǎn)很多不同類(lèi)的商品，說(shuō)明用戶(hù)的興趣是多樣的，我們?cè)诜腔顒?dòng)節(jié)點(diǎn)，在平時(shí)發(fā)現(xiàn)用戶(hù)的興趣也是多樣的。用戶(hù)的行為序列里面有大量不同的類(lèi)目的子序列，用戶(hù)在相互跳轉(zhuǎn)。

基于這樣一個(gè)洞察，我們提出了用戶(hù)多峰興趣分布的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)，我們希望去描述用戶(hù)的多個(gè)興趣，它使用的方法是子序列提取。我們?cè)谧鯟TR預(yù)估的時(shí)候都有一個(gè)侯選的商品，我們拿到一個(gè)侯選的商品要預(yù)估它的點(diǎn)擊率的時(shí)候，用這個(gè)商品去反向提取它行為序列里面對(duì)所有預(yù)估有幫助的子序列，而不是用全部的序列。這樣的話(huà)就能在包含很多子序列的復(fù)雜的序列里面，把相關(guān)的子序列提取出來(lái)，用這個(gè)相關(guān)的子序列形成表達(dá)，跟這個(gè)商品關(guān)聯(lián)。多峰興趣分布可以看作是任何一個(gè)商品去找到一個(gè)比較近的峰跟它計(jì)算興趣度，大概是這樣一個(gè)過(guò)程。

我們實(shí)際上采用的一種類(lèi)似attention的技術(shù)達(dá)到相關(guān)的目的，也是在阿里媽媽的流量效果上使CTR、GMV顯著的指標(biāo)有明顯的提升。用戶(hù)在互聯(lián)網(wǎng)上瀏覽各種物料的時(shí)候，背后的物料本質(zhì)的理解非常重要，比如在電商環(huán)境下，用戶(hù)瀏覽商品的時(shí)候，很多時(shí)候看到這個(gè)商品的圖片來(lái)決定它到底怎么樣進(jìn)行下一步的行為。我們能不能把這些圖片信息能夠到深度神經(jīng)網(wǎng)絡(luò)來(lái)做更好的用戶(hù)興趣的建模？這樣帶來(lái)一個(gè)挑戰(zhàn)，任何一個(gè)行為從商品的ID變成一個(gè)商品的圖片，在樣本里面數(shù)據(jù)量是增大非常多倍，一個(gè)ID可能用一個(gè)幾byte的字節(jié)表示，如果變成一個(gè)圖片，動(dòng)輒幾百K甚至幾兆，這個(gè)數(shù)據(jù)量至少是上千倍的增長(zhǎng)。互聯(lián)網(wǎng)大規(guī)模的數(shù)據(jù)需要幾十或者幾百或者上千臺(tái)機(jī)器并行訓(xùn)練，數(shù)據(jù)量爆膨幾千倍，即使對(duì)于阿里巴巴這樣的公司，這樣的問(wèn)題也是很難處理的。

這樣的挑戰(zhàn)怎么解決？我們分析了現(xiàn)在在互聯(lián)網(wǎng)的深度學(xué)習(xí)建模里面經(jīng)常用的分布方式叫參數(shù)服務(wù)器（Parameter Server），我的樣本有一個(gè)worker遍歷樣本，需要參數(shù)的時(shí)候從server端取參數(shù)。能不能承擔(dān)這樣的計(jì)算？首先把圖像存在樣本中，爆膨幾千倍不可接受。存在遠(yuǎn)端的sever圖像進(jìn)行去冗余的存儲(chǔ)，存儲(chǔ)可以解決，相關(guān)的圖像傳過(guò)來(lái)，數(shù)據(jù)量爆膨幾千倍也不可接受。遠(yuǎn)端能不能不止存儲(chǔ)參數(shù)圖像，遠(yuǎn)端是不是加一個(gè)model解決？遠(yuǎn)端有圖像有model，遠(yuǎn)端的model處理圖像部分的子model，worker端是遍歷樣本的CTR主model，這兩個(gè)model嫁接到一起，做一個(gè)端到端的訓(xùn)練。剛才講過(guò)，很重要的一個(gè)經(jīng)驗(yàn)，只有端到端才work。這個(gè)圖像特征在阿里媽媽內(nèi)部很多團(tuán)隊(duì)嘗試，把圖像變成feature加入到CTR預(yù)估模型里面，如果CTR預(yù)估模型很強(qiáng)，這么加沒(méi)有作用。我們做這么一個(gè)端到端的訓(xùn)練，提出新的模型分布的服務(wù)器，把參數(shù)分布方式變成模型分布方式，Server端不只有參數(shù)而且有子模型在計(jì)算，并且會(huì)和worker端主模型一起更新。這使得圖像可以處理成一個(gè)向量再傳輸，幾十倍、幾百倍，整個(gè)傳輸量降下來(lái)，使得整個(gè)聯(lián)合訓(xùn)練的過(guò)程變成可能。通過(guò)框架上的分布式的變化來(lái)完成這個(gè)挑戰(zhàn)，在阿里媽媽的內(nèi)部業(yè)務(wù)線上線，點(diǎn)擊率或者商業(yè)平臺(tái)的收益能力上有一個(gè)很顯著的提升。

深度學(xué)習(xí)真正用在搜索推薦廣告的檢索系統(tǒng)里面，會(huì)遇見(jiàn)匹配問(wèn)題或者檢索問(wèn)題。這樣的一個(gè)流量端的業(yè)務(wù)一般來(lái)講會(huì)分幾個(gè)模塊，來(lái)一個(gè)流量之后，一個(gè)流量背后通常代表某個(gè)用戶(hù)某個(gè)場(chǎng)景下的瀏覽行為，先匹配，后面的預(yù)估模型對(duì)給定的商品做興趣度的預(yù)估，點(diǎn)擊率預(yù)估、轉(zhuǎn)化率預(yù)估，通過(guò)預(yù)估后面有一些排序展示，廣告還有出價(jià)，非廣告的話(huà)沒(méi)有出價(jià)環(huán)節(jié)。但我們不可能對(duì)大物料全庫(kù)進(jìn)行預(yù)估。

假設(shè)背后有一百億物料，每個(gè)用戶(hù)需要在線計(jì)算一百億物料的點(diǎn)擊率這是不可能的，前面的匹配模塊需要縮減，縮減成幾千、一萬(wàn)十萬(wàn)，使得在線可以承擔(dān)這么多計(jì)算。流程里面前面的檢索匹配環(huán)節(jié)是整個(gè)系統(tǒng)表現(xiàn)的上限，后面模型無(wú)論如何做得再精巧，前面匹配很弱的話(huà)，業(yè)務(wù)整體目標(biāo)無(wú)法得到提升。匹配方法可以分為三類(lèi)。啟發(fā)式統(tǒng)計(jì)規(guī)則，現(xiàn)在非常精巧，而且推薦里面用的非常多的一類(lèi)協(xié)同過(guò)濾，兩個(gè)商品看的多就相似，協(xié)同過(guò)濾怎么匹配？通過(guò)歷史行為的寶貝的商品的相似商品匹配過(guò)來(lái)，這樣的話(huà)很多人會(huì)遇到用這樣的一個(gè)推薦雖然很容易實(shí)行個(gè)性化，對(duì)于非個(gè)性化的業(yè)務(wù)指標(biāo)來(lái)講會(huì)有很大的提升，會(huì)帶來(lái)一個(gè)問(wèn)題，用戶(hù)經(jīng)常看到跟歷史行為相似的商品，這在很多推薦場(chǎng)景里面可能都有一些用戶(hù)去抱怨的case。

一個(gè)很自然的提升匹配能力的想法是引入機(jī)器學(xué)習(xí)去衡量興趣度，找到最好的商品。引入機(jī)器學(xué)習(xí)，全庫(kù)的計(jì)算問(wèn)題很難解決，所以我們?cè)谝霗C(jī)器學(xué)習(xí)的時(shí)候有一個(gè)退化的方法，如果這個(gè)模型是一個(gè)內(nèi)積模型，用戶(hù)是一個(gè)向量點(diǎn)，所有的物料都可以表示向量點(diǎn)，內(nèi)積模型最后變成KNN查找的問(wèn)題。怎么查找最近鄰？有向量檢索引擎可以做。CTR里面經(jīng)常有交叉特征，用戶(hù)興趣分布，還有很多高級(jí)的深度學(xué)習(xí)模式，都沒(méi)辦法在這里面使用。我們針對(duì)怎么樣用任意的深度學(xué)習(xí)來(lái)做全庫(kù)的檢索尋優(yōu)，提出樹(shù)結(jié)構(gòu)的全庫(kù)檢索引擎，它的想法也比較直觀，把整個(gè)商品建立成一棵層次化的樹(shù)，有十億產(chǎn)品，30層的二叉樹(shù)，它的葉子層可以容納20億商品。我們的深度學(xué)習(xí)層每層掃描，每層找到最優(yōu)，下層的節(jié)點(diǎn)在上一層非最優(yōu)的孩子里面不繼續(xù)計(jì)算，相當(dāng)于丟棄，直到最后找到全庫(kù)最優(yōu)的，把10億次的衡量變成30億次從上到下的衡量，解決深度學(xué)習(xí)如何在全庫(kù)找最優(yōu)的問(wèn)題，解決了檢索和匹配的問(wèn)題。這樣的方法跟前兩代方法比較，推薦召回率有非常明顯的提升。此外，我們限定只推薦用戶(hù)沒(méi)有行為過(guò)類(lèi)目下的物料，用新類(lèi)目召回率來(lái)做一個(gè)新穎性和召回率的綜合評(píng)估。比第一代的協(xié)同過(guò)濾方法在這樣的評(píng)估方式下將近提升了四倍多。這是技術(shù)上解決了如何用深度學(xué)習(xí)進(jìn)行全庫(kù)檢索的問(wèn)題。

未來(lái)的挑戰(zhàn)，對(duì)于推薦或者廣告的體驗(yàn)問(wèn)題和數(shù)據(jù)缺失問(wèn)題，機(jī)器學(xué)習(xí)需要label數(shù)據(jù)也就是目標(biāo)數(shù)據(jù)，現(xiàn)在有的目標(biāo)是已經(jīng)產(chǎn)生的用戶(hù)數(shù)據(jù)點(diǎn)擊購(gòu)買(mǎi)等等數(shù)據(jù)。我們能夠?qū)@些指標(biāo)做最優(yōu)化，很多體驗(yàn)問(wèn)題我們沒(méi)有Label很難優(yōu)化，導(dǎo)致很難用機(jī)器學(xué)習(xí)去解這些問(wèn)題。如何解決體驗(yàn)問(wèn)題？用算法自動(dòng)去推導(dǎo)背后的用戶(hù)體驗(yàn)還是用人力標(biāo)注，像搜索引擎用相關(guān)性團(tuán)隊(duì)去標(biāo)注用戶(hù)的感受還是通過(guò)交互讓用戶(hù)主動(dòng)來(lái)反饋？這個(gè)是未來(lái)需要探索的問(wèn)題。

推薦評(píng)估問(wèn)題，不管是工業(yè)界、學(xué)術(shù)界經(jīng)常用召回率來(lái)評(píng)估，實(shí)際上召回率只評(píng)估用戶(hù)消費(fèi)過(guò)商品的表現(xiàn)，如何評(píng)估新推薦商品對(duì)用戶(hù)的激發(fā)效應(yīng)，這在召回率評(píng)估上并沒(méi)有體現(xiàn)。還有推薦的自循環(huán)問(wèn)題，你感興趣的東西你點(diǎn)的多，推薦下一步會(huì)推薦越來(lái)越多，最后喪失掉很多其它你可能感興趣的其它推薦。在很多APP上推薦場(chǎng)景有很多，多場(chǎng)景下如何來(lái)做協(xié)同？從商家視角，每個(gè)商家其實(shí)面向的都是全量的海量用戶(hù)，如何探測(cè)潛在的客戶(hù)。商家面對(duì)的是整個(gè)消費(fèi)者的運(yùn)營(yíng)過(guò)程，潛在興趣階段、購(gòu)買(mǎi)階段整個(gè)鏈路上如何進(jìn)行優(yōu)化創(chuàng)新，這是面對(duì)商家在商業(yè)上希望能解決的問(wèn)題。

阿里媽媽技術(shù)團(tuán)隊(duì)在深度學(xué)習(xí)上持續(xù)演進(jìn)和創(chuàng)新。我們追求業(yè)務(wù)結(jié)果，希望在追求業(yè)務(wù)結(jié)果背后能夠在技術(shù)上做一點(diǎn)不一樣的事情，希望能夠做一些業(yè)務(wù)的創(chuàng)新模式，如果有同學(xué)感興趣的話(huà)歡迎聯(lián)系我們。阿里媽媽攜手天池承辦的這一屆阿里媽媽國(guó)際廣告算法大賽，大家有興趣歡迎來(lái)挑戰(zhàn)。

阿里媽媽國(guó)際廣告算法大賽:

阿里巴巴（淘寶、天貓）是中國(guó)最大的電子商務(wù)平臺(tái)，為數(shù)億用戶(hù)提供了便捷優(yōu)質(zhì)的交易服務(wù)，也積累了海量的交易數(shù)據(jù)。阿里媽媽作為阿里巴巴廣告業(yè)務(wù)部門(mén)，在過(guò)去幾年利用這些數(shù)據(jù)采用深度學(xué)習(xí)、在線學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等人工智能技術(shù)來(lái)高效準(zhǔn)確地預(yù)測(cè)用戶(hù)的購(gòu)買(mǎi)意向，有效提高了用戶(hù)的購(gòu)物體驗(yàn)和廣告主的ROI。然而，作為一個(gè)復(fù)雜的生態(tài)系統(tǒng)，電商平臺(tái)中的用戶(hù)行為偏好、商品長(zhǎng)尾分布、熱點(diǎn)事件營(yíng)銷(xiāo)等因素依然給轉(zhuǎn)化率預(yù)估帶來(lái)了巨大挑戰(zhàn)。比如，在雙十一購(gòu)物狂歡節(jié)期間，商家和平臺(tái)的促銷(xiāo)活動(dòng)會(huì)導(dǎo)致流量分布變化劇烈，在正常流量上訓(xùn)練的模型無(wú)法很好地匹配這些特殊流量。如何更好地利用海量的交易數(shù)據(jù)來(lái)高效準(zhǔn)確地預(yù)測(cè)用戶(hù)的購(gòu)買(mǎi)意向，是人工智能和大數(shù)據(jù)在電子商務(wù)場(chǎng)景中需要繼續(xù)解決的技術(shù)難題。

2018年，阿里媽媽聯(lián)合國(guó)際人工智能聯(lián)合會(huì)議（IJCAI-2018）以及阿里云天池平臺(tái)，啟動(dòng)阿里媽媽國(guó)際廣告算法大賽，以阿里電商廣告為研究對(duì)象，提供平臺(tái)的海量真實(shí)場(chǎng)景數(shù)據(jù)，參賽選手通過(guò)人工智能技術(shù)構(gòu)建預(yù)測(cè)模型，預(yù)估用戶(hù)購(gòu)買(mǎi)意向。優(yōu)勝隊(duì)伍不僅有豐厚的獎(jiǎng)金和差旅贊助費(fèi)用，更可有參加7月于斯德哥爾摩舉辦的IJCAI-2018主會(huì)的資格。

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴