阿里巴巴將于12月開(kāi)源其內(nèi)部深度學(xué)習(xí)框架 X-DeepLearning,面向廣告、推薦、搜索等高維稀疏數(shù)據(jù)場(chǎng)景,以填補(bǔ)TensorFlow、PyTorch等現(xiàn)有開(kāi)源深度學(xué)習(xí)框架主要面向圖像、語(yǔ)音等低維稠密數(shù)據(jù)的不足。
阿里巴巴內(nèi)部透露將開(kāi)源內(nèi)部深度學(xué)習(xí)框架 X-DeepLearning的計(jì)劃,這是業(yè)界首個(gè)面向廣告、推薦、搜索等高維稀疏數(shù)據(jù)場(chǎng)景的深度學(xué)習(xí)開(kāi)源框架,可以與TensorFlow、PyTorch 和 MXNet 等現(xiàn)有框架形成互補(bǔ)。
X-Deep Learning(下文簡(jiǎn)稱XDL)由阿里巴巴旗下大數(shù)據(jù)營(yíng)銷平臺(tái)阿里媽媽基于自身廣告業(yè)務(wù)自主研發(fā),已經(jīng)大規(guī)模部署應(yīng)用在核心生產(chǎn)場(chǎng)景,在這次的“雙11”中也發(fā)揮了重要作用。
阿里媽媽研究人員介紹,XDL整體上跟TensorFlow和PyTorch是同級(jí)的,它們很好地解決了目前已有開(kāi)源深度學(xué)習(xí)框架分布式運(yùn)行能力不足,以及大規(guī)模稀疏特征表征學(xué)習(xí)能力不足的問(wèn)題。
XDL 采用了“橋接”的架構(gòu)設(shè)計(jì)理念。這種架構(gòu)使得 XDL 跟業(yè)界的開(kāi)源社區(qū)無(wú)縫對(duì)接。例如,用戶可以非常方便地在XDL框架上應(yīng)用基于TensorFlow或者PyTorch編寫(xiě)的最先進(jìn)開(kāi)源深度學(xué)習(xí)算法。此外,對(duì)于已經(jīng)在使用其他開(kāi)源框架的企業(yè)或者個(gè)人用戶,也可以在原有系統(tǒng)基礎(chǔ)上輕松進(jìn)行擴(kuò)展,享受XDL帶來(lái)的高維稀疏數(shù)據(jù)場(chǎng)景下極致的分布式能力。
數(shù)據(jù)的高維稀疏性是廣告、推薦、搜索等互聯(lián)網(wǎng)眾多核心應(yīng)用場(chǎng)景的特征,覆蓋了大多數(shù)互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)應(yīng)用模式。
對(duì)于難以與BAT研發(fā)能力比肩的眾多互聯(lián)網(wǎng)公司而言,工業(yè)級(jí)深度學(xué)習(xí)框架XDL及內(nèi)置算法方案的開(kāi)源,將助力各大公司的技術(shù)升級(jí),大大提升廣告/推薦/搜索場(chǎng)景的精準(zhǔn)性,縮短技術(shù)迭代周期。
面向廣告、推薦、搜索場(chǎng)景的工業(yè)級(jí)分布式開(kāi)源DL框架
2016年左右,阿里媽媽團(tuán)隊(duì)在研發(fā)基于深度學(xué)習(xí)的廣告點(diǎn)擊率預(yù)估算法時(shí)發(fā)現(xiàn),當(dāng)時(shí)已有的TensorFlow、MXNet等開(kāi)源框架,用來(lái)實(shí)驗(yàn)算法原型可以,但真正面臨互聯(lián)網(wǎng)尺度的規(guī)模化數(shù)據(jù)時(shí),運(yùn)行效率面臨巨大的挑戰(zhàn)。
“我們第一次基于TensorFlow訓(xùn)練我們實(shí)際生產(chǎn)系統(tǒng)的深度點(diǎn)擊率預(yù)估模型時(shí),一天的數(shù)據(jù)量需要運(yùn)行超過(guò)3天的時(shí)間模型才能收斂,”阿里媽媽研發(fā)人員告訴新智元:“典型的生產(chǎn)模型需要用到的訓(xùn)練樣本往往都是歷史幾個(gè)月的數(shù)據(jù),顯然直接使用TensorFlow是不現(xiàn)實(shí)的?!?/p>
隨后,阿里媽媽團(tuán)隊(duì)也試圖對(duì)TensorFlow做一些簡(jiǎn)單優(yōu)化,但發(fā)現(xiàn)改動(dòng)成本巨大。進(jìn)一步剖析框架后,他們發(fā)現(xiàn)本質(zhì)的原因是TensorFlow、MXNet、PyTorch等框架大都是面向圖像、語(yǔ)音等領(lǐng)域的稠密數(shù)據(jù)設(shè)計(jì),對(duì)廣告、推薦等場(chǎng)景的高維稀疏數(shù)據(jù)上的深度學(xué)習(xí)計(jì)算考慮不足。
為此,阿里媽媽啟動(dòng)了XDL框架的研發(fā),希望能夠在復(fù)用已有開(kāi)源框架對(duì)稠密數(shù)據(jù)的計(jì)算能力基礎(chǔ)上,重點(diǎn)打造面向工業(yè)級(jí)應(yīng)用的分布式規(guī)模能力,單機(jī)能夠處理的計(jì)算則引用現(xiàn)有開(kāi)源框架。
經(jīng)過(guò)2年的研發(fā)與打磨,XDL目前已經(jīng)在阿里媽媽成功部署到內(nèi)部的生產(chǎn)系統(tǒng)。以阿里媽媽定向廣告為例,2017年,以 XDL 為基礎(chǔ)的深度學(xué)習(xí)算法升級(jí)帶來(lái)的廣告收入提升超過(guò)百億。
“我們注意到今天業(yè)界的很多團(tuán)隊(duì)還在類似的重復(fù)性工作。開(kāi)源XDL,是希望把阿里巴巴的能力賦能給大家,推高全行業(yè)的整體技術(shù)水位,同時(shí)也希望能夠吸引業(yè)界的伙伴們一起來(lái)建設(shè)高維稀疏數(shù)據(jù)場(chǎng)景上的深度學(xué)習(xí)技術(shù),一起成長(zhǎng)與獲益。 ”
“在現(xiàn)有的版本中,我們?cè)趩喂?jié)點(diǎn)稠密深度網(wǎng)絡(luò)計(jì)算上采用橋接技術(shù),復(fù)用了 TensorFlow、MxNet 的能力,也是最大程度上復(fù)用了已有開(kāi)源深度學(xué)習(xí)框架的能力?!?/p>
研究人員表示,后續(xù) XDL 也會(huì)考慮加入ONNX?!癘NNX針對(duì)稀疏計(jì)算的表征能力目前是不完善的,我們也在考慮對(duì)ONNX的協(xié)議標(biāo)準(zhǔn)進(jìn)行擴(kuò)充。”
研究人員表示,他們預(yù)計(jì)12月在Github公開(kāi) XDL的源代碼和使用文檔。除了核心的X-DeepLearning訓(xùn)練框架,阿里還將開(kāi)源面向高維稀疏數(shù)據(jù)場(chǎng)景的系統(tǒng)化解決方案,計(jì)劃分批次對(duì)外發(fā)布,包括面向在線實(shí)時(shí)服務(wù)的高性能深度學(xué)習(xí)預(yù)估引擎、面向全庫(kù)實(shí)時(shí)檢索的全新深度學(xué)習(xí)匹配引擎;同時(shí)還內(nèi)置阿里媽媽自主研發(fā)的一系列創(chuàng)新算法,涉及CTR預(yù)估模型、CVR預(yù)估模型、匹配召回模型、模型壓縮訓(xùn)練算法等等。
不管是以廣告、推薦、搜索為代表業(yè)務(wù)的企業(yè)級(jí)用戶,還是對(duì)此感興趣的個(gè)人用戶,都可以加入到開(kāi)源計(jì)劃當(dāng)中。
一圖看懂阿里巴巴首次公開(kāi)深度學(xué)習(xí)框架
-
阿里巴巴
+關(guān)注
關(guān)注
7文章
1613瀏覽量
47169 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8882瀏覽量
137401 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5500瀏覽量
121113
原文標(biāo)題:阿里深度學(xué)習(xí)框架開(kāi)源了!無(wú)縫對(duì)接TensorFlow、PyTorch
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論