瑪麗·雪萊在創(chuàng)作世界上第一部科幻小說《科學(xué)怪人》(又譯:弗蘭肯斯坦)的時(shí)候,恐怕沒法預(yù)見到在一個(gè)多世紀(jì)后的今天,真的會(huì)出現(xiàn)一種脫胎于虛無,卻能判斷、能決策的存在。
人工智能自動(dòng)化近年來受到了廣泛的關(guān)注,但在真正的建模工程師和業(yè)務(wù)人員眼中,卻一直只是玩具級(jí)別的應(yīng)用。不但限制重重,繁瑣的編程和抽象的參數(shù)設(shè)置對(duì)于小白用戶來說,也遠(yuǎn)遠(yuǎn)稱不上“自動(dòng)化”。
誰能想到,早在2015年,硅谷就成立了一家致力于開發(fā)“幫助創(chuàng)造AI”的AI公司。日前,R2.ai的創(chuàng)始人兼CEO黃一文接受了我們的采訪,為我們講述了他們對(duì)于人工智能自動(dòng)化行業(yè)的發(fā)展趨勢(shì)以及產(chǎn)品技術(shù)核心的認(rèn)識(shí)。
回歸本質(zhì)——業(yè)務(wù)專家才是機(jī)器學(xué)習(xí)問題的最適解決者
AutoML對(duì)于人工智能社區(qū)來說并不能說是一個(gè)新潮的概念,國(guó)內(nèi)國(guó)外的企業(yè)都陸續(xù)推出了自己的AutoML平臺(tái)。但這些平臺(tái)的使用者和服務(wù)對(duì)象往往是建模工程師,雖然能很大程度上提升建模工程師的工作效率,但對(duì)于常變常新的業(yè)務(wù)問題來說,卻仍然慢了半拍。
事實(shí)上,六年前的機(jī)器學(xué)習(xí)自動(dòng)化產(chǎn)品就已經(jīng)能夠在十幾分鐘內(nèi)解決TB級(jí)數(shù)據(jù)的建模問題了,但對(duì)于希望在業(yè)務(wù)中應(yīng)用機(jī)器學(xué)習(xí)的企業(yè)來說,往往苦于尋找優(yōu)秀的建模工程師和探索真正有用的應(yīng)用場(chǎng)景;即便對(duì)于已經(jīng)開始了機(jī)器學(xué)習(xí)應(yīng)用的企業(yè)來說,緩慢的開發(fā)速度和低下的模型質(zhì)量也往往使得企業(yè)在高昂的投入面前望而卻步。
換句話說,“傳統(tǒng)的建模流程+超高速的機(jī)器學(xué)習(xí)自動(dòng)化平臺(tái)”這一模式并沒有突破企業(yè)在實(shí)際應(yīng)用中落地機(jī)器學(xué)習(xí)的瓶頸。
“我們認(rèn)為業(yè)務(wù)人員其實(shí)是最適合應(yīng)用機(jī)器學(xué)習(xí)來解決問題的角色,讓正確的人使用正確的工具來解決正確的問題,是我們想要達(dá)到的效果”,黃一文說。
要最大化地利用企業(yè)的數(shù)據(jù),讓需求多樣的企業(yè)真的能夠在業(yè)務(wù)當(dāng)中落地機(jī)器學(xué)習(xí)技術(shù),一個(gè)普適性強(qiáng),簡(jiǎn)單易用且高度自動(dòng)化的高質(zhì)量機(jī)器學(xué)習(xí)平臺(tái)是不可或缺的。而這恰恰是R2 Learn 2.0的技術(shù)特點(diǎn)。
R2.ai也在近日推出了其最新一代AutoML產(chǎn)品R2 Learn 2.0版本,該產(chǎn)品目前正在進(jìn)行免費(fèi)試用活動(dòng),感興趣的讀者可以自行取閱?
R2.ai快速將數(shù)據(jù)轉(zhuǎn)換為競(jìng)爭(zhēng)優(yōu)勢(shì)
傻瓜式操作,零代碼實(shí)現(xiàn)機(jī)器學(xué)習(xí)
小白的福音,數(shù)據(jù)科學(xué)家的得力助手
在R2 Learn 2.0中,R2.ai為業(yè)務(wù)問題提供了一個(gè)端到端、高自動(dòng)化的機(jī)器學(xué)習(xí)解決方案。黃一文表示,具有廣泛適用性的AutoML類產(chǎn)品對(duì)于產(chǎn)品化、優(yōu)化及模型集成豐富度的要求很高,在R2 Learn 2.0中,用戶甚至僅需鼠標(biāo)操作,不斷根據(jù)平臺(tái)的提示進(jìn)行選擇,就可以在上傳數(shù)據(jù)后迅速建立模型。
不僅如此,在自動(dòng)建模的過程中,R2 Learn 2.0還實(shí)現(xiàn)了數(shù)據(jù)清洗、修復(fù),特征工程,模型評(píng)估等傳統(tǒng)建模過程單元的自動(dòng)化。
1.目標(biāo)變量有3個(gè)水平值
2.預(yù)測(cè)變量里存在缺失值和數(shù)據(jù)類型錯(cuò)配
解決這些問題,用戶僅需點(diǎn)擊Continue,平臺(tái)就會(huì)引導(dǎo)用戶選擇目標(biāo)變量中的唯一值,并對(duì)預(yù)測(cè)變量數(shù)據(jù)質(zhì)量問題進(jìn)行自動(dòng)修復(fù)。
通過這樣傻瓜式的引導(dǎo),即便是毫無機(jī)器學(xué)習(xí)知識(shí)和經(jīng)驗(yàn)的業(yè)務(wù)人員也能快速為業(yè)務(wù)問題進(jìn)行針對(duì)性建模,從而實(shí)時(shí)滿足業(yè)務(wù)需求。而對(duì)于掌握有機(jī)器學(xué)習(xí)領(lǐng)域知識(shí)的數(shù)據(jù)科學(xué)家或分析師來說,R2 Learn 2.0平臺(tái)還提供了高級(jí)編輯模式,用戶不但能夠看到模型從數(shù)據(jù)預(yù)處理到模型評(píng)估的全過程,還能根據(jù)自己的經(jīng)驗(yàn)和偏好對(duì)模型進(jìn)行調(diào)整,這也體現(xiàn)了平臺(tái)的高度透明性和可解釋性。
自學(xué)習(xí),自調(diào)參——AutoML迎來質(zhì)變
對(duì)任何一個(gè)建模工程師來說,從0開始建立一個(gè)模型都足以成為不眠之夜的噩夢(mèng)。談到傳統(tǒng)建模過程的復(fù)雜性時(shí),黃一文說道:“建模的挑戰(zhàn)主要是由建模過程在每一個(gè)步驟都有多元選擇造成的,比如修復(fù)數(shù)據(jù)質(zhì)量可能就有三四種不同的方式,變量工程有十幾種不同的方式,算法的選擇和算法的參數(shù)調(diào)整空間就更大了。這些選擇會(huì)使得建模的復(fù)雜性指數(shù)型上升。”
從本質(zhì)上講,無論是對(duì)于人類工程師還是機(jī)器,建模都是一個(gè)不斷試錯(cuò)的過程。人類的優(yōu)勢(shì)在于可以憑借經(jīng)驗(yàn)和直覺找到一個(gè)不錯(cuò)的試錯(cuò)起點(diǎn),但這不僅對(duì)建模工程師有很高的要求,還會(huì)使得模型的成功在很大程度上依賴于運(yùn)氣。而對(duì)于機(jī)器來說,不斷嘗試正是機(jī)器最適合做的事情,輔以高效的優(yōu)化算法,機(jī)器可以在短時(shí)間內(nèi)嘗試大量模型并向用戶推薦最優(yōu)結(jié)果。
R2 Learn 2.0充分利用機(jī)器的算力優(yōu)勢(shì),并開發(fā)了自學(xué)習(xí)和自調(diào)參技術(shù)來進(jìn)一步提升平臺(tái)的效率和模型的準(zhǔn)確性。
“如果模型的初始參數(shù)與最優(yōu)值相距較遠(yuǎn),模型可能會(huì)很難收斂,也可能很容易發(fā)散到其他地方。為了找到一個(gè)合適的初始參數(shù),我們的平臺(tái)有一套基于增強(qiáng)學(xué)習(xí)的知識(shí)庫(kù),當(dāng)用戶上傳了數(shù)據(jù)開始建模時(shí),我們會(huì)將用戶的數(shù)據(jù)與我們知識(shí)庫(kù)的數(shù)據(jù)進(jìn)行精準(zhǔn)的匹配,從而使得模型從一個(gè)比較合理的超參數(shù)開始搜索”。黃一文介紹道。
R2 Learn 2.0的系統(tǒng)架構(gòu)
兩小時(shí)建模,全生命周期管理,再次一敗涂地的人類
效率問題是自動(dòng)化機(jī)器學(xué)習(xí)需要解決的首要問題。
“要讓機(jī)器學(xué)習(xí)自動(dòng)化工具在企業(yè)中真正落地,我們必須實(shí)現(xiàn)端到端地自動(dòng)化建模”,黃一文說道:“數(shù)據(jù)修復(fù)、特征工程、模型選擇、模型調(diào)參、模型組合等步驟其實(shí)都是相互關(guān)聯(lián)的,自動(dòng)化及優(yōu)化的程度越高,模型要搜索的空間也就越大,而且是成百上千倍地?cái)U(kuò)大。”
自動(dòng)化建模實(shí)際上是一個(gè)搜索優(yōu)化問題。即在所有的選項(xiàng)中,用最短的時(shí)間找到最優(yōu)解。為了解決這一問題,R2.ai基于強(qiáng)化學(xué)習(xí)、遺傳算法等開發(fā)了五種不同的優(yōu)化算法,使得平臺(tái)能夠在非常短的時(shí)間內(nèi)用盡可能少的資源找到最佳模型。
R2 Learn 2.0的高效在很多應(yīng)用場(chǎng)景中都得到了體現(xiàn),在一個(gè)金融行業(yè)的應(yīng)用案例中,R2 Learn 2.0需要在保證高準(zhǔn)確性的情況下幫助一個(gè)對(duì)沖基金公司建立人工智能交易模型。在將近100萬行和超過80個(gè)變量的數(shù)據(jù)集上,R2 Learn 2.0在兩小時(shí)內(nèi)建出了一個(gè)AUC為0.78的模型,比原來的模型質(zhì)量提高了12%。
“模型有不同的特點(diǎn),有些模型建模速度非常快,有些模型精度非常高,有些模型效率非常高。而在金融場(chǎng)景中,模型的選擇是非常關(guān)鍵的”,黃一文向我們繼續(xù)介紹:“我們?yōu)镽2 Learn 2.0設(shè)計(jì)了一個(gè)獨(dú)特的模擬優(yōu)化技術(shù),用戶可以將場(chǎng)景信息輸入到模型中,系統(tǒng)會(huì)據(jù)此對(duì)模型進(jìn)行重新優(yōu)化,從而找到一個(gè)真正可以滿足用戶風(fēng)險(xiǎn)收益平衡需求的模型”。
通過自動(dòng)模型重新擬合,R2 Learn幫助對(duì)沖基金公司應(yīng)對(duì)瞬息萬變的市場(chǎng)
除了效率問題以外,準(zhǔn)確性問題也是自動(dòng)化機(jī)器學(xué)習(xí)工具無法回避的挑戰(zhàn)。
通過端到端的全鏈建模流程整體優(yōu)化,而不是幾個(gè)步驟的局部?jī)?yōu)化,這是R2.ai可以生成更優(yōu)異性能模型的法寶。
建模的每一步都是互相關(guān)聯(lián)的。整體優(yōu)化包括的步驟越多,生成優(yōu)異模型的幾率越高。當(dāng)然,這同時(shí)意味著對(duì)優(yōu)化算法的要求相應(yīng)提高,這恰恰是R2.ai超越競(jìng)爭(zhēng)對(duì)手的技術(shù)壁壘。
在一個(gè)醫(yī)療領(lǐng)域的案例中,醫(yī)院希望能夠通過病人的特征數(shù)據(jù)和診斷數(shù)據(jù)預(yù)測(cè)并控制病人的再入院率。R2 Learn 2.0通過對(duì)病患的畫像、患病史、醫(yī)療診斷指標(biāo)、入院記錄等海量數(shù)據(jù)的分析,運(yùn)用機(jī)器學(xué)習(xí)建模技術(shù), 成功地在短時(shí)間內(nèi)構(gòu)建了AUC達(dá)0.846的模型。該結(jié)果成為了醫(yī)院管理者分析并控制再住率的有效依據(jù),大幅降低了出院病人的再入院成本,還可以給予患者更適合個(gè)人的醫(yī)療選項(xiàng),提升患者的治療體驗(yàn)。
除此之外,R2 Learn 2.0還將全生命周期管理的概念首次植入到了機(jī)器學(xué)習(xí)自動(dòng)化領(lǐng)域中。黃一文談道:“大部分企業(yè)現(xiàn)在主要關(guān)注的問題還是怎樣建出更好的模型,但實(shí)際上模型的運(yùn)營(yíng)也是非常重要的,這就會(huì)涉及到模型的全生命周期管理問題。”
任何機(jī)器學(xué)習(xí)模型都是基于歷史數(shù)據(jù)開發(fā)出來的,而歷史數(shù)據(jù)反映的是過去的商業(yè)狀況,所以模型其實(shí)是有保質(zhì)期的。
“企業(yè)應(yīng)該時(shí)刻監(jiān)督模型在實(shí)際應(yīng)用當(dāng)中的性能,并不斷用新的數(shù)據(jù)去實(shí)時(shí)優(yōu)化舊的模型,這樣才能為模型‘保鮮’”。黃一文如此建議。
AI無代碼時(shí)代來臨
業(yè)務(wù)問題,而不只是機(jī)器學(xué)習(xí)
“我們希望企業(yè)可以用98%的時(shí)間來解決業(yè)務(wù)問題,而不是機(jī)器學(xué)習(xí)問題”,談到整個(gè)人工智能和數(shù)據(jù)行業(yè)的未來發(fā)展時(shí),黃一文這樣說道。“技術(shù)最終是服務(wù)于業(yè)務(wù)的,所以我認(rèn)為機(jī)器學(xué)習(xí)工具的發(fā)展方向是讓用戶更快更有效地解決業(yè)務(wù)問題,與商業(yè)更好更深結(jié)合”。
外媒Interesting Engineering在報(bào)道R2.ai這家近年來快速增長(zhǎng)的公司時(shí)使用了”new generation”一詞,我們也確實(shí)看到R2.ai為人工智能在應(yīng)用當(dāng)中從0到1的落地邁出了堅(jiān)實(shí)的一步。
“企業(yè)落地人工智能基本上可以有兩種方法,第一種是基于系統(tǒng)規(guī)劃,企業(yè)通過采集大量數(shù)據(jù),搭建基礎(chǔ)設(shè)施,一步一步地落地人工智能。而另外一種更推薦的方式則是先用現(xiàn)有的數(shù)據(jù)找到一個(gè)可以落地的場(chǎng)景,從小到大,而不是從大到小地開始建模。這樣能大大降低人工智能落地的成本,也給企業(yè)更多的正反饋來進(jìn)一步應(yīng)用人工智能”。黃一文為我們補(bǔ)充道。
那么,數(shù)據(jù)科學(xué)家會(huì)失業(yè)嗎?
社會(huì)自動(dòng)化水平的提高讓我們不得不面對(duì)嚴(yán)峻的就業(yè)形勢(shì),人工智能的廣泛應(yīng)用更是讓大量行業(yè)的從業(yè)者面臨著失業(yè)危機(jī),在談到數(shù)據(jù)行業(yè)從業(yè)者的職業(yè)問題時(shí),黃一文樂觀地與我們分享道:“從歷史上來看,人類文明中每一個(gè)新技術(shù)的出現(xiàn)往往伴隨著新行業(yè)的出現(xiàn);自動(dòng)化水平的提高往往伴隨著新工作機(jī)會(huì)的出現(xiàn),失業(yè)率不但不會(huì)提高,甚至還有可能降低”。
未來:授人以魚不如授人以漁
人工智能行業(yè)的發(fā)展速度往往給人一種日新月異的感覺,但談到未來發(fā)展時(shí),黃一文卻顯得很自信:“其實(shí)有很多技術(shù)我們?cè)谘芯渴耶?dāng)中已經(jīng)做出來了,比如非監(jiān)督學(xué)習(xí),很快我們的用戶就可以在聚類、異常檢測(cè)、推薦等業(yè)務(wù)場(chǎng)景下應(yīng)用自動(dòng)化的機(jī)器學(xué)習(xí)了。”
另外,目前的R2 Learn 2.0平臺(tái)還只支持結(jié)構(gòu)化的數(shù)據(jù),在采訪的最后黃一文也表示將在未來一年著手支持自然語言處理和計(jì)算機(jī)視覺的應(yīng)用場(chǎng)景,將非結(jié)構(gòu)化數(shù)據(jù)的處理也納入到R2 Learn 2.0的自動(dòng)化范疇之內(nèi)。
“現(xiàn)在有很多人發(fā)表言論說人工智也許會(huì)摧毀人類文明。我認(rèn)為他們的思維是局限在有限的生存空間內(nèi)的,但事實(shí)上我們所處的世界遠(yuǎn)遠(yuǎn)不止我們現(xiàn)在所了解的范圍,AI最大的存在價(jià)值之一就是它能夠幫助我們?nèi)ヌ街磥淼氖澜纭!?/p>
黃一文繼續(xù)說道:“R2 Learn 2.0就是一個(gè)泛用性很強(qiáng)的AI,未來我們想做的就是幫助企業(yè)去探知更多他們還沒有了解的世界。中國(guó)人講授人以魚不如授人以漁,當(dāng)人人可用的AI出現(xiàn)之后,企業(yè)一定能更深入地理解業(yè)務(wù),不斷開拓新的業(yè)務(wù)邊界”。
評(píng)論
查看更多