在中國人工智能大會上,螞蟻金服副總裁兼首席數據科學家漆遠博士發表了主題為《金融智能的發展與應用》的演講。在此次演講中,漆遠從風控系統、智能助理、定損寶等產品案例出發,全面介紹了螞蟻金服產品背后的 AI 技術。現場,螞蟻金服的“模型服務平臺”首次公開亮相,主打“模型所見即所得”。漆遠表示,數據是資產,模型本身也是資產。未來,螞蟻金服也會將這個平臺作為其中一個AI能力向合作伙伴和客戶開放。本文根據演講內容整理了螞蟻金服人工智能的發展與應用圖譜。
螞蟻金服AI發展與應用圖譜,回復“螞蟻”獲取高清版
以下為漆遠博士演講實錄:
今天很高興給大家作一個分享,介紹一下AI在螞蟻金服的發展和應用。
首先我會講一講為什么我們要做AI,為什么呢?因為AI離不開場景和數據,為什么要場景,因為我們要解決真正的問題,產生真正有意義的服務。在金融里面我們有大量的服務,從支付、保險、財富、到風控、微貸等各個領域,其中典型的場景就例如要判斷某個小企業是否具備相應的信用能夠承受貸款的風險。
在所有的場景里面產生了海量的數據,而這些數據成為了人工智能的燃料,使得我們可以發展和應用一系列的人工智能技術。而這些場景、問題本身又為人工智能帶來了挑戰,比如說時間敏感要求一筆交易需要毫秒級完成判斷。再如海量數據,一天幾億筆的數據,這就需要非常大規模的穩定的風控的系統。還有業務多樣性,比如說怎么用遷移學習來發現不同任務之間的共性。再比如說系統性風險, 系統可以用一個網絡來表達,那你怎樣從網絡的角度分析問題。還有強數據安全和用戶隱私保護也是金融業務本身的屬性。
面對這些挑戰我們構建了一個金融智能的平臺,從底層的圖像理解,以及使用阿里巴巴集團的語音識別能力,在此之上發展了NLP的能力,然后這上面進行機器學習、深度學習,分析時間序列,比如說預測余額寶的利率變化;在最頂層,我們發展推理和決策的能力,使我們能夠幫助我們的用戶和金融合作伙伴做出明智的決策。
在這個金融智能平臺中包括了一系列的人工智能技術,比如說強化學習、無監督學習、圖推理、共享學習。這些技術具備金融領域的實時對抗性、大規模以及安全加密性。
今天講幾個例子,從例子出發講講背后的技術。在這之前,我先講講螞蟻金服現在的兩個關鍵詞。螞蟻金服我們定位為Techfin,而科技公司的一個核心的是什么?是AI。所以今年螞蟻金服兩個關鍵詞,一個是“開放”,一個是“AI”,我們希望通過AI驅動所有的業務,同時作為科技公司,我們技術成熟一個開放一個,所以下面探討的技術也是探討如何開放給伙伴。
安全風控
首先是在安全風控中,里面有用戶、設備、商家,他們之間通過資金流動形成互聯。傳統的風控技術中我們建立了很多的規則和模型。螞蟻金服過去十年通過使用大量的機器學習建立強大的風控系統。但是今天我們希望進一步地升級風控系統。比如說可信模型,我們想判斷有一筆交易是否存在賬號被盜。而這里面我們使用了一個跨界的技術,其實就廣告CTR預估的技術。 在2014年Facebook廣告算法的文章中, 講的是GBDT+邏輯回歸。使用我們開發的參數服務器技術,我們把邏輯回歸換成了大規模深度學習,使用到風控里面: 通過GBDT產生特征,然后DNN繼續學習。 因為在風控里面很多特征我們無法判斷哪些有用哪些沒有用,我們用GBDT產生海量特征然后把這些特征feed給深度學習模型。
前面是說我們把GBDT和DNN結合起來考慮風控。深度學習往下走,我們也考慮關系,用戶、商家、賣家等的關系,下面我舉一個例子,我們通過embedding技術,把整個關系結合起來,形成圖形網絡,然后進行監督學習、加強學習。
給大家看看例子,比如說支付寶賬號的賬戶(行為),我們一個網絡有好人、壞人,有設備比如說手機、計算機,iPad等,我判斷今天這個人是否注冊一個垃圾賬號特別簡單。我們可以把整個的圖關系通過一個embedding的技術產生一個深度學習的網絡,通過機器學習產生一個隱層表達,這個表達不光涵蓋了每個節點自身復雜的特征,同時還對網絡結構做了一個encoding。在垃圾賬號的識別上,在經典的Recall-Precision曲線中,Precision越高越好,接近1就是完美。原來的規則是不具可采信的,現在我們對圖使用embedding技術后有一個質的飛躍,Recall在70%、80%的時候,Precision達到90%,而原來的算法Precision在40%幾,這基本相當于瞎猜。這個和以前的系統相比,Node2Vec也是非常先進了,我們在此基礎上又做出了明顯的提升。
將圖的關系和Feature結合起來,可以產生非常Power的模型,用在我們的模型里面。通過廣告的算法提升了系統,我們進一步學習,將深度學習和圖模型結合起來,可以融合網絡關系與復雜特征。
智能助理
下面講講另外一個方向,在過去的很多年,不管是中國還是美國,講起智能助理和機器人都是非常熱的話題。這里對話很關鍵,在螞蟻金服初始的對話從客服機器人開始,如果你使用支付寶,打開客服小螞答可以問各種各樣的問題,例如你問余額寶收益怎么算,他就給你一個這樣一個答復,提供工具輸入金額并計算。然后還有財富的理財渠道,你問某個企業業績怎樣就會開始進行輿情分析,輿情分析在金融里面非常多的應用,我們可以自動分析,海量的輿情在中國國內,為月新聞、周新聞相應地打出輿情分。
下面講兩個技術,在對話機器人里面,在客服里面,假如問了這句話我怎樣申請退錢回來,它是沒有場景的。在問答系統中要理解它,就要真正知道在問什么,我們可以根據用戶的近期操作,這些操作本身就提供了一個背景和場景。我們通過LSTM對用戶行為軌跡做一個編碼,然后整個模型是一個深度排序模型,比較哪個更相似,通過LSTM建立模型,把怎樣申請退錢回來的用戶問題,和轉賬轉錯怎么辦和為什么銀行卡轉賬被退回來,這兩個進行答案匹配。我們給出正確的選擇轉賬到賬戶錯了怎么辦。這里有一系列的創新。這些創新今天不一一講。最后的結果,去年雙十一智能客服自助率做到97%。同時今年我們問題解決率超過了人工客服,機器人回答問題比人回答更為滿意。
這里對輿情分析背后技術簡單介紹,首先一個特別簡單的模型,就是統計這些感情單元,同時又和深度學習的方法結合,最后產生整體的判斷,這里面的話使用CNN,k-max pooling可以結合起來,還有TNN,將所有的信息結合起來進行一個綜合的評價。
剛才兩個例子講到對話機器人,第一個是客服,第二個是財富號的輿情分析。再就是保險,同時支付寶本身也在進行升級,您對支付寶可以說話,比如說我要給我的同事通過語音進行轉賬,自動完成轉賬并記錄到賬單里面。
機器學習平臺
下面第三個講機器學習平臺,這是我們團隊在阿里第一年開始做的工作,后來在螞蟻繼續和阿里集團合作開發。現在它是阿里和螞蟻金服使用最廣泛的大規模機器學習平臺。2015年我們用于廣告取得非常好的效果,后來用于淘寶推薦,前年用到雙11推薦,今年又用到了螞蟻的風控里面,其實它的核心技術就是我們能夠通過系統和算法的結合,處理海量數據。所以在風控系統里面,我們可以在同樣安全覆蓋的情況下,提升召回率,每天一千多萬筆可以準確輕松地通過審查。這個平臺前年做到了,但是今年才寫文章出來。它能支持100億特征、千億樣本、萬億參數。這是說它可以支持非常多的數據和特征,我們能從數據中提取價值做出預測。
假設非常多的數據,萬億參數非常耗能耗的,同時需要很多的機器。很多時間的applications,我們希望速度比較快比較省能源。在非常非常經典的矩陣分解中,相信很多做相關研究和做開發的同學都非常了解,如果我們把矩陣分解和哈希算法做結合,我們可以處理非常大的矩陣,比如說1億×1千萬的矩陣分解,我們2小時收斂,從工業界的角度具有非常大的價值。我們用到了口碑的場景中,點擊率的升幅超過120%。
剛才介紹的是機器學習,就是參數服務器,支持深度學習。下面再講一個技術,我們的場景是營銷,比如說各種各樣的商家營銷,怎樣發,發給誰,這是非常有價值的商業問題。這里面我們開發了加強學習技術。在這個算法中,我們有State、Action和Reward的狀態,我們定義了一個空間,State是從多個業務抽取特征,刻畫用戶狀態,Action是對哪些卡片和渠道做了相關決策組合,Reward就是用戶的點擊和簽約行為。整個框架是流式強化學習框架,所以能夠實時實現Update。這上面講了一個流程,比如說花唄準入,比如說它是否點入和簽約,整個算法可以在框架上迭代,效果就是在深度學習基礎上有更好的效果提升,比如推薦卡片點擊率171%的增長和最終簽約率149%的增長。
剛才講了加強學習,講了深度學習,下面講另外一個例子。如果每個技術都作為一個好用的工具開放出來,您只想用這個工具而不太深入技術本身怎么辦?我們開發了一個模型服務平臺,將整個模型訓練給您可視化,您通過簡單的點擊、拖拽數據就能產生所有的結果。比如說您是開發應用的,您可以把算法在里面應用以后進行一鍵部署。當然如果您是開發算法的也可以寫出新的算法,例如加強學習等,可以通過統一的平臺進行服務。在螞蟻金服內部,從芝麻信用到網商銀行的借貸,到風控都正在全面地使用我們的平臺。
模型服務平臺
我們今天講到了開放與AI,這里講到螞蟻金融云和開放平臺,希望我們的AI技術的能力開放服務于我們的客戶和合作伙伴。
這個模型服務平臺簡單來說我們就是模型所見即所得,不光數據是資產,模型本身也是資產。做到可視化的,對于用戶來講,提供給開發人員非常方便的建模方式,非常容易使用,不需要知道某一行公式怎樣推導的,然后可以支持A/B測試,可以全流程地效果監控,同時跨團隊地合作,并且可以實現多人同時開發。
接下來簡單展示訓練模型時的一個視頻。這是顯示的分類結果,這是得出來的樹狀模型,然后可以進行效果評估,這里可以比較兩個算法哪一個更好,拆分以后隨便選兩個算法自動評估,然后可以進行結果對比。我們以前在學校訓練完模型,然后手工測試幾個測試集就結束了,而在實際業界應用里一直有新的數據跑,新的預測,必須簡潔好用。在我們說話的時候,這就產生了一個部署的API,大家如果有問題還可以看一個請求示例,示范如何使用這個API。部署完了以后我們要知道效果好不好,是不是一直穩定,比如我們要監控信用分,KS值,它是AUC的變種。我們可以看到它對每一天當時的效果實時進行監控。
剛才講了整體的從模型訓練到數據特征的產生,您可以從各種模塊,到訓練到部署產生API,到最后效果的監控,全流程地展示。
定損寶
那下面最后講一個例子,前幾周我們保險事業部和我們發布了一個產品叫“定損寶”,做什么呢?出了一個小車禍,照張像,哪里有問題,是撞了一個洞還是刮蹭進行判斷,這是非常復雜的事。我們不是做 OCR識別,也不是做數字識別,但是我們要做檢測,我們要檢測哪個部件比如說車門、車燈還是bumper,我們要理解這個場景,比如說有一個縫,本身計算機不知道是車上的縫還是墻上的縫,還必須知道這個問題多么嚴重,最后是一個決策,將多個數據源結合起來,給用戶和定損員一個輔助判斷 。
看這張圖像,您覺得車哪里有問題,我當時看了很久也沒看出來,不知道大家怎樣? 這里面有什么問題呢?如這里所示,有個特別微小的變形。但是這里我們要解決幾個問題,第一個是問題在哪里,第二個你要把問題分幾層,到底有多嚴重的問題,比如說這是輕度變形。有的變形了你得把整個部件換掉,有的稍微一修就修好了,最后告訴您修多少錢,在您的App里面把北京你所在位置附近的維修店全部選出來告訴您成本,您做一個決策是否要修。 下面舉幾個我們遇到的計算機視覺上的挑戰。比如部件識別,這里面有多少個部件呢?我不是很專業,不算汽車愛好者,但是可以看出來這里有很多很多部件。所有的部件要找到,并且說有問題你都要看出來。再舉個例子,左邊一個強反光,強反光是不是有問題呢?我們要琢磨琢磨。還有,照相的時候人臉都對著框子里照,拍車照片的角度變化大很多 。
這個項目的開始和拿到初步的結果是算法團隊和業務同學通力合作的結果。算法同學積極學習業務,從開始看不出來圖像里車的問題,到現在都快成了專業的圖像定損員了。我們的技術有一系列的流程,從噪音去除到類別識別到目標檢測和程度判斷,到底多嚴重,是變形還是刮蹭。根據很多張圖片,最后我們要做預測結果的綜合,綜合以后我們做數據決策輔助,這要打通車的原件數據庫來分析,假如這個部件壞了多少錢。全國有4500萬案件/年, 60%的案件都是純外觀損傷的,它覆蓋了非常大的比例。每個成本平均150塊錢, 可以減少50%的作業量。
今天我介紹了一系列的技術,以前我當老師寫NSF proposals,都有兩個目標要寫,一個是intellectual merits 就是技術的原創性,另外一個是broad impact,就是對世界的影響。一般第一個目標我們都拼命寫,第二段都是那種來回貼的那種,為什么?因為當時在學校的研究里工業界有距離,缺乏直接的對世界產生影響的辦法。今天我覺得學校可以和工業界合作,工業界有更多的數據,更大的問題更難的挑戰,不僅應用技術還可以發展技術,今天介紹的只是一部分的技術,我們還有沒有發布的技術。
未來的挑戰
總結一下,今天講了深度學習和圖的結合,它主要是系統性風險的監測與預測; 智能助理,我們達到了超越人滿意度的智能客服。今天智能助理完成任務基于一系列的場景,因為支付寶我們是一系列的金融生活服務平臺,今天就加上智能的定語叫智能的一系列的金融生活服務平臺; 今天也介紹了基于哈希的海量特征提取,完全是從工業的角度,希望算得快、便宜和省內存;另外是深度強化學習,在營銷與推薦應用。在營銷比較關鍵,如果只是深度學習那么總是給你想要的,但是加強學習您可以探索一個在exploitation 和exploration的平衡:給你以前推薦你看過的類似的,也可以給你沒有看到的。
下面說些我們和其他公司可能都面臨的挑戰,我們雖然有很多的數據,但是比起我們的業務問題復雜度還是不夠,小數據、弱標注的數據的學習就很重要。另外,比如說怎樣處理有噪音與不確定性的推理,專家系統是從邏輯推出來的,但是它不能handle真實世界里的噪音和異常情況,今天講的Graph Emedding是一條路,但不是僅這一條還有其他的方向。 然后機器學習里面還有一個很重要的問題是模型的可解釋性,你要知道為什么,那在金融場景有非常多的應用,為什么信用分變低了你要給一個交代,就是解釋,今天的深度學習缺乏解釋性。還有如何從觀測的而不是隨機對比的數據中分析因果分析。還有長期目標與短期目標映射,怎樣把長期的目標和短期做的目標結合起來。最后,非線性動態網絡系統,網絡本身在改變 這里和物理學一些概念很相關,同時和圖理論非常相關,這對風險、監控和交易都會很有用。
最后,再次說,螞蟻是一家做普惠金融的科技公司。我們主題的是開放與AI, 技術成熟一個開放一個。從客服到模型部署平臺到其他的每一個案例,包括輿情平臺,我們都非常愿意賦能和服務客戶,和我們的合作伙伴、與我們的客戶共同探討和創造未來。
-
人工智能
+關注
關注
1792文章
47377瀏覽量
238881 -
深度學習
+關注
關注
73文章
5506瀏覽量
121260 -
螞蟻金服
+關注
關注
0文章
44瀏覽量
7425
原文標題:【干貨】一張圖讀懂螞蟻金服AI的發展與應用
文章出處:【微信號:WUKOOAI,微信公眾號:悟空智能科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論