將深度學習、強化學習和遷移學習有機結合的研究
大小:0.6 MB 人氣: 2017-10-09 需要積分:1
第四范式是原百度T10專家、楊強的弟子、遷移學習大牛戴文淵創立的公司,最初的定位是數據量豐富并且業務極為依賴數字化的金融領域,楊強在學術之余希望推廣人工智能技術在國內的發展,參與了第四范式的創業。該公司最近發布了一個先知平臺,自動化、智能化的機器學習全流程為一大賣點,核心技術就是RTL。
參與創業的初衷
CSDN:您之所以參加第四范式的創業,除了師生關系,還有其他的驅動因素?
楊強:其實我們一直熱衷于一件事:讓我們的技術走向社會,我們一直在研究人工智能和遷移學習,另外我們也看到了很多大公司的局限,很多大公司有自己的想法和目標,一個研究者并不能百分之百地發揮自己的想象力,所以我們就想自己做一個有情懷的公司,來支持我們自己做一些想做的事情。一個很好的例子就是Google的Deepmind,就是做他們想做的事情,這對我們來說是一個更重要的啟發。
我的工作涉及設計算法,包括強化學習、遷移學習的算法,在工程方面團隊有很多優秀的工程師已經在大公司受過很多的磨煉,所以我們是互補的。
CSDN:第四范式公開介紹的核心技術,包括您說到的深度學習、遷移學習、強化學習,還有一個記憶網絡,第四范式的技術體系和您研究的RTL體系是完全一致的嗎?
楊強:是一致的,當然是不是完全使用還看具體場景。我們比較認可的是強化學習、遷移學習,當用不同的結構把它們給組合起來,就是一種很新的好的學習方式。這種方式在現在還不是很流行,我們預計在今后幾年都會用起來,也會通過我們的平臺推動起來。
深度學習的局限
CSDN:您如何看待深度學習的優勢和局限?
楊強:深度學習的局限來自于幾個方面:
表達能力的限制。因為一個模型畢竟是一種現實的反映,等于是現實的鏡像,它能夠描述現實的能力越強就越準確,而機器學習都是用變量來描述世界的,它的變量數是有限的,深度學習的深度也是有限的。另外它對數據的需求量隨著模型的增大而增大,但現實中有那么多高質量數據的情況還不多。所以一方面是數據量,一方面是數據里面的變量、數據的復雜度,深度學習來描述數據的復雜度還不夠復雜。
缺乏反饋機制。目前深度學習對圖像識別、語音識別等問題來說是最好的,但是對其他的問題并不是最好的,特別是有延遲反饋的問題,例如機器人的行動,AlphaGo下圍棋也不是深度學習包打所有的,它還有強化學習的一部分,反饋是直到最后那一步才知道你的輸贏。還有很多其他的學習任務都不一定是深度學習才能來完成的。
CSDN:微軟的深度殘差網絡是不是能解決表達能力的問題?
楊強:那是一個很好的躍進,它的層數也很多,表達能力很顯然往前推進了很多。但即使如此,它也沒有解決所有的表達的問題。因為它增加的是層數、層和層之間的連接數,而不是變量數,所以在變量數上還是有局限的。我們認為深度稀疏網絡在變量數的容納能力方面更強。
CSDN:遷移學習能解決哪些問題?
楊強:它主要解決兩個問題。
小數據的問題。比方說我們新開一個網店,賣一種新的糕點,我們沒有任何的數據,就無法建立模型對用戶進行推薦。但用戶買一個東西會反應到用戶可能還會買另外一個東西,所以如果知道用戶在另外一個領域,比方說買飲料,已經有了很多很多的數據,利用這些數據建了一個模型,就知道用戶飲料的習慣和糕點的習慣可能是有關聯的,我們就可以把飲料的推薦模型給成功地遷移到糕點的領域,使得對于糕點隨著數據不多,但是可以成功的推薦一些用戶可能喜歡的糕點。這個例子就說明了我們有兩個領域,一個領域已經有很多的數據,能成功地建一個模型,有一個領域數據不多,但是和前面那個領域是關聯的,我們就可以把那個模型給遷移過來。
個性化的問題,我們每個人都希望自己的手機能夠記住我們的一些習慣,這樣不用我們每次都去設定它,我們怎么才能讓手機記住這一點呢?其實可以通過遷移學習把一個通用用戶的使用手機的模型遷移到個性化的數據上面,我想這種以后會越來越多。其實在硅谷的關鍵詞就是個性化。
RTL的實踐
CSDN:第四范式的官方介紹是有100多個案例,不知道您參與了多少,強化學習和遷移學習遇到的實際的問題是什么?
楊強:我不能一一地說,但有幾個關鍵的我參與了,這里面用了很多不同的機器學習的算法,深度學習和強化學習只是其中的一部分。我要說的一點是,我們在公司建立的初期用得比較多的就是大規模邏輯回歸和深度學習。即使加上深度學習,這個學習模式也有它的缺陷——在很多情況下我們得到的反饋是延遲的,這種延遲反饋是深度學習所不能解決的。我們就引入了強化學習來解決它,是有一種自我學習的過程,類似AlphaGo自我對弈,不斷地提高。遷移學習,比方說我們在一個金融領域已經建立了一個很好的模型,但我們遇到了一個新的領域怎么辦呢?解決所謂的冷啟動問題就是利用遷移學習,當數據收集得足夠多了以后,我們再改用深度學習。
強化學習
CSDN:強化學習的應用應該關注哪些方面呢?
楊強:強化學習的應用其實很廣,最開始應用是在機器人上的應用,比方說你告訴Google AlphaGo到冰箱里給我拿一瓶牛奶過來,AlphaGo就不會,那個路徑的編程和怎么樣打開冰箱都需要人寫到程序里。怎么才能學會呢?這就需要強化學習來做,你讓他試很多次,有時候拿到有時候沒有拿到,有時候通過例子,讓強化學習的方法學習優化的路徑,所以一開始強化學習是在機器人的路徑規劃和任務完成上來進行的,但最近就發現,原來強化學習的應用面特別廣,可以用在很多反饋上,但這個反饋不是馬上可以得到的,比如說金融就是一個例子,醫療也是一個例子,對藥品和醫療方案的反饋,然后包括教育都是很好的例子。
CSDN:我們用到的Q Learning?
楊強:用到了。但現在比較流行的做法是Deep Q Learning。
CSDN:關于擴張和探索平衡您有什么樣的見解?
楊強:擴張和探索這個平衡一直是強化學習里面的一個大難題,現在沒有特別好的通用做法,應該在不同的領域有不同的思路,在圍棋領域尤其明顯,比方說樹搜索的寬度和深度之間就是一個平衡,但這個平衡AlphaGo做得很好。所以可能在機器人的領域,也需要引入這樣的一個平衡點,這個平衡點也是需要去學習的。
遷移學習
CSDN:目前遷移能做到從金融領域遷移到其他領域么?
楊強:跨領域是比較難的,一般是比領域里不同的業務之間做遷移,跨領域在學術界有做的,比方說網絡搜索可以遷移到推薦,圖象識別可以遷移到文本識別,這些在學術界都有不錯的工作,但是真的把它應用到工業界,還是拭目以待。
CSDN:難點在哪里?
楊強:跨領域的時候我們需要另外的一種數據來幫助我們,那種數據就是在兩個領域之間的橋梁數據,把它們銜接起來,這種數據往往在工業界中是隱式的,往往是在人的腦袋里,沒有被記錄下來的。所以我說人工智能的發展還在很初級的階段,我們沒有連成片而是一個一個申請在打,到了我們能連成片的階段那時候有新的成果出來,會是一加一大于二的結果。
CSDN:在每個行業都有一定的成熟的應用之后才能真正用起來是么?
楊強:對,這個是要有耐心和足夠的積累才可以發現不同領域之間的關聯。以醫療企業舉例,在基因檢測領域已經有了很多的數據,體驗有了很多的數據,但畢竟基因檢測和體檢是兩個不同的領域,所以他們之間的關聯很少,但當我們有了用戶的行為數據,對用戶有長期的跟蹤,這樣就可以把這兩個數據關聯起來了,有了這個我們就可以把兩個領域都關聯起來。
CSDN:除此之外遷移學習還需要關注哪些問題?
楊強:實際中是有做的,舉一個例子,比方說我們知道在室外有GPS,室內沒有,怎么辦呢?我們要定位一個很大的商場,現在有一個辦法是用Wifi來定位,一個做法是拿一個手機、APP收集很多的信號數據,再拿這個來訓練,但這個數據很容易偏,這個數據收集的時候和下一個分布是不一樣的,我們是不是要重新地收集一遍?那樣太麻煩了,不可能每個小時收集一遍室內的數據,所以我們的做法是收集一遍,過后用遷移學習把偏差給做掉,利用點到點的距離,利用校正的方法,在遷移學習里有一個算法也是我們發明的,就叫做加權法,就是對過去的數據加權,使得過去數據和現在數據比較相近的那些數據的權重比較大,比較遠的數據的權重逐漸變小,在迭代多次以后,剩下的數據就是跟現在的數據類似的數據了,所以這種做法我們覺得行之有效。現在我們在室內定位的領域做了很多的實踐,同時我要說明這也是一種學術的做法,因為室內定位還不是到工業的水平,我們也在做各種嘗試,用機器學習。
先知平臺
CSDN:今天談到了先知的平臺型的產品,我不了解我們用的技術和其他的產品不一樣的話,我們跟IBM、谷歌、微軟他們的一些服務或者是一些API有什么本質的區別呢?
楊強:首先這是在一個金融領域誕生的,所以應該是對金融領域是特別適用的,金融領域的幾個特點是其他的幾個通用的云平臺所不提供的。首先是變量特別多、問題特別復雜,然后是以流的形式輸入的,流的量也特別多,transection(音)的數量也特別多,另外有很多噪音,有很多的mission data(音),并不是所有的數據都跟它有反饋在一起,這說明在金融領域我們這個是最有效的。當然,通用型的也很有必要,像Amazon、像微軟他們更趨向于通用型的云平臺。
CSDN:金融人工智能的兩個常見場景,是風控和精準營銷,能不能介紹其他的場景?
楊強:風控和營銷是現在第四范式比較成功的場景,已經有很重要的客戶來買單了,這個本身就不容易,因為在金融領域對這些IT公司的要求是比較高的,我覺得再往下應該還有一些機會點,比方說一個機會點就是投資顧問,理財產品,怎么樣能夠讓公司在第一線而不是在后臺能夠為投資人或者是理財人提供建議、提供顧問,這可能是一個比較重要的點。第二個點可能是文本的挖掘,公司的財報,社會網絡的輿情都會對整個市場有影響,那么投資市場是怎樣受到這些報道和新聞的影響的?這個規律是可以通過自然語言學習來得到的,這一點也是以后的一個機會點。
CSDN:先知平臺關注應用開發和算法開發,能介紹一下您能解決算法開發的哪些問題么?
楊強:我們有幾個重要的工作。
第一是如何能夠建立一個算法庫和算法圖書館來幫助數據底層的清洗問題,因為到了實際中會發現,數據和數據之間有很多的孤島,孤島和孤島之間的連接很難,因為有很多數據是缺失的。另外還會有很多錯誤數據,如何能夠把數據改進和連接,這些都是數據清洗的一個范疇,所以對應這些問題就需要建立很多的算法庫,這是第一個問題。
第二個問題是建立了算法庫以后要把它歸一到機器學習算法所需要的輸入格式,這種叫做數據轉換,這也是一個臟活、累活,很多算法公司不屑去做的,在實際應用中我們發現這些活其實占了整個流程的80%,所以某種程度上重要如何能讓算法更快更有效更及時,并且能夠在線地對到來的數據進行分析,建立模型,所以建模這個是第三個層次。第四個層次就是剛才說的強化學習的層次,能夠讓系統自學習而不是通過人來驅動,能通過它的錯誤和做對的地方,能夠對它整個的流程進行補充、修正,所以是從下到上的四個階段。
CSDN:數據免清洗是怎么做到的?
楊強:是因為數據里面有很多清洗的模塊,然后很多清洗的動作一開始是由人來做的,人操縱這些模塊,拿這些工具,但當這種例子多了以后我們就可以把這些例子作為機器學習的一個輸入,學會一個模型又那個模型來模仿人來做。
CSDN:這是一個通用的還是需要跟具體的業務做結合?
楊強:這個要跟具體的業務做結合,因為不同的業務對質量的定義是不一樣的,有些認為這些數據里面確實有很多,有些應用就覺得不多。
CSDN:具體業務的數據上數據能支持輸入需求么?
楊強:在成功的案例上,從量的上面從質的上面都可以,但我們要發現里面有很多人的聰明才智是在里面的,也就是說數據科學家的作用,也是不可或缺的,怎么能讓領域科學家把自己的經驗轉化成數據科學家的編程的動作。舉一個例子,你要用深度學習模型會產生很多的特征,但原始的特征提供的特征得包含那些,才能夠產生次生的特征,那么我們包括了哪些特征來到原始數據里?就需要人的直覺和聰明才智,需要數據科學家和領域科學家的溝通。
解決人才的難題
CSDN:您強調了數據科學家的作用。機器學習領域目前有很多公開的論文,和開源的算法、開源的庫/框架,我們的人才為什么還是稀缺的?
楊強:這就是剛才說的臟活、累活大家都不愿意去做,因為發表文章和看法是很光榮的事,所以大家都集中在那邊了。我對業界的呼吁也是希望大家能夠把身段放下來,做一些基本數據的處理,把重點放在底層。這也是為什么第四范式真的是在做一些最基本的工作,而不是從第一天開始就急著做一些很上鏡的一些事情。
小結
楊強認為,遷移學習應用的成熟是一個循序漸進的過程,預計RTL在今后幾年的應用將會更加成熟。
事實上,強化學習和遷移學習已經越來越受歡迎。中國工程院院士、中國人工智能學會理事長李德毅對“駕駛腦”的研究,就強調了反饋機制,除了將CNN用于形式化,采用強化學習的理念使駕駛腦越來越聰明也是一個特色。,以提升學習效率。而在微軟研究院首席研究員俞棟與鄧力合著的《解析深度學習:語音識別實踐》一書中,多任務和遷移學習也占據了很大的篇幅。這表明,在深度學習最擅長的領域,強化學習和遷移學習依然有重要意義,深度學習也需要與這些算法結合使用。不過,楊強表示,之所以是RTL而不是DRTL,是因為并不是深度學習。
?
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%