CSDN 出品的《2018-2019 中國(guó)人工智能產(chǎn)業(yè)路線圖》V2.0 版即將重磅面世!
V1.0 版發(fā)布以來,我們有幸得到了諸多讀者朋友及行業(yè)專家的鼎力支持,在此表示由衷感謝。此次 V2.0 版路線圖將進(jìn)行新一輪大升級(jí),力求為讀者呈現(xiàn)更全面的中國(guó)人工智能產(chǎn)業(yè)發(fā)展概況和趨勢(shì)判斷。
此文為深度技術(shù)分析系列稿件第 6 篇,作者為 CSDN 特邀 AI 專家——探智立方產(chǎn)品總監(jiān)宋煜。
人工智能會(huì)影響多個(gè)領(lǐng)域,甚至是那些非常傳統(tǒng)的商業(yè)領(lǐng)域。而機(jī)器學(xué)習(xí)(這里指的是廣義的機(jī)器學(xué)習(xí))是人工智能的一個(gè)重要組成部分,它指的是對(duì)大數(shù)據(jù)集上的算法進(jìn)行訓(xùn)練,以便他們學(xué)習(xí)如何更好地識(shí)別所需的模式。
近一年來,我們會(huì)看到在芯片領(lǐng)域,網(wǎng)絡(luò)安全領(lǐng)域,語音助理領(lǐng)域,法律咨詢領(lǐng)域,醫(yī)療診斷領(lǐng)域,制藥領(lǐng)域,越來越多的AI技術(shù)在推動(dòng)行業(yè)的發(fā)展和進(jìn)步。同時(shí),各種人工智能的比賽也層出不窮,而比賽的背后推動(dòng)力實(shí)際上就是行業(yè)方案的落地能力。傳統(tǒng)行業(yè)正越來越急迫地希望 AI 能夠真正應(yīng)用于實(shí)際的生產(chǎn)環(huán)節(jié)之中。
機(jī)器學(xué)習(xí)算法概述
隨著對(duì)實(shí)際應(yīng)用要求的呼聲越來越大,算法層面的研究也慢慢變得清晰和細(xì)致。在今天,從技術(shù)的角度來看,人工智能的落地有四個(gè)重要的環(huán)節(jié)需要解決:數(shù)據(jù)標(biāo)注問題,模型設(shè)計(jì)問題,模型訓(xùn)練性能問題和模型可解釋性問題。
在算法層面,有大量的工作圍繞這四個(gè)問題展開:
▌模型訓(xùn)練需要大量準(zhǔn)確的標(biāo)注數(shù)據(jù)
針對(duì)這種挑戰(zhàn),業(yè)界一直試圖通過數(shù)學(xué)方法降低對(duì)大量數(shù)據(jù)的依賴。從減少標(biāo)注的角度,非監(jiān)督學(xué)習(xí)提供了不同的方法如協(xié)同訓(xùn)練,半監(jiān)督字典學(xué)習(xí),標(biāo)簽傳播算法,半監(jiān)督支持向量機(jī)以及階梯(Ladder)網(wǎng)絡(luò)。可以看到,大部分半監(jiān)督學(xué)習(xí)的方法都建立在對(duì)數(shù)據(jù)分布的某種假設(shè)。如果訓(xùn)練數(shù)據(jù)的確真實(shí)反應(yīng)了現(xiàn)實(shí)世界中數(shù)據(jù)分布的情況,那么就會(huì)從中受益,否則效果會(huì)大打折扣。
在深度學(xué)習(xí)領(lǐng)域,階梯網(wǎng)絡(luò)試圖通過一個(gè)網(wǎng)絡(luò)把有標(biāo)簽的監(jiān)督學(xué)習(xí)和同類但無標(biāo)簽數(shù)據(jù)進(jìn)行共同訓(xùn)練,實(shí)現(xiàn)一個(gè)端到端的半監(jiān)督深度模型。階梯網(wǎng)絡(luò)通過在反向傳播的同時(shí)最小化有監(jiān)督和無監(jiān)督的損失,從而避免分層預(yù)訓(xùn)練的需求。通過 SkipConnection 使編碼層的每一層都有一個(gè)到解碼層的橫向連接;同時(shí)在編碼層,每一層都引入噪聲以實(shí)現(xiàn)類似于降噪自編碼器的能力。階梯網(wǎng)絡(luò)中,隱變量是整個(gè)模型的關(guān)鍵所在。分層隱變量模型可以保留較低級(jí)別的細(xì)節(jié)表示,允許更高級(jí)別的表示可以更多的關(guān)注那些不變,抽象的特征。隨著技術(shù)的發(fā)展,階梯網(wǎng)絡(luò)也可以支持卷積神經(jīng)網(wǎng)絡(luò)。不過,技術(shù)領(lǐng)域從來沒有萬能鑰匙。
當(dāng)你用一個(gè)技術(shù)解決部分問題的時(shí)候,新的問題也會(huì)隨之產(chǎn)生。在灰度和簡(jiǎn)單圖像的情況下,階梯網(wǎng)絡(luò)效果是非常好的,但是當(dāng)應(yīng)用于醫(yī)療里的細(xì)胞切片分析時(shí),性能會(huì)下降的比較厲害。類似的一些新的研究也有很多,比如 Self-Ensembling Graph Convolutional Networks 、主動(dòng)學(xué)習(xí)(Active-Learning)以及 Acluster-then-label Semi-supervised learning Approach 就能夠在部分標(biāo)注的醫(yī)學(xué)切片掃描圖片上得到很好的成績(jī)。
同時(shí),業(yè)界也在試圖利用生成對(duì)抗神經(jīng)網(wǎng)絡(luò)(GAN)生成更多的樣本從而解決數(shù)據(jù)擴(kuò)增問題。在低樣本數(shù)據(jù)體系中,訓(xùn)練參數(shù)不確定,學(xué)習(xí)網(wǎng)絡(luò)概括性差,而且?guī)в泻軓?qiáng)的數(shù)據(jù)偏向性。使用數(shù)據(jù)擴(kuò)充能夠有效的來緩解這種情況。然而,標(biāo)準(zhǔn)數(shù)據(jù)增加僅產(chǎn)生有限的似乎合理的替代數(shù)據(jù),并有可能引入人為指定的擴(kuò)增算法的數(shù)據(jù)分布規(guī)律。對(duì)抗神經(jīng)網(wǎng)絡(luò)生成模型能夠更加有效地做到數(shù)據(jù)擴(kuò)增。從源數(shù)據(jù)獲取、學(xué)習(xí)數(shù)據(jù)特征,然后將其推廣以生成其他類內(nèi)數(shù)據(jù)項(xiàng)。這個(gè)生成過程不依賴于類本身,因此它可以應(yīng)用于新的、未曾見過的數(shù)據(jù)類。通常這種擴(kuò)增可以使最后的訓(xùn)練結(jié)果提高10-15%。
第三個(gè)解決標(biāo)注數(shù)據(jù)需求量問題的是元學(xué)習(xí)的方法。其中,One/Low-Shot Learning 變的越來越熱。元學(xué)習(xí)(MetaLearning)目的并不是收斂學(xué)習(xí)的目標(biāo),如圖像識(shí)別或者下棋,而是學(xué)習(xí)更高一層的內(nèi)容,例如,參數(shù)設(shè)置、神經(jīng)結(jié)構(gòu)、神經(jīng)元初始化、優(yōu)化器的選擇、損失函數(shù)的定義、數(shù)據(jù)空間的維度信息等。
One-Shot Learning旨在通過少數(shù)例子學(xué)習(xí)對(duì)象的概念。基于元學(xué)習(xí)的方法與生成數(shù)據(jù)模型結(jié)合,同時(shí)優(yōu)化兩個(gè)模型,從而提升小樣本情況下的準(zhǔn)確性。Low-Shot Learning 由一個(gè)學(xué)習(xí)器,兩個(gè) Learning Phase (Representation Learning Phase + Low-Shot Learning Phase)和一個(gè) Testing Pase 構(gòu)成。其中,學(xué)習(xí)器就是特征提取與分類的結(jié)合。
LearningPhase 的第一階段是標(biāo)準(zhǔn)的訓(xùn)練過程,固定學(xué)習(xí)器的特征提取參數(shù);去除最后的分類層,固定特征提取參數(shù),使用少量的新類別(Noval Class)更新新類別的分類器參數(shù);交替進(jìn)行第二、三階段。看起來似乎與遷移學(xué)習(xí)很像,但這里的關(guān)鍵是如何讓第二階段的表示層學(xué)習(xí)地更普適。其最大的改變是損失函數(shù)的設(shè)計(jì),也就是讓基于第二階段的 RepresentationLearning 學(xué)到的權(quán)重使全局損失最小。那么,在原損失基礎(chǔ)上加入梯度;梯度越小,說明 W(權(quán)重)的改變?cè)叫《玫降?W 也就越接近“普適”。從實(shí)際效果而言,第三種方法效果目前還不如前兩種,但可以看到,第三種方法更接近人類的學(xué)習(xí)方式。
▌模型設(shè)計(jì)和調(diào)參的難度
今天,除了數(shù)據(jù)標(biāo)注的難度,在實(shí)際落地的項(xiàng)目中,會(huì)大量使用遷移學(xué)習(xí)方法加速模型與生產(chǎn)系統(tǒng)的對(duì)接。但是,很多時(shí)候,如果數(shù)據(jù)科學(xué)家經(jīng)驗(yàn)不豐富或者理論理解不深入的情況下,調(diào)參和調(diào)整模型結(jié)構(gòu)就進(jìn)入了“玄學(xué)”范疇。實(shí)際上,從數(shù)學(xué)的角度而言,有很多新的方法試圖解決這類問題。其中,最具代表性的就是自動(dòng)機(jī)器學(xué)習(xí)(AutoML)。業(yè)界目前主流的幾種AutoML方法包括遺傳學(xué)算法、元學(xué)習(xí)、強(qiáng)化學(xué)習(xí)與基于序列模型的優(yōu)化(SMBO)。通常而言,數(shù)據(jù)特征抽取、模型結(jié)構(gòu)優(yōu)化與超參搜索是一個(gè)迭代過程。通過不停地調(diào)整從而在準(zhǔn)確性和穩(wěn)定性上達(dá)到生產(chǎn)環(huán)境的要求,通常這個(gè)過程占整個(gè)開發(fā)過程75%以上的時(shí)間。
作為一個(gè)新興領(lǐng)域,AutoML旨在減少或消除所需的手動(dòng)操作機(jī)器學(xué)習(xí)的專業(yè)知識(shí)。基于圖架構(gòu)靈活地表示組合ML和DL模型的方法,提供了在極大搜索空間構(gòu)建出基于樹和基于堆疊的體系結(jié)構(gòu)的模型的可能。加上遺傳學(xué)算法的趨好性和多樣性特點(diǎn),AutoML能夠獲得在手工設(shè)計(jì)中難以獲得的結(jié)構(gòu)。而通常這種結(jié)果所需要的參數(shù)遠(yuǎn)小于常規(guī)模型所使用的參數(shù)數(shù)量。相比大模型剪枝后的模型,這種小參數(shù)模型移植到IoT設(shè)備上具有巨大的優(yōu)勢(shì)。有些AutoML系統(tǒng)會(huì)使用貝葉斯優(yōu)化來搜索模型和超參數(shù),確實(shí)在超參優(yōu)化中有效。但是,在較大的架構(gòu)搜索領(lǐng)域效率是很低的。而真正有效解決自動(dòng)模型設(shè)計(jì)問題,遺傳學(xué)演化算法會(huì)被更加頻繁的使用。
相比增強(qiáng)學(xué)習(xí)來構(gòu)建計(jì)算圖的方法,遺傳學(xué)算法在極大搜索空間中,效率會(huì)更高。遺傳學(xué)算法會(huì)把父代中穩(wěn)定的結(jié)構(gòu)或者部分網(wǎng)絡(luò)進(jìn)行編碼,并把這部分固化成一個(gè)片段傳遞給子代,讓子代基于已得出的部分穩(wěn)定結(jié)構(gòu)繼續(xù)生成網(wǎng)絡(luò)。當(dāng)然,遺傳學(xué)算法也不是萬能的,在模型演化過程中,如何預(yù)防整個(gè)群體的過早熟(大量子代來自于同一祖先,而導(dǎo)致無法跳出局部最優(yōu));如何快速?gòu)哪P徒Y(jié)構(gòu)評(píng)估模型間的相似性而減少Loss變化極小的采樣;如何做有序度分析,從而找到適合遺傳的部分結(jié)構(gòu)這些都是實(shí)際工程化過程中要面臨的問題。值得一提的是DARTS(Differentiable Architecture Search)把計(jì)算圖邊的選擇變換成了一個(gè)連續(xù)空間求導(dǎo)的問題,從而大大加速了固定結(jié)構(gòu)以后,邊選擇問題的求解。
同時(shí)我們也會(huì)看到,有大量新的專用模型的產(chǎn)生用于解決某一個(gè)領(lǐng)域的問題。強(qiáng)化學(xué)習(xí),對(duì)抗神經(jīng)網(wǎng)絡(luò)和元學(xué)習(xí),由于它們自身算法的特點(diǎn)會(huì)更為普遍的應(yīng)用于不同的領(lǐng)域。 另外一些新的損失函數(shù)的研究,使得越來越多All-in-One或者All-You-Need模型解決一個(gè)甚至多個(gè)復(fù)雜問題變成可能。在強(qiáng)化學(xué)習(xí)方面, 通常分為RL理論,RL算法,RL網(wǎng)絡(luò)架構(gòu),RL優(yōu)化,RL探索,RL獎(jiǎng)勵(lì),分布式RL,分層RL,多Agent,RL元學(xué)習(xí)等方向。元學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的結(jié)合成為非常熱的話題。
大部分強(qiáng)化學(xué)習(xí)的環(huán)境假設(shè)都是單一環(huán)境,而這種強(qiáng)假設(shè)就是環(huán)境固定不變,然后學(xué)習(xí)出針對(duì)這個(gè)環(huán)境的策略,但是現(xiàn)實(shí)環(huán)境卻不是這樣的,環(huán)境的變化是存在的,而且變化速度有時(shí)候會(huì)很快,比如量化交易和對(duì)抗(對(duì)手的策略也在變換)。而RL+MetaLearning的核心就是根據(jù)歷史學(xué)習(xí)的經(jīng)驗(yàn)包括策略和軌跡,來快速創(chuàng)建新的策略。MAML(Model-AgnosticMetaLearning)假設(shè)任務(wù),策略和軌跡都是隨機(jī)變量,上一時(shí)間步的策略和軌跡被用于當(dāng)前時(shí)間步構(gòu)建新的策略。使用訓(xùn)練數(shù)據(jù)做梯度下降更新當(dāng)前網(wǎng)絡(luò),然后用測(cè)試數(shù)據(jù)在更新后的網(wǎng)絡(luò)下計(jì)算損失函數(shù),最后通過損失函數(shù)梯度下降更新前面使用的網(wǎng)絡(luò)。這是一種適用于連續(xù)、簡(jiǎn)單、基于梯度的元學(xué)習(xí)方法,并且考慮非平穩(wěn)性作為一系列固定任務(wù)和訓(xùn)練代理。在非平穩(wěn)運(yùn)動(dòng)和競(jìng)爭(zhēng)性多智能體的情況下,允許測(cè)試各種適應(yīng)戰(zhàn)略的各個(gè)方面。
生成對(duì)抗網(wǎng)絡(luò)是另一種重要的深度學(xué)習(xí)模型。它可以用于圖像優(yōu)化、交互式圖像生成、圖像編輯、文本到圖像或者圖像到文本,對(duì)話生成等領(lǐng)域。LS-GAN(Loss-Sensitive GAN)是目前比較穩(wěn)定的一種模型,能夠比較好的解決梯度消失問題。另外Large-ScaleGAN通過兩種簡(jiǎn)單生成架構(gòu)變化以及正則化方式的修改使生成器水平得到極大的提高。當(dāng)然,今天的GAN仍然面臨很多問題,最嚴(yán)重的就是生成多樣性的問題。在對(duì)話生成的過程中,隨著訓(xùn)練的提升,生成的語言會(huì)越來越符合人的語法模式,但是同時(shí),多樣性在減少,大量能夠騙過分辨器的雷同語句會(huì)被生成,而無法做到真正在NLP領(lǐng)域里面擴(kuò)增數(shù)據(jù)內(nèi)容。
在整個(gè)模型設(shè)計(jì)中,損失函數(shù)和優(yōu)化器的創(chuàng)新恐怕是最難的而意義又是最大的。例如今年的“On the Convergence of Adam and Beyond”通過賦予Adam算法過去梯度的“長(zhǎng)期記憶”,來解決在大輸出空間,無法收斂到最優(yōu)解的問題。這種算法層面的優(yōu)化會(huì)直接解決大部分使用RMSPROP和ADAM優(yōu)化器的網(wǎng)絡(luò)收斂問題。
▌模型訓(xùn)練的性能
模型訓(xùn)練一直對(duì)計(jì)算力的需求最旺盛。當(dāng)數(shù)據(jù)集超過T級(jí)或者設(shè)計(jì)了一個(gè)非常復(fù)雜的神經(jīng)網(wǎng)絡(luò),GPU的并行化訓(xùn)練甚至集群的并行化訓(xùn)練就是不可或缺的。OpenAI的Dota5v5模型使用了256塊P100GPU和128,000CPUcore進(jìn)行訓(xùn)練。大規(guī)模分布式并行訓(xùn)練是解決這類問題的必選項(xiàng)。通過分級(jí)求導(dǎo),在求導(dǎo)過程中傳遞不同層的梯度;通過設(shè)置雙向環(huán)路,減少權(quán)重傳遞次數(shù);優(yōu)化參數(shù)匯聚算法;乃至模型并行化等手段都旨在不停地提高訓(xùn)練效率。這部分的研究工作與傳統(tǒng)的HPC(高性能計(jì)算)其實(shí)非常相似。大家最后碰到的問題都是這種分布式難以線性疊加,當(dāng)規(guī)模達(dá)到一定程度后,很難再有所提升;而收斂過程在后面的過程中,由于梯度下降本身速度已經(jīng)放緩,大量的并行GPU所提升的效率就會(huì)更加不明顯。由于模型并行化過于復(fù)雜,而且并行化方案難以通用,大部分并行化方案都還是訓(xùn)練數(shù)據(jù)并行化。
▌模型可解釋性
模型設(shè)計(jì)取得不錯(cuò)的性能后,解釋模型又會(huì)變成一個(gè)新的挑戰(zhàn)。今天大多數(shù)復(fù)雜的深度學(xué)習(xí)模型都是一個(gè)黑盒子。這也是深度學(xué)習(xí)在一些方面被人詬病的原因。隨著業(yè)界對(duì)這個(gè)問題的爭(zhēng)論,越來也多的可視化方法被提供試圖解釋模型。論文《The Building Blocks of Interpretability》將獨(dú)立的神經(jīng)元、分類器與可視化結(jié)合,提供一種觀察方法來判斷神經(jīng)元可以被哪些圖像激活、神經(jīng)元判斷這個(gè)圖像屬于哪一類,以及神經(jīng)元的最終決策貢獻(xiàn)值。這類方法在Attention模型中也得到比較廣泛的使用。當(dāng)使用LSTM做輸入文本的特征提取,用CNN做圖像特征提取后,研究人員也可以通過這種可視化的方法來分析,哪些文字讓Attention單元對(duì)哪部分圖像的特征圖(FeatureMap)敏感。從定性分析的角度看,這類方法的確可以提供對(duì)模型可解釋性的指導(dǎo),但是從定量分析的角度,特別是對(duì)于一些高維的數(shù)據(jù)特征,還有很長(zhǎng)的路要走。
機(jī)器學(xué)習(xí)算法所面臨的挑戰(zhàn)及原因
今天,機(jī)器學(xué)習(xí)所面臨的挑戰(zhàn)有很多。從數(shù)據(jù)的角度來看,除了有效數(shù)據(jù)的高成本問題,還有數(shù)據(jù)不公平性問題。
通常,大家會(huì)覺得,如果算法或者模型用機(jī)器固化后,應(yīng)用到實(shí)際場(chǎng)景會(huì)消除人為偏差,但是今天的數(shù)據(jù)如果在分布上本身就帶有“歧視”,這種偏見是會(huì)被一直保持的。例如,如果訓(xùn)練數(shù)據(jù)表明男性比女性更有生產(chǎn)力,那么機(jī)器學(xué)到的判決模型很有可能將偏向選擇男性候選人。而這種問題很難有一個(gè)明確的標(biāo)準(zhǔn)來衡量并糾錯(cuò)。從模型的角度來看,今天的大部分模型還是針對(duì)一個(gè)比較確定的環(huán)境和數(shù)據(jù)來解決問題的,這就導(dǎo)致了大量的實(shí)際應(yīng)用不一定很快就能找到合適的模型,而是需要大量的數(shù)據(jù)科學(xué)家來對(duì)模型和真實(shí)數(shù)據(jù)做調(diào)整。
普惠AI的提出就是在試圖打破這個(gè)瓶頸。而這個(gè)瓶頸最關(guān)鍵的問題是如何降低設(shè)計(jì)和使用模型的門檻。我們可以看到今天大部分AI的公有云服務(wù),都在試圖使用遷移學(xué)習(xí)來解決這部分問題,但是這些AI公有云服務(wù)忽略了一個(gè)問題,他們這次不是提供商品讓最終消費(fèi)者來選擇買什么,而是需要提供一個(gè)互動(dòng)的方式了解消費(fèi)者要做什么之后提供對(duì)應(yīng)的模型設(shè)計(jì)服務(wù)來完成這個(gè)目標(biāo)。AutomML是解決這個(gè)方法的一條途徑,不過同時(shí)有也很長(zhǎng)的路要走。至于算法層面的問題,反而不是一個(gè)巨大的挑戰(zhàn)。只要有明確的問題被提出,就一定會(huì)有新的數(shù)學(xué)方法來解決。只要我們不會(huì)進(jìn)入《銀河帝國(guó)》里所描述的科技發(fā)展衰退,算法層面的挑戰(zhàn)永遠(yuǎn)不會(huì)是絆腳石。
機(jī)器學(xué)習(xí)算法的未來
未來,新的算法會(huì)層出不窮,但是深度學(xué)習(xí)不會(huì)被替代。不會(huì)替代并不意味著深度學(xué)習(xí)理論已經(jīng)很完善,成為其他學(xué)科的基石。技術(shù)的發(fā)展有很強(qiáng)的延續(xù)性,少有被完全顛覆性的理論出現(xiàn)。如同今天的膠囊網(wǎng)絡(luò)、元學(xué)習(xí)。從表面上看,他們和最初的深度學(xué)習(xí)網(wǎng)絡(luò)模型有很大的差距。但是深入來看,實(shí)際上,它們是在使用深度學(xué)習(xí)的部分技術(shù)來構(gòu)造新架構(gòu)。今天大家不夠滿意的主要原因在于,目前的人工智能所做的仍只能停留在對(duì)單一問題的輔助,而不可能有真正的創(chuàng)新甚至成為復(fù)雜問題的輔助。接下來,還會(huì)有很多工作會(huì)基于不同的視角提出不同的算法。我們依然期待一個(gè)大一統(tǒng)的框架。然而目前的情況是視角越單一,做的效果可能會(huì)越好。畢竟視角的選擇等價(jià)于人類的知識(shí)賦予,相當(dāng)于簡(jiǎn)化了神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)難度。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4774瀏覽量
100890 -
人工智能
+關(guān)注
關(guān)注
1792文章
47412瀏覽量
238926 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5507瀏覽量
121272
原文標(biāo)題:學(xué)習(xí)這么多算法到底在解決哪些問題?深度學(xué)習(xí)之外,我們要選擇誰?
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論