在金融領域,機器學習可能會產生神奇的效果,盡管它本身并沒有什么神奇之處(嗯,也許只是一點點)。然而,機器學習項目的成功更多依賴于構建高效的基礎結構、收集適當的數據集和應用正確的算法。
機器學習正在對金融服務業產生重大影響。讓我們來看看為什么金融公司會關心這項技術,以及使用人工智能和機器學習可以實現什么解決方案和如何應用這項技術
定義
我們可以將機器學習(ML)看作是數據科學的一個子集,它使用統計模型洞悉內在規律并做出預測。下圖解釋了人工智能、數據科學和機器學習的關系。為了簡單起見,我們在這篇文章中集中討論機器學習。
機器學習的神奇之處在于,它們無需明確地編程就能從經驗中學習。簡單地說就是,選擇模型并向它們提供數據,該模型能自動調整參數,以改善結果。
數據科學家用現有的數據集訓練模型,然后將訓練好的模型應用到現實生活中。
模型在后臺運行,并基于以前的訓練自動提供結果。數據科學家會盡可能頻繁地對模型進行再培訓,以保持模型的最優。例如,我們的客戶Mercanto每天都在重新訓練模型。
一般來說,提供的數據越多,結果越準確。巧合的是,龐大的數據集在金融服務行業非常普遍。有很多關于交易、客戶、賬單、轉賬的pb級數據。這非常適合機器學習。
隨著技術的發展和最佳算法的開源,很難想象不使用機器學習金融服務的未來。
大多數金融服務公司還不能從這項技術中獲得真正的價值,原因如下:
公司往往對機器學習及自身的價值抱有完全不切實際的期望。
人工智能和機器學習的研發成本很高。
DS/ML工程師的短缺是另一個主要問題。下圖顯示了對人工智能和機器學習技能需求的爆炸式增長。
在更新數據基礎設施方面,金融企業不夠靈活。
隨后我們會討論如何克服這些問題。首先,讓我們看看為什么金融服務公司不可忽視機器學習。
盡管存在挑戰,許多金融公司已經采用了這項技術。如下圖所示,金融服務業的高管們非常重視機器學習,他們這么做有很多原因:
自動化降低經營成本。
更高效的生產力和更好的用戶體驗從而創收。
更好的承若并提升安全性。
有許多開源的機器學習算法和工具非常適合金融數據。此外,老牌金融服務公司擁有大量資金,他們有能力在計算硬件方面加大投入。
由于金融領域大量的歷史數據,機器學習可被用于增強金融生態系統的許多方面。
這就是為什么這么多金融公司都在大力投資機器學習研發。對于落后者來說,忽視AI和ML的代價是高昂的。
在金融中機器學習可以用在哪些場景?
讓我們來看看未來機器學習在金融領域的一些應用。
過程自動化
過程自動化是機器學習在金融領域最常見的應用之一。該技術可以替代體力勞動,自動化重復任務,提高生產率。
因此,機器學習幫助公司優化成本,改善客戶體驗,擴大服務規模。以下是過程自動化在金融領域的應用實例:
聊天機器人
客服中心自動化
文書工作自動化
員工培訓游戲化等等
以下是銀行業務流程自動化的一些例子:
摩根大通(JPMorgan Chase)推出了一個利用自然語言處理(一種機器學習技術)的智能合同(COiN)平臺。該方案可處理法律文件并從中提取重要數據。手工審查1.2萬份年度商業信貸協議通常需要大約36萬工時。然而,使用機器學習可以在幾個小時內瀏覽相同數量的合同。
BNY Mello將過程自動化集成到他們的銀行生態系統中。這項創新可每年節省30萬美元,并帶來了廣泛的操作改進。
富國銀行(Wells Fargo)通過Facebook Messenger平臺使用一個由人工智能驅動的聊天機器人與用戶交流,并提供與密碼和賬戶相關的幫助。
Privatbank是一家烏克蘭銀行,在移動和網絡平臺上使用聊天機器人助手。聊天機器人加快了一般客戶查詢的速度,并減少了人工助理的數量。
安全
隨著交易、用戶和第三方集成數量的增長,金融領域的安全威脅也在不斷增加。機器學習算法在檢測欺詐方面也很出色。
例如,銀行可以使用該技術實時監控每個帳戶的數千個交易參數。該算法分析持卡人的每一個行為并嘗試發現該用戶行為背后的目的。這種模型能夠精確地發現欺詐行為。
當系統識別到了可疑帳戶行為,它可以向用戶詢問額外的認證信息來驗證該筆交易。如果有95%的可能性是欺詐的話,甚至可以完全阻止交易通過。機器學習算法只需要幾秒鐘(甚至幾秒鐘)來驗證一個交易。這種速度有助于實時阻止欺詐行為的發生,而不只是在行為發生后的鑒定。
財務監控是金融中機器學習的另一個安全用例。數據科學家可以訓練該系統檢測大量微支付,并標記諸如smurfing的洗錢技術。
機器學習算法也可以顯著提高網絡安全性。數據科學家訓練一個系統來定位和隔離網絡威脅,因為機器學習在分析數千個參數和實時方面的能力是有目共睹的。這項技術很有可能在不久的將來為最先進的網絡安全網絡提供動力。
Adyen,Payoneer,Paypal,Stripe,和Skrill是一些著名的金融科技公司,它們在安全機器學習方面投入了大量資金。
人工智能技術在金融領域的應用現狀
橙色及淡橙色方塊表示已經應用相關技術或是在未來有相關計劃
承保和信用評分
機器學習算法非常適合運用于金融和保險業中很常見的承保業務。
每個客戶檔案都有數百個數據條目,數據科學家對成千上萬的客戶檔案建立模型。隨后,訓練有素的系統可以在現實環境中執行相同的承保和信用評分任務。這種評分系統可以提高相關從業人員工作的效率和精確度。
銀行和保險公司擁有大量消費者歷史數據,他們可以使用這些數據訓練機器學習的模型。或者,他們可以使用大型電信或公用事業公司生成的數據集。
例如,BBVA Bancomer正與一個信用評分平臺Destacame合作。該銀行旨在為拉丁美洲信用記錄不足的客戶提高獲得信貸的機會。Destacame通過開放API訪問了公用事業公司的賬單支付信息。通過對賬單支付行為進行分析,Destacame為客戶生成信用評分并將結果發送給銀行。
算法交易
機器學習有助于改善算法交易中的交易決策。數學模型可以實時監控新聞消息和交易結果,并檢測出可能導致股價波動的模式。隨后,它可以根據自己的預測主動選擇出售,持有或購買股票。
機器學習算法可以同時分析數千個數據源,遠超人類交易員的極限。
機器學習算法可以幫助人類交易員獲得略高于市場平均水平的優勢。鑒于交易操作次數的頻繁,這種優勢通常會轉化為巨額利潤。
機器人顧問
機器人顧問在金融領域非常普及。目前,機器學習在咨詢領域中主要有以下兩種應用:
投資組合管理。這是一種在線財富管理服務,它使用算法和統計數據來分配、管理和優化客戶的資產。用戶輸入他們目前的金融資產和目標,例如,在50歲時存夠一百萬美元。隨后機器人顧問將根據風險偏好和期望目標在投資機會中分配現有資產。
金融產品推薦。許多在線保險服務商使用機器人顧問向特定用戶推薦訂制化保險服務。相較于個人理財顧問,客戶往往更偏好費用較低的機器人顧問,以及個性化和校準的推薦服務。
如何將機器學習運用于金融?
盡管人工智能和機器學習有很多優點,但即使是財力雄厚的公司,也很難從這項技術中獲取真正的價值。金融服務公司希望挖掘出機器學習的獨特價值,但對于數據科學的運作原理以及如何使用它,他們僅有一個模糊的概念。
他們一次次面臨相似的挑戰,比如缺乏合理的業績考核指標。這導致了不切實際的估算并耗盡了預算。僅僅擁有合適的軟件基礎設施是不夠的(盡管這將是一個良好的開端)。要想成功地將機器學習運用于金融服務,你需要清晰的愿景,扎實的技術人才,以及提供有價值的機器學習開發項目的決心。
當你充分理解這項技術將如何幫助你達成目標時,你需要繼續在思維層面進行驗證。數據科學家的任務是對你的這個想法進行審查,幫助你制定可行的KPI并做出合理的估算。
值得注意的是,你需要確保所有相關數據都收集完畢。否則,您需要數據工程師來收集和清理這些數據。根據用途和業務狀況,金融公司可以采用不同的方法應用機器學習:
放棄機器學習,轉而專注于大數據工程
有時候金融公司在開發機器學習項目時想要實現的目標,只需要適當的數據工程就可以實現。資深數據科學家Max Nechepurenko,在N-iX上評論:
“在開發數據科學的解決方案時,我建議使用奧卡姆剃刀原則,這意味著模型不應該過于復雜。大多數以機器學習為目標的公司實際上只需要關注可靠的數據工程技術,關注將統計學方法應用于聚合數據以及數據可視化。”
僅僅將統計模型應用于已經處理過的結構性數據就足以讓銀行擺脫其運營中的許多瓶頸和低效。
這些瓶頸包括什么呢?比如某個分行的排隊問題,一些可以避免的重復性任務,低效的人力資源工作,手機銀行APP的缺陷等等。
除此之外,任何數據科學項目中最重要的部分都是構建一個協調的平臺生態系統,從數百個信息源(例如CRM,報告軟件,電子表格等)收集分散孤立的數據。
在應用任何算法之前,你需要整理好數據的結構并對數據進行清理。只有這樣,才能進一步地從這些數據中挖掘出有價值的信息。實際上,機器學習項目中80%左右的時間都花在提取、轉換、載入和進一步清理數據上。
數據工程中提取、轉換和載入數據的具體流程
使用第三方的機器學習解決方案
即使你的公司決定在即將開展的項目中使用機器學習,也不一定需要開發新的算法和模型。
大多數機器學習項目需要處理的問題都已經被解決。谷歌,微軟,亞馬遜和IBM等科技巨頭將機器學習軟件作為一種服務出售。
這些開箱即用的解決方案已經經過訓練,可以解決很多種業務問題。如果你的項目涉及相同的應用場景,你認為你的團隊可以超越這些有著龐大研發中心的技術巨頭們所開發的算法嗎?
Google的多種即插即用的推薦系統解決方案就是一個很好的例子。該軟件適用于各種領域,你只需要檢查它們是否適合你的案例。
機器學習工程師可以構建專注于特定的數據和業務領域的系統。專業人員需要從不同的信息源提取數據,并將這些數據進行處理以適合此系統,然后接收處理的結果并進行可視化。
你需要在對第三方系統的控制力和解決方案的靈活性之間權衡取舍。此外,機器學習算法并不適合所有的業務場景。資深數據科學家Ihar Rubanau在N-iX評論:
具有普適性的機器學習算法至今還未出現。數據科學家們需要在應用前根據各個領域不同商業案例的情況對算法進行調整。
所以如果Google的某個現存解決方案能夠解決你所在領域的特定問題,你也許可以使用它。如果不能的話,就要著眼于定制化的開發與集成。
創新與集成
從零開始開發機器學習解決方案是最費時費錢又冒險的選擇之一。然而,在某些商業案例中,這可能是應用機器學習技術的唯一途徑。
機器學習的研發針對的是某一利基領域的特定需求,這需要深入的調研。如果沒有現成的針對特定問題而開發的解決方案,第三方機器學習軟件可能會產出不準確的結果。
從左到右:解決方案架構師、大數據架構師、大數據工程師、后端開發人員、前端開發人員、數據科學家、機器學習工程師、商業智能專家。
至今,你仍然可能需要高度依賴于Google及其他開源的機器學習庫。當今的機器學習項目大多是將目前最先進的庫應用在某一特定領域和用例中。
在N-iX,我們認為成功的企業機器學習研發項目有如下七個共同特質:
一個明確的目標。在收集數據之前,你至少需要對通過人工智能和機器學習能取得的結果有大體認識。在項目初期,數據科學家會幫助把你的想法轉化成實際的KPI。
穩健的機器學習解決方案架構設計。你需要一個經驗豐富的軟件架構師來執行這一任務。
(基于Apache Hadoop或者Spark的)適宜的大數據工程生態系統是必須的。它可以收集,集成,存儲,處理大量來源于金融服務公司的分散數據。大數據架構師和大數據工程師負責搭建這一生態系統。
在新建的生態系統中運行ETL流程(提取,轉換,加載)。大數據架構師和機器學習工程師負責這一環節。
最終數據準備。除了數據轉換和技術清理之外,數據科學家可能需要進一步提煉數據,使其適用于特定的商業案例。
應用恰當的算法創建模型,調整模型,并用新數據訓練模型。數據科學家和機器學習工程師執行這些任務。
清晰的洞察可視化。商業智能專家負責這一部分。除此之外,你可能需要前端開發人員來設計易用的界面面板。
小的項目可能需要更少的努力和更小的團隊。比如對于一些小數據集的研發項目來說,他們可能并不需要經驗豐富的大數據工程師。在某些其他情況下,可能也并不需要復雜的控制面板和數據可視化。
重點回顧
金融機構經常使用機器學習來實現進程自動化與安全化。
在收集數據之前,你需要對通過數據科學獲得的結果有清晰預判。需要在項目開始之前設置可行的KPI,并進行切實的估計。
很多金融服務公司對數據工程,統計和數據可視化的需求超過數據科學和機器學習。
訓練數據集越大越干凈,機器學習解決方案的結果就越準確。
你可以一邊繼續使用現有的機器學習算法,一邊盡可能多訓練你的模型。
并不存在廣泛適用于不同商業案例的機器學習方案。
有機器學習功能的金融軟件開發成本很高。
Google這樣的科技巨頭創造了機器學習解決方案。如果你的項目涉及這些用例的話,盡量用現成的,因為自己的算法優于谷歌,亞馬遜或者IBM的可能性很低,
金融領域的機器學習和其他領域有何區別?
在我看來,主要的區別源于數據的不同。在金融領域,數據的噪聲(非常)大,而且通常是不穩定的。“信號”不能用任何特定方法與噪聲剝離,這是原則性問題。舉例來說,這和圖像處理就很不同,圖像處理至少原則上可以控制噪聲等級。
另外,圖像處理也不存在不穩定數據這一概念。包括非概率模型在內的一些機器學習模型,因為噪聲的顯著影響,在金融領域難以發揮作用。
另一區別在于數據量。金融領域很多有趣的問題是關于中小型數據集的問題,這使得一些有很大數據需求的方法難以應用,比如深度學習。因此,金融上(根據使用方法)通過選擇正則化,貝葉斯先驗或者諸如對稱性分析之類的其他一般原則來實施一些先驗理論是很有必要的。
還有一個重要的區別是,金融上并沒有很好地定義“真實”狀態空間。有一些被稱作黑天鵝的事件——金融模型之外的事物,例如政治風險,會對證券價格產生重大影響。
不確定性和概率(風險)有所不同。大部分機器學習模型(以及大部分經典金融模型)在定義良好的狀態空間下應用概率系統——他們不承認黑天鵝的存在。他們是風險模型,但并非不確定模型。
-
自動化
+關注
關注
29文章
5620瀏覽量
79535 -
人工智能
+關注
關注
1795文章
47642瀏覽量
239703 -
機器學習
+關注
關注
66文章
8438瀏覽量
132938
原文標題:這么多機器學習的應用場景,金融領域到底有何不同?
文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學會】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論