大數據智能決策
來源:《自動化學報》?,作者于洪等
摘 要?在全球信息化快速發展的背景下,大數據已經成為一種戰略資源.各行各業的決策活動在頻度、廣度及復雜性上較以往有著本質的不同.決策過程中的不確定性因素增多,決策分析的難度不斷加大.傳統的數據分析方法以及基于人工經驗的決策已難以滿足大數據時代的決策需求,大數據驅動的智能決策將成為決策研究的主旋律.該文結合大數據特性,對大數據決策的特點進行了歸納,并從智能決策支持系統、不確定性處理、信息融合、關聯分析和增量分析等方面綜述了大數據智能決策的研究與發展現狀,討論了大數據智能決策依然面臨的挑戰,并對一些潛在的研究方向進行了展望分析.
關鍵詞?大數據,智能決策,不確定性,信息融合,關聯分析,增量式學習
當今社會處于一個信息技術高速發展時期,數據信息的交互、共享與開放程度持續加快,使得各行業領域的數據信息呈爆炸式增長.“大數據時代” 如約而至,并成為當今社會的代名詞.大數據以其蘊藏巨大的經濟、社會和科研價值受到社會各界的廣泛關注[1].2012 年1 月,達沃斯世界經濟論壇發布的大數據報告“Big data,big impact:new possibilities for international development” 將大數據列為和貨幣與黃金同等重要的新經濟資產[2].2012 年5 月,聯合國發布的Big Data for Development:Challenges& Opportunities?白皮書指出,大數據是聯合國和各國政府的一個歷史性機遇,利用大數據進行決策,是提升國家治理能力,實現治理能力現代化的必然要求,可以幫助政府更好地參與經濟社會的運行與發展[3].在科研領域,大數據正引領數據密集型科學(Data-intensive science) 的到來,形成繼實驗科學、理論科學以及計算科學之后的第四科學范式[4],有望推動傳統科學的假設驅動模式向基于大數據探索的數據密集型方法轉變.在全球信息化快速發展的背景下,大數據已逐漸成為世界各國的基礎性戰略資源,運用大數據推動社會經濟發展正成為趨勢.
現階段加快發展智能經濟、智能服務和智能制造是我國經濟增長的內在需求和必然選擇.目前我國處于工業化和信息化的深度融合時期,我國制造業正處于從價值鏈的低端向中高端、從中國制造向中國創造轉變的關鍵歷史時期,發展基于大數據的人工智能新技術是實現從制造大國向制造強國邁進的戰略舉措.在此背景之下,國家相繼出臺了“‘互聯網+’ 行動計劃” 和“中國制造2025” 戰略規劃,特別是國務院頒布的“促進大數據發展行動綱要” 和“新一代人工智能發展規劃” 都將大數據智能作為重點發展方向,大數據的戰略資源地位進一步凸顯.近年來,以大數據與人工智能技術為基礎的“智能制造[5]” 成為推動大數據從概念到落地的重要模式和手段.從大數據的供給需求來看,智能制造的核心要義便是在兩化融合的基礎上構建智能分析優化系統“工業大腦”,對大數據進行智能化分析進而實現智能決策.
決策存在于人類一切實踐活動當中.小到一臺機器的操作,大到一個國家的治理,都離不開決策.例如,工業領域的操作優化與資源分配、商業領域的個性化推薦與供應商選擇、交通領域的車流控制與路徑導航、醫療領域的疾病診斷與治療策略等都屬于決策范疇.隨著社會節奏的持續加快,來自各領域行業的決策活動在頻度、廣度及復雜性上較以往都有著本質的提高.決策問題的不確定性程度隨著決策環境的開放程度以及決策資源的變化程度而越來越大.傳統的基于人工經驗、直覺及少量數據分析的決策方式已經遠不能滿足日益個性化、多樣化、復雜化的決策需求.在當前信息開放與交互的經營環境下,機遇與挑戰并存.如何把握機遇,這就需要企業或組織具備出色的決策能力.在這個過程中大數據正扮演著越來越重要的角色.
大數據作為一種重要的信息資產,可望為人們提供全面的、精準的、實時的商業洞察和決策指導.楊善林院士等指出,大數據的價值在于其“決策有用性”,通過分析、挖掘來發現其中蘊藏的知識,可以為各種實際應用提供其他資源難以提供的決策支持[6].美國應用信息經濟學家Hubbard 認為“一切皆可量化”,并積極倡導數據化決策[7].紐約大學Provost教授等認為數據科學的終極目標就是改善決策[8].從數據到知識,從知識到決策,是當前大數據智能的計算范式[9],研究大數據的意義就是不斷提高“從數據到決策的能力”.隨著大數據技術的發展,人們傳統的決策模式與思維方式正在發生著變革,基于大數據的決策方式正逐漸成為決策應用與研究領域的主旋律,大數據決策時代已經到來.大數據能夠突破事物之間隱性因素無法被量化的瓶頸,充分闡述生產的主客體和生產全過程、全時段的客觀狀態,通過智能化分析和預測判斷來提高企業的決策能力[10].在商業領域,利用大數據相關分析,可以更加精準地了解客戶的消費行為,幫助決策者挖掘新的商業模式,制定商品價格,實現供應商協同工作,緩和供需之間的矛盾,控制預算開支.例如,全球零售巨頭沃爾瑪(Wal-Mart),通過對銷售交易大數據的知識獲取,成功用于價格策略和推薦活動中的決策支持[11].而在工業領域,為實現智能制造,每個影響生產決策的因素都可以經過工業大數據的預測,以直觀明了的量化信息形式加以呈現,方便決策者對制造能力進行整體評估,進而快速有效地制定各項生產決策,優化勞動力投入,避免產能過剩[10].目前,百度的工業大數據監測平臺已經應用到汽車、日化等制造行業.三一重工則利用大數據分析技術為智能工程機械物聯網提供決策支持,推進了制造服務化的步伐.Google 公司旗下的AlphaGo 以4:1 的總比分戰勝世界圍棋冠軍李世石同樣是大數據決策頗具代表性的案例.
基于大數據的科學決策,是公共管理、工業制造、醫療健康、金融服務等眾多行業領域未來發展的方向和目標.如何進行大數據的智能分析與科學決策,實現由數據優勢向決策優勢的轉化,仍然是當前大數據應用研究中的關鍵問題.然而,對大數據的分析和處理在不同行業和領域均存在著巨大的挑戰,大數據的大體量、高通量、多源異構性和不確定性等對傳統的數據處理硬件設備和軟件處理方法均構成前所未有的挑戰.目前,機器學習、數據挖掘及統計理論等傳統理論方法已經廣泛地應用于大數據分析,但多數方法是建立在“獨立同分布” 的假設之上,難以應對大數據的不確定性顯著、關聯復雜、動態增長、來源和分布廣泛等問題,多數只能挖掘到底層的數據特征,而對于挖掘高層次的符合人類認知的知識依然無法取得較好的效果,難以高效地將大數據轉化為決策價值.基于大數據的智能決策是一門集應用性和科研性于一體的學科領域,目前還存在眾多待研究的問題.大數據智能決策在內涵外延、模型理論、技術方法及實施策略等方面還需要人們繼續投入更多的研究與實踐.
本文旨在綜述大數據決策的特點以及大數據決策技術的發展現狀,分析大數據智能決策面臨的問題與挑戰,并對一些潛在研究方向進行展望.文章結構如下:第1 節介紹了大數據的概念及特性,總結了大數據決策的特點; 第2 節從智能決策支持系統、基于不確定性分析的智能決策、基于信息融合的智能決策、基于關聯分析的智能決策和基于增量分析的智能決策五個方面綜述了大數據智能決策的研究與發展現狀; 第3 節討論了大數據智能決策面臨的挑戰與發展趨勢; 第4 節為結束語.
1 大數據決策
1.1 大數據的概念及特性
由于不同領域的大數據在特性上存在差異,并且人們分析大數據的背景和應用大數據的目的不同,因此不同的領域專家對大數據的定義也各不相同.高德納咨詢公司、維基百科、美國國家科學基金會分別從不同的角度給出了大數據的定義.我國的《工業大數據白皮書(2019 版)》還對工業大數據進行了定義[12].簡言之,大數據就是無法在合理時間內利用現有的數據處理手段進行諸如存儲、管理、抓取等分析和處理的數據集合[13].
有關大數據的特性,業界普遍將其歸納為4V 特性:一是數據體量(Volume) 大,如一些電商企業日常處理PB 級別的數據已經常態化; 二是數據類型多樣(Variety),如在工業大數據中數據類型包含了數值、文本、圖片、音頻、視頻以及傳感器信號等;三是大數據的價值(Value) 巨大,但價值密度稀疏,需要通過分析和挖掘來獲取數據當中有價值的信息;四是大數據的高通量(Velocity),它除了指數據高速產生以外,還意味著數據的采集與分析過程必須迅速及時,以滿足用戶“及時、實時” 的決策需求.
在特定領域,大數據還有著特有的性質.如在工業領域,人們還強調大數據的實時性、閉環性、強關聯性、多層面不規則采樣性、多時空時間序列性等[14]; 在管理與商業領域,人們更關注大數據的商用價值,并提出大數據應用的5R 模型,即相關性(Relevant)、實時性(Real-time)、真實性(Realistic)、可靠性(Reliable)、投資回報(ROI)[13].在科研領域,Wang 等著重分析了大數據的不確定性特征[15].Wu等則從大數據的異構(Heterogeneous)、自治(Autonomous)、復雜(Complex)、演化(Evolving) 四個角度提出了描述大數據特性的HACE 定理[16].
1.2 大數據決策及其特點
決策是人們為實現某一特定的目標,在占有一定的信息和經驗(知識) 的基礎上,根據主客觀條件的可能性,提出各種可行方案,采用一定的科學方法和手段,對解決問題的方案進行比較、分析和評價,并最終進行方案選擇的全過程.從本質上來講,決策通常是目標驅動的行為,是目標導向下的問題求解過程,該過程也廣泛地被認為是人類的認知過程.大數據決策便是以大數據為主要驅動的決策方式.隨著大數據技術的發展,大數據逐漸成為人們獲取對事物和問題更深層次認知的決策資源,特別是人工智能技術與大數據的深度融合,為復雜決策的建模和分析提供了強有力的工具.
隨著大數據應用越來越多地服務于人們的日常生活,基于大數據的決策方式將形成其固有的特性和潛在的趨勢,在此我們將它們一并歸納為大數據決策的特點.在固有特性方面:大數據的實時產生及動態變化決定了大數據決策的動態性; 大數據的多方位感知意味著通過多源數據的整合可以實現更加全面的決策; 大數據潛在的不確定性也使得決策問題的求解過程呈現不確定性特征.在潛在趨勢方面:相關分析或將代替因果分析,成為獲取大數據隱含知識更有效的手段; 用戶的興趣偏好在大數據時代將更受關注,更多的商業決策向滿足個性化需求轉變.基于以上理解,本文對大數據決策的特點進行如下總結:
1) 大數據決策的動態特性
大數據是對事物客觀表象和演化規律的抽象表達,其動態性和增量性是對事物狀態的持續反映.不可否認的是,人們在決策過程中的每一步行動都將影響事物的發展進程,并全程由大數據所反映.此時決策問題的描述以及決策求解的策略都需要跟隨動態數據給予及時調整,通過面向大數據的增量式學習方法實現知識的動態演化與有效積累,進而反饋到決策執行當中.大數據決策的動態特性決定了問題的求解過程應該是一個集描述、預測、引導為一體的迭代過程,該過程須形成一個完整的、閉環的、動態的體系結構.簡要來說,大數據環境下的決策模型將是一種具備實時反饋的閉環模型,決策模式將更多地由相對靜態的模式或多步驟模式轉變為對決策問題動態描述的漸進式求解模式.
2) 大數據決策的全局特性
截至目前,人們已經開發出多種多樣的決策支持系統,但多數是面向具體領域中的單一生產環節或特定目標下的局部決策問題,往往無法較好地實現全局決策優化與多目標任務協同.在信息開放與交互的大數據時代,大數據的跨視角、跨媒介、跨行業等多源特性創造了信息的交叉、互補與綜合運用的條件,這促使了人們進一步提升問題求解的關聯意識和全局意識.在大數據環境下決策分析會更加注重數據的全方位性,生產流程的系統性、業務各環節的交互性、多目標問題的協同性.通過多源異構信息的融合分析,可以實現不同信源信息對全局決策問題求解的有效協同.基于大數據的決策系統,對每個單一問題的決策,都將以優先考慮整體決策的優化作為前提,進而為決策者提供企業級、全局性的決策支持.
3) 大數據決策的不確定性特征
一般而言,決策的不確定性來源于三個方面:一是決策信息不完整、不確定而導致的決策不確定性;二是決策信息分析能力不足而導致的決策不確定性[17]; 三是決策問題過于復雜而難以建模導致的不確定性.大數據決策的不確定性不外乎以上三個方面.在信息不完整和不確定方面,首先,大數據具有來源和分布廣泛、關聯關系復雜等特性,對于多數企業而言,即便借助各種先進的數據收集手段盡可能地將各種信源數據進行整合,但仍難以保證信息的全面性和完整性; 其次,大數據固有的動態特性決定了大數據的分布存在隨時間變化的不確定性; 另外,大數據中普遍存在的噪聲與數據缺失現象決定了大數據的不完備、不精確性.在大數據分析能力方面,顯然現有的大數據分析處理技術還存在著不足,諸如多源異構數據融合分析、不確定性知識發現及大數據關聯分析等方面仍是當前頗具挑戰的研究方向.在決策問題建模方面,在一些非穩態、強耦合的系統環境下,建立精確的動態決策模型往往異常困難,比如流程工業中的操作優化決策.現階段面向大數據的決策問題求解,人們通常使用滿意近似解代替精確解,以此保證問題求解的經濟性和高效性.這種近似求解方式實際上也反映了大數據決策的不確定性特征.
4) 從因果分析向相關分析轉變
在過往的數據分析中,人們往往假設數據的精確性,并通過反復試驗的手段探索事物之間的因果關系.但在大數據環境下,數據的精確性難以保證,數據總體對價值獲取的完備性異常重要,此時用于發現因果關系的反復嘗試方法變得異常困難.從統計學角度看,變量之間的關系大體可以分兩種類型:函數關系和相關關系,一般情況下,數據很難嚴格地滿足函數關系,而相關關系的要求較為寬松,在大數據環境下更加容易被接受[18],并能滿足人類的眾多決策需求.該方面的成功案例有Google 公司的流感預測[19]、啤酒與尿布關聯規則的挖掘等.在面向大數據智能化分析的決策應用中,相關性分析技術可為正確數據的選擇提供必要的判定與依據,同時將其與其他智能分析方法相結合,可有效避免對數據獨立同分布的假設,提高數據分析的合理性和認可度.
5) 決策向滿足個性化需求轉變
在商業和制造業領域,對用戶進行精準營銷,滿足用戶的個性化需求是提升客戶價值和實現企業競爭力的經營準則.在大數據背景下,產品和服務的提供以及價值的創造有望更加貼近社會大眾的個性化需求.以互聯網大數據為基礎,企業通過輿情分析、情感挖掘等以用戶為中心的數據驅動方法,可以精準挖掘消費者的興趣與偏好,做出有針對性的個性化需求預測,進而為消費者提供專屬的個性化產品與服務.宏觀上講,大數據可以打通企業和消費者之間的信息主動反饋機制.社會大眾通過意見的表達,可以迅速轉化為商業經營的決策依據,反向指導產品的設計和制造環節,實現生產與市場需求的有效對接.以Netflix[20]?為代表的推薦系統正是一個基于個性化需求的大數據決策系統.隨著社會化媒體應用的深入,多元主體參與決策有了更多的便捷性和可能性,決策過程中價值多元的作用更加明顯,由此傳統自上而下的精英決策模型將會改變,并逐漸形成面向公眾與滿足用戶個性化需求的決策模式.
通過以上有關大數據決策特點的總結,我們不難發現大數據決策有著相較于傳統基于小數據分析決策的諸多不同之處.更進一步,大數據決策的特點反應了當前大數據智能決策的研究重點與需求.大數據決策的不確定性、動態性、全局性以及向相關性分析的轉變,決定了面向大數據的關聯分析、不確定性分析、對增量與多源數據的有效利用都將是大數據智能決策研究中的關鍵內容.
2 大數據智能決策研究現狀分析
從靜態決策到動態決策、從單人決策到群體決策、從基于小規模數據分析的決策到基于大數據知識發現的決策,決策理論與方法已經發生了巨大的變化[21],基于大數據的智能決策逐漸成為新時代決策應用及研究的新生力量.大數據智能決策就是用智能計算方法對大數據進行智能化分析與處理,從中抽取結構化的知識,進而對問題進行求解或對未來做出最優判斷的過程.該過程需要滿足大數據決策在不確定性、動態性、全局性以及關聯性上的分析需求.
在面向大數據的決策應用中,關聯分析為問題假設的初步分析以及正確數據選擇提供必要的判定與依據,它既是一個重要前提也是一種必要的分析手段; 不確定性是大數據決策的顯著特征,同時也是大數據智能決策研究的重點與難點; 大數據決策的動態性決定了大數據知識動態演化的重要性,如何有效利用數據的增量性同樣是大數據智能決策研究的關鍵點; 大數據決策追求的全局性,要求大數據智能決策能夠將多源信息進行融合與協同以消除信息孤島.需要指出的是,大數據的關聯性、不確定性、增量性和多源性不是相互獨立的因素,四者之間存在著潛在的聯系,在實際應用中可能并發存在,但從研究的角度出發,一般很難將上述四種因素的分析同時討論.此外,智能決策支持系統是智能決策分析方法的載體,隨著大數據應用的普及,智能決策支持系統的發展也是大數據決策領域備受人們關注的研究方向.結合以上討論,本節將從智能決策支持系統、基于不確定性分析的智能決策、基于信息融合的智能決策、基于關聯分析的智能決策和基于增量分析的智能決策五個方面展開對大數據智能決策研究與發展現狀的綜述分析.
2.1 智能決策支持系統
決策支持是在管理科學和運籌學的基礎上發展而來的一門學科,20 世紀70 年代,Scott-Morton 提出了決策支持系統(Decision support system,DSS)的概念[22].DSS 是以提高決策有效性為目的,綜合利用大量數據,有機地結合各種模型,通過人機交互的方式,輔助各級決策者實現科學決策的計算機系統.1980 年,Sprague[23]?將DSS 設計為由用戶接口、數據庫管理系統、模型庫管理系統三部件集成的兩庫(數據庫和模型庫) 框架.隨著人們對DSS研究和應用的深入,DSS 相繼引入方法庫管理系統、知識庫管理系統和推理機并形成四庫(數據庫、模型庫、方法庫和知識庫) 框架.經過幾十年的發展,DSS 不斷與新技術、新學科相互交叉融合,并在體系結構、問題處理模式、功能模塊集成等方面發生了巨大變化,其應用也被推廣到諸多領域.
智能決策支持系統(Intelligent decision support system,IDSS) 是由DSS 不斷升級和演化得來.20 世紀80 年代,專家系統(Expert system,ES)廣泛流行,Bonczek 等[24]?將決策支持系統與專家系統相結合,充分發揮DSS 的數值分析能力和ES 的符號知識的處理能力,用于解決定量與定性問題以及半結構化、非結構化問題,有效擴大了DSS 處理問題的范圍.這種DSS 與ES 結合的思想即構成智能決策支持系統的初期模型.智能決策支持系統利用人工智能和專家系統技術在定性分析和不確定推理上的優勢,以及人類在問題求解中的經驗和知識,為決策問題的求解提供了更加廣闊的思路.近年來,幾乎所有有關決策支持系統的研究都是圍繞著人工智能技術的應用而展開的.人工智能方法已經逐漸滲透到IDSS 的體系結構、問題求解方法等各個方面.綜合來看,智能決策系統的研究逐漸由過去的決策部件功能的擴展發展到部件的綜合集成,由過去的定量模型發展到基于知識的智能決策方法[25].
和許多正在發展中的事物一樣,智能決策支持系統是一個發展中的概念.隨著社會的發展,信息量的激增,管理、決策日趨復雜,單純依靠某一個決策者做出的決策往往不夠完善,于是Gray 將群決策理論引入DSS,提出了群決策支持系統(Group decision support system,GDSS) 的概念[26],旨在吸收群體的經驗和智慧,實現群體對決策問題的共同求解.GDSS 為企業的組織決策提供一種開放與協同的決策環境,達到提高決策質量的目的.GDSS是智能決策支持系統的一個重要研究方向,目前分布式環境下的GDSS 和基于人工智能的群決策方法仍然是該領域的研究熱點[27].
傳統的DSS 多采用靜態模型,決策過程需要用戶自主選擇方法和模型,系統缺乏主動決策機制.針對該問題,Manheim 等[28]?最早提出了主動決策支持系統(Active DSS,ADSS) 的概念,并給出了相應框架.ADSS 通過建立人類認知模型,在決策問題求解的不同階段,給決策者提供不同的方法選擇,從而形成不同的問題求解路徑.ADSS 是基于人類先驗知識的,但其前提假設是系統運行在靜態的決策環境下,因此在實際應用中ADSS 仍然存在適應性較差的局限性.不過人們對ADSS 的研究為自適應決策支持的提出奠定了基礎.為了適應決策環境的變化,Shaw[29]?于1993 年提出了自適應決策支持系統(Adaptive decision support system,Ad DSS)框架,并嘗試用機器學習和案例推理等方法從大量歷史數據和過往經驗中發現與決策問題相關的知識,以此來使系統具有隨時間和決策過程變化調整自身行為的能力.在此基礎之上,人們對AdDSS 展開了大量的研究,包括系統結構自適應、領域知識自適應、用戶接口自適應等,自適應性和自學習能力已經成為智能決策支持系統的一個主要標志.
互聯網技術在決策支持領域的應用,使得決策環境出現了新特點,即決策分析中的數據不再集中于一個物理位置,而是分散在不同部門或地區.在此環境下許多大規模的管理決策活動已不可能或者不便于用集中方式進行,而分布式決策支持系統(Distribute decision support system,DDSS) 正是為適應這類決策問題而建立的信息系統.DDSS 將傳統集中式DSS 發展為網絡環境下的分布式并行處理的方式[30],通過網絡連接工作平臺和分布式數據庫、模型庫等,支持分布在各地的DSS 彼此交互,從而使他們共同為決策問題求解提供高效及時的決策支持.在大數據環境下分布式決策支持系統將得到更加廣泛的關注,分布式數據倉庫、分布式人工智能、分布式并行化決策已經成為當下決策支持領域的重要研究方向.
隨著智能體(Agent) 在人工智能領域的深入研究,相關學者將Agent 技術引入了智能決策支持系統,特別是多Agent 理論與技術為分布式決策支持系統的分析、設計和實現提供了新的途徑.Bui 和Lee[31]?將決策支持系統中的Agent 應具備的能力歸納為:獨立能力、學習能力、協作能力、推理能力、智能性等.目前,多Agent 智能決策支持系統已經成為趨勢,通過加入諸如人機交互Agent、模型選擇Agent、模型求解Agent 等可以使決策系統減少對專家的依賴,實現系統由“模型驅動” 轉為“問題驅動”,提高決策系統的整體智能性.Ghadimi 等[32]提出一種面向供應鏈可持續供應商選擇和訂單分配的多Agent 系統方法,通過設計數據庫Agent、供應商Agent、決策者Agent 和訂單分配Agent,有效提高供應商選擇和訂單分配質量.
隨著云計算(Cloud computing) 技術興起,基于云計算的智能決策支持系統成為大數據智能決策支持的一個研究方向.云計算通過互聯網將虛擬化的數據中心和智能用戶終端有機地聯系起來,為用戶提供了便捷的信息服務環境.在大數據環境下,云計算平臺可以為大數據的決策分析提供龐大的存儲空間和強大的分布式并行計算能力.決策環境的開放性、決策資源的虛擬化、問題求解的分布式協作性將使得基于云計算的智能決策有著與傳統智能決策不同的特征[21].隨著移動智能設備和移動互聯網的普及,分布式移動云計算環境下智能決策方法成為當前的一個研究熱點[33].
隨著社會節奏的加快,企業或組織所面臨的內外部環境更加復雜,業務問題呈現非線性、不確定性、多維化和實時性等特點,此時繼續使用傳統IDSS 工具和利用局部數據進行決策分析的方法已經難以獲取高質量的決策效果.在大數據環境下,智能決策支持系統應具備大數據的分析處理能力.通過綜合運用互聯網、云平臺和人工智能技術,將大數據的采集、存儲、管理、分析、共享、可視化等一系列知識發現技術與現有的智能決策支持技術深度融合,構建形成基于大數據的智能決策支持系統是智能決策應用領域的發展方向.未來基于大數據的決策支持系統有望具備海量數據匯聚融合能力、快速感知和認知能力、強大的分析與推理能力、自適應與自優化能力,可以實現復雜業務的自動識別、判斷,并做出前沿性和實時性的決策支持.
2.2 基于不確定性分析的智能決策
不確定性是指客觀事物聯系與發展過程中無序的、隨機的、偶然的、模糊的、粗糙的、近似的屬性[34].現實世界的多樣性、隨機性、運動性,以及人類對事物描述和信息表達的不精確性、模糊性決定了人們所能獲取的數據本身存在著較多的不確定性.而在大數據環境下,數據的多源、多樣、增量及不完備等特點,加之人們對數據分析處理需求的多樣性(如數據融合等),使得大數據從宏觀上有著相較于傳統數據更多的不確定性.正如Wang 等指出,大數據的不確定性不僅存在于大數據本身,還體現在大數據的處理過程當中[15].因此,關于大數據不確定性信息的表示與處理成為大數據智能決策理論方法研究中不可缺少的一部分.在不確定性理論方法中模糊集、粗糙集、貝葉斯理論、證據理論等在智能決策方法中都起到了關鍵作用.隨著大數據應用的增多,以上方法也逐漸被用于面向大數據不確定性處理的智能決策當中.本小節將從大數據不確定性處理的角度對相關方法進行回顧和綜述.
模糊集于上世紀60 年代由Zadeh 提出,通過隸屬度函數表達模糊性概念,其本身是一種有效的不確定性信息表示與處理方法.目前模糊集方法已經形成一整套較為完整的理論體系,包括模糊集、模糊邏輯、模糊系統以及它們的擴展形式[35].由于模糊集方法可以在不同信息粒度層次上對不確定性數據進行表示與處理,因此具有較強的可解釋性和可理解性.模糊集在大數據中的應用,形成對大數據不確定性的表示與處理的有效手段.在面向大數據的聚類應用中,模糊C-means 算法(FCM) 已經成為一種常用的軟聚類方法.文獻[36] 將FCM 應用于機器人觸覺感知數據的分析,解決機器人觸覺識別問題.Chang 等[37]?針對高維度數據聚類問題,提出稀疏正則化FCM 算法.Di Martino 等[38]?將FCM擴展應用于超大型事件數據集中的熱點檢測,并進一步提出了一種時空FCM 方法,用于面向時空大數據的熱點檢測與預測問題[39].模糊規則分類系統廣泛地應用于模式識別和分類任務,可以為用戶提供帶有語義標簽的可解釋分類規則,降低決策失誤的風險.Jindal 等[40]?設計了云環境下的模糊規則分類器,用于處理多源異構的遠程醫療大數據,實現對病人的遠程實時診斷決策.針對面向大數據的模糊分類,Segatori 等[41]?提出了基于Map Reduce 的分布式模糊決策樹(FDTs) 計算模型.模糊推理系統還常與神經網絡相結合,以提高決策問題求解的自適應性.在電力系統控制領域,文獻[42] 將神經網絡與模糊推理系統相結合,提出三種自適應神經模糊推理系統,用于太陽能發電企業控制決策中的短時電力預測問題.Jindal 等[43]?針對疾病診斷決策中的分類問題,提出了用于醫療大數據維度約簡的模糊神經分類器方法,有效提高疾病診斷準確率.更多有關模糊集在大數據決策方面的研究可以參見文獻[35].從現有的基于模糊集方法的大數據決策文獻來看,模糊集方法是適用于大數據不確定性分析的有力工具,其數據表示的多粒度特性符合人類的認知習慣,可以滿足更多特定領域的大數據決策需求.
粗糙集由波蘭數學家Pawlak 于1982 年提出.粗糙集使用具有精確概念的上近似集和下近似集對一個不精確概念/知識進行近似表示與度量,其獨特之處在于不需要主觀先驗知識,可以直接對數據進行分析與推理,并揭示潛在規律.目前,粗糙集及其擴展理論已經成為處理不精確、不一致、不完備信息的有力工具,并廣泛用于數據挖掘、知識獲取以及各類決策問題的求解.為滿足粗糙集方法的大數據決策分析需求,已有較多學者從粗糙集的并行化開展了研究.基于粗糙集的多粒度思想,Qian 等[44]?提出基于MapReduce 的粗糙集的并行化層次屬性約簡方法.Li 等[45]?設計了并行化優勢粗糙集近似計算方法.針對大數據常見的不完備特性,Abdel-Basset等提出將中性集(Neutrosophic sets) 和粗糙集相結合的方法來處理智慧城市大數據的不完備性問題[46].El-Alfy 等基于遺傳算法研究了面向決策粗糙集的大規模數據集的并行化屬性約簡方法,并成功用于網絡入侵檢測[47].Banerjee 等通過粗糙集理論和蟻群算法解決大數據中的不確定性和最優特征抽取分析問題,提出了面向移動大數據的評價決策分析方法[48].針對大規模多模態數據的屬性約簡問題,Hu 等給出了多核模糊粗糙集方法[49].為降低多粒度決策粗糙集在大數據分析中的時間復雜度,同時使其滿足大數據的半監督特性,Qian 等提出了局部多粒度粗糙集方法[50-51].
近年來,由決策粗糙集發展而來的三支決策理論[52]?成為一種更為一般化且符合人類認知的不確定性決策工具,正受到越來越多的關注.在基于Web 的醫療決策支持系統中,Yao 等將博弈論粗糙集(GTRS) 用于面向醫療數據的不確定性分析,通過生成三支決策規則,提高系統整體決策質量[53].Yu 等研究了面向多視圖數據的不確定性聚類問題,并提出一種主動三支聚類方法[54].Zhang 和Yang等[55]?基于區間值決策粗糙集提出一種三支群決策模型.針對現實中有用信息隨時間不斷增長,Li等[56]?提出了代價敏感序貫三支決策,并將其應用于人臉識別.Qian 等[57]?基于多粒度思想,提出一種更為一般化的多粒度序貫三支決策模型.
基于貝葉斯理論的方法已經在人工智能領域中的不確定性推理、計算機學習等方面取得了許多成果.對于不同規模大小的貝葉斯網絡,可以分別采用精確推理和近似推理算法進行分析,并提供決策支持.Lake 等[58]?通過一個基于貝葉斯的BPL(Bayesian program learning) 模型來建模實現人類層次的概念學習.Sturlaugson 和Sheppard[59]?研究了連續時間貝葉斯網絡中的不確定推理.Abadpour[60]?利用貝葉斯推理構造了模糊可能性聚類算法的目標函數.胡支軍等[61]?研究發現對項目價值事前估計不確定性的貝葉斯建模可以在風險項目投資組合決策中給出更加精確的價值估計.Hao 等[62]?研究了不確定性環境下動態決策中的信息權重確定問題,提出基于直覺模糊貝葉斯網絡的動態屬性權重確定方法,同時構建了面向風險決策問題的動態直覺模糊決策概念框架.貝葉斯網絡同樣適用于不完備數據的處理,Feng 等先后提出了不完備數據環境下基于貝葉斯網絡的巖爆災難預測方法[63]?和隧道擠壓預測方法[64].
證據理論(Dempster-shafer theory) 通過引入信任函數,把不確定與不知道區分開來,能夠在先驗概率未知的情況下,以簡單的推理形式,得到較好的結果.例如,Zhang 等[65]?采用證據推理方法研究了不確定環境下的多屬性決策分析問題.Sun 和Wang[66]?針對基于屬性描述的知識,通過組合證據來解決多屬性融合問題.Troiano 等[67]?應用D-S 證據理論挖掘用戶的偏好信息用于推薦決策.杜元偉等[68]?將頭腦風暴方法中的基本原則引入到主觀證據的提取過程之中,并在此基礎上結合證據理論提出了主觀證據融合決策方法.
由于專家知識總是有限的,并且能夠以符號邏輯表示并用來推理的知識更為有限,所以許多專家知識并不是一開始就已經具備,更多的還是在決策過程中學習得到的.因此,人們將人工智能中的仿生方法引入到決策過程中,并取得了很好的效果.仿生方法是一類重要的人工智能方法,能夠適應現實環境中普遍的不確定性,解決那些無法精確定義或建模的決策問題.神經網絡、進化算法、蟻群算法等均被用于對存在大量不確定性信息的學習,并得到較好的決策效果.例如,Bukharov 等[69]?基于神經網絡和遺傳算法構建了一個決策支持系統,該系統采用區間神經網絡來處理不確定數據,使用遺傳算法來選擇最重要的輸入.Yu 等[70]?結合與或圖和粗糙集等方法將蟻群優化算法應用于屬性約簡、約簡選擇以及Web 服務選擇中.
此外,概率推理、賦值代數、連接分析、聚類分析等方法也常常應用于不確定性決策分析中.上述理論與方法為智能決策問題的求解提供了有力的支持,但是有關不確定環境下面向復雜大群體決策等方面的求解方法仍然有待進一步的研究.
2.3 基于信息融合的智能決策
多源信息融合是人類所固有的一種基本功能.人類可以本能地將各種感知器官所探測的信息與先驗知識進行綜合,進而對周圍的環境和正在發生的事件做出準確的估計.“盲人摸象” 的故事告知我們,單憑一種感官獲得的感知信息,難以獲得對客觀事物的全面認知,而通過對不同度量特征的融合處理可以將多源信息轉化成對環境有價值的解釋.多源信息融合就是對人腦綜合處理多源信息功能的模擬[71],以實現自動的或半自動的將不同來源和不同時間點的信息轉化為統一表示形式,進而為人們提供有效決策支持的一系列技術方法[72].
在大數據環境下,數據的分布式存儲與交互式共享會更加普遍,而具有分布式和分散控制的自治數據源是大數據應用的主要特征之一[16].此時,多源信息融合是提升大數據價值不可或缺的技術手段.從決策應用的角度來看,社會經濟活動中的企業或組織在決策時需要收集大量的數據,匯集不同的觀點,才能制定出符合客觀規律的決策.隨著數據獲取便利性的增加,信息的全面性和多源信息的協同作用將更多地被人們關注,而越來越多的決策任務的開展,將尋求多源數據甚至是跨平臺、跨區域、跨領域數據的參與.例如,在城市規劃決策中,政府部門需要結合路網結構、交通流量、城市人口分布以及POIs 數據進行綜合分析[73]; 在醫療診斷中,有時專家需要將多家醫療機構的診斷結果進行融合分析;在工業生產過程中,可以借助火眼圖像、槽音頻以及其他監控數據來綜合判斷鋁電解槽過熱度狀態[74].多源信息融合對于大數據決策的意義可以歸納為兩方面:一方面,信息融合有利于進一步挖掘數據價值,從眾多分散、異構的數據源獲取隱含價值信息,豐富決策的內涵; 另一方面,通過多源數據的交叉引證,可以降低大數據潛在的噪音、數據缺失、信息不一致和語義模糊等不確定性因素[72],提高決策的置信度.
簡單來說,信息融合是一種概念框架.在不同需求和應用場景下,信息融合所面對的問題不同,人們提出的模型方法與技術手段也各不相同.信息融合技術最早以多傳感器數據融合(Multi-sensor data fusion) 的概念出現在軍事領域.上世紀70 年代美國國防部聯合指揮實驗室(Joint Directors of Laboratories) 提出了頗具代表性的JDL 模型[72],旨在將來自不同源的數據信息進行多層面的融合處理,來提高目標識別、身份評估、戰況評估和威脅評估的準確性.在此之后,信息融合技術不斷地被豐富和拓展,并發展成為涉及信號處理、信息理論、統計學、人工智能、機器學習的多學科研究領域.
從信源之間的關系來看,學者們把信息融合的類型劃分為互補型、競爭型及合作型[75-76].互補型中的各信源互不依賴,各信源感知目標/場景的不同方面,通過信源融合來獲取目標的全局信息; 競爭型中的各信源描述相同目標/場景的同一方面,多源信息融合用于冗余校準和增強信任; 合作型中各信源之間相互依賴,從不同角度感知目標,多源信息融合用于獲得全新的信息.從信息融合的抽象層次來看,人們常把融合劃分為數據層融合、特征層融合及決策層融合[75].數據層融合也稱作像素層或信號層融合.由于數據層融合一般面向等價信源的數據[75],因此其常用融合機制為競爭型.數據層融合因盡可能多的保持了現場數據,其具有信息損失小的優點,但由于要對現場數據進行整體傳輸和集中處理,導致其有通信負載大、計算代價高、處理時間長、抗干擾能力差的缺點.決策層融合也稱作語義層融合,其操作對象是規則或知識.決策層融合依賴于人們對數據特征意義和關系的理解,是一種高層次的和更符合人類認知的融合方式.由于決策層融合不受信源數據形式差異的限制,使其融合機制也更加靈活,它可以面向競爭型、合作型和互補型的融合需求.由于決策層融合傳輸和處理的是規模較小的知識,因此其具有通信負載小,抗干擾能力強,融合中心計算代價低的優點,不過在各信源的知識獲取階段仍需花費一定的計算代價且產生一定的信息損失,使得決策層融合存在信息損失相對較大且整體計算代價不一定會低的問題.特征層融合的操作對象是從數據中抽取的特征屬性,常用融合機制有競爭型、互補型及合作型,其優缺點介于數據層融合和決策層融合之間.Gravina 等[75]?總結了不同層次下數據融合對比情況,見表1.
表1 不同層次下數據融合對比情況表
Table 1 Comparison of data fusion under different levels
在大數據時代,信息來源更加廣泛,數據交互更加頻繁,大數據的多源分布現象普遍存在.隨著社會媒體網絡、軀體傳感網絡、智能推薦系統、城市計算等新興技術領域的崛起,人們對數據融合技術的需求進一步加大.然而復雜的大數據環境對信息融合任務的開展構成諸多挑戰.覃雄派等[77]?指出隨著大數據的增長,對大數據進行分析的基本策略是把計算推向數據,而不是移動大量的數據.吳信東指出大數據應用的自治數據源和分布式控制的特點使得整合多源數據進而集中式挖掘的方法會因傳輸代價高昂以及隱私暴露等問題而不可取[16].為實現對城市大規模人群聚集事件的有效預測,Huang 等[78]?通過對多源大數據的知識融合,提出一種基于大數據融合的人群聚集預警方法.Lin 等[79]?基于鄰域粒化的方法,提出一種多信源決策規則表示方法,進而通過一致性度量原則計算各信源權重,實現多源決策規則的融合.Zheng[73]?指出大數據時代的信息融合任務會更多地面向跨領域數據.然而跨領域數據在表示、分布、尺度上普遍存在的模態差異,這對傳統數據層融合方法構成巨大挑戰.雖然已有相關研究工作將深度神經網絡(Deep neural network,DNN)用于多模態數據的統一特征表示[80-81],并在一定程度上解決了多源數據特征層融合問題,但是基于DNN 的融合方法的效果取決于參數調整的好壞,最優參數的尋找依然是一項耗時耗力的過程.另外,對于DNN 中間層特征表示依然存在可解釋性問題.針對上述問題,Zheng[73]?提出跨領域大數據融合范式(如圖1 所示),即對各個數據源分別進行知識提取,在知識層面實現多源信息語義融合.語義層的信息融合可以大體分為基于多視圖的數據融合、基于相似性的數據融合、基于概率依賴的數據融合以及基于遷移學習的數據融合[73].
圖1 跨領域大數據融合范式[73]
Fig.1 The paradigm of cross-domain big data fusion[73]
在大數據多源信息融合任務中,如何對信源進行評價與選擇同樣是一項挑戰性問題.Xu 等首次提出了使用內部信任度和外部信任度兩個指標來評估信源的可靠性方法,實現對冗余和不可靠信源的過濾,并通過將原始數據轉換為三角模糊信息粒,實現基于粒計算的多源數據融合[82].但上述方法僅適用于多源同構數據集,難以適應多源異構數據環境.目前對信源的評價選擇問題依然是信息融合領域的一個開放性研究課題.多源數據信息潛在的不完備、不一致、沖突、語義模糊等不確定性是多源信息融合所要解決的最根本問題,相關學者已嘗試將概率論、粗糙集、模糊集、可能性理論以及D-S 證據理論等應用到數據融合當中,并分別在特定領域取得了較好的效果.Khaleghi 等對以上各種融合方法的優缺點做了詳細分析,讀者可以參閱文獻[72].
2.4 基于關聯分析的智能決策
在現實世界中,諸多看似沒有關系的事物之間其實存在有普遍關聯,而這些普遍關聯往往在一些問題求解中起到關鍵作用.相關分析便是一種發掘事物之間普遍關聯的數據驅動方法.自19 世紀80 年代Galton 通過研究人類身高遺傳問題首次提出“相關” 概念以來[83],相關分析便引起人們的關注,并逐漸成為一種決策分析的重要手段.作為度量事物之間協同關系和關聯關系的有效方法,大數據的相關分析能夠滿足人類的眾多決策需求.例如,Google 公司的趨勢系統,通過對互聯網搜索數據的關聯分析,實時預測了2009 年美國H1N1 流感的爆發[19].沃爾瑪通過對用戶消費數據的關聯分析,發現啤酒與尿布間的關聯關系.需要特別指出的是,相關關系有別于因果關系.在大數據時代基于相關關系挖掘的數據分析具有重要的價值.李國杰院士等指出,對于簡單封閉的系統,基于小數據的因果關系分析是可行的,但對于開放復雜的巨系統(大數據環境),傳統的因果關系分析難以奏效[84].首先,大數據環境下數據結構、數據關系錯綜復雜且存在很多噪音,人們很難在變量間建立精確的函數關系并在此基礎上探討因果關系,尋找因果關系的代價高昂;其次,大數據的動態與演化特性,決定了變量間的因果關系具有時效性,環境狀態稍有變化,探尋到的因果關系或已失效.然而相關關系的要求較為寬松,可以幫助人們更加快捷、高效地發現事物之間的內在關聯.
從決策應用的角度來看,大數據相關性分析對大數據智能決策的推動作用主要體現于以下兩個方面.一方面,相關性分析技術不僅用于發現變量之間的潛在關聯,而且還用于判定分析變量之間偽相關、假關聯.試想,通過對一組數據的回歸分析,可以學到一個精度較高的回歸模型,但如果數據之間是偽相關的,那么學到的模型將導致錯誤的科學推斷及毫無價值的預測結果.在面向大數據智能化分析的決策應用中,由于數據混雜且體量大,如何選擇與問題相關且正確的數據來開展分析是一項極為重要的問題.在該環節,相關性分析可以為問題假設的初步分析以及正確數據的選擇,提供必要的判定與依據.在這一方面,牛津大學Mayer-Schonberger 教授等也給出了相同的觀點:“建立在相關分析法基礎上的預測才是大數據的核心”[85].另一方面,在實際應用中,相關性分析不是一個獨立的環節,而是需要將其與其他模型方法進行有機結合,進而提高數據分析過程的合理性以及分析結果的認可度.目前,較多的數據挖掘與機器學習方法仍建立在數據的獨立同分布假設之上,顯然獨立同分布只是一種理想假設,這樣的分析結果存在較大的局限性且不能充分反映數據中蘊含的真實知識.近年來,為提高數據分析的合理性和準確性,越來越多的學者將相關分析納入到智能信息處理當中,諸如多準則/屬性決策[86-87]、分類[88]、聚類[89-90]、多標簽學習[91-92]?等,均取得了較好的效果.綜合來看,大數據相關分析已經成為大數據智能決策中的一項關鍵應用技術.
傳統相關分析中的相關系數法往往會忽視很多變量間隱含的邏輯關系,難以對非線性相關關系和非函數相關關系進行準確測量,這些局限性限制了傳統相關分析法在處理大數據問題時的應用范圍.近年來,相關學者從典型相關分析、基于互信息的相關分析、基于距離的相關分析展開了對非線性相關關系的研究,此外在偽相關以及時序數據延遲相關方面也取得了較多研究成果.以上幾個方面對大數據相關性分析提供了理論依據,下述內容是以上幾點代表性研究成果的介紹.
目前典型相關分析(Canonical correlation analysis,CCA)已經較多地應用在大數據分析當中,它不僅可以揭示大數據間的關聯關系,還可以提取大數據中的低維特征.具有代表性的應用有數據降維[93]、特征融合[94]、數據流挖掘[95]、跨模態檢索[96]等.在典型相關分析的非線性拓展方面,Yin[97]?基于互信息對CCA 進行了擴展.Lai 和Fyfe[98]?基于核方法提出了非線性CCA.Hardoon 等[99]?使用Kernel 典型相關分析方法來學習圖片和問題描述之間的語義表示.針對傳統典型相關分析在大數據PB級數據規模時不再適應的情況,楊靜等[100]?提出一種基于云模型的大數據CCA 方法.
互信息作為相關分析的度量,其優勢在于能有效地刻畫變量之間的非線性關系[18],能夠有效探測數據的內在結構和規律,因此在大數據相關分析中日益受到重視.Reshef 等[101]?通過互信息定義了最大信息系數(Maximal information coefficient,MIC) 用來衡量兩個變量間的相關性,可以對變量間的非函數相關關系進行有效識別.MIC 被認為具有通用性和均等性,并適用于大規模的數據集,但由于其僅針對兩個隨機變量的相關分析,因此在實際應用中還存在一定的局限性.Nguyen 等[102]?根據MIC 方法,提出了更為一般化的相關分析方法,即最大相關分析(Maximal correlation analysis,MAC),擴展了MIC 的應用范圍,實現對兩組變量之間的非線性相關關系的準確測量.
基于距離的相關系數(Distance correlation coefficient) 由Sz′ekely 等于2007 年提出[103],可以提供比皮爾遜相關系數更多的信息.基于距離的相關系數從特征函數的距離視角考察了兩個隨機向量之間的非線性相關關系,為高維數據的非線性相關分析提供了有效的度量準則.Mart′?nez-G′omez 等[104]將基于距離的相關系數應用于高維巨量的天體物理數據集中,用于發現變量之間的非線性關聯關系,從而實現特征的提取,增強分類及模式識別的效果.Davis 等將基于距離的相關系數用于時間序列分析當中[105].基于距離的相關系數從特征函數視角構造相關性度量方法,不但可以度量非線性相關性,而且可以度量任意兩個不同維度的隨機向量的相關性.但是,距離相關系數涉及高維向量間的距離計算及矩陣點乘運算,具有較高的時間復雜度.如何提高計算效率是基于距離相關系數分析方法的未來研究方向[18].
時序數據的延遲相關性(Lagged correlation)是時間序列數據挖掘領域的一個重要研究內容.延遲相關是時序數據之間普遍存在的現象.例如,國際原油價格走勢常常會影響到國內成品油的價格行情,但是這種相關性并不會立即表現出來,而是存在一定的延遲.在時間序列的相關性判定中,既要判斷數據之間是否存在時差(也稱作“時間彎曲”),又要考慮數據之間是否具有真實的相關性.曲線排齊法(Curve registration) 是對延遲序列進行矯正的常用方法.經典的曲線排齊方法包括位移排齊法、特征點排齊法、連續單調排齊法等.針對BRAID方法(一種位移排齊法) 在最大延遲相關點較大時準確率不高的問題,林子雨等[106]?提出了三點預測探查法(TPFP),該方法可有效處理最大延遲相關點位置較大的情形,并可應對延遲突變問題.姜高霞和王文劍[107]?構造了基于時間序列相關系數特征的相關性判定方法,并基于光滑廣義期望最大化算法提出一種基于相關系數最大化的曲線排齊模型.針對基于采樣的曲線排齊法中均勻采樣存在的缺陷,張文凱等[108]?提出了基于非均勻采樣的相關系數最大化曲線排齊方法.此外動態時間彎曲法(Dynamic time warping) 也是時下較為流行的時移序列排齊方法[109].
偽相關(Spurious correlation)是指不具有相關關系的兩組數據卻具有較高樣本相關系數的一種統計現象.該現象將產生誤導性的統計推斷.關于偽相關的產生原因,學界普遍認為是由其他未見因素(共有因素) 的影響而產生.偽相關的判定問題和如何降低潛在偽相關的影響是相關分析應用中的重要問題,并且多需要結合數據的背景知識來分析.在生態系統研究當中,Baldocchi 等[110]?針對冠層光合作用和生態系統呼吸之間可能存在的潛在偽相關性,通過改變數據匯總和集成的采樣方法和時間尺度,來驗證不同采樣方法對以上兩者之間偽相關度的影響.在基于元社區結構的物種分類研究當中,Clappe等[111]?分析了由空間自相關(獨立發生) 引起的物種分布和空間環境之間的偽相關問題,并基于空間約束空模型(Spatially-constrained null model) 提出一種新的方差分解方法,用于從環境數據中校準空間自相關帶來的偽相關貢獻.Gao 等[112]?提出一種新的兩個非獨立變量之間偽相關性的判定方法,通過引入一個“純” 偽相關指標,并將其與偽相關指標進行回歸分析,實現對區域徑流懸沙年產量與徑流深度之間偽相關性判定,并進一步分析表明偽相關性受變量易變性的顯著影響.在大數據環境下,數據的海量性、高維性、動態及不確定性等增加了發現偽相關的難度,特別是大數據的高維特征將顯著增加偽相關的可能性[113],因此面向大數據的相關分析,不可一味地追求對數據相關性探尋,而忽略了對偽相關的分析與判斷.
2.5 基于增量分析的智能決策
增量性是大數據的固有特性之一.現實生活中廣泛分布的傳感與監控設備、實時互聯的社會媒體等都構成了大數據動態增長的在線場景.基于大數據決策的數據分析,不單要從歷史大數據中獲取知識,更多的是要對新增數據進行動態知識發現.傳統機器學習方法對歷史大數據的挖掘與分析往往是建立在數據隱含規律對未來預測有效性的假設之上,或假定決策狀態始終處于決策模型的閉環之內.顯然現實世界的復雜多變性決定了從歷史數據中獲取的知識多數只具備歷史有效性,在實用性較強的決策應用領域,特別是對決策時效性要求較高的工業控制領域和智能交通領域等,實時動態的增量式知識獲取是保證決策質量的必要條件.近年來隨著大數據應用的普及,更多專家學者開始關注大數據的增量式學習問題.分類或聚類也是實現決策分析任務的常見方法.在這類典型的基于機器學習的決策應用中,增量性主要體現于三個方面:一是數據樣本的增量; 二是樣本特征描述信息的增量; 三是類別的增量與數據分布的變化.
在數據樣本增量方面.針對以往增量式學習均假設新增樣本是獨立且同分布的,Xu 等[114]?研究了依賴采樣方法對增量式支持向量機算法的影響,并提出了一種基于馬爾科夫重采樣的增量式支持向量機算法(MR-ISVM),實現ISVM 學習效率的顯著提高.Gu 等[115]?基于代價敏感鉸鏈損失的支持向量機(CSHL-SVM) 構建了數據塊增量式學習算法,實現在線場景下的分類模型的快速更新.粗糙集方法是處理不確定性數據的有效決策工具.目前已經有專家學者基于粗糙集的決策方法進行了有關增量式知識發現的研究.Chen 等[116]?將變精度粗糙集方法引入集值序信息系統,研究了變精度集值序信息系統下的近似集增量更新方法.為應對決策信息系統中數據對象的動態增加問題,Li 等[117]?提出基于優勢粗糙集的增量式近似集更新方法,該方法可以有效解決多準則決策中的動態增量問題.針對數據樣本的增量以及數據中潛在的不確定性,Yu[118]?提出了三支聚類計算框架,并進一步提出了基于樹的增量式三支聚類模型,該模型為不確定性大數據的增量式聚類計算提供了新思路.Hu 等[119]?通過粗糙集表示聚類問題中數據的不確定性,形成一套基于粗糙集的增量式模糊聚類集成方法,實現對不確定性數據的增量式聚類計算.
在樣本特征描述信息的增量方面.Hu 等[120]?基于互信息的差異生成策略和特征增量樹生長機制提出一種特征增量隨機森林(FIRF) 學習方法,解決老年人健康護理中因傳感器增加形成的數據特征增量問題.Huang 等[121]?在分布式信息系統下基于屬性一般化提出了增量式粗糙近似集更新方法.Jing等[122]?研究了多粒度視角下的知識粒表示方法,針對大規模動態增量決策信息系統,提出了多粒度增量式屬性約簡方法,有效避免數據增加過程中對等價類的重復計算.針對層次化多準則分類問題中屬性值在不同粒度層次上的動態更新,Luo 等[123]?通過屬性值分類對知識粒進行細化和粗化,實現知識粒的動態特性的形式化表示,并在此基礎上提出了層次化多準則決策系統下的優勢粗糙集增量式學習方法.面向屬性增量的聚類算法可以為基于無監督數據的決策活動提供有益幫助,不過現階段面向屬性增量的聚類研究依然較少.
在類別的增量與數據分布的變化方面.傳統的增量式機器學習方法常假設訓練數據和新增數據符合相同的模式,卻較少考慮新數據所屬類別的增加與數據分布變化情況,這使得傳統增量式機器學習方法難以適應實際生產中的大數據環境.現實中的諸多因素會導致模型在學習階段只能接觸到有限的數據類別,而在測試和實際應用階段的數據卻包含了在學習階段未曾出現的類別.該類場景下的學習問題被稱作開集學習(Open-set learning) 問題,意在尋求對已知類識別的同時,能有效識別未知新類.Da 等[124]?嘗試從無標簽數據中獲取更多分類信息,并基于支持向量機的大邊緣準則和半監督學習中的低密度分離器技術,提出了基于無標簽數據增廣類學習框架及相應的支持向量機方法,用于開放空間下的樣本預測.Ristin 等[125-126]?基于隨機森林算法提出了最近類平均森林算法和支持向量機森林算法,研究了大規模圖像分類中數據類別增加的增量式學習問題.J′unior 等[127]?將最近鄰分類器擴展應用到開集學習當中,提出一種開集最近鄰方法.在基于神經網絡的圖形識別領域,使用數據集增廣技術是應對開集識別問題的一種方法,Neal 等[128]?提出一種反事實圖像生成的數據增廣方法,并通過訓練后的生成對抗網絡生成開集訓練樣本,用于對開集圖像識別任務的學習.通過在深度網絡中引入新的模型層OpenMax 并結合元識別(Meta-recognition)算法來估計未知新類的概率,Bendale 和Boult[129]提出一種深度網絡開集識別方法,實現深度網絡對高置信度欺騙圖像以及相似于訓練樣本的對抗圖像的識別.分布外圖像檢測問題同樣可看作是一類特殊的開集學習問題.Liang 等[130]?針對基于神經網絡的分布外圖像檢測問題,提出了基于神經網絡的分布外檢測器,通過控制溫度標定并結合添加輸入擾動的方法,增加分布內圖像與分布外圖像之間的Softmax 分數間隔,在無需重新訓練網絡的情況下,有效降低分布外樣本的誤判率.目前已有的開集學習的研究主要關注了如何檢測到新類,然而如何進一步區分新類同樣具有重要的實際意義和研究價值,目前該方面的研究還較少.
在流式數據和時間序列數據的實時處理任務中,如何將新增數據的分布變化納入學習任務當中是一項極其重要的研究工作.基于概念漂移(Concept drift) 的增量式學習方法是應對上述問題的有效途徑之一.Ahmad 等[131]?將概念漂移方法用于流式數據的非監督學習當中,有效提高了在線異常檢測的精度.針對傳統DSS 中的靜態數據分析方法在發生概念漂移時無法做出正確決策的問題,Dong 等[132]研究了數據驅動決策支持系統中的概念漂移問題,提出一種基于數據分布的概念漂移檢測方法,為數據流提供更好、更精細的經驗分布,使得DSS 可以在適當的時間調整決策知識以適應不斷變化的環境.Lobo 等[133]?使用核密度估計構建了一種進化多樣化生成方法,用于在線學習中概念漂移后學習策略的快速適應.
3 挑戰問題與發展趨勢
誠然大數據可以為人們帶來更加科學全面的決策支持,但大數據智能決策的應用研究還處于初期階段,并仍面臨諸多挑戰.在此,我們討論大數據智能決策面臨的一些問題挑戰,并指出潛在的應對方法或未來的發展趨勢.
3.1 大數據多樣性帶來的挑戰
多樣性是構成大數據復雜性的主要因素之一,也是大數據智能決策面臨的主要困難.當一項綜合決策需要整合多方面數據時,不同來源的大數據在類型、分布、頻率及密度上可能各不相同,這對多源大數據融合分析、多源信息協同決策等構成巨大的挑戰.現階段對于處理大數據的多源異構性,已經有一些研究成果,但多數還是面向具體場景和特定一些類型的大數據.解決多源異構大數據的協同分析問題,消除信息孤島進而實現通用性、魯棒性更好的大數據智能決策,是目前大數據智能決策的一個關鍵性研究課題.
多源大數據之間的關系普遍為互補型或合作型,通過數據層面的融合決策不一定那么有效.目前在特征層實現異構數據的融合方法中,有很多基于DNN 的優秀成果.然而,基于DNN 的方法只克服了多樣性中的數據類型多樣,而對于分布、頻率等多樣性還無法應對.需要指出的是,任何決策都是有風險代價的,數據分析過程的可解釋性對于決策者而言至關重要,然而可解釋性卻是DNN 的短板.基于粒計算的DNN 可解釋性研究可望成為大數據智能分析的一個潛在研究方向.
通過語義層/決策層實現多源數據的綜合利用是解決數據異質性較好的方法,可以有效避免各種異質性問題.在大數據環境下,分布式自治數據源是大數據應用的一大特點[16],去中心化將成為一大趨勢.通過分布式知識獲取與協同的方法可以有效實現多源異構數據的協同感知與交互.所謂協同,可解釋為對不一致信息的沖突分析.研究基于粗糙集、模糊集和群體智能決策的沖突分析方法如何應用到大數據決策是未來的一個發展方向.
3.2 大數據動態性帶來的挑戰
日益加快的人、機、物之間的交互活動,使得數據的快速增長成為大數據顯著特性之一.從決策需求的及時性和準確性來看,大數據的動態性對現有的增量式機器學習方法構成巨大的挑戰.例如,在流式數據處理中,如何在發生概念漂移時及時調整數據分析策略并實現知識庫的自適應更新,仍是一項挑戰性的研究任務.
針對大數據動態增量問題,可以考慮形成一個訓練學習、執行預測、漂移檢測、漂移理解、漂移自適應的多步驟自適應學習模型.這類模型的重點和難點在于漂移理解與漂移自適應.在漂移理解方面可以融入高層次的、符合認知的方法,可以采用粗糙集、模糊集、商空間等粒計算方法建立不同粒度層次下的漂移認知模型,實現符合人類認知的層次化概念漂移理解.針對漂移自適應問題,可以通過構建有效的知識距離度量方法來度量概念漂移距離與方向,同時綜合運用進化計算與神經網絡等方法構建與問題相符的參數自適應模型,實現對學習模型的演化更新.
3.3 大數據極弱監督性帶來的挑戰
大數據的快速增長性也決定了大數據的極弱監督性甚至是非監督性.大數據分類學習中的極弱監督性帶來的問題通常表現在兩個方面:一是因標記稀缺而不能正確詳盡地反映出整體數據集的特點,導致學到的學習器泛化能力弱.二是標記稀缺使得構造多分類器時多樣性不足,導致集成學習不能奏效.大數據的極弱監督性決定了以聚類算法為特點的無監督學習方法在大數據增量問題上的研究具有巨大的決策應用價值.不過大數據的增量性不僅體現于數據樣本的增加,還體現于屬性的增加.針對大數據屬性增量式聚類問題仍然缺乏有效的方法.
針對大數據的極弱監督性,可以充分利用多視角信息、相似領域信息、先驗知識等,采用大數據耦合與關聯分析、大數據與經驗知識相融合等技術增加額外的監督信息.三支決策[134]?體現了一種漸進決策的思想.我們可以設計三支聚類模型逐步地、有效地利用少量標簽信息或者領域專家知識.根據數據類型與問題求解需求,采用合適的粒計算方法構建多粒度聚類分析算法模型,也可望為大數據屬性增量式聚類帶來新的解決思路.
3.4 大數據不確定性帶來的挑戰
不確定性是當前人工智能技術研究中的關鍵問題,同時也是貫穿于大數據智能決策整個過程的核心問題.目前研究較多的就是獲取大數據中的不確定性知識.然而不確定性的形式眾多,難以用統一的形式化方法表達,也無法憑單一的技術手段來獲取大數據中的不確定性知識.不確定性知識發現的研究難度大、價值高,一直是各領域知識發現研究所面臨的核心困難問題.
要實現復雜數據中不確定性知識的高效獲取,需要為描述不確定性概念知識提供合適的數學模型,建立不確定性知識空間中的計算模型,實現對不確定性知識空間的認知和理解,進而從數據中高效動態獲取滿足約束要求的知識.粒計算[135-136]?是一種基于認知科學的智能信息計算范式,它適用于近似求解具有不確定性和層次結構的問題,可以達到對問題的簡化、提高問題求解效率等目的.從多粒度計算的角度來看,不確定性和確定性是信息在不同粒度層面上的不同表示形式,在某一層次上的不確定性問題可能是其他層次上的確定性問題[34].通過研究大數據在不同粒度層次上的粒度尋優與粒度切換方法可望實現對不確定性信息的有效處理.此外,粒計算往往從實際問題的需求出發,用可行的滿意近似解替代精確解,提高問題求解效率.
3.5 大數據隱私問題帶來的挑戰
目前大數據隱私保護問題已經被廣泛關注[16].諸如企業供應鏈數據、銀行交易數據、患者醫療數據、導航用戶軌跡數據等均構成了隱私保護的敏感信息范疇.大數據的應用過程中往往不可避免地觸及到敏感數據的傳輸、交互與分析處理,特別是在跨平臺、跨企業、跨領域數據的決策分析中,用戶隱私數據暴露問題顯得尤為突出.現階段,由于缺乏有效的隱私保護手段,多數擁有數據的企業不愿或不能將數據公開,這在很大程度上放慢了大數據研究與應用的落地.目前,有關大數據應用中的隱私保護還沒有標準化的處理手段,在技術層面和管理層面數據隱私都面臨嚴峻的挑戰.有學者提出通過制定數據訪問與分享的隱私保護策略,比如設置一定的訪問資格和權限,或采用匿名數據的方法[137].對于設置數據訪問權限的方法,難點在于對安全認證和訪問控制機制的設計以及對用戶信用的把握; 而采用匿名數據的方法,將顯著增加數據的不確定性,為數據分析帶來更多困難[7,16].
隱私信息一般是以最細粒度原始數據的形式存在的[136].根據粒計算的觀點,數據是知識在最細粒度上的表現,知識是數據在不同粒度層次上的抽象[138-139].面對復雜大數據,數據、信息、知識都可以被粒化,并映射到不同的粒度層次上.此時的計算單元從原有的最細粒度的“數據” 轉變為具有認知特征的、規模較小的“知識粒”,經過粒化后的知識粒隱藏了細節信息,從而可以實現大數據隱私信息有效保護.
3.6 特例狀況帶來的挑戰
眾所周知,基于機器學習的大數據智能化分析處理方法本質上是建立在對大數據的統計分析基礎之上的.在完全信息環境下,通過對大數據的智能化分析可以很好地預測、判斷大數據已經覆蓋的事物狀態,但現實中的決策環境多是開放性的,事物的狀態是千變萬化的,因此即便是經過長期積累的大數據也無法保證信息的完全性.比如在航天領域中的故障、交通行業中的事故等多數都是特例.并且由于現實條件的約束人們往往無法通過反復試驗的方法來獲取覆蓋各種特例的大數據進行學習預測,因此對特例狀況的預測和判斷是實際應用中的一大挑戰.
對于特例狀況的學習,有望借助平行系統和平行學習的方法進行解決.平行系統的概念是由中科院自動化所王飛躍研究員于2004 年提出[140],通過利用大型計算模擬、預測并誘發引導復雜系統現象,構建一種軟件定義的人工系統[141].平行學習利用計算實驗方法進行預測學習,通過人工系統,依據原始“小數據” 生成大量的人工合成數據.將人工合成數據與原始的小數據一起構成解決問題的所需的“大數據”,通過學習提取,得到應用于某些具體場景或任務的知識,進而用于平行控制和平行決策.平行系統和平行學習可以滿足人們對特例狀況模擬與預測學習的需求,在一定程度上可能會解決特例對大數據智能決策帶來的挑戰.
3.7 大數據認知困難帶來的挑戰
從本質上講,決策活動是人類的一種認知活動,認知過程是所有決策過程的共性.現階段的人工智能技術與機器學習方法對于大數據的處理以及知識的獲取多數還處于對事物的感知層面,如特征提取,模式識別、預測、回歸、聚類等,它們在實質上都是對事物的分類認知.然而分類僅是人類的一種低層次認知,其功能本質在于對事物的區分、辨別與歸類.單純依靠對事物的分類還不足以構成一項完整的決策.決策是任務和需求驅動的問題求解過程,需要決策者在的分類認知的基礎之上,繼續賦予研究對象以價值尺度認知或功能偏好認知,并最終做出選擇的全過程.讓機器擁有意識和理解能力才是人工智能最根本的目標,在這方面人工智能剛走出了決策認知的第一步(即分類認知),而偏好認知還多依賴于人的參與.在實際應用中,只有不斷提高對大數據快速的、完整的認知能力,才能實現高效及時的大數據智能決策.
陳純院士指出,當前大數據智能正從規則的學習推理方法,到數據驅動的知識挖掘方法,邁向數據驅動與知識引導的新時代.將數據驅動的機器學習方法與人類的常識先驗與隱式直覺相結合,可以實現可解釋、更魯棒和更通用的人工智能[9].鄭南寧院士指出,由于人類生活環境的高度不確定性和脆弱性以及面臨問題的開放性,任何智能程度的機器都無法完全取代人類,因此有必要將人類的認知能力或類人認知模型引入人工智能系統,形成混合增強智能形態[142].張鈸院士指出,人類在問題求解中具有天生的知識驅動能力、對不確定性問題的處理優勢和對全局整體的感知能力; 傳統機器學習具有在數據分析處理中的數據驅動能力、高速計算能力,二者結合是未來信息處理的發展趨勢[143].因此,人機結合的智能形態有望構造出更加有效的認知計算方法.在今后的大數據智能決策的應用與研究中,人機結合的增強智能有望實現對大數據更加有效的處理,并創造出更好的結果.
4 結束語
在全球信息化快速發展的背景下,大數據以其蘊含的巨大價值正受到社會各界的廣泛關注.發展基于大數據的人工智能新技術,實現基于大數據的智能決策是推動發展智能經濟、智能服務、智能制造的關鍵手段.現階段,智能決策理論方法在大數據驅動的模式下快速發展,并逐漸形成一系列圍繞多源異構大數據智能化處理的新方法和新趨勢.為了深入了解大數據智能決策的發展現狀,文章對大數據的特性以及大數據決策的特點進行了歸納總結,并著重從智能決策支持系統的發展、不確定性信息處理、信息融合、關聯分析以及增量分析五個方面綜述了當前大數據智能決策的發展現狀.最后文章討論了大數據智能決策仍然面臨的問題與挑戰,展望了一些潛在的方法及研究方向.作為一門快速發展的開放性學科領域,大數據智能決策在內涵外延、模型理論、技術方法及實施策略等方面還需要人們繼續投入更多的研究與實踐.希望本文對大數據智能決策的相關介紹與探討能夠對讀者提供有益的借鑒和幫助.
審核編輯:符乾江
評論
查看更多