證券業的數據挖掘
其典型應用包括有:
1、客戶分析
建立數據倉庫來存放對全體客戶、預定義客戶群、某個客戶的信息和交易數據,并通過對這些數據進行挖掘和關聯分析,實現面向主題的信息抽取。對客戶的需求模式和盈利價值進行分類,找出最有價值和盈利潛力的客戶群,以及他們最需要的服務,更好地配置資源,改進服務,牢牢抓住最有價值的客戶。
通過對客戶資源信息進行多角度挖掘,了解客戶各項指標(如資產貢獻、忠誠度、盈利率、持倉比率等),掌握客戶投訴、客戶流失等信息,從而在客戶離開券商之前,捕獲信息,及時采取措施挽留客戶。
2、咨詢服務
根據采集行情和交易數據,結合行情分析,預測未來大盤走勢,并發現交易情況隨著大盤變化的規律,并根據這些規律做出趨勢分析,對客戶針對性進行咨詢。
3、風險防范
通過對資金數據的分析,可以控制營業風險,同時可以改變公司總部原來的資金控制模式,并通過橫向比較及時了解資金情況,起到風險預警的作用。
4、經營狀況分析
通過數據挖掘,可以及時了解營業狀況、資金情況、利潤情況、客戶群分布等重要的信息。并結合大盤走勢,提供不同行情條件下的最大收益經營方式。同時,通過對各營業部經營情況的橫向比較,以及對本營業部歷史數據的縱向比較,對營業部的經營狀況作出分析,提出經營建議。
電信業的數據挖掘
電信業已經迅速地從單純的提供市話和長話服務演變為綜合電信服務,如語音、傳真、尋呼、移動電話、圖像、電子郵件、計算機和WEB數據傳輸以及其他的數據通信服務。電信、計算機網絡、因特網和各種其他方式的的通信和計算的融合是目前的大勢所趨。而且隨著許多國家對電信業的開放和新興計算與通信技術的發展,電信市場正在迅速擴張并越發競爭激烈。因此,利用數據挖掘技術來幫助理解商業行為、確定電信模式、捕捉盜用行為、更好地利用資源和提高服務質量是非常有必要的。分析人員可以對呼叫源、呼叫目標、呼叫量和每天使用模式等信息進行分析還可以通過挖掘進行盜用模式分析和異常模式識別,從而可盡早的發現盜用,為公司減少損失。
移動通信領域的數據挖掘
針對信息化的應用,移動通信行業信息化進程得到巨大發展和廣泛應用,運營網絡系統、綜合業務系統、計費系統、辦公自動化等系統的相繼使用,為計算機應用系統的運行積累了大量的歷史數據。但在很多情況下,這些海量數據在原有的作業系統中是無法提煉并升華為有用的信息并提供給業務分析人員與管理決策者的。一方面,聯機作業系統因為需要保留足夠的詳細數據以備查詢而變得笨重不堪,系統資源的投資跟不上業務擴展的需求;另一方面,管理者和決策者只能根據固定的、定時的報表系統獲得有限的經營與業務信息,無法適應激烈的市場競爭。
隨著我國政府對電信行業經營的進一步放開和政策約束的調整以及客戶對電信服務質量要求的提高、盜打、欺詐因素的增加等等,移動通信的經營面臨更加復雜的局面,營運成本大幅度增加。因此,如何在激烈的市場競爭條件下,在滿足客戶需求和優質服務的前提下充分利用現有設備降低成本、提高效益,就成為決策者們共同關心的課題。
依照國外電信市場的發展經驗和歷程,市場競爭中電信公司的成功經營之道是:(1) 以高質量的服務留住現有客戶;(2) 提高通話量和設備利用率,用比競爭者更低的成本爭取新客戶,擴大市場份額;(3)放棄無利潤和信用差的客戶,降低經營風險和成本。
對于一個相對成熟的移動通信運營商來說,各運營與支撐系統所積累的海量歷史數據無疑是一筆寶貴的財富,而數據挖掘正是充分利用這些寶貴資源從而達到上述三重目標的一種最為有效的方法與手段。
體育領域的數據挖掘
1、體質數據分析
目前,我國對健康和增強體質都十分重視,每年都有很多相關的體質測試。這樣年復一年地積累了大量數據,而對這些數據的分析采用的幾乎都是統計方法,包括很多單位的體育分析和評價軟件,主要是對體質數據的均值分析以及套用規定的評價公式進行評價和分析。顯然,它們對體育中的體質數據分析有一定的貢獻,但其作用也只能局限于數據本身的大小比較,且產生的結果通常只能由專業人員能夠理解,另外只采用統計的方法挖掘數據之間的聯系也十分有限。
利用數據挖掘對體質數據進行挖掘,很容易產生統計方法難以實現的結果。例如,根據積累和不斷收集的數據,結合體質數據和營養學方面的知識,可以挖掘出造成不同地區體質好或差的營養方面的原因;同樣,根據體質數據和醫學方面的知識,能夠挖掘出人們的健康狀況,甚至分析出導致健康狀況較低的可能的疾病原因,從而可以更好地為人們自我保健和健身等各方面提供有力的指導;此外,采用數據挖掘對有名運動員的早期體質數據進行分析,能夠找出它們的共同特點,從而為體育選材提供有力的依據。體質數據庫正如一個寶礦,采用數據挖掘技術,肯定能夠挖掘出很多難以想象的寶藏。
2、 體育產業中的應用
數據挖掘最初的應用就是商業領域,而體育產業本身就是一類典型的商業。在一般的商業數據挖掘中,DM技術判斷哪些是它們的最有價值客戶、重新制定它們的產品推廣策略(把產品推廣給最需要它們的人),以用最小的花費得到最好的銷售。以體育廣告為例,可以對國內從事不同體育運動廣告業務的數據庫進行挖掘,比如,發現了做某類體育廣告的單位或公司的特征,那么就可以向那些具有這些特征但還未成為我們的客戶的其它公司或單位推銷這類體育廣告;同樣,如果通過挖掘找到流失的客戶的共同特征,就可以在那些具有相似特征的客戶還未流失之前進行針對性的彌補。這樣,可以一定程度地提高體育廣告的效益。,因此,及時、有效地利用DM,可以為我國體育產業創造更多的財富。
3、 競技體育中的應用
競技體育特別是對抗性質的競技,通常不但要求運動員實際水平高,同時戰術策略也相當重要,有時競技中的戰術甚至起到決定性作用。認識到數據挖掘的功能后,國外已經將其應用于競技體育中。例如,美國著名的國家籃球隊NBA的教練,利用IBM公司提供的數據挖掘工具臨場輔助決定替換隊員,而且取得了很好的效果。系統分析顯示魔術隊先發陣容中的兩個后衛安佛尼。哈德衛(Anfernee Hardaway)和伯蘭。紹(Brian Shaw)在前兩場中被評為-17分,這意味著他倆在場上本隊輸掉的分數比得到的分數多17分。然而,當哈德衛與替補后衛達利爾。阿姆斯創(Darrell Armstrong)組合時,魔術隊得分為正14分。在下一場中,魔術隊增加了阿姆斯創的上場時間。此著果然見效:阿姆斯創得了21分,哈德衛得了42分,魔術隊以88比79獲勝。魔術隊在第四場讓阿姆斯創進入先發陣容,再一次打敗了熱隊。在第五場比賽中,這個靠數據挖掘支持的陣容沒能拖住熱隊,但數據挖掘畢竟幫助了魔術隊贏得了打滿5場,直到最后才決出勝負的機會。目前,NBA球隊中大約20個使用了IBM公司開發的該軟件系統來優化他們的戰術組合。同樣,利用數據挖掘技術也可以分析足球、排球等類似對抗性的競技運動,從中找出對手的弱點,制定出到更有效的戰術。
郵政業的數據挖掘
中國郵政建立了目前國內最大的物流交換體系,同時也積累了大量的用戶數據,如何利用這些用戶數據,通過數據分析為郵政業務的發展提供科學決策依據,是郵政部門十分關心的問題。數據挖掘技術可以很好地為郵政部門解決上述問題,利用該技術,我們可以進行客戶存款余額分析、客戶存款結構分析、平均存款利率分析、不同儲種余額分析、不同儲種客戶分析、攬儲統計分析、業務量統計分析等等。我們以客戶存款分析進行介紹。采用分析的維包括如下: 營業網點的地區:以地區作為分析維度,可以判斷出各個儲蓄所的工作業績情況; 客戶的年齡:根據客戶年齡段對存款余額進行統計,從中可以分析出哪個年齡段的客戶是優良客戶,哪些客戶是未來開發的重點。客戶的地址:根據客戶所在地區統計存款余額, 可以分析出各地區的經濟情況以及人們對郵政儲蓄的認識程度,從而為以后的業務拓展提供依據; 存款的用途:居民的儲蓄存款用途比較繁雜,但是了解有規律的存款目的一方面可以幫助郵政儲蓄及時想客戶之所想,拉近與客戶之間的距離;另一方面可以為新業務的拓展提供有力的信息;時間段:通過這種分析可以及時掌握客戶儲蓄的變化規律,從而適當調整郵政業務流程。例如,根據客戶存款的變化規律可以預見性的及時調整郵政儲蓄的頭寸資金,在保證投資最大化的同時,預防金融風險。
呼叫中心的數據挖掘
呼叫中心正在逐漸成為企業進行信息收集的主要渠道。在收集了大量的數據之后,如何將這些數據進行整理、分析,為企業進行科學決策提供支持,也是面臨的一個主要問題。數據挖掘技術,能提供一條新的解決出路。
為決策提供依據,將數據挖掘技術引入呼叫中心,具有十分重要的意義。企業運營過程中的各種信息都是通過數據反映出來的,通過對這些數據的分析,可以發現企業運營過程中的規律,從而對企業的生產活動、市場活動等提供科學指導意義。
呼叫中心目前僅解決了企業與外部市場進行信息接入的問題,產生的大量數據通過報表等統計方法,只能得到一般意義上的信息反映。而通過數據挖掘技術,可以發現許多深層的、手工無法發現的規律,幫助企業在激烈的競爭環境中,占有更多的先機。
為用戶提供針對性服務,通過數據挖掘技術,可以根據客戶的消費行為進行分類,找出該類客戶的消費特征,然后通過呼叫中心提供更具個性化的服務,從而改進企業的服務水平,提高企業的社會效益和經濟效益。
提高企業的決策科學,目前,企業的決策具有很大的盲目性。如果采用數據挖掘技術,就可以在自己的生產過程中產生的數據基礎上,進行科學分析,得出比較科學的預測結果,減少決策失誤。通過數據挖掘技術,可以讓企業的決策回歸到自己的業務中,得出更實際的判斷。
增值更容易,數據挖掘在呼叫中心中會有很多種應用,而且有些應用可以幫助簡化管理運營,有的則可以提供一些業務關聯性的數據,幫助企業呼叫中心更好地開展業務,實現增值。具體說來,增值應用表現在以下方面。分析客戶行為,進行交叉銷售。在呼叫中心的各種客戶中,可以根據其消費的特點,進行相關分析,了解某類客戶在購買一種商品時,購買其它種類產品的概率有多大。根據這種相互的關聯性,就可以進行交叉銷售。分析客戶忠誠度,避免客戶流失。在客戶分析過程中,會有很多重要的大客戶流失。采用數據挖掘技術,可以對這些流失的大客戶進行分析,找出數據模型,發現其流失的規律,然后有針對性地改進服務質量,避免客戶的流失,減少企業的經濟損失。
簡化管理,呼叫中心的運營管理被人們提到前所未有的高度,因為一個中心即使建得很好,技術也很先進,但如果管理不好,優勢仍然發揮不出來。然而,管理對于很多呼叫中心來說,卻是很難過的門檻,數據挖掘能幫助簡化管理。
預測話務量,安排人工座席,在呼叫中心中,話務量是個重要的指標,企業要根據話務量的大小,安排座席人員的數量,但話務量是個變化的指標,以往比較難以預測。通過數據挖掘中的時間序列分析,可以對話務量的情況進行一定程度的預測,就可以更合理地安排座席人員的數量,在不降低呼叫中心接通率的基礎上,降低企業的運營成本。
進行關聯分析,降低運營成本。在運營型的呼叫中心中,常常會提供很多種業務服務,并根據這些業務種類的不同,安排座席人員的數量和排班。通過數據挖掘中關聯分析,可以進行業務的相關性分析,分析出哪幾種業務具有比較強的關聯性。如在快遞行業,送生日蛋糕的業務與送鮮花的業務可能就有很大的關聯性。這樣,在安排座席人員時,就可以將兩種業務的座席人員進行一定程度的合并,減少人員數量,降低呼叫中心的經營成本。
數字圖書館的數據挖掘
WEB挖掘是一個前景非常看好的工具。我們知道,傳統的效率低下的搜索引擎檢索出的信息往往索引不完全、有大量的無關信息或沒有進行可靠性驗證。用戶能夠快速方便地從WEB中檢索出相關的可靠的信息是一個系統的最基本的要求。WEB挖掘不僅能夠從WWW的大量的數據中發現信息,而且它監視和預測用戶的訪問習慣。這樣給設計人員在設計WEB站點時有更多的可靠的信息。WEB挖掘技術能夠幫助圖書館員在設計站點時朝著方便用戶、節省時間和高效率方向發展。WEB挖掘技術為圖書館員進行信息服務提供了先進的工具。有了這個工具,圖書館員能夠按照各個用戶的要求或習慣,為用戶組織更多、更好的高質量信息。
例如;院校圖書館員們應用WEB挖掘技術為本院校不同學科中的不同研究課題從WWW中檢索相關信息。該技術可以自動地檢索信息,并把信息按照課題領域進行分類,使它們更容易訪問。圖書館員可以通過為不同的課題領域建立一組特征,并以這些特征為基礎進行檢索和分類,從而保證得到的信息是可靠的和具有權威性的。由于WEB挖掘技術能夠自動地,不須人工干預地從WWW中發現和組織信息,從而使圖書館員只需花少量的時間來維護數據庫即可完成任務。用戶由于不需要花大量的時間來瀏覽成百上千的文檔,就可在相當短的時間里得到想要的信息而感到非常滿意。更重要的是,他們可以在任何時間訪問到世界任何地方的信息。事實上,這就是圖書館員把他們的咨詢服務從桌面轉移到INTERNET的具體工作表現。
網站的數據挖掘
隨著Web技術的發展,各類電子商務網站風起云涌。建立一個電子商務網站并不困難,困難的是如何讓您的電子商務網站有效益。要想有效益就必須吸引客戶,增加能帶來效益的客戶忠誠度。電子商務業務的競爭比傳統的業務競爭更加激烈,原因有很多方面,其中一個因素是客戶從一個電子商務網站轉換到競爭對手那邊,只需要點擊幾下鼠標即可。網站的內容和層次、用詞、標題、獎勵方案、服務等任何一個地方都有可能成為吸引客戶、同時也可能成為失去客戶的因素。而同時電子商務網站每天都可能有上百萬次的在線交易,生成大量的記錄文件(Log files)和登記表,如何對這些數據進行分析和挖掘,充分了解客戶的喜好、購買模式,甚至是客戶一時的沖動,設計出滿足不同客戶群體需要的個性化網站,進而增加其競爭力,幾乎變得勢在必行。若想在競爭中生存進而獲勝,就要比您的競爭對手更了解客戶。
在對網站進行數據挖掘時,所需要的數據主要來自于兩個方面:一方面是客戶的背景信息,此部分信息主要來自于客戶的登記表;而另外一部分數據主要來自瀏覽者的點擊流(Click-stream),此部分數據主要用于考察客戶的行為表現。但有的時候,客戶對自己的背景信息十分珍重,不肯把這部分信息填寫在登記表上,這就會給數據分析和挖掘帶來不便。在這種情況之下,就不得不從瀏覽者的表現數據中來推測客戶的背景信息,進而再加以利用。
生物醫學和DNA的數據挖掘
生物信息或基因數據挖掘對人類受益非淺。例如,基因的組合千變萬化,得某種疾病的人的基因和正常人的基因到底差別多大?能否找出其中不同的地方,進而對其不同之處加以改變,使之成為正常基因?這都需要數據挖掘技術的支持。
對于生物信息或基因的數據挖掘和通常的數據挖掘相比,無論在數據的復雜程度、數據量還有分析和建立模型的算法而言,都要復雜得多。從分析算法上講,更需要一些新的和好的算法。現在很多廠商正在致力于這方面的研究。但就技術和軟件而言,還遠沒有達到成熟的地步。
因特網篩選的數據挖掘
最近,有不少數據挖掘產品用來篩選因特網上的新聞,保護用戶不受無聊電子郵件和商業推銷的干擾,很受歡迎。
氣象預報中的數據挖掘
農業生產與氣候、氣象有著密切的關系,我國是一個農業大國,農業生產關系到國家經濟命脈和人民生活。天氣系統是一個復雜性系統,其影響因素多,時空狀態變化大。氣象數據中蘊含著復雜非線性動力學機制。各個因素之間的關系十分復雜,并具有紛雜多變的時空特征。因而,難以建立農業生產與氣象要素的關系。采用新的技術和方法進行相關研究有實際意義,也是應用發展及需求的驅動,數據挖掘技術可以用來解決此問題。
國外利用數據挖掘來進行氣象預報的應用研究所采用的方法主要包括:神經網絡、分類和聚類;國內則有人采用了小波分析與語言場相結合的知識表示方法,針對氣象數據提出一種新的基于小波分析和混沌理論相結合進行類別知識的發現方法,氣象數據通過小波變換后可以提取表示天氣系統的特征數據,利用特征數據同農業生產相關指標(如產量,害蟲密度等)的關系進行數據挖掘,數據挖掘的方法包括:分類、聚類、關聯規則以及相似模式等,從非結構化數據信息挖掘的角度構建了一個實用的、可擴展的、易操作的氣象科學研究的應用系統。
水文數據的數據挖掘
信息獲取與分析技術的快速發展,特別是遙測、遙感、網絡、數據庫等技術的應用,有力地促進了水文數據的采集和處理技術的發展,使之在時間和空間的尺度及要素類型上有了不同程度的擴展。由于水在人類生存發展中的特殊作用,應用各種新技術獲取水文數據,挖掘蘊藏于水文數據中的知識,已成為水文科學發展的新熱點。數字水文系統的提出是水文科學發展的時代標志之一。其核心是如何形成數字化的、覆蓋整個指定地域空間的、多重時空尺度的、多種要素的、對水文分析有用的數據產品。
水文數據挖掘是精確水文預報和水文數據分析的重要基礎。在我國,整個水文整編資料數據累計量已超過7000MB,加上進行水文預報所需的天氣、地理等數據,進行水文分析所需要處理的數據量很大。從這些數量巨大、類型復雜的數據中及時準確地挖掘出滿足需要的知識,往往因為計算能力、存儲能力、算法的不足而無能為力。因此,需要高效的水文數據挖掘技術。數據挖掘技術在水文信息服務領域的應用將是多方面的。
數據挖掘一般有關聯分析(Associations)、序列模式分析(Sequential Patterns)、分類分析(Classifiers)、聚類分析(Clustering)等功能類型。根據應用目標不同,數據挖掘可以采用或借鑒各種已經存在的理論和算法,如信息論、數理邏輯、進化計算、神經計算、統計學等以及面向實例的學習的許多算法都可以應用于數據挖掘系統的實現中。水文數據挖掘可以應用決策樹、神經網絡、覆蓋正例排斥反例、粗糙集(Rough Set)、概念樹、遺傳算法、公式發現、統計分析、模糊論等理論與技術,并在可視化技術的支持下,構造滿足不同目的的水文數據挖掘應用系統。
視頻數據的數據挖掘
目前,多媒體數據已逐漸成為信息處理領域中主要的信息媒體形式,尤其是視頻數據,由于它能記錄、保留空間和時間上的各種信息,其內容豐富,但使人們能夠以最接近自然的方式獲得更多的細節。視頻數據在生活中的應用越來越廣泛,已產生了大量的數字視頻庫,目前的研究主要集中在數字視頻庫的組織管理和使用上,特別是基于內容的視頻檢索技術。基于內容的視頻信息檢索技術雖然在某種程度上解決了視頻搜索和資源發現問題,但是,視頻信息檢索只能獲取用戶要求的視頻“信息”,而不能從大量視頻數據中分析出蘊含的有價值的用視頻媒體表示的“知識”。為此,需要研究比檢索和查詢層次更高的視頻分析方法,那就是視頻挖掘(Video Mining)。視頻挖掘就是通過綜合分析視頻數據的視聽特性、時間結構、事件關系和語義信息,發現隱含的、有價值的、可理解的視頻模式,得出視頻表示事件的趨向和關聯,改善視頻信息管理的智能程度。
個人數據挖掘
個人數據挖掘的應用非常廣泛,例如,可以挖掘公司記錄,選擇最好的合作伙伴;挖掘個人家庭醫療史,確定和遺傳有關的醫學模式,從而對生活方式和健康做出最優決策;挖掘股票和公司業績來選擇最優投資方式等。
數據挖掘工具的評價標準
如何選擇滿足自己需要的數據挖掘工具呢?評價一個數據挖掘工具,需要從以下幾個方面來考慮:
1產生的模式種類的多少。
2解決復雜問題的能力。
數據量的增大,對模式精細度、準確度要求的增高都會導致問題復雜性的增大。數據挖掘系統可以提供下列方法解決復雜問題:
多種模式多種類別模式的結合使用有助于發現有用的模式,降低問題復雜性。例如,首先用聚類的方法把數據分組,然后再在各個組上挖掘預測性的模式,將會比單純在整個數據集上進行操作更有效、準確度更高。
多種算法很多模式,特別是與分類有關的模式,可以有不同的算法來實現,各有各的優缺點,適用于不同的需求和環境。數據挖掘系統提供多種途徑產生同種模式,將更有能力解決復雜問題。驗證方法在評估模式時,有多種可能的驗證方法。比較成熟的方法像N層交叉驗證或Bootstrapping等可以控制,以達到最大的準確度。
數據選擇和轉換模式通常被大量的數據項隱藏。有些數據是冗余的,有些數據是完全無關的。而這些數據項的存在會影響到有價值的模式的發現。數據挖掘系統的一個很重要功能就是能夠處理數據復雜性,提供工具,選擇正確的數據項和轉換數據值。
可視化工具提供直觀、簡潔的機制表示大量的信息。這有助于定位重要的數據,評價模式的質量,從而減少建模的復雜性。 擴展性為了更有效地提高處理大量數據的效率,數據挖掘系統的擴展性十分重要。需要了解的是:數據挖掘系統能否充分利用硬件資源?是否支持并行計算?算法本身設計為并行的或利用了DBMS的并行性能?支持哪種并行計算機,SMP服務器還是MPP服務器?當處理器的數量增加時,計算規模是否相應增長?是否支持數據并行存儲?
為單處理器的計算機編寫的數據挖掘算法不會在并行計算機上自動以更快的速度運行。為充分發揮并行計算的優點,需要編寫支持并行計算的算法。
3易操作性
易操作性是一個重要的因素。有的工具有圖形化界面,引導用戶半自動化地執行任務,有的使用腳本語言。有些工具還提供數據挖掘的API,可以嵌入到像C、VisualBasic、PowerBuilder這樣的編程語言中。
模式可以運用到已存在或新增加的數據上。有的工具有圖形化的界面,有的允許通過使用C這樣的程序語言或SQL中的規則集,把模式導出到程序或數據庫中。
4數據存取能力
好的數據挖掘工具可以使用SQL語句直接從DBMS中讀取數據。這樣可以簡化數據準備工作,并且可以充分利用數據庫的優點(比如平行讀取)。沒有一種工具可以支持大量的DBMS,但可以通過通用的接口連接大多數流行的DBMS。Microsoft的ODBC就是一個這樣的接口。
5與其他產品的接口
有很多別的工具可以幫助用戶理解數據,理解結果。這些工具可以是傳統的查詢工具、可視化工具、OLAP工具。數據挖掘工具是否能提供與這些工具集成的簡易途徑?
國外的許多行業如通信、信用卡公司、銀行和股票交易所、保險公司、廣告公司、商店等已經大量利用數據挖掘工具來協助其業務活動,國內在這方面的應用還處于起步階段,對數據挖掘技術和工具的研究人員以及開發商來說,我國是一個有巨大潛力的市場。
評論
查看更多