大數據簡介
大數據(big data),指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。研究機構Gartner給出了這樣的定義。“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。
最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
?
大數據特征
容量(Volume):數據的大小決定所考慮的數據的價值和潛在的信息;
種類(Variety):數據類型的多樣性;
速度(Velocity):指獲得數據的速度;
可變性(Variability):妨礙了處理和有效地管理數據的過程。
真實性(Veracity):數據的質量
復雜性(Complexity):數據量巨大,來源多渠道
價值(value):合理運用大數據,以低成本創造高價值
數據挖掘技術分類及應用
數據挖掘技術概況
基于Internet的全球信息系統的發展使我們擁有了前所未有的豐富數據。大量信息在給人們帶來方便的同時也帶來了一大堆問題:第一是信息過量,難以消化;第二是信息真假難以辨識;第三是信息安全難以保證;第四是信息形式不一致,難以統一處理。數據豐富、知識貧乏已經成為一個典型問題。Data Mining(數據挖掘)的目的就是有效地從海量數據中提取出需要的答案,實現“數據-〉信息-〉知識-〉價值”的轉變過程。
(數據挖掘)是指用非平凡的方法從海量的數據中抽取出潛在的、有價值的知識(模型或規則)的過程。該術語還有其他一些同義詞:數據庫中的知識發現 、信息抽取 、信息發現 、智能數據分析 、探索式數據分析( 、信息收獲 、數據考古 等。
Data Mining(數據挖掘)是數據庫研究、開發和應用最活躍的一個分支,是多學科的交叉領域,它涉及數據庫技術、人工智能、機器學習、神經網絡、數學、統計學、模式識別、知識庫系統、知識獲取、信息提取、高性能計算、并行計算、數據可視化等多方面知識。
數據挖掘技術從一開始就是面向應用的,它不僅是面向特定數據庫的簡單檢索查詢調用,而且要對這些數據進行微觀、中觀乃至宏觀的統計、分析、綜合和推理,以指導實際問題的求解,企圖發現事件間的相互關聯,甚至利用已有的數據對未來的活動進行預測。例如加拿大BC省電話公司要求加拿大SimonFraser大學KDD研究組,根據其擁有十多年的客戶數據,總結、分析并提出新的電話收費和管理辦法,制定既有利于公司又有利于客戶的優惠政策。這樣一來,就把人們對數據的應用,從低層次的末端查詢操作,提高到為各級經營決策者提供決策支持。這種需求驅動力,比數據庫查詢更為強大。同時,這里所說的數據挖掘,不是要求發現放之四海而皆準的真理,也不是要去發現嶄新的自然科學定理和純數學公式,更不是什么機器定理證明。所有發現的知識都是相對的,是有特定前提和約束條件、面向特定領域的,同時還要能夠易于被用戶理解,最好能用自然語言表達發現結果。因此數據挖掘的研究成果是很講求實際的。
?
數據挖掘技術應用
數據挖掘技術可以為決策、過程控制、信息管理和查詢處理等任務提供服務,一個有趣的應用范例是“尿布與啤酒”的故事。為了分析哪些商品顧客最有可能一起購買,一家名叫 WalMart的公司利用自動數據挖掘工具,對數據庫中的大量數據進行分析后,意外發現,跟尿布一起購買最多的商品竟是啤酒。為什么兩件風馬牛不相及的商品會被人一起購買?原來,太太們常叮囑她們的丈夫,下班后為小孩買尿布,而丈夫們在買尿布后又隨手帶回了兩瓶啤酒。既然尿布與啤酒一起購買的機會最多,商店就將它們擺放在一起,結果,尿布與啤酒的銷售量雙雙增長。這里,數字挖掘技術功不可沒。一般來說,數據挖掘的應用有電信:流失;銀行:聚類(細分),交叉銷售;百貨公司/超市:購物籃分析(關聯規則);保險:細分,交叉銷售,流失(原因分析);信用卡: 欺詐探測,細分;電子商務:網站日志分析;稅務部門:偷漏稅行為探測;警察機關:犯罪行為分析;醫學:醫療保健。具體如下:
電子政務的數據挖掘
建立電子化政府,推動電子政務的發展,是電子信息技術應用到政府管理的必然趨勢。實踐經驗表明,政府部門的決策越來越依賴于對數據的科學分析。發展電子政務,建立決策支持系統,利用電子政務綜合數據庫中存儲的大量數據,通過建立正確的決策體系和決策支持模型,可以為各級政府的決策提供科學的依據,從而提高各項政策制定的科學性和合理性,以達到提高政府辦公效率、促進經濟發展的目的。為此,在政府決策支持方面,需要不斷
吸納新的信息處理技術,而數據挖掘正是實現政府決策支持的核心技術。以數據挖掘為依托的政府決策支持系統,將發揮重要的作用。
電子政務位于世界各國積極倡導的“信息高速公路”五個領域(電子政務、電子商務、遠程教育、遠程醫療、電子娛樂)之首,說明政府信息化是社會信息化的基礎。電子政務包括政府的信息服務、電子貿易、電子化政府、政府部門重構、群眾參與政府五個方面的內容。將網絡數據挖掘技術引入電子政務中,可以大大提高政府信息化水平,促進整個社會的信息化。具體體現在以下幾個方面:
1)政府的電子貿易 在服務器以及瀏覽器端日志記錄的數據中隱藏著模式信息,運用網絡用法挖掘技術可以自動發現系統的訪問模式和用戶的行為模式,從而進行預測分析。例如,通過評價用戶對某一信息資源瀏覽所花費的時間,可以判斷出用戶對何種資源感興趣;對日志文件所收集到的域名數據,根據國家或類型進行分類分析;應用聚類分析來識別用戶的訪問動機和訪問趨勢等。這項技術已經有效地運用在政府電子貿易中。
2)網站設計 通過對網站內容的挖掘,主要是對文本內容的挖掘,可以有效地組織網站信息,如采用自動歸類技術實現網站信息的層次性組織;同時可以結合對用戶訪問日志記錄信息的挖掘,把握用戶的興趣,從而有助于開展網站信息推送服務以及個人信息的定制服務,吸引更多的用戶。
3)搜索引擎 網絡數據挖掘是目前網絡信息檢索發展的一個關鍵。如通過對網頁內容挖掘,可以實現對網頁的聚類、分類,實現網絡信息的分類瀏覽與檢索;同時,通過對用戶所使用的提問式的歷史記錄的分析,可以有效地進行提問擴展,提高用戶的檢索效果;另外,運用網絡內容挖掘技術改進關鍵詞加權算法,提高網絡信息的標引準確度,從而改善檢索效果。
4)決策支持 為政府重大政策出臺提供決策支持。如,通過對網絡各種經濟資源的挖掘,確定未來經濟的走勢,從而制定出相應的宏觀經濟調控政策。
市場營銷的數據挖掘
數據挖掘技術在企業市場營銷中得到了比較普遍的應用,它是以市場營銷學的市場細分原理為基礎,其基本假定是“消費者過去的行為是其今后消費傾向的最好說明”。
通過收集、加工和處理涉及消費者消費行為的大量信息,確定特定消費群體或個體的興趣、消費習慣、消費傾向和消費需求,進而推斷出相應消費群體或個體下一步的消費行為,然后以此為基礎,對所識別出來的消費群體進行特定內容的定向營銷,這與傳統的不區分消費者對象特征的大規模營銷手段相比,大大節省了營銷成本,提高了營銷效果,從而為企業帶來更多的利潤。
商業消費信息來自市場中的各種渠道。例如,每當我們用信用卡消費時,商業企業就可以在信用卡結算過程收集商業消費信息,記錄下我們進行消費的時間、地點、感興趣的商品或服務、愿意接收的價格水平和支付能力等數據;當我們在申辦信用卡、辦理汽車駕駛執照、填寫商品保修單等其他需要填寫表格的場合時,我們的個人信息就存入了相應的業務數據庫;企業除了自行收集相關業務信息之外,甚至可以從其他公司或機構購買此類信息為自己所用。
這些來自各種渠道的數據信息被組合,應用超級計算機、并行處理、神經元網絡、模型化算法和其他信息處理技術手段進行處理,從中得到商家用于向特定消費群體或個體進行定向營銷的決策信息。這種數據信息是如何應用的呢?舉一個簡單的例子,當銀行通過對業務數據進行挖掘后,發現一個銀行帳戶持有者突然要求申請雙人聯合帳戶時,并且確認該消費者是第一次申請聯合帳戶,銀行會推斷該用戶可能要結婚了,它就會向該用戶定向推銷用于購買房屋、支付子女學費等長期投資業務,銀行甚至可能將該信息賣給專營婚慶商品和服務的公司。數據挖掘構筑競爭優勢。
在市場經濟比較發達的國家和地區,許多公司都開始在原有信息系統的基礎上通過數據挖掘對業務信息進行深加工,以構筑自己的競爭優勢,擴大自己的營業額。美國運通公司(American Express)有一個用于記錄信用卡業務的數據庫,數據量達到54億字符,并仍在隨著業務進展不斷更新。運通公司通過對這些數據進行挖掘,制定了“關聯結算(Relation ship Billing)優惠”的促銷策略,即如果一個顧客在一個商店用運通卡購買一套時裝,那么在同一個商店再買一雙鞋,就可以得到比較大的折扣,這樣既可以增加商店的銷售量,也可以增加運通卡在該商店的使用率。再如,居住在倫敦的持卡消費者如果最近剛剛乘英國航空公司的航班去過巴黎,那么他可能會得到一個周末前往紐約的機票打折優惠卡。
基于數據挖掘的營銷,常常可以向消費者發出與其以前的消費行為相關的推銷材料。卡夫(Kraft)食品公司建立了一個擁有3000萬客戶資料的數據庫,數據庫是通過收集對公司發出的優惠券等其他促銷手段作出積極反應的客戶和銷售記錄而建立起來的,卡夫公司通過數據挖掘了解特定客戶的興趣和口味,并以此為基礎向他們發送特定產品的優惠券,并為他們推薦符合客戶口味和健康狀況的卡夫產品食譜。美國的讀者文摘(Reader‘s Digest)出版公司運行著一個積累了40年的業務數據庫,其中容納有遍布全球的一億多個訂戶的資料,數據庫每天24小時連續運行,保證數據不斷得到實時的更新,正是基于對客戶資料數據庫進行數據挖掘的優勢,使讀者文摘出版公司能夠從通俗雜志擴展到專業雜志、書刊和聲像制品的出版和發行業務,極大地擴展了自己的業務。
基于數據挖掘的營銷對我國當前的市場競爭中也很具有啟發意義,我們經常可以看到繁華商業街上一些廠商對來往行人不分對象地散發大量商品宣傳廣告,其結果是不需要的人隨手丟棄資料,而需要的人并不一定能夠得到。如果搞家電維修服務的公司向在商店中剛剛購買家電的消費者郵寄維修服務廣告,賣特效藥品的廠商向醫院特定門診就醫的病人郵寄廣告,肯定會比漫無目的的營銷效果要好得多。
零售業中的數據挖掘
通過條形碼、編碼系統、銷售管理系統、客戶資料管理及其它業務數據中,可以收集到關于商品銷售、客戶信息、貨存單位及店鋪信息等的信息資料。數據從各種應用系統中采集,經條件分類,放到數據倉庫里,允許高級管理人員、分析人員、采購人員、市場人員和廣告客戶訪問,利用DM工具對這些數據進行分析,為他們提供高效的科學決策工具。如對商品進行購物籃分析,分析那些商品顧客最有希望一起購買。如被業界和商界傳誦的經典----Wal-Mart的 “啤酒和尿布”,就是數據挖掘透過數據找出人與物間規律的典型。在零售業應用領域,利用DW、DM會在很多方面有卓越表現:
1. 了解銷售全局:通過分類信息——按商品種類、銷售數量、商店地點、價格和日期等了解每天的運營和財政情況,對銷售的每一點增長、庫存的變化以及通過促銷而提高的銷售額都可了如指掌。零售商店在銷售商品時,隨時檢查商品結構是否合理十分重要,如每類商品的經營比例是否大體相當。調整商品結構時需考慮季節變化導致的需求變化、同行競爭對手的商品結構調整等因素。
2. 商品分組布局:分析顧客的購買習慣,考慮購買者在商店里所穿行的路線、購買時間和地點、掌握不同商品一起購買的概率;通過對商品銷售品種的活躍性分析和關聯性分析,用主成分分析方法,建立商品設置的最佳結構和商品的最佳布局。
3. 降低庫存成本:通過數據挖掘系統,將銷售數據和庫存數據集中起來,通過數據分析,以決定對各個商品各色貨物進行增減,確保正確的庫存。數據倉庫系統還可以將庫存信息和商品銷售預測信息,通過電子數據交換(EDI)直接送到供應商那里,這樣省去商業中介,而且由供應商負責定期補充庫存,零售商可減少自身負擔。
4. 市場和趨勢分析:利用數據挖掘工具和統計模型對數據倉庫的數據仔細研究,以分析顧客的購買習慣、廣告成功率和其它戰略性信息。利用數據倉庫通過檢索數據庫中近年來的銷售數據,作分析和數據挖掘,可預測出季節性、月銷售量,對商品品種和庫存的趨勢進行分析。還可確定降價商品,并對數量和運作作出決策。
有效的商品促銷:可以通過對一種廠家商品在各連鎖店的市場共享分析,客戶統計以及歷史狀況的分析,來確定銷售和廣告業務的有效性。通過對顧客購買偏好的分析,確定商品促銷的目標客戶,以此來設計各種商品促銷的方案,并通過商品購買關聯分析的結果,采用交叉銷售和向上銷售的方法,挖掘客戶的購買力,實現準確的商品促銷。
銀行業的數據挖掘
金融事務需要搜集和處理大量的數據,由于銀行在金融領域的地位、工作性質、業務特點以及激烈的市場競爭決定了它對信息化、電子化比其它領域有更迫切的要求。利用數據挖掘技術可以幫助銀行產品開發部門描述客戶以往的需求趨勢,并預測未來。美國商業銀行是發達國家商業銀行的典范,許多地方值得我國學習和借鑒。
數據挖掘技術在美國銀行金融領域應用廣泛。金融事務需要搜集和處理大量數據,對這些數據進行分析,發現其數據模式及特征,然后可能發現某個客戶、消費群體或組織的金融和商業興趣,并可觀察金融市場的變化趨勢。商業銀行業務的利潤和風險是共存的。為了保證最大的利潤和最小的風險,必須對帳戶進行科學的分析和歸類,并進行信用評估。Mellon銀行使用數據挖掘軟件提高銷售和定價金融產品的精確度,如家庭普通貸款。零售信貸客戶主要有兩類,一類很少使用信貸限額(低循環者),另一類能夠保持較高的未清余額(高循環者)。每一類都代表著銷售的挑戰。低循環者代表缺省和支出注銷費用的危險性較低,但會帶來極少的凈收入或負收入,因為他們的服務費用幾乎與高循環者的相同。銀行常常為他們提供項目,鼓勵他們更多地使用信貸限額或找到交叉銷售高利潤產品的機會。高循環者由高和中等危險元件構成。高危險分段具有支付缺省和注銷費用的潛力。對于中等危險分段,銷售項目的重點是留住可獲利的客戶并爭取能帶來相同利潤的新客戶。但根據新觀點,用戶的行為會隨時間而變化。分析客戶整個生命周期的費用和收入就可以看出誰是最具創利潛能的。
Mellon銀行認為“根據市場的某一部分進行定制”能夠發現最終用戶并將市場定位于這些用戶。但是,要這么做就必須了解關于最終用戶特點的信息。數據挖掘工具為Mellon銀行提供了獲取此類信息的途徑。Mellon銀行銷售部在先期數據挖掘項目上使用Intelligence Agent尋找信息,主要目的是確定現有Mellon用戶購買特定附加產品:家庭普通信貸限額的傾向,利用該工具可生成用于檢測的模型。據銀行官員稱:數據挖掘可幫助用戶增強其商業智能,如交往、分類或回歸分析,依賴這些能力,可對那些有較高傾向購買銀行產品、服務產品和服務的客戶進行有目的的推銷。該官員認為,該軟件可反饋用于分析和決策的高質量信息,然后將信息輸入產品的算法。數據挖掘還有可定制能力。
美國Firstar銀行使用數據挖掘工具,根據客戶的消費模式預測何時為客戶提供何種產品。Firstar銀行市場調查和數據庫營銷部經理發現:公共數據庫中存儲著關于每位消費者的大量信息,關鍵是要透徹分析消費者投入到新產品中的原因,在數據庫中找到一種模式,從而能夠為每種新產品找到最合適的消費者。數據挖掘系統能讀取800到1000個變量并且給它們賦值,根據消費者是否有家庭財產貸款、賒帳卡、存款證或其它儲蓄、投資產品,將它們分成若干組,然后使用數據挖掘工具預測何時向每位消費者提供哪種產品。預測準客戶的需要是美國商業銀行的競爭優勢。
評論
查看更多