大數據概念
大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。 大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理。換言之,如果把大數據比作一種產業,那么這種產業實現盈利的關鍵,在于提高對數據的“加工能力”,通過“加工”實現數據的“增值”
隨著云時代的來臨,大數據(Big data)也吸引了越來越多的關注。《著云臺》的分析師團隊認為,大數據(Big data)通常用來形容一個公司創造的大量非結構化數據和半結構化數據,這些數據在下載到關系型數據庫用于分析時會花費過多時間和金錢。大數據分析常和云計算聯系到一起,因為實時的大型數據集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。
大數據結構
大數據包括結構化、半結構化和非結構化數據,非結構化數據越來越成為數據的主要部分。據IDC的調查報告顯示:企業中80%的數據都是非結構化數據,這些數據每年都按指數增長60%。[7] 大數據就是互聯網發展到現今階段的一種表象或特征而已,沒有必要神話它或對它保持敬畏之心,在以云計算為代表的技術創新大幕的襯托下,這些原本看起來很難收集和使用的數據開始容易被利用起來了,通過各行各業的不斷創新,大數據會逐步為人類創造更多的價值。
其次,想要系統的認知大數據,必須要全面而細致的分解它,著手從三個層面來展開:
第一層面是理論,理論是認知的必經途徑,也是被廣泛認同和傳播的基線。在這里從大數據的特征定義理解行業對大數據的整體描繪和定性;從對大數據價值的探討來深入解析大數據的珍貴所在;洞悉大數據的發展趨勢;從大數據隱私這個特別而重要的視角審視人和數據之間的長久博弈。
第二層面是技術,技術是大數據價值體現的手段和前進的基石。在這里分別從云計算、分布式處理技術、存儲技術和感知技術的發展來說明大數據從采集、處理、存儲到形成結果的整個過程。
第三層面是實踐,實踐是大數據的最終價值體現。在這里分別從互聯網的大數據,政府的大數據,企業的大數據和個人的大數據四個方面來描繪大數據已經展現的美好景象及即將實現的藍圖。
大數據特點
大數據分析相比于傳統的數據倉庫應用,具有數據量大、查詢分析復雜等特點。《計算機學報》刊登的“架構大數據:挑戰、現狀與展望”一文列舉了大數據分析平臺需要具備的幾個重要特性,對當前的主流實現平臺——并行數據庫、MapReduce及基于兩者的混合架構進行了分析歸納,指出了各自的優勢及不足,同時也對各個方向的研究現狀及作者在大數據分析方面的努力進行了介紹,對未來研究做了展望。
大數據的4個“V”,或者說特點有四個層面:第一,數據體量巨大。從TB級別,躍升到PB級別;第二,數據類型繁多。前文提到的網絡日志、視頻、圖片、地理位置信息等等。第三,數據的來源,直接導致分析結果的準確性和真實性。若數據來源是完整的并且真實最終的分析結果以及決定將更加準確。第四,處理速度快,1秒定律。最后這一點也是和傳統的數據挖掘技術有著本質的不同。業界將其歸納為4個“V”——Volume(大量)、Velocity(高速)、Variety(多樣)、Veracity(真實性)
從某種程度上說,大數據是數據分析的前沿技術。簡言之,從各種各樣類型的數據中,快速獲得有價值信息的能力,就是大數據技術。明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業的潛力。
大數據技術十大核心原理
1.數據核心原理:從“流程”核心轉變為“數據”核心
大數據時代,計算模式也發生了轉變,從“流程”核心轉變為“數據”核心。Hadoop體系的分布式計算框架已經是“數據”為核心的范式。非結構化數據及分析需求,將改變IT系統的升級方式:從簡單增量到架構變化。大數據下的新思維——計算模式的轉變。
科學進步越來越多地由數據來推動,海量數據給數據分析既帶來了機遇,也構成了新的挑戰。大數據往往是利用眾多技術和方法,綜合源自多個渠道、不同時間的信息而獲得的。為了應對大數據帶來的挑戰,我們需要新的統計思路和計算方法。
2.據價值原理:有功能是價值轉變為數據是價值
大數據真正有意思的是數據變得在線了,這個恰恰是互聯網的特點。非互聯網時期的產品,功能一定是它的價值,今天互聯網的產品,數據一定是它的價值。
數據能告訴我們,每一個客戶的消費傾向,他們想要什么,喜歡什么,每個人的需求有哪些區別,哪些又可以被集合到一起來進行分類。大數據是數據數量上的增加,以至于我們能夠實現從量變到質變的過程。
3.全樣本原理:從抽樣轉變為需要全部數據樣本
需要全部數據樣本而不是抽樣,你不知道的事情比你知道的事情更重要,但如果現在數據足夠多,它會讓人能夠看得見、摸得著規律。
數據這么大、這么多,所以人們覺得有足夠的能力把握未來,對不確定狀態的一種判斷,從而做出自己的決定。這些東西我們聽起來都是非常原始的,但是實際上背后的思維方式,和我們今天所講的大數據是非常像的。
4.關注效率原理:由關注精確度轉變為關注效率
關注效率而不是精確度,大數據標志著人類在尋求量化和認識世界的道路上前進了一大步,過去不可計量、存儲、分析和共享的很多東西都被數據化了,擁有大量的數據和更多不那么精確的數據為我們理解世界打開了一扇新的大門。大數據能提高生產效率和銷售效率,原因是大數據能夠讓我們知道市場的需要,人的消費需要。大數據讓企業的決策更科學,由關注精確度轉變為關注效率的提高,大數據分析能提高企業的效率。
競爭是企業的動力,而效率是企業的生命,效率低與效率高是衡量企來成敗的關鍵。一般來講,投入與產出比是效率,追求高效率也就是追求高價值。手工、機器、自動機器、智能機器之間效率是不同的,智能機器效率更高,已能代替人的思維勞動。智能機器核心是大數據制動,而大數據制動的速度更快。在快速變化的市場,快速預測、快速決策、快速創新、快速定制、快速生產、快速上市成為企業行動的準則,也就是說,速度就是價值,效率就是價值,而這一切離不開大數據思維。
5.關注相關性原理:由因果關系轉變為關注相關性
關注相關性而不是因果關系,社會需要放棄它對因果關系的渴求,而僅需關注相關關系,也就是說只需要知道是什么,而不需要知道為什么。這就推翻了自古以來的慣例,而我們做決定和理解現實的最基本方式也將受到挑戰。
6.預測原理:從不能預測轉變為可以預測
大數據的核心就是預測,大數據能夠預測體現在很多方面。大數據不是要教機器像人一樣思考,相反,它是把數學算法運用到海量的數據上來預測事情發生的可能性。正因為在大數據規律面前,每個人的行為都跟別人一樣,沒有本質變化,所以商家會比消費者更了消費者的行為。
7.信息找人原理:從人找信息,轉變為信息找人
互聯網和大數據的發展,是一個從人找信息,到信息找人的過程。先是人找信息,人找人,信息找信息,現在是信息找人的這樣一個時代。信息找人的時代,就是說一方面我們回到了一種最初的,廣播模式是信息找人,我們聽收音機,我們看電視,它是信息推給我們的,但是有一個缺陷,不知道我們是誰,后來互聯網反其道而行,提供搜索引擎技術,讓我知道如何找到我所需要的信息,所以搜索引擎是一個很關鍵的技術。
大數據還改變了信息優勢。按照循證醫學,現在治病的第一件事情不是去研究病理學,而是拿過去的數據去研究,相同情況下是如何治療的。這導致專家和普通人之間的信息優勢沒有了。原來我相信醫生,因為醫生知道的多,但現在我可以到谷歌上查一下,知道自己得了什么病。
8.機器懂人原理:由人懂機器轉變為機器更懂人
不是讓人更懂機器,而是讓機器更懂人,或者說是能夠在使用者很笨的情況下,仍然可以使用機器。甚至不是讓人懂環境,而是讓我們的環境來懂我們,環境來適應人,某種程度上自然環境不能這樣講,但是在數字化環境中已經是這樣的一個趨勢,就是我們所在的生活世界,越來越趨向于它更適應于我們,更懂我們。哪個企業能夠真正做到讓機器更懂人,讓環境更懂人,讓我們隨身攜帶的整個的生活世界更懂得我們的話,那他一定是具有競爭力的了,而“大數據”技術能夠助我們一臂之力。
9.電子商務智能原理:大數據改變了電子商務模式,讓電子商務更智能
商務智能,在今天大數據時代它獲得的重新的定義。例如:傳統企業進入互聯網,在掌握了“大數據”技術應用途徑之后,會發現有一種豁然開朗的感覺,就像在黑屋子里面找東西,找不著,突然碰到了一個開關,發現那么費力的找東西,原來很容易找得到。大數據思維,事實上它不是一個全稱的判斷,只是對我們所處的時代某一個緯度的描述。
大數據時代不是說我們這個時代除了大數據什么都沒有,哪怕是在互聯網和IT領域,它也不是一切,只是說在我們的時代特征里面加上這么一道很明顯的光,從而導致我們對以前的生存狀態,以及我們個人的生活狀態的一個差異化的一種表達。
10.定制產品原理:由企業生產產品轉變為由客戶定制產品
下一波的改革是大規模定制,為大量客戶定制產品和服務,成本低、又兼具個性化。比如消費者希望他買的車有紅色、綠色,廠商有能力滿足要求,但價格又不至于像手工制作那般讓人無法承擔。因此,在廠家可以負擔得起大規模定制帶去的高成本的前提下,要真正做到個性化產品和服務,就必須對客戶需求有很好的了解,這背后就需要依靠大數據技術。
在互聯網大數據的時代,商家最后很可能可以針對每一個顧客進行精準的價格歧視。我們現在很多的行為都是比較粗放的,航空公司會給我們里程卡,根據飛行公里數來累計里程,但其實不同顧客所飛行的不同里程對航空公司的利潤貢獻是不一樣的。所以有一天某位顧客可能會收到一封信,“恭喜先生,您已經被我們選為幸運顧客,我們提前把您升級到白金卡。”這說明這個顧客對航空公司的貢獻已經夠多了。有一天銀行說“恭喜您,您的額度又被提高了,”就說明錢花得已經太多了。
大數據用途
大數據可分成大數據技術、大數據工程、大數據科學和大數據應用等領域。目前人們談論最多的是大數據技術和大數據應用。工程和科學問題尚未被重視。大數據工程指大數據的規劃建設運營管理的系統工程;大數據科學關注大數據網絡發展和運營過程中發現和驗證大數據的規律及其與自然和社會活動之間的關系。
物聯網、云計算、移動互聯網、車聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數據來源或者承載的方式。
有些例子包括網絡日志,RFID,傳感器網絡,社會網絡,社會數據(由于數據革命的社會),互聯網文本和文件;互聯網搜索索引;呼叫詳細記錄,天文學,大氣科學,基因組學,生物地球化學,生物,和其他復雜和/或跨學科的科研,軍事偵察,醫療記錄;攝影檔案館視頻檔案;和大規模的電子商務
評論
查看更多