(文章來源:網絡整理)
什么是數據?數據有狹義和廣義之分。狹義的數據就是我們說的一些數字,比如我們學習過程中的物理、化學等實驗數據,國家GDP等各種統計數據。廣義的數據包括任意形式的信息,比如我們每個人的個人的姓名、年齡、家庭情況、學歷等基本信息,還包括我們所能記錄和查詢的所有信息,如圖紙、視頻、音頻等。
我們所要談論的是廣義上的數據。數據不僅在科學研究中,而且在生活的方方面面都很重要,它已經成為我們日常決策的重要依據。數據可以說伴隨真我們的一生。遠古時代的結繩記事等就是最原始的數據傳遞方式。人類的文明與進步,從某種意義上講是通過對數進行收集、處理和總結而達成的。
“大數據”是怎么一回事呢?它就是我們字面意思理解的“大量的數據”嗎?如果不是,這兩者又有什么聯系和區別呢?大數據是隨著信息技術的發展而興起的,當數據的計算和存儲不再是問題時,人們發現超大量的數據會給我們決策帶來驚喜,這才有了更多的人研究和應用大數據。
首先,大數據的數據量肯定是非常大的,但光是量大還不能稱之為大數據。比如我們做結構有限元分析的實驗數據,往往計算過程就需要幾天甚至幾周,數據量也很大,但是不能算是大數據。大數據對數據最基本的要求是數據的多維度和完備性,要將原本看似毫無聯系的事物聯系起來,達到對事物全方位的完整描述,以便做出更科學的決策。
與數據相比,大數據的核心就是大數據是對收集掌握的各個維度的數據的再處理和分析。沒有經過科學收集和處理的數據只是客觀存在,大數據可以理解為是一種決策能力的體現。
大數據(big data,mega data)或稱巨量資料,指的是需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產。 在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數據進行分析處理。大數據的5V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值密度)、Veracity(真實性)。
理解了數據和大數據的聯系和區別后,我們再來看看由數據到大數據應用過程和數學基礎。有了數據之后,如何科學地使用數據,就要用到一門應用科學——統計學。
非數學專業在大學有一門課程叫《概率和統計》,但其實概率論和統計學雖然緊密相連,卻是獨立發展的。概率論是研究隨機現象數量規律的數學分支;統計學是通過收集、整理、分析數據等手段,通過特定的數學模型和數學計算,以用來推測所測對象的本質,甚至預測對象未來的一門綜合性科學。
比如我們在上篇文章中討論的人工智能,數字人工智能中,如果沒有足夠多的數據供機器深度學習,得到的結果就會有很大的不確定性,那它跟仿生人工智能相比就不會有很大的進步。為什么數據要足夠大且全面呢?舉個簡單的例子。
我們現在對著馬路上的車輛進行統計,主要對國產和進口兩個數據維度進行統計。如果半個小時之內,過去了100輛車,其中50臺進口車,我們不能說進口車已經占50%,顯然這個結論是有非常大的誤差的。我們以這個調查來對但假如我們改變數據來源和數據的統計維度,從國家層面的車管所收集數據,比如2018年進口車占銷量的4%,這個數據對企業決策就有比較大的參考意義。
這個例子比較特殊。如果數據具有代表性,統計量又足夠,統計維度又比較科學,那么從這些數據中得到的統計結果,對我們的工作和生活就有意義,不然充其量就是大量的數據,而失去了數據存在的意義。
目前,大數據已經在我們生活中起著巨大的作用。政府層面:宏觀經濟調控、公共衛生安全防范、社會輿論監督、智慧交通管理;生活方面:醫療疾病風險跟蹤、公司運營成本節省、售后服務質量提升、運輸車輛的故障險情以提前預警維修、用戶商品推薦和服務、個人旅游、二手市場買賣等等。
毫不夸張地說,大數據創造了一種新的生活和商業模式,給人們提供了前所未有的便捷,甚至在網絡政務方面創造眾多奇跡。大數據已經被當作一種核心資產和商業模式,被不同程度地進行著挖掘,隨之帶來了個人隱私和安全問題。
你剛剛搜索一個關鍵詞,比如“手表”,你的瀏覽器甚至一些應用APP就開始頻繁地向你推薦各類手表廣告信息,難道你的手機這么懂你的“心思”?當然不是,你剛剛的搜索信息被收集并馬上被應用到你的手機上了。是不是有點赤裸裸的感覺!個人信息安全相關法律法規亟需出臺。大數據既帶來了創新,也帶來了挑戰,數據的應用需要有一定的約束,需要相關法律法規進行有效地引導和管理。
(責任編輯:fqj)
-
數字技術
+關注
關注
0文章
334瀏覽量
25380 -
大數據
+關注
關注
64文章
8904瀏覽量
137625
發布評論請先 登錄
相關推薦
評論