色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

大數據涉及的技術理論和資源工具

汽車玩家 ? 來源:今日頭條 ? 作者:北方數據中心 ? 2020-03-22 17:40 ? 次閱讀

大數據涉及的技術領域

1 研究業務的技術特性要求

大數據相關技術和資源眾多,先從市場研究的業務特點來分析其對技術性的一些要求:

1. 數據規模而言,因為客戶主要偏傳統企業客戶(非互聯網類),受其業務限制,可分析的大數據規模不會超過百億/TB級,不像互聯網企業達到千億/PB級。

2. 數據格式還是以結構化數據為主,部分非結構化文本(如互聯網/社交方面為主)。

3. 處理模式上,因為分析過程是多次迭代和不斷深入,不需要實時出結論,所以離線非實時、批量化/AdHoc結合的OLAP分析是主要模式。這個和很多互聯網企業的實時大數據業務要求不同。

4. 分析的屬性維度多樣,經常變化,關注整體特性。所以對數據管理中的多字段檢索和匯總統計的能力要求較高。

基于以上的技術要求,我們來討論研究業務適合的技術理論與資源。

2主要技術理論

在整個大數據相關技術體系中,研究公司大數據業務涉及的技術領域主要如下:

分布式計算(Distributed computing)

在大數據領域,大部分數據存儲和高速計算都離不開分布式計算。日常生活中,我們一臺電腦可完成所有計算和數據存儲,當覺得不夠用時,通常是更換更快的CPU和更大硬盤來解決。但當計算速度和存儲要求越來越高時(如大數據環境下對TB甚至PB級數據管理計算),這種通過提升單臺服務器性能的集中模式會導致服務器(如使用該運營商話單計費、銀行交易系統的小型機)成本極為昂貴,且最終可能仍然無法滿足要求。另外一種思路,則是將大的計算需求分攤到多臺計算機一起來完成(如同一個大卡車的載貨被分到很多臺小卡車來運輸一樣)。相應的分布式計算(包括存儲)就是通過多臺(成千上萬甚至百萬)廉價、低性能服務器來實現超高的計算存儲能力。在分布式計算系統中,任何計算和存儲請求,被自動分為多個小的任務,分攤到各服務器上并行完成。同時,數據分布在多個服務器節點并有備份,這樣即使部分服務器損壞并不影響系統運行。

相比集中模式,分布式計算成本和門檻更低,易擴展并具高可靠性。成為近10年來IT體系架構最重要的技術,支撐起了整個互聯網的數據和業務,也是云計算和大數據的支撐技術之一。

機器學習(Machine Learning)

如果說分布式計算是IT體系架構的明星,那機器學習就是智能數據分析的利器了。作為人工智能的核心研究領域之一,機器學習是為了讓計算機通過經驗(先驗知識數據)來模仿人類的學習能力,從而獲得計算機系統能力的提升。上世紀末,隨著統計學習理論出現和發展,機器學習從IT技術逐步擴展為一種交叉學科,在很多非IT領域也得到廣泛應用。雖然相關算法在理論上需要較多的知識背景,但不要覺得它是多么高大上,比如研究行業常用到的決策樹、分類(有監督學習)和聚類(無監督學習),實際都是機器學習的算法子集(其他常用的還有Bayes網絡、支持向量機和神經元網絡等)。基于訓練-建模-分類-優化的迭代生成模式,使得機器學習在實際的分析性能和模型適用性方面,具有較大的優勢。近兩年來,基于多層神經網絡深度學習(Deep Learning)理論在一些領域(自然語言、音視頻識別)具有突出的表現,有望進一步推動機器學習的深入分析能力。

大數據領域,機器學習由于其在數據分析方面的先天優勢能力,當仁不讓的成為相關數據分析的核心技術。該方面的技術水平成為當前衡量大數據分析能力的重要標志。

自然語言處理(Natural Language Process)

大數據的多種數據中,非結構化數據日趨龐雜和重要,其代表就是自然語言形式的語義內容(搜索、新聞、社交媒體、電商評論等),而對其內容的分析(如文本挖掘)離不開自然語言處理技術。相關學術學科叫計算語言學,作為計算機與語言的交叉學科,它以統計性、量化的方式來研究語言的規律。自然語言處理涉及分詞、詞法、句法、語法、語義分析等多個層面,相當復雜。而當前商業性應用,中文的主要集中在分詞、詞頻統計、關鍵特征抽取等淺層分析、情感傾向與主題模型(如LDA/PLSA等)和機器翻譯等方面。傳統研究業務中,也可用于開放題/討論文本的自動分析編碼。實際上,NLP的應用領域應該可以更大。舉一個有趣的例子,曹雪芹的《紅樓夢》最后40章常被認為是高鶚續作,但相關觀點的紅學家/語言學家并不能有效證明。借助計算語言學,可對前80章和后40章的內容進行分析(包括用詞習慣、句法、文法等等),可得到兩部分文章在行文風格的多種量化指標,通過其差異就能判斷是否為不同的作者。計算語言學的理論基礎感覺近年來進展不大,但深度學習近來的表現有望幫助其在應用性能方面有所提升。

數據挖掘(Data Mining)

數據挖掘在非大數據時代(海量數據)就已經廣泛使用(如CRM的用戶分析、產品關聯分析)。嚴格的說,其并不算是一種技術,而是一種分析模式:綜合利用機器學習、數據庫技術和自然語言處理等多種技術方法,從數據中獲得相關的結果。在大數據時代,雖然數據的挖掘往往意味著數據金礦,但筆者認為,挖掘技術必須與業務分析思路緊密結合,才會發揮出較大的價值。

其他關鍵技術

在大數據時代,互聯網社交媒體數據(尤其是用戶間的關系數據)體現出了前所未有的價值。對上億用戶錯綜復雜的關系網絡的快速分析,正是圖計算理論擅長之處。圖計算作為新興的技術理論,主要聚焦節點之間關系的深度研究,其不僅在社交用戶分析上價值很大,在惡意欺詐檢測、生命科學等領域都有巨大應用前景。

而隨著音視頻數據的日益普及和傳播,針對此類大數據的處理(比如語音識別/圖像、視頻識別分析)技術,也在大數據業務中逐步開始使用。這些其實都是模式識別(Pattern Recognition)技術的應用,核心問題是特征(維度較高)的抽取和相似/匹配性比較。

3主要技術資源與工具

在前面了解的技術理論之上,我們進一步介紹大數據業務中可使用的技術資源和工具。相關說明按業務流程順序展開,以主流、免費的開源資源為主

(1)分布式計算框架

分布式計算框架用于完成分布式計算所需的底層任務管理和調度等核心工作,是大數據計算體系結構的基石。

(2)數據管理

數據管理主要包括存儲和快速檢索。大數據環境中,研究業務相關的數據更多以數據庫而不是文件方式存儲,所以這里主要介紹幾類數據庫的選擇

(3)處理與計算

市場研究行業大數據業務中,分析相關的數據計算技術是最重要的技術內容,主要集中在以下幾個領域:

并行機器學習(Mahout /Spark MLLib)機器學習本已是數據計算利器,而基于分布式的并行機器學習框架則將其能力又大大增強。Mahout中實現了大量的機器學習算法(包括推薦算法)的并行版本(甚至有并行SVD這種高大上),是當前大數據機器學習的主要工具包。MLib基于Spark框架,在性能上有優勢,也開始受到廣泛的關注。

自然語言處理在中文自然語言處理領域,當前可用的免費開放資源并不多(分詞資源較多),一些開放資源主要來自學術院校(清華、中科院、復旦和哈工大等,相關內容不便列出,請自行查找),但在效果上面向工業應用尚有不足。當前常見方式是借助專業技術企業/院校合作獲得深入分析能力。

圖計算(GraphLab/Spark GraphX)如果有圖計算相關的需求可考慮采用這些開源資源。前者是當前最主流的圖計算框架,實現了圖數據的存儲和基礎計算邏輯。后者GraphX是Spark體系下的圖計算新貴。 R語言R語言作為統計性功能強大的計算語言,在傳統研究行業具有較大應用前景。同時其在可視化和開源支持方面也有一定優勢。如今R對Hadoop的支持也比較完善。對于熟悉R語言的研究公司,可從R語言更快切入大數據的計算領域。

(4)研究分析

在分析階段,考慮研究員將成為重要的角色,此時資源聚焦在研究員可以使用的各種工具上。以下是相關的一些內容:

Hive/Impala/Spark Sql分布式的大數據(數據倉庫)的分析工具,支持以傳統關系數據庫Sql語句進行大數據內容的檢索,大大降低了研究分析人員的大數據分析門檻,是適合數據分析/研究人員的最佳工具。Hive最早由Facebook開源,應用最廣,但性能最差。Impala在性能與穩定性的平衡較好,但限制較多。Spark Sql作為最新的工具,性能最強,但穩定性尚待完善。

TableAU 企業級大數據分析工具,多應用于世界500強企業內部業務分析,不過其是商業付費軟件。其優點是大數據下的可視化和方便性,研究人員使用比較容易。就實際應用體會上,感覺更適合企業級內部數據、億級以下的結構化大數據的場景。分析維度主要是統計性維度,可分析深度相對不足。

SPSS Modeler IBM的商用數據挖掘工具,對大數據支持能力不如TableAU(與其計算復雜度相關),其特點是提供專業的數據挖掘算法,研究中適合做深度/非統計性研究。

Gephi可視化分析如果要做一些傳播關系的圖形化分析,那不妨考慮Gephi。其支持多種可視化分析圖生成。不過在較大數據量(比如2萬節點以上)時性能下降較快,所以最好對數據預先做相關平滑和剪枝。

可視化開發框架數據可視化是大數據的一個特色,但這里放到研究分析來說明,是因為可視化技術的價值是幫助更有效的分析,不是花哨的展示。當前國內百度EChart(2.0以上版本)的易用性和功能相對不錯(就是感覺樣式配色不夠專業),國外基于D3框架的應用更能體現可視化的價值(效果強大,但開發比較麻煩)。桌面辦公軟件中,微軟GeoFlow支持Excel的Bing地圖可視化。其他還有很多各有特色的可視化框架,不再一一介紹了。

經過以上內容,想必研究同行們對大數據相關技術已經有了基本的認識。如果要想在大數據業務服務中發揮自身價值,研究人員除了轉變方法論思路外,還要注意提升自身的技術能力。 傳統研究業務中,研究員太依賴DP和其他IT人員進行數據計算處理,自身沒有任何技術能力。大數據業態下,技術性分析與傳統研究將緊密結合,技術手段的使用程度深入影響數據洞察的深度。研究員如果熟悉相關技術手段(至少分析工具的使用),將會極大擴展自身的分析能力。既熟悉大數據處理技術,又懂得研究業務思路的復合人才—數據科學家,將是未來數據分析業務的王者。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 大數據
    +關注

    關注

    64

    文章

    8884

    瀏覽量

    137419
收藏 人收藏

    評論

    相關推薦

    使用ads131a04過程中,實際采集得到的最大數據約為理論的1.8倍,為什么?

    長度,所以理論采集數據最大輸出為32768/2.5*0.7=9175,但是實際采集得到的最大數據為16832,約為理論的1.8倍,adc時鐘為16.384M,a_sys_cfg=x\"
    發表于 12-17 08:07

    大數據的3V、4V、7V,到底是什么意思?

    大數據,顧名思義,就是大量的數據。更專業來說,大數據,是一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據軟件工具能力范圍的
    的頭像 發表于 12-06 01:01 ?148次閱讀
    <b class='flag-5'>大數據</b>的3V、4V、7V,到底是什么意思?

    人工智能云計算大數據三者關系

    人工智能、云計算與大數據之間的關系是緊密相連、相互促進的。大數據為人工智能提供了豐富的訓練資源和驗證環境;云計算為大數據和人工智能提供了強大的支撐平臺;而人工智能則通過智能化應用推動了
    的頭像 發表于 11-06 10:03 ?423次閱讀

    emc技術大數據分析中的角色

    大數據分析通常涉及來自多個來源和格式的數據。這些數據可能包括結構化數據(如數據庫中的表格
    的頭像 發表于 11-01 15:22 ?270次閱讀

    物聯網和大數據的關系

    在數字化時代,數據已成為一種新的資源,它不僅驅動著經濟的發展,也在改變著我們的生活方式。物聯網(IoT)和大數據(Big Data)作為兩個關鍵的技術趨勢,它們之間的關系日益緊密,共同
    的頭像 發表于 10-29 10:20 ?459次閱讀

    智慧城市與大數據的關系

    的建設需要對海量的數據資源進行收集、整合、存儲與分析。大數據技術的應用,如智能感知、分布式存儲等,使得這些數據能夠被高效地處理和利用。 決策
    的頭像 發表于 10-24 15:27 ?635次閱讀

    基于Kepware的Hadoop大數據應用構建-提升數據價值利用效能

    處理超大數據集。 Hadoop的生態系統非常豐富,包括許多相關工具技術,如Hive、Pig、HBase等,這些工具可以方便地構建復雜的大數據
    的頭像 發表于 10-08 15:12 ?150次閱讀
    基于Kepware的Hadoop<b class='flag-5'>大數據</b>應用構建-提升<b class='flag-5'>數據</b>價值利用效能

    大數據在軍事方面的應用

    決策支持:大數據技術為戰爭決策提供了全新的思路和工具。軍事機關指揮系統通過搜集和分析大量的戰場數據,可以建立復雜的決策模型,快速分析敵我態勢,評估作戰可行性,并推薦最優的戰術方案。這
    的頭像 發表于 07-16 09:44 ?1063次閱讀

    大數據采集系統分為幾類

    和應用場景. 1. 概述 大數據采集系統是實現數據收集、處理和存儲的關鍵環節。隨著大數據技術的快速發展,大數據采集系統也在不斷演進和創新。本
    的頭像 發表于 07-01 15:44 ?1503次閱讀

    大數據在軍事方面的應用有哪些

    大數據技術為戰爭決策提供了全新的思路和工具。軍事機關指揮系統通過搜集和分析大量的戰場數據,可以建立復雜的決策模型,快速分析敵我態勢,評估作戰可行性,并推薦最優的戰術方案。 利用
    的頭像 發表于 06-23 10:34 ?1011次閱讀

    技術數據中心的應用:如何節省資源和成本

    隨著信息技術的快速發展,虛擬化技術已經成為現代數據中心設計和運維不可或缺的一部分。它不僅體現了技術的趨勢,還為數據中心帶來了顯著的
    的頭像 發表于 06-03 15:39 ?347次閱讀
    <b class='flag-5'>技術</b>在<b class='flag-5'>數據</b>中心的應用:如何節省<b class='flag-5'>資源</b>和成本

    簡析大數據技術下智能充電樁在網絡系統中的應用

    簡析大數據技術下智能充電樁在網絡系統中的應用 張穎姣 安科瑞電氣股份有限公司?上海嘉定 201801 摘要:*近幾年來隨著我國經濟社會的飛速發展,各方面實力都有了明顯的提升,尤其是步入21世紀以來
    的頭像 發表于 02-26 10:57 ?447次閱讀
    簡析<b class='flag-5'>大數據</b><b class='flag-5'>技術</b>下智能充電樁在網絡系統中的應用

    Linux 基于centos7 在局域網內部署的可組態大數據展示平臺

    E-Control基于centos7 在局域網內部署的可組態大數據展示平臺,通過瀏覽器操作組態工具、瀏覽組態畫面,實現工程管理、組態編輯、工業設備采集以及組態運行三大功能。采用標準HTML5技術
    發表于 02-25 00:26

    數據挖掘的應用領域,并舉例說明

    數據挖掘(Data Mining)是一種從大量數據中提取出有意義的信息和模式的技術。它結合了數據庫、統計學、機器學習和人工智能等領域的理論
    的頭像 發表于 02-03 14:19 ?3084次閱讀

    大數據技術是干嘛的 大數據核心技術有哪些

    大數據技術是指用來處理和存儲海量、多類型、高速的數據的一系列技術工具。現如今,大數據已經滲透到
    的頭像 發表于 01-31 11:07 ?3423次閱讀
    主站蜘蛛池模板: 六级黄色片| 亚洲伊人久久一次| 久久久大香菇| 凤楼app| 亚洲色欲国产免费视频| 日本19xxxx撤尿| 久久免费看少妇高潮A片JA| 国产成人啪精视频精东传媒网站| 中文字幕精品在线视频| 五月丁香婷姐色| 日本午夜看x费免| 蜜柚视频在线观看全集免费观看| 国产婷婷午夜无码A片| 大香交伊人| pkf女尸studiosxnxx| 在线少女漫画| 亚洲色图在线观看视频| 午夜AV内射一区二区三区红桃视 | 小蝌蚪视频在线观看免费观看WWW 小货SAO边洗澡边CAO你动漫 | 成年人国产视频| 18禁在线无遮挡羞羞漫画| 亚洲精品m在线观看| 日产2021免费一二三四区在线| 麻豆沈芯语| 久久久青青| 久久国产精品永久网站| 狠狠干女人| 含羞草在线| 和I儿媳妇激情| 国产人A片777777久久| 国产 日韩 欧美 综合 激情 | 久久视频精品38线视频在线观看| 国产午夜精品理论片在线| 国产精品久久久久久精品...| youjizz怎么看| 99久久精品久久久久久清纯| 中国xxx视频| 做a爱片的全过程| 最近中文字幕完整版高清| 在线欧美精品一区二区三区| 诱受H嗯啊巨肉舍友1V1|