色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

數據湖是什么

1.為什么出現數據湖？

支撐業務的IT軟件系統最簡單的數據鏈路是：操作業務APP的界面或者調用其API 接口，將交易數據記錄到關系型數據庫中。

說其簡單，是因為這樣的系統能夠支撐業務交易。業務APP上的每筆交易數據都會記錄在數據庫中。

這對業務交易員來說，已經足夠了。但對業務管理者來說，期望看到的是“自己關心的、宏觀的、能夠反應歷史變化的數據”，并且最好是可視化的界面，一目了然。

于是，“數據倉庫”出現了，它就是一個面向主題的、集成的、反映歷史變化的數據集合。

那么，數據是如何從業務數據庫到達數據倉庫的呢？

首先，要理解的是業務數據庫和數據倉庫的Schema（表結構）大部分情況下是不同的，前者用來記錄實時交易信息，后者用來記錄歷史匯總信息。

其次，表結構的不同，就需要進行數據處理的三板斧--“抽取、轉換和加載”，即Extract-Transform-Load，簡稱ETL。具體來說就是抽取管理者關心的（面向主題）、轉換數據、加載到數據倉庫中。

最后，根據業務規則，提取數據倉庫中的數據進行可視化提取與展示（報表）。

數據倉庫的使用思路是：業務管理者知道“自己關心哪些數據”，在創建數據倉庫時，便可以將這些數據提取并記錄下來。這樣，數據倉庫記錄的是經過加工過的數據，而非原始數據。

注意到數據倉庫的數據是結構化的。對于半結構化（CSVXMLJSON）和非結構化（e-mail文檔）的數據來說，也蘊含著有價值的信息，同樣需要分析，或者現在不知道怎么分析，也可以先存儲起來。

那么就需要有一種方法：不但可以存儲原始數據，也可以存儲結構化、半結構化、非結構化的數據，并且還能支撐數據的分析。

時勢的呼喚下，“數據湖（Data Lake）”便產生了。

2.數據湖是什么？

數據湖是一個以原始格式存儲數據的存儲庫或系統。

“數據”可以是各種格式的，結構化、半結構化的、非結構化的。并且數據是未經加工的，像大自然的水，流入到“湖”中。也就是數據的存儲，無需像數據倉庫那樣事先設計Schema，也無需事先有明確的分析需求（有了想法，再延遲分析，稱為讀時模式Schema-On-Read）。

3.數據湖如何實現？

數據湖是一種方法論，探討如何以原始形態存儲各種格式的數據，并能支持后續的分析。

數據湖的開源實現有：Hadoop、Delta、Apache Iceberg 和 Apache Hudi。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

數據庫

數據庫

+關注

關注
7

文章
3794

瀏覽量
64362
數據鏈路

數據鏈路

+關注

關注
0

文章
25

瀏覽量
8940
軟件系統

軟件系統

+關注

關注
0

文章
62

瀏覽量
9501
API接口

API接口

+關注

關注
1

文章
84

瀏覽量
10437

數據湖是什么

點擊“藍字”關注我們來源 |談數據作者丨石秀峰一、認識數據湖1、初識數據湖Data lake，筆者第一次接觸這個概念，是在2014年IBM組

發表于 07-12 08:14

數據湖的定義是什么？如何去構建數據湖？

數據湖的定義是什么？數據湖與數據倉庫的區別在哪？如何去構建數據

發表于 07-12 07:04

數據湖可以用來解決大數據的挑戰嗎

數據湖是機器學習和人工智能的強大基礎），因為它們在大型，多樣化的數據集上蓬勃發展。

發表于 02-25 09:01 ?766次閱讀

<b class='flag-5'>數據</b><b class='flag-5'>湖</b>可以用來解決大<b class='flag-5'>數據</b>的挑戰嗎

數據湖是什么，它的快速搭建方法介紹

數據湖概念最早是在2011年提出，到現在也就9年左右的時間，算是一個較新的概念。雖然各方理解上有些差異，也存在一些爭議，但概念不重要，關鍵是否能真正幫助企業解決在業務快速發展過程中不斷遭遇的新問題。

發表于 04-03 20:38 ?4218次閱讀

AWS數據湖怎么脫穎而出的

在AWS 數據湖平臺中有很多非常出色的組件，可以幫助用戶解決數據湖中典型的挑戰。比如，Amazon EMR大數據處理組件，可以在AWS上輕松

發表于 04-12 19:34 ?1976次閱讀

結合阿里云上的EMR JindoFS優化和實踐，數據湖怎么玩“加速”？

那么為什么需要湖加速呢？這和數據湖架構分層，以及相關技術演進具有很大關系。接下來，我們從三個方面的介紹來尋找答案。分別是：基礎版，要適配;標配版，做緩存;高配版，深度定制。JindoFS同時涵蓋這三個層次，實現

發表于 09-16 11:56 ?2342次閱讀

結合阿里云上的EMR JindoFS優化和實踐，<b class='flag-5'>數據</b><b class='flag-5'>湖</b>怎么玩“加速”？

阿里云為什么要重構數據湖解決方案主推下一代技術

數據湖并不是一個新概念，大概在十多年前，從有Hadoop開始，就有很多人提出這樣的設想。面對海量數據增長，要想挖掘數據價值，首先得有一個能夠存儲各類

發表于 11-11 14:38 ?1133次閱讀

阿里云宣布推出業內首個云原生企業級數據湖解決方案

據悉，阿里云云原生企業級數據湖解決方案采用了存儲計算分離架構，基于阿里云對象存儲OSS構建，并與阿里云數據湖分析Data Lake Analytics（DLA）、

發表于 12-21 14:07 ?2651次閱讀

虛擬化模型驅動的分布式數據湖架構設計

提出了適應工商聯業務服務對象分布廣、類型多、不確定性強等特點的虛擬化模型驅動的分布式數據湖構建方法，給岀了分布式數據湖的整體架構設計，定乂了適應分散、碎片化欻據收集場景的欻據虛擬仳模型

發表于 05-11 15:12 ?5次下載

易華錄提出面向數據湖的數據安全治理框架

在“十四五”規劃明確提出加快構建全國一體化大數據中心體系的背景下，易華錄數據湖以低能耗、跨領域、跨系統的特性提供了全新的技術架構。此外，《數據安全法》等法律法規的相繼出臺，對

發表于 04-22 08:23 ?2250次閱讀

數據湖生態與數據智能峰會來襲 24日易華錄有約

·數據湖生態與數據智能峰會來襲 6月24日易華錄有約 ? · ? · · ? · · ? · · ? · · ? ? ? ?

發表于 06-23 17:51 ?1462次閱讀

如何將SAP歸檔數據合并到數據湖中

存儲在傳統 SAP 歸檔解決方案中的數據無法幫助企業做出更好的商業決策 SAP系統已經存在了幾十年，與大多數本地（Hadoop)或基于云的（Google, Azure, AWS）數據湖不同。這就

發表于 02-14 09:50 ?862次閱讀

Azure Data Lake數據湖指南

Azure Data Lake Storage Gen2 (ADLS Gen2) 是用于大數據分析的高度可擴展且經濟高效的數據湖解決方案。隨著我們繼續與客戶合作，利用 ADLS Gen2 從他們

發表于 05-22 18:01 ?631次閱讀

數據湖真的能取代數據倉庫嗎？【SNP SAP數據轉型】

數據湖和數據倉庫的存在并不沖突，也并不是取代的關系，而是相互的融合關系。數據湖是近兩年中比較新的技術在大

發表于 07-03 15:48 ?555次閱讀

什么是數據湖？數據湖和數據倉庫有什么區別？

從本質上說，數據湖就是一個信息資源庫。人們常常將數據湖與數據倉庫混為一談，但兩者在架構和滿足的業務需求上都不一樣。尤其是，隨著社交媒體

發表于 05-20 12:38 ?606次閱讀

汽車電子技術
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 什么是光伏
Hot openai創始人是誰？openai是馬斯克的嗎？

New iPhone15機型基本敲定
New 中芯國際一季度凈利下滑44%產能利用率進一步下滑 2022年才實現年度最優業績

精選推薦
更多

文章

資料

帖子

折疊屏2024的新東西、好東西、舊東西

腦極體
1天前

562 閱讀

艾為車規氛圍燈驅動芯片AW23003QNR-Q1解析已過AEC-Q100認證

艾為之家
1天前

569 閱讀

使用Keithley源表進行DC-DC電源管理芯片效率測試

泰克科技
2天前

818 閱讀

Mate70首銷兩周超越前代！字節掀AI價格戰！本周熱點科技新聞點評

章鷹觀察
2天前

784 閱讀

基于英特爾開發板開發ROS應用

英特爾物聯網
2天前

440 閱讀

離散時間信號處理教材

韓利笑笑
22 MB

免費

0下載

電動頭圖紙

liuxin
150 KB

免費

399下載

一款開源的、高效的openharmony課程表控件教程

姚小熊27
0.96 MB

免費

1下載

mJS C/C++嵌入式javascript引擎

ejlwj
1.35 MB

免費

0下載

minimesos Mesos框架的測試平臺

mintsy
13.48 MB

2積分

2下載

【RA-Eco-RA4E2-64PIN-V1.0開發板試用】+小白折騰瑞薩RA系列全過程02

jf_80431208
1天前

156 閱讀

【敏矽微ME32G070開發板免費體驗】新建工程（MDK）

吉吉祥
2天前

333 閱讀

【RA-Eco-RA4E2-64PIN-V1.0開發板試用】按鍵點燈：使用輪詢方式和中斷方式實現

jf_64583430
2天前

291 閱讀

淺談加密芯片的一種破解方法和對應加密方案改進設計

jf_38636298
3天前

1064 閱讀

【RA-Eco-RA4E2-64PIN-V1.0開發板試用】4、Amazon FreeRTOS初探，第一個程序

lustao
3天前

2112 閱讀

推薦專欄
更多

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

數據湖是什么

評論

數據湖是什么

數據湖的定義是什么？如何去構建數據湖？

數據湖可以用來解決大數據的挑戰嗎

數據湖是什么，它的快速搭建方法介紹

AWS數據湖怎么脫穎而出的

結合阿里云上的EMR JindoFS優化和實踐，數據湖怎么玩“加速”？

阿里云為什么要重構數據湖解決方案主推下一代技術

阿里云宣布推出業內首個云原生企業級數據湖解決方案

虛擬化模型驅動的分布式數據湖架構設計

易華錄提出面向數據湖的數據安全治理框架

數據湖生態與數據智能峰會來襲 24日易華錄有約

如何將SAP歸檔數據合并到數據湖中

Azure Data Lake數據湖指南

數據湖真的能取代數據倉庫嗎？【SNP SAP數據轉型】

什么是數據湖？數據湖和數據倉庫有什么區別？