在线高清视频大全,污污的动态图合集,一个人看的视频观看免费高清

50億海量數據如何高效存儲和分析？

華為云數據庫GaussDB (for Cassandra) 3個秘訣搞定

當下，信息社會正在從互聯網時代走向物聯網時代，信息交互變得更加龐雜、高效和智能。對于互聯網公司和IOT企業來說，既是機遇，也是挑戰。因為，企業不可避免的要面對數據量劇增帶來的一系列問題：如何高效存儲和擴容，如何在對原有業務改動最小的情況下做到智能化和實時分析。

針對挑戰，華為云GaussDB (for Cassandra)為客戶提供了強擴展、高存儲、高效導入/導出和實時分析等一系列能力，并成功服務了眾多互聯網公司和IOT企業，獲得了客戶的高度認可和支持。本文將以其中一個客戶業務的痛點問題舉例，聊聊高效存儲和實時分析的3個秘訣。

海量存儲，PB級無感擴展

該用戶在線下本地化部署使用數據庫或者使用其他的存儲為云盤的數據庫時，常常需要在容量達到閾值時，提前規劃和申購存儲資源，可能還需要連帶擴容不必要的計算資源。而使用GaussDB (for Cassandra)之后，便再無此煩惱。GaussDB (for Cassandra)采用存算分離架構，可單獨擴展存儲，高效擴容，業務無感，最高可擴展到PB級。

此外，客戶為了做大數據分析，將數據庫中的數據再寫入一份到HDFS中，供MapReduce和Spark分析，同時需要維護兩套資源，維護和資源成本成為了痛點。而客戶使用GaussDB (for Cassandra)之后，可以僅采用GaussDB (for Cassandra)即可完成數據庫存儲和對接大數據分析的功能，同時GaussDB (for Cassandra)提供了更為易用的CQL接口，讓用戶更加專注功能開發，而不是資源管理。

數據變更捕獲和實時分析

客戶的一個使用場景需要將爬蟲或用戶輸入的數據，進行在線分析和實時推薦業務，該業務中全量數據達到了50億條，但增量數據不足5億，分析對象主要是每日新增數據。在這個場景中，GaussDB (for Cassandra)為客戶提供了streaming服務+實時分析解決方案，在損失小部分讀寫性能的前提下，客戶端無需改造即可做到數據讀寫和實時分析并行，解決方案如下圖，該解決方案主要有以下幾個階段：

1.客戶業務用過開源驅動寫入數據到GaussDB (for Cassandra)

2.GaussDB (for Cassandra)對外提供streaming接口，該接口可獲取數據變更捕獲

3.客戶構建的流服務組件讀取streaming接口數據寫入到指定的Kafka隊列

4.Kafka隊列將streaming數據寫入到Spark或者Flink中

5.客戶在Spark中可對增量數據做分析，也可合并之后做全量分析

全量數據導出分析

客戶的另一個業務需要周期性對全量數據進行分析和處理，但不想影響在線業務，希望在閑時處理。GaussDB (for Cassandra)提供了全量數據導出和分析解決方案，可在業務低峰期觸發任務進行數據導出和冷數據分析，數據導出速率是開源的10+倍，同時做到對業務讀寫基本無影響。如下為互聯網客戶每周定期導出數據分析用戶畫像的解決方案，該方案有以下幾個階段：

1.客戶根據需求配置ECS規格，并掛載obsfs并行文件系統

2.客戶在DLF上配置導出作業，包括ECS信息，導出參數和定時任務

3.CDM下發作業任務

4.ECS上的導出任務將GaussDB (for Cassandra)中的指定表指定條件的數據導出到obsfs

5.Spark從obsfs中讀取全量數據進行數據分析

通過這3個秘訣，華為云GaussDB (for Cassandra)完美解決了難擴展、高成本、變更不及時等問題，實現了海量數據的高效存儲和實時分析，為互聯網公司和IOT企業的數字化發展提供了更多可能。

審核編輯黃昊宇

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

華為云

華為云

+關注

關注
3

文章
2445

瀏覽量
17410

云數據庫和云主機哪個好一點？

云數據庫和云主機哪個好一點？云主機和云數據庫各有優勢，選擇哪個更好取決于具體需求。

發表于 12-04 13:50 ?106次閱讀

數據庫數據恢復—通過拼接數據庫碎片恢復SQLserver數據庫

一個運行在存儲上的SQLServer數據庫，有1000多個文件，大小幾十TB。數據庫每10天生成一個NDF文件，每個NDF幾百GB大小。

發表于 10-31 13:21 ?199次閱讀

<b class='flag-5'>數據庫</b><b class='flag-5'>數據</b>恢復—通過拼接<b class='flag-5'>數據庫</b>碎片恢復SQLserver<b class='flag-5'>數據庫</b>

有云服務器還需要租用數據庫嗎？

如果你的應用程序需要處理大量的數據，并且這些數據需要高效的查詢和分析能力，那么租用專業的數據庫服務可能是更好的選擇。這些服務通常提供了更高的

發表于 10-31 10:50 ?94次閱讀

云數據庫可以租用嗎？完整租用流程來了

云數據庫是可以租用的，這是一種合法且便捷的數據存儲和管理方式。云數據庫是

發表于 10-28 09:54 ?160次閱讀

一文講清什么是分布式云化數據庫！

分布式云化數據庫是一種先進的數據管理系統，它將傳統的數據庫技術與分布式計算、云計算和大數據處理技

發表于 10-14 10:06 ?218次閱讀

恒訊科技分析：云數據庫rds和redis區別是什么如何選擇？

云數據庫RDS（Relational Database Service）和Redis是兩種不同類型的數據庫服務，它們有各自的特點和適用場景： 1、數據模型：RDS是一種關系型

發表于 08-19 15:31 ?378次閱讀

基于分布式存儲WDS的金融信創云承載數據庫類關鍵應用

基于分布式存儲WDS的金融信創云承載數據庫類關鍵應用

發表于 08-16 09:42 ?269次閱讀

基于分布式<b class='flag-5'>存儲</b>WDS的金融信創<b class='flag-5'>云</b>承載<b class='flag-5'>數據庫</b>類關鍵應用

恒訊科技分析：sql數據庫怎么用？

。 2、安裝數據庫軟件：在您的服務器或本地計算機上安裝所選的數據庫軟件。 3、配置數據庫服務器：根據需要配置數據庫服務器設置，包括內存分

發表于 07-15 14:40 ?346次閱讀

數據庫數據恢復—raid5陣列上層Sql Server數據庫數據恢復案例

數據庫數據恢復環境： 5塊硬盤組建一組RAID5陣列，劃分LUN供windows系統服務器使用。windows系統服務器內運行了Sql Server數據庫，存儲空間在操作系統層面劃分

發表于 05-08 11:43 ?503次閱讀

<b class='flag-5'>數據庫</b><b class='flag-5'>數據</b>恢復—raid5陣列上層Sql Server<b class='flag-5'>數據庫</b><b class='flag-5'>數據</b>恢復案例

華為云GaussDB數據庫基礎版發布：旗艦性能、價格下降超60%

高性價比：相比企業版，華為云 GaussDB 基礎版價格大幅下調（降幅達 60%-70%），且支持全場景數據壓縮，具有“超高壓縮比”，性能影響僅為 5%-10%，

發表于 05-07 14:21 ?623次閱讀

時序數據庫是什么？時序數據庫的特點

時序數據庫是一種在處理時間序列數據方面具有高效和專門化能力的數據庫。它主要用于存儲和處理時間序列數據

發表于 04-26 16:02 ?633次閱讀

華為云多模數據庫 GeminiDB 架構與應用實踐直播問答實錄

多模數據庫作為一種新興的數據管理解決方案，正在受到越來越多的關注。而華為云多模數據庫 GeminiDB 基于云原生

發表于 04-08 18:25 ?1158次閱讀

華為云原生多模數據庫 GeminiDB 架構與應用實踐

近日，2023 全球分布式云大會·深圳站順利召開，華為云 NoSQL 數據庫研發總監余汶龍在會上發表了題為《華為云原生多模

發表于 04-08 18:23 ?1173次閱讀

選擇 KV 數據庫最重要的是什么？

經常有客戶提到 KV 數據庫，但卻偏偏“不要 Redis”。比如有個做安全威脅分析平臺的客戶，他們明確表示自己對可靠性要求非常高，需要的不是開源 Redis 這種內存緩存庫，而是 KV

發表于 03-28 22:11 ?692次閱讀

2024年，國產數據庫正醞釀新變局！

隨著互聯網、5G、AI技術的飛速發展，海量數據的持續激增，數據資產的核心價值正在凸顯，大數據時代數據庫行業也迎來了快速增長。作為

發表于 01-05 13:18 ?451次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

50億海量數據如何高效存儲和分析？華為云數據庫GaussDB (for Cassandra) 3個秘訣搞定

評論