上周,【虹科云課堂】數據管理與可視化解決方案前兩期課程圓滿結束,感謝大家的觀看與支持。虹小科為大家整理了課后筆記,本篇文章為第二次直播課后筆記,請查收。
導語
上周二我們已經了解了什么是數據可觀察性,它能夠在混合多云環境中提供端到端的可觀察性的解決方案,數據可觀察性可以將現代數據系統的數據、計算和管道層中的事件關聯起來,以提供對企業數據管道的健康和可靠性的全面可見性。
Datadog 和 New Relic 等應用程序性能管理 (APM) 工具為開發人員提供了基礎設施問題的透明度。在 APM 工具出現之前,只有管理員負責處理性能問題。
然而數據可觀察性可以說是建立在APM的基礎之上的,是由APM演變過來的,它的重點是開發數據的多維視圖,包括性能、質量及其對堆棧其他組件的影響。數據可觀察性的總體目標是查看數據對業務需求和目標的支持程度。
最后一個是它如何幫助企業降本增效?
那我們先不說答案,把文章看完,你就明白了,最后我們會總結這個問題的答案。
本文圍繞3部分展開
1、Pulse產品介紹
2、Pulse介紹功能詳解
(數據可觀察性具體概念可見3月1日直播)
01 Pulse產品介紹
首先來看一下產品介紹,這里列舉了一些企業平時可能會遇到的問題,第一個是數據系統可能會發生意外的中斷或減速,系統的不穩定導致了耗時的操作問題和日常運維排錯,同時也會對業務產生影響,這種操作問題可能會導致開發人員效率低下,項目進度會被嚴重影響。
第三個就是企業中需要大量的計算節點,在大規模高訪問量業務下現有的數據系統性能無法跟上其快速擴展的業務需求,當業務訪問處于高峰期時,系統負載過高,訪問速度慢,甚至服務器可能會崩潰,企業會經歷比較長的(MTTR)平均修復時間、頻繁的中斷和性能瓶頸。
第四個就是不良的數據導致企業收入降低。在過去的一年中,大概有五分之一的公司因數據不良而失去收入和客戶。比如保險行業,與 10 年甚至 5 年前相比,保險公司正在通過越來越多的關鍵工作流獲取越來越多的第三方數據。第三方數據(即保單索賠、財務信息和 PPI)通常是手動匯總的,增加了錯誤的可能性。對于保險業而言,丟失或錯誤的數據可能會對業務產生重大影響,導致收入損失、業務決策失誤以及缺乏客戶信任。
最后一個就是公司有限的人才和技術資源來處理日益復雜的快速變化的技術。公司創建了數據運營團隊,并迅速為他們配備了數據架構師、數據工程師、數據管理員等。然而,為了在保持數據流動的同時獲得對快速增長的數據基礎設施的控制權,大多數企業數據運營團隊對手頭的管理工具做出了隨意的選擇,比如選擇數據監控工具或APM或者混著用免費的開源工具,但問題是技術發展如此之快,業務需求變化如此之快,管理如此多的工具浪費時間而效率低下,并且用警報轟炸管理人員,卻沒有提供提前解決潛在問題的方法。
那么,面對這些問題,我們推出pulse這個產品,Pulse 是一種數據可觀察性和計算性能監控工具。它能夠提高跨混合數據湖和倉庫的企業分析和人工智能系統的可見性。Pulse將來自混合系統的信息整理成一個整體視圖,使數據團隊能夠對問題作出快速反應,預測和預防未來的問題,避免重新處理數據,優化現有資源,快速擴展,并有效管理成本。改善數據處理的可靠性、規模和成本。
當通過管道的數據流受到破壞時,它會阻止用戶獲取所需信息,從而導致根據不完整或不正確的信息做出決策。同時在各種云平臺、技術和應用程序之間監控數據流對組織來說是一項重大挑戰。為了在性能問題對業務產生負面影響之前識別和解決它們,組織需要能夠提供管道宏觀視圖的數據可靠性工具。那么pulse就是這種工具,它提供全面、實時且可操作的策略,它使用外部輸出了對系統內部狀態的度量。通過一個用戶友好的UI界面就可以看到端到端的管道,這使管理人員能夠看到問題發生在哪里,影響到什么,以及問題來自哪里。
那么是誰在用Pulse呢?
Pulse 為開發人員、數據科學家和運營人員提供關于數據的集成可見。Pulse將跨基礎設施、應用程序和數據層的事件關聯起來,并且在一個單一的儀表板管理界面就能綜合多個層次和工作負載的信號,以提供對單個組件、數據管道和系統性能的全面了解。這種方法可以幫助眾多團隊通過預測、識別和修復數據問題來確??煽啃浴?/p>
現在都說企業要實現數字化轉型,成為數據驅動的公司,那獲得良好的數據是第一步,比如說銀行保險業要數字化轉型,但是可能會遇到與傳統經營管理方式的新型風險,比如數據安全、網絡安全、隱私保護和數據合規使用等等,面對這些數據問題,這時候就需要pulse了,它能加速企業數字化轉型,提高數據系統的可靠性、可擴展性和恢復能力。
預測和預防問題,pulse可以識別數據問題的早期預警跡象,快速查明根本原因,并自動化預防性維護,以避免業務中斷,加快云遷移和性能驗證,將新技術采用率提高50%,滿足SLA,減少MTTR,增加新的MTBF(平均無故障時間)指標,會以周和月為單位。
接下來我們看一下它的特點:首先它可以實時監控和分析數百個作業以找出異常值。Pulse與所有現代數據系統集成,包括 Amazon EMR,Redshift, Apache HBase, Hive,Spark等等,收集每個軟件平臺對應的指標進行趨勢分析和異常檢測。
第二個是它使用整個應用程序歷史記錄有效地調試應用程序,這就是相當我們寫代碼遇到錯誤去調試代碼一樣的,它根據應用程序正確運行時的歷史記錄、日志什么通過比較去排除問題出現在哪里。
第三個是消除計劃外停機,減少平均修復時間(MTTR),pulse能減少問題的發生,因為它能實時監控和分析應用程序的運行,自然就可以在問題發生之前及時去解決異常和通知告警,然后就可以減少MTTR。
第四特點是接收符合系統需求的建議,pulse能夠讓客戶去自定義一些標準規則,并且判斷這些規則是否能讓系統性能更好。
第五個特點是本地集成到數據引擎中提取數據,pulse與各種平臺的原生功能集成,以優化這些平臺內的數據流程。它與各種數據庫引擎原生集成并生成基于原生 SQL 的指令,然后將這些指令下推到處理引擎以在數據庫中執行。
第六個特點是基于Javascript的儀表盤來管理數據系統,使用統一的控制臺去管理來自多個應用程序和環境的不同來源的信息,它為管理層提供了對關鍵 IT 績效指標和指標的可見性,以調整業務目標并將運營指標與業務優先級聯系起來。
接下來看一下pulse的應用場景:
第一個是屬于電信、金融服務、能源、物聯網、電子商務行業和任何依賴大量靜止數據和動態數據以滿足運營和分析需求的企業。
如今,數據在端點和金融服務架構的核心基礎設施中都以指數速度增長。隨著網絡托管轉移到云或邊緣點,生成的數據量將增加 4-5 倍,并且隨著微服務組件各自創建自己的數據而變得更加復雜?,F有技術已經逐漸無法提供即時快速的響應的。如果沒有適合的監控系統,事件會在更長的時間內未被發現和解決,如果不能快速響應,將會導致客戶流失,所以十分需要一種技術工具來幫助監控企業數據系統并解決出現的任何問題。
數據可觀察性不僅能保證良好的客戶體驗,同時它也能讓CFO財務總監實時訪問財務數據和高級分析,提供對關鍵數據的持續和不間斷的訪問,因為他是業務決策者,數據驅動的決策對于任何企業的成功都是不可或缺的,因此有必要能夠觀察系統中任何地方發生的事情,無論其架構多么復雜。
所有公司都可以使用數據可觀察性,無論其數字或數據能力如何。與特定于供應商的解決方案不同,數據可觀察性建立在與技術無關的原則之上。而且一種良好的數據可觀察性方法實際上將使用機器學習和自動化,通過消除手動驗證數據的需要,使您的公司更容易訪問和擴展可靠的數據。
第二個是擁有過30TB+的數據和500核的處理能力的公司。
第三個是希望采用和擴展先進的開源數據技術的組織。
接著看一下pulse的整體架構。Pulse 從各種系統收集日志、存儲它們,并在統一的管理平臺顯示洞察和分析。代理運行不同的平臺,例如 Spark、Hive、Tez 或 HBase。對于每個平臺,Pulse 會收集多個指標。例如,為Spark收集Yarn 指標,為Hive收集時間序列數據,為Tez收集App 數據。收集這些指標利用AI進行趨勢分析和異常檢測,成功的異常檢測依賴于對時間序列數據的分析,這些數據由一系列隨時間變化的值組成,并且實時、準確。由于時間序列數據包含可用于對未來進行有根據的猜測的信息,異常檢測系統使用這些信息來發現異常并發出警報。時間序列數據異常檢測還可用于以下指標:網頁瀏覽量、每日活躍用戶、移動應用安裝、每個潛在客戶成本等等。了解異常檢測系統可以識別的異常值類型對于從生成的分析中獲得最大價值至關重要。一旦您的異常檢測系統提醒您存在問題或機會,你就可以做出正確的決定。
將來自指標的數據收集在以下三個服務之一中,例如數據庫、時序數據或日志索引,并通過 docker 容器進行部署。
02 Pulse功能詳解
總結一下pulse的關鍵功能,首先它可以監控實時的數據,通過創建警報來監控基礎設施組件的關鍵模塊,例如 CPU、內存、數據庫運行狀況和 HDFS,使數據和基礎設施層更易于觀察。在組織內的各個級別實現實時決策。
第三個是它能加速數據的消耗,優化查詢和算法性能,識別瓶頸和多余的開銷,它還可以幫助數據團隊提高數據管道的可靠性、優化 HDFS 性能、整合 Kafka 集群并降低總體數據成本。
第四個是它可以優化數據操作、容量和數據工程,將部署配置和資源與業務需求對齊,監控和預測共享資源的成本,并以對數據使用和熱點的深度可見性管理管道數據流。
第五個是它可以與很多關鍵數據系統集成,可以輕松地連接到 Databricks、Spark、Kafka、Hadoop以及其他流行的開源發行版、數據倉庫、查詢引擎和云平臺。
Pulse與底層數據庫系統集成,通過特定的技術連接器收集來自基礎設施、應用程序和數據層的數據,并將其存儲在其特定領域的數據存儲中。然后,實時操作數據通過專有的Pulse Dashplots進行可視化,它能將所有層的數據元素集中起來,用于操作監控。它還簡化了對你的性能指標進行深入了解的過程,如查詢次數、復制狀態、內存使用、合并操作等。最重要的是,這個集成具有對警報、日志集成的自動操作等全生命周期的支持。
03 數據可觀察性是如何幫助企業降本增效
回顧直播開頭,我們留下了一個問題,數據可觀察性是如何幫助企業降本增效呢?相信大家現在已經有了答案。那我在這里總結了一下:第一個它幫助系統是消除計劃外停機,能夠預測和預防sev 1級別的問題,它能自動化預防性維護、性能調整和問題修復,減少了整個系統維護的成本,第二個是它可以讓數據系統基礎設施實現彈性伸縮負載均衡,自動化工作負載分析,加快持續創新,執行快速測試,并加強 CI/CD (持續集成和持續交付或持續部署)流程以快速支持新技術,通過讓開發人員專注于業務問題,而不是處理與計算、數據質量或數據管道相關的運營問題。節省了開發人員的時間和精力并提高了他們的生產力,技術+人才+專注=提高工作效率;第三個是降低基礎設施成本,通過卸載不必要的、過度配置的軟件來降低成本,并使基礎設施成本與業務需求保持一致。降低數據處理成本并實現實時分析的目標。
虹科電子
虹科在工業、制造業領域深耕了長達20年,隨著云技術的全面發展和數字化工廠的逐步落地,虹科參與了越來越多的云主題的業務,從最初的所有數據先統一采集上云,到后續的邊緣計算再上云,到現在的全面業務優化、洞察研究、成本優化等,虹科的云科技事業部已經為行業的用戶實操并積累了豐富的解決方案和應用場景。它們包括:資源監控、安全保障、多云的互聯互通、應用和數據牽引等。虹科云科技團隊在不斷順應國家策略,從技術創新、標準制定、豐富生態、安全保障、節能減排等五個方面,不斷創造出更好的產品,幫助工業制造業的用戶實現數字化轉型、實現基于數據的降本增效。
虹科云科技工程師團隊不斷參與美國和歐洲產業內先進的專家培訓,學習和實踐創新的技術手段、操作性強的應用案例,并不斷引入到國內的項目中完成落地和推廣,這讓我們團隊充滿了自豪感與使命感,賦予了我們當今時代極大的技術價值、工作成就感。
原文標題:直播精彩回顧(二)| 第二堂直播課精簡筆記,歡迎收藏
文章出處:【微信公眾號:廣州虹科電子科技有限公司】歡迎添加關注!文章轉載請注明出處。
審核編輯:湯梓紅
-
數據
+關注
關注
8文章
7080瀏覽量
89175 -
可視化
+關注
關注
1文章
1197瀏覽量
20969 -
APM
+關注
關注
1文章
71瀏覽量
13017
原文標題:直播精彩回顧(二)| 第二堂直播課精簡筆記,歡迎收藏
文章出處:【微信號:Hongketeam,微信公眾號:廣州虹科電子科技有限公司】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論