許多組織已經意識到從其產品、服務和運營中收集的數據的價值。他們設立了新的行政職位,例如首席信息官 (CIO),其主要關注點是正確使用和保護這一新的大數據資源。CIO 隨后邀請信息技術 (IT) 團隊實施新的數據政策和流程,其中包括:
治理:通過控制數據的存儲、訪問和處理來確保數據的完整性。
訪問:向工程、運營、保修、質量、營銷和銷售團隊提供數據。
處理:如果數據足夠大,則需要專門的處理平臺來消除傳輸數據的延遲并減少處理數據的時間。
為了滿足這些新要求,IT 組織正在采用新技術和平臺來存儲和管理這些龐大且不斷增長的數據集。因此,您需要與 IT 團隊更緊密地合作,以便獲得訪問權限并設置一個工作流,使您能夠處理數據。在這個新環境中,使用與您的 IT 團隊用于存儲、管理和處理大數據的系統以及您熟悉的系統一起使用的軟件分析和建模工具,使您能夠有效地使用這些數據在日常活動中。
大數據平臺及應用
IT 組織正在采用許多平臺來存儲和管理大數據。這些平臺不僅提供了存儲大數據的基礎設施,還支持用于以不同方式處理大數據的各種應用程序。這些應用程序可以大致分為兩類:大型歷史數據集的批處理,以及從設備連續收集的數據的實時或近實時處理。第二種情況通常稱為流式傳輸,在大多數物聯網 (IoT) 應用程序中都可以找到。
Hadoop
Hadoop 是圍繞分布式存儲和分布式計算原則設計的。它由在服務器集群上共存的兩個主要子系統組成,使其能夠支持大型數據集。
HDFS:Hadoop 分布式文件系統 (HDFS) 提供了一個用于存儲數據的大型容錯系統。
YARN:Yet Another Resource Negotiator (YARN) 管理運行 Hadoop 集群和處理存儲在 HDFS 中的數據的高度可擴展的應用程序。
批處理應用程序和創建模型
批處理應用程序通常用于分析和處理在很長一段時間內或跨許多不同設備或系統收集的歷史數據。擁有使用這些批處理應用程序的能力,您可以在數據中尋找趨勢并開發在過去使用大量數據時無法實現的預測模型。
在 Hadoop 上運行的兩個比較流行的批處理應用程序包括:
Spark:一種更通用的框架,可優化內存中的操作,使其非常適合機器學習應用程序。
MapReduce:一個高度結構化的框架,由 map 和 reduce 函數組成,適用于大數據分析和數據轉換應用。
流應用程序和模型集成
使用從歷史數據集開發的模型以及 Kafka 或 Paho 等流應用程序可以為您的產品和服務添加更多智能和自適應功能。這些差異化功能的示例包括: 預測性維護,這大大減少了不必要的維護以及計劃外停機時間;調整船舶、機車和商用車輛等重型設備的服務,以在其運行環境中更好地運行,從而實現更好的燃油經濟性和增強的運行;和樓宇自動化系統,以盡可能低的成本運行樓宇系統,同時仍保持舒適的環境。
Mondi Gronau的工程師創建了一個統計過程控制 (SPC) 應用程序,其中包含使用 MATLAB 開發的預測模型。該系統不僅允許他們的機器操作員監控其許多復雜生產線的操作,而且還提供警報以指示機器何時趨向于故障狀態。這些警報允許操作員在超出任何制造公差之前進行調整,從而減少原材料的損失。
在許多情況下,這類服務通常是與企業應用程序開發人員和系統架構師一起開發的。但挑戰在于如何以有效的方式將您的模型集成到這些系統中。將模型移植到另一種語言既費時又容易出錯,每次對模型進行更新時都需要大量工作。用典型的 IT 語言開發預測模型很困難。擁有開發這些模型所需的領域專業知識的工程師和科學家不熟悉這些語言,而且這些語言并不總是包含充分處理和從工程和科學數據創建模型所需的功能。
企業應用程序開發人員應該尋找一種數據分析和建模工具,它不僅為他們的工程師和科學家所熟悉,而且還提供了他們需要的特定領域的工具。這些工具還必須擴展以使用基于 Hadoop 的系統開發模型和大型數據集,這些系統提供高度穩健的應用程序服務器和代碼生成等功能,從而為將模型部署到企業應用程序中提供直接路徑。
其他數據訪問應用程序
還有許多其他允許訪問正在采用的大數據的應用程序。其中一些包括允許使用數據庫類型語義訪問存儲在 HDFS 中的數據的接口。Hive 和 Impala 就是兩個這樣的應用程序,它們允許使用結構化查詢語言 (SQL) 訪問和處理數據。這是一種成熟且廣泛使用的語言,用于處理關系數據庫中的數據。
NoSQL 數據庫的架構旨在支持不同的大數據用例,也正在被采用。很多時候,這些數據庫支持 SQL 語言的子集來訪問和處理數據,但也可能具有傳統數據庫不提供的附加接口功能。
科學家、工程師和 IT
如上所述,各種系統用于存儲、管理和處理大數據。通過與您的 IT 團隊密切合作并利用 MATLAB 等工具,您可以創建熟悉的工作流程,使您能夠輕松高效地工作,同時從大量數據中獲得洞察力。
審核編輯:郭婷
-
數據庫
+關注
關注
7文章
3794瀏覽量
64364 -
大數據
+關注
關注
64文章
8883瀏覽量
137407 -
nosql
+關注
關注
0文章
39瀏覽量
9997
發布評論請先 登錄
相關推薦
評論