使用大數據正迅速成為科學發現和工程過程中的關鍵步驟。隨著智能傳感器和物聯網 (IoT) 等技術能夠從科學儀器、制造系統、聯網汽車和飛機中收集大量詳細數據,這種情況正在發生。
這些數據具有重要價值,因為它可以顯示重要的物理現象或提供有關系統運行環境、效率和健康狀況的信息。借助適當的工具和技術,這些數據可用于進行快速的科學發現,并在您的產品、服務和制造過程中開發和整合更多智能。這可以使您的公司以性能更好的產品或服務脫穎而出,并有助于符合法規要求(例如滿足發動機燃油效率標準或提供輔助駕駛能力)。
獲得訪問權和使用數據可能聽起來很有趣,但也很艱巨。由于這些數據的價值和大小,它通常在大型文件共享、數據庫或 Hadoop 或 Spark 等大數據系統中存儲和管理。不久前,為了將機器學習等先進技術應用于大量數據,具有 IT 系統經驗的計算機科學家將與工程和科學專家一起工作。該團隊將共同支持一個工作流程,其中包括:
訪問文件、數據庫或 Hadoop 分布式文件系統 (HDFS) 中的大數據
在專門的計算集群上探索、處理和分析這些數據
如今,MATLAB等軟件分析和建模工具已通過處理大數據的新功能得到增強。這使具有領域知識和經驗的工程師和科學家能夠利用這些數據做出設計和業務決策。然后,工程師和科學家無論身在何處都可以方便地訪問這些數據,并使用熟悉的語法和功能輕松使用它。
讓我們看一個工程師如何使用大數據的實際示例。貝克休斯的工程師為石油和天然氣運營商提供服務的供應商,需要開發一種預測性維護系統,以降低泵設備成本和石油和天然氣開采卡車的停機時間。如果活動現場的卡車出現泵故障,貝克休斯必須立即更換卡車以確保連續運行。向每個站點發送備用卡車會使公司損失數千萬美元的收入,如果它們在另一個站點積極使用,這些收入可能會在其他地方產生。無法準確預測閥門和泵何時需要維護是其他成本的基礎。過于頻繁的維護會浪費精力,并導致零件在仍然可用時被更換,而過于不頻繁的維護可能會損壞泵而無法修復。
從石油和天然氣開采卡車上收集了數 TB 的數據,這些數據用于開發一個應用程序,該應用程序可以預測設備何時需要維護或更換。MATLAB 為 Baker Hughes 的工程師提供了開發預測模型和將多種數據(包括來自專有文件格式的傳感器數據)合并到一個分析應用程序中所需的功能。
訪問大量數據
處理大數據的第一個挑戰是確定如何訪問大型數據集,因為它們有多種不同的形式并存儲在各種類型的系統中。
文件
許多大型工程和科學數據集由大量中小型文件組成,盡管文件變得越來越大,并且無法放入單臺計算機的內存中。這些文件通常位于共享驅動器上的一個或多個目錄中,可能包含分隔文本、電子表格、圖像、視頻和各種專有格式。
數據庫
有多種數據庫類型可用于存儲和管理大量數據:
關系型 (SQL):廣泛用于業務應用程序,在 IT 開發人員中很受歡迎。
數據倉庫:基于關系 (SQL) 數據庫,存儲關鍵業務數據,并為關鍵業務應用程序提供分析能力和快速訪問。
NoSQL:針對不適合關系數據庫的數據進行了優化。
數據歷史學家:針對通常從工業設備收集的基于時間的生產和過程數據進行了優化。
物聯網數據聚合器:通常包括基于云的服務,用于聚合來自連接的傳感器和設備的時間序列數據。這些服務通常通過 Web 服務調用來訪問。
Hadoop
Hadoop是一種基于分布式計算和存儲原理的大數據集存儲和處理系統。它由在計算服務器集群上共存的兩個主要子系統組成:
HDFS:一種大型、抗故障的文件系統,稱為 Hadoop 分布式文件系統。
YARN:管理在 Hadoop 上運行的應用程序,包括批處理框架,例如 MapReduce 和 Spark,以及 SQL 接口,例如 Hive 和 Impala。
為了有效地利用大數據的優勢,工程師和科學家需要一個可擴展的工具,例如 MATLAB,以提供對用于存儲和管理數據的各種系統和格式的訪問。這在可能使用不止一種類型的系統和格式的情況下尤其重要。存儲在共享驅動器文件中的傳感器或圖像數據可能需要與存儲在數據庫中的元數據相結合;就貝克休斯而言,許多不同格式的數據必須一起使用,以了解系統的行為并開發預測模型。
處理大數據的能力正迅速成為科學發現和工程的一個重要方面。這些數據集中包含寶貴的數據,提供了區分您的產品和服務的方法。作為科學家或工程師,您擁有使用這些數據做出設計和業務決策的領域知識和經驗,但可能需要易于使用的軟件分析和建模工具。使用 MATLAB 等工具可提供可擴展性和效率,同時為您的公司提供在全球市場上的競爭優勢。
審核編輯:郭婷
-
傳感器
+關注
關注
2550文章
51035瀏覽量
753084 -
matlab
+關注
關注
185文章
2974瀏覽量
230385 -
大數據
+關注
關注
64文章
8882瀏覽量
137403
發布評論請先 登錄
相關推薦
評論