國際紙業公司擁有 55,000 名員工,年銷售額超過 210 億美元,是世界上最大的紙漿和造紙公司。大規模的生產也會帶來大規模的數據:該公司目前跟蹤著全球 37 家工廠,近 200 萬個活躍的數據點。國際紙業公司的 PI System會產生大量的數據,可以從這些生產數據中挖掘業務洞察力。通過使用 PI System工具深入研究如何收集和組織數據,工程師們能夠將數據處理時間縮短 80% 以上,從而使公司新推出的機器學習計劃能夠更快執行。
國際紙業訓練機器算法,作為其“未來之戰”現代化計劃的一部分
國際紙業公司的工程師致力于高效地處理他們正在使用和生成的海量數據。“我們的工程師們需要花費他們 80% 到 90%的時間來檢索和清理數據,”國際紙業公司的化學工程師和流程信息經理Rick Smith 在 OSIsoft 的 PI World 2018 舊金山大會上這樣說。“我們支付工資讓他們進行決策并改進我們的流程。我們需要以適當的頻率向工程師提供正確的數據,以便于他們工作。”
幾年前,公司在減少數據檢索時間方面做了一些努力。使用 PI OLEDB 工具后,工程師可以將 PI System 數據存檔視為關系數據庫。通過運行 SQL 查詢可以將提取出來的數據自動填充到 Microsoft Excel 電子表格中,而無需在 Excel 內運行耗時的計算。采用這種方法后,國際紙業能夠將審計中經常使用的數據檢索過程從 3-12小時縮短到 15-45 分鐘。
這是一個良好的開端,但后面還有更大的挑戰。2017 年,國際紙業發起了一個以數據和機器學習為核心的試點項目,作為其“未來之戰”現代化計劃的一部分。為了訓練機器算法,工程師需要同時在數千個標簽上提取幾年的歷史數據并將這些數據輸入機器學習引擎。
為了獲取數據檢索過程所需的時間值,Smith提出了一個他稱之為“年標簽”的時間單位:即從單個 PI 數據標簽中檢索一年的信息所需的時間。因為不同的標簽收集數據的間隔不同,所以各個標簽的“年標簽”值不盡相同,有些甚至差異極大。
Smith 有關檢索數據所需時間的初步估計發人深省。使用 10,000 個數據標簽一到三年的數據,數據采集間隔為一分鐘,會產生大約 160 億行數據,整個過程需要耗時數月。
“對于我們的數據標簽,如果所有標簽都是上面這種情形,那么讀取三年的數據,將需要100 到 200 天的時間來檢索數據。我不了解其他公司的情況,但我們的副總裁可不想等待200 天才開始這個項目,” Smith 說。
國際紙業創建了另外的數據標簽,每隔一分鐘而不是每隔 1-2 秒寫一次數據,從而簡化了大數據機器學習的數據提取過程。
優秀的數據管理員的價值
使用 PI System 工具,Smith 開始研究數據,探索如何能減少不必要的存儲與數據處理。他發現,在一家造紙廠,不到百分之一的數據標簽占據了存檔空間的近 37%。對于不同類型的分析,可能需要以不同的頻率采集數據。Smith 采用 Asset framework(PI Server 的一部分)為采集頻率密集的標簽同時設置了較低的采集頻率,以較長的間隔來收集相同的數據,在確保數據存檔豐富性的同時,實現更快的檢索速度。
對于某些數據標簽,密集的數據收集頻率對于存檔很重要,但并非所有分析都需要細粒度的數據。在對一組數據標簽進行分析時,Smith發現,與一秒鐘間隔的數據相比,一分鐘間隔的數據其數據讀取時間可以減少 85%。
對數據進行適當的管理和組織,也會使數據檢索時間在原來長度的基礎上大幅減少。在一項分析中,Smith 使用了 50 個數據標簽并在Asset framework 為它們構建了一個結構,這一舉措將讀取一年數據的時間從 15 分鐘以上縮短到 5 分鐘以內。通過使用數據平均值而不是工廠儀表上傳感器的原始值,將另一項分析的時間從 14 小時縮短到 40 秒。
仔細研究公司的數據如何生成、存儲和處理,這一工作平淡無奇,但它所產生的結果卻令人矚目。
“所有系統都需要管理者,”Smith 說。“每個人都想成為架構師。但我們更需要腳踏實地的數據管理員。”
-
算法
+關注
關注
23文章
4615瀏覽量
93000 -
數據采集
+關注
關注
39文章
6131瀏覽量
113727 -
機器學習
+關注
關注
66文章
8422瀏覽量
132743
發布評論請先 登錄
相關推薦
評論