文本分析(從原始人類語言中發現隱藏模式以實現更好的決策和預測的過程)為工業和預測性維護系統提供了多種好處。這些分析使工程師能夠利用原始文本數據輕松生成有關維護記錄的見解,并構建故障預測算法以預防潛在問題。
以非公路商業空間為例,在建筑工地使用重型設備:如果一臺重型設備發生故障,它可能會在修復系統所需的時間和成本以及停機時間之間成為代價高昂的故障。施工停滯時的現場。傳統上,來自該設備的遙測數據已被用于構建可預測未來故障的預測性維護模型。但是,機械師和操作員的文字說明中也包含有關過去故障及其原因的寶貴信息。工程師可以利用這些文本數據來增強預測性維護模型,并識別應該解決的模式和故障模式。
文本分析的挑戰在于非結構化的原始文本數據集的龐大數量,這可能會使分析工具不堪重負。這使得工程師更難快速、直觀地提取用戶可能獲得的所有有價值的信息。然而,工程師可以通過正確的工具和堅持端到端的工作流程來克服這些障礙。
當談到端到端的文本分析工作流程時,工程師需要知道什么?工作流程有四個主要階段:
圖 1. 端到端文本分析工作流程。
第 1 階段:數據訪問和探索
文本數據將來自多種來源,包括數據庫、內部文件存儲庫和 Internet,并采用多種格式。正確準備數據是成功工作流程的關鍵因素。適當的數據準備將原始文本數據清理并預處理為“清理數據”以進行分析。
以詞云為例。該模型將數據轉換為一種格式,使工程師能夠快速輕松地可視化正在使用的單詞以及數據池中最常用的短語。當與應用他們的領域專業知識的工程師結合使用時,詞云等可視化有利于更大的文本分析工作流程,因為工程師可以很容易地發現數據可能遺漏的地方或需要更多清理的地方,因為他們了解給定的典型問題或問題環境或用例。
第 2 階段:數據預處理
這些可視化還有助于指導需要采取的下一步行動。如圖 2 所示,停用詞(不增加價值的低信息詞)很常見,它們的存在會影響可視化結果。在工程師開始模型開發過程之前,他們必須清理原始文本數據,以便過濾掉這些“停用詞”并輸入真實、重要的數據以傳遞給建模過程。預處理階段允許用戶從原始文本中提取有意義的單詞。
數據清洗通常是數據分析中最耗時的部分,根據數據量,清洗步驟可能需要多次迭代。但是,由于投入額外的時間和所需資源而產生的投資回報率允許稍后在文本分析工作流程中建立更準確和成功的模型。在許多情況下,干凈的詞云會傳遞更多關于文本頁面上實際內容的信息。
圖 2. 預處理數據。
Text Analytics Toolbox等工具通過為文本數據的預處理、分析和建模提供算法和可視化,幫助用戶為模型構建過程做好準備,從而為解決數據清理痛點的工程師提供支持。
這些工具從流行的文件格式中提取文本,對來自設備日志、新聞提要、調查、操作員報告和社交媒體等來源的原始文本進行預處理,提取利用文本、數字和其他類型的數據,將文本轉換為數字表示,然后構建統計模型。
第 3 階段:預測模型構建
清理和預處理數據后,就可以開始使用機器或深度學習算法構建預測模型了。
這就是文本分析的優勢所在:它發現數據中的隱藏模式并以直觀的格式顯示它們,使用戶能夠消化數據,然后采取糾正措施來解決問題,然后再進一步進入工作流程。
以將純文本數據轉化為數字形式為例。工程師可以應用諸如“詞袋”之類的建模方法,它根據提供的文本數據創建一個數字矩陣,顯示每個詞的使用頻率。然后,工程師可以從那里使用預測模型,例如潛在狄利克雷分配 (LDA) 模型,該模型可以擬合到詞/頻矩陣,以發現文本數據集中隱藏的主題和見解。
如圖 3 所示,LDA 模型可以生成與數據中的“隱藏主題”相關的詞云,顯示模式如何從將文本數據擬合到該預測模型中開始出現,有助于為相應問題的創建解決方案提供信息。
圖 3. 使用 LDA 方法自動識別工廠報告數據中的主題。主題 2 與電子問題有關。主題 3 與流體系統的問題有關。
一旦模型(例如上面示例中的模型)使用新的敘述進行測試以驗證模型的預測是否正確,就可以建立自動警報,以便系統在任何需要注意的問題上向響應團隊發送標志。如果位置數據也可用,結果會發現某些主題(例如,標記的問題)與其位置數據之間存在相關性,因此該模型還可以通過使用多個數據流來補充文本數據,提醒響應團隊注意基礎設施方面潛在的更大問題。
第 4 階段:洞察力和預測模型部署
使用文本分析設置模型并驗證可接受的性能后,有多種方法可以與工程團隊和/或管理層共享結果和模型,包括生成報告或交互式筆記本(例如,MATLAB 實時編輯器)、溝通將數據傳輸到桌面或 Web 應用程序(例如,MATLAB App Designer),或將應用程序托管在生產服務器或 Web 應用程序服務器上。
對于工業自動化、機械、汽車制造、航空航天設計或能源分配等行業的工程師來說,文本分析可以幫助他們執行復雜的數值分析,以識別可以帶來更好結果并改進預測性維護等功能的想法和概念組。
審核編輯:郭婷
-
matlab
+關注
關注
185文章
2977瀏覽量
230601 -
編輯器
+關注
關注
1文章
806瀏覽量
31198 -
航空航天
+關注
關注
1文章
390瀏覽量
24322
發布評論請先 登錄
相關推薦
評論