文本分析(從原始人類語言中發(fā)現(xiàn)隱藏模式以實現(xiàn)更好的決策和預(yù)測的過程)為工業(yè)和預(yù)測性維護(hù)系統(tǒng)提供了幾個好處。這些分析使工程師能夠利用原始文本數(shù)據(jù)輕松生成有關(guān)維護(hù)記錄的見解,并構(gòu)建故障預(yù)測算法以預(yù)防潛在問題。
以非公路商業(yè)空間為例,在建筑工地上使用重型設(shè)備:如果一臺重型設(shè)備發(fā)生故障,在修復(fù)系統(tǒng)所需的時間和成本與施工停滯時現(xiàn)場的停機(jī)時間之間,可能會發(fā)生代價高昂的故障。傳統(tǒng)上,來自此設(shè)備的遙測數(shù)據(jù)已用于構(gòu)建可預(yù)測未來故障的預(yù)測性維護(hù)模型。但是,在機(jī)械師和操作員的文本注釋中也有關(guān)于過去故障及其原因的寶貴信息。工程師可以利用此文本數(shù)據(jù)來增強(qiáng)預(yù)測性維護(hù)模型,并確定應(yīng)解決的模式和故障模式。
文本分析的挑戰(zhàn)在于大量的非結(jié)構(gòu)化原始文本數(shù)據(jù)集,這可能會使分析工具不堪重負(fù)。這使得工程師更難快速直觀地提取用戶可能獲得的所有有價值的信息。但是,工程師可以通過正確的工具和遵守端到端工作流程來克服這些障礙。
當(dāng)涉及到端到端文本分析工作流程時,工程師需要了解什么?工作流中有四個主要階段:
圖1.端到端文本分析工作流。
第 1 階段:數(shù)據(jù)訪問和探索
文本數(shù)據(jù)將來自各種來源,包括數(shù)據(jù)庫、內(nèi)部文件存儲庫和 Internet,并且格式多種多樣。正確準(zhǔn)備數(shù)據(jù)是成功工作流程的關(guān)鍵因素。適當(dāng)?shù)臄?shù)據(jù)準(zhǔn)備會將原始文本數(shù)據(jù)清理并預(yù)處理為“清理數(shù)據(jù)”以供分析。
以詞云為例。該模型將數(shù)據(jù)轉(zhuǎn)換為一種格式,使工程師能夠快速輕松地可視化正在使用的單詞以及數(shù)據(jù)池中最常見的短語。當(dāng)與應(yīng)用其領(lǐng)域?qū)I(yè)知識的工程師相結(jié)合時,諸如詞云之類的可視化效果有利于更大的文本分析工作流程,因為工程師可以輕松發(fā)現(xiàn)數(shù)據(jù)可能缺少標(biāo)記或需要清理的地方,因為他們了解給定環(huán)境或用例中的典型問題或問題。
第 2 階段:數(shù)據(jù)預(yù)處理
這些可視化效果還有助于指導(dǎo)需要采取的后續(xù)操作。如圖 2 所示,停用詞(不增加價值的低信息詞)很常見,它們的存在會扭曲可視化結(jié)果。在工程師開始模型開發(fā)過程之前,他們必須清理原始文本數(shù)據(jù),以過濾掉這些“停用詞”,并輸入真實、重要的數(shù)據(jù)以傳遞給建模過程。預(yù)處理階段允許用戶從原始文本中提取有意義的單詞。
數(shù)據(jù)清理通常是數(shù)據(jù)分析中最耗時的部分,根據(jù)數(shù)據(jù)量,清理步驟可能需要多次迭代。但是,投入所需的額外時間和資源所帶來的投資回報率允許在文本分析工作流的后期使用更準(zhǔn)確和成功的模型。在許多情況下,干凈的詞云會傳遞有關(guān)文本頁面上實際內(nèi)容的更多信息。
文本分析工具箱等工具通過提供用于預(yù)處理、分析和建模文本數(shù)據(jù)的算法和可視化,幫助用戶為模型構(gòu)建過程做好準(zhǔn)備,從而為工程師解決數(shù)據(jù)清理痛點。
這些工具從流行的文件格式中提取文本,從設(shè)備日志、新聞提要、調(diào)查、操作員報告和社交媒體等來源預(yù)處理原始文本,提取利用文本、數(shù)字和其他類型的數(shù)據(jù)的單個單詞或多詞短語 (n-gram),將文本轉(zhuǎn)換為數(shù)字表示,然后構(gòu)建統(tǒng)計模型。
第 3 階段:預(yù)測模型構(gòu)建
清理和預(yù)處理數(shù)據(jù)后,就可以開始使用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)算法構(gòu)建預(yù)測模型了。
這就是文本分析的優(yōu)勢所在:它發(fā)現(xiàn)數(shù)據(jù)中隱藏的模式并以直觀的格式顯示它們,允許用戶消化數(shù)據(jù),然后采取糾正措施解決問題,然后再進(jìn)一步進(jìn)入工作流程。
以將干凈的文本數(shù)據(jù)轉(zhuǎn)換為數(shù)字形式為例。工程師可以應(yīng)用“詞袋”等建模方法,該方法根據(jù)提供的文本數(shù)據(jù)創(chuàng)建一個數(shù)字矩陣,顯示每個單詞的使用頻率。從那里,工程師可以使用預(yù)測模型,如潛在狄利克雷分配(LDA)模型,該模型可以擬合到單詞/頻率矩陣中,以發(fā)現(xiàn)文本數(shù)據(jù)集中隱藏的主題和見解。
LDA 模型可以生成與數(shù)據(jù)中“隱藏主題”相關(guān)的詞云,顯示將文本數(shù)據(jù)擬合到此預(yù)測模型中后如何開始出現(xiàn)模式,從而幫助為創(chuàng)建相應(yīng)問題的解決方案提供信息。
使用新的敘述對模型(如上面示例中的模型)進(jìn)行測試以驗證模型的預(yù)測是否正確后,可以建立自動警報,以便系統(tǒng)在需要注意的任何問題上向響應(yīng)團(tuán)隊發(fā)送標(biāo)志。如果位置數(shù)據(jù)也可用,則結(jié)果會發(fā)現(xiàn)某些主題(例如,標(biāo)記的問題)與其位置數(shù)據(jù)之間存在相關(guān)性,因此該模型還可以通過使用多個數(shù)據(jù)流來補(bǔ)充文本數(shù)據(jù)來提醒響應(yīng)團(tuán)隊潛在的更大基礎(chǔ)設(shè)施問題。
第 4 階段:見解和預(yù)測模型部署
使用文本分析設(shè)置模型并驗證其可接受的性能后,可通過多種方式與工程團(tuán)隊和/或管理層共享結(jié)果和模型,包括生成報告或交互式筆記本(例如 MATLAB Live 編輯器)、將數(shù)據(jù)傳送到桌面或 Web 應(yīng)用程序(例如 MATLAB 應(yīng)用程序設(shè)計器),或在生產(chǎn)服務(wù)器或 Web 應(yīng)用程序服務(wù)器上托管應(yīng)用程序。
對于工業(yè)自動化、機(jī)械、汽車制造、航空航天設(shè)計或能源分配等行業(yè)的工程師來說,文本分析可以幫助他們執(zhí)行復(fù)雜的數(shù)值分析,以識別可以帶來更好結(jié)果并改進(jìn)預(yù)測性維護(hù)等功能的想法和概念組。
審核編輯:郭婷
-
編輯器
+關(guān)注
關(guān)注
1文章
805瀏覽量
31163 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8408瀏覽量
132567 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5500瀏覽量
121113
發(fā)布評論請先 登錄
相關(guān)推薦
評論