亚洲国产成人综合,亚洲春黄在线观看,亚洲v天堂

文本分析（從原始人類語言中發(fā)現(xiàn)隱藏模式以實現(xiàn)更好的決策和預(yù)測的過程）為工業(yè)和預(yù)測性維護(hù)系統(tǒng)提供了幾個好處。這些分析使工程師能夠利用原始文本數(shù)據(jù)輕松生成有關(guān)維護(hù)記錄的見解，并構(gòu)建故障預(yù)測算法以預(yù)防潛在問題。

以非公路商業(yè)空間為例，在建筑工地上使用重型設(shè)備：如果一臺重型設(shè)備發(fā)生故障，在修復(fù)系統(tǒng)所需的時間和成本與施工停滯時現(xiàn)場的停機(jī)時間之間，可能會發(fā)生代價高昂的故障。傳統(tǒng)上，來自此設(shè)備的遙測數(shù)據(jù)已用于構(gòu)建可預(yù)測未來故障的預(yù)測性維護(hù)模型。但是，在機(jī)械師和操作員的文本注釋中也有關(guān)于過去故障及其原因的寶貴信息。工程師可以利用此文本數(shù)據(jù)來增強(qiáng)預(yù)測性維護(hù)模型，并確定應(yīng)解決的模式和故障模式。

文本分析的挑戰(zhàn)在于大量的非結(jié)構(gòu)化原始文本數(shù)據(jù)集，這可能會使分析工具不堪重負(fù)。這使得工程師更難快速直觀地提取用戶可能獲得的所有有價值的信息。但是，工程師可以通過正確的工具和遵守端到端工作流程來克服這些障礙。

當(dāng)涉及到端到端文本分析工作流程時，工程師需要了解什么？工作流中有四個主要階段：

圖1.端到端文本分析工作流。

第 1 階段：數(shù)據(jù)訪問和探索

文本數(shù)據(jù)將來自各種來源，包括數(shù)據(jù)庫、內(nèi)部文件存儲庫和 Internet，并且格式多種多樣。正確準(zhǔn)備數(shù)據(jù)是成功工作流程的關(guān)鍵因素。適當(dāng)?shù)臄?shù)據(jù)準(zhǔn)備會將原始文本數(shù)據(jù)清理并預(yù)處理為“清理數(shù)據(jù)”以供分析。

以詞云為例。該模型將數(shù)據(jù)轉(zhuǎn)換為一種格式，使工程師能夠快速輕松地可視化正在使用的單詞以及數(shù)據(jù)池中最常見的短語。當(dāng)與應(yīng)用其領(lǐng)域?qū)I(yè)知識的工程師相結(jié)合時，諸如詞云之類的可視化效果有利于更大的文本分析工作流程，因為工程師可以輕松發(fā)現(xiàn)數(shù)據(jù)可能缺少標(biāo)記或需要清理的地方，因為他們了解給定環(huán)境或用例中的典型問題或問題。

第 2 階段：數(shù)據(jù)預(yù)處理

這些可視化效果還有助于指導(dǎo)需要采取的后續(xù)操作。如圖 2 所示，停用詞（不增加價值的低信息詞）很常見，它們的存在會扭曲可視化結(jié)果。在工程師開始模型開發(fā)過程之前，他們必須清理原始文本數(shù)據(jù)，以過濾掉這些“停用詞”，并輸入真實、重要的數(shù)據(jù)以傳遞給建模過程。預(yù)處理階段允許用戶從原始文本中提取有意義的單詞。

數(shù)據(jù)清理通常是數(shù)據(jù)分析中最耗時的部分，根據(jù)數(shù)據(jù)量，清理步驟可能需要多次迭代。但是，投入所需的額外時間和資源所帶來的投資回報率允許在文本分析工作流的后期使用更準(zhǔn)確和成功的模型。在許多情況下，干凈的詞云會傳遞有關(guān)文本頁面上實際內(nèi)容的更多信息。

文本分析工具箱等工具通過提供用于預(yù)處理、分析和建模文本數(shù)據(jù)的算法和可視化，幫助用戶為模型構(gòu)建過程做好準(zhǔn)備，從而為工程師解決數(shù)據(jù)清理痛點。

這些工具從流行的文件格式中提取文本，從設(shè)備日志、新聞提要、調(diào)查、操作員報告和社交媒體等來源預(yù)處理原始文本，提取利用文本、數(shù)字和其他類型的數(shù)據(jù)的單個單詞或多詞短語（n-gram），將文本轉(zhuǎn)換為數(shù)字表示，然后構(gòu)建統(tǒng)計模型。

第 3 階段：預(yù)測模型構(gòu)建

清理和預(yù)處理數(shù)據(jù)后，就可以開始使用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)算法構(gòu)建預(yù)測模型了。

這就是文本分析的優(yōu)勢所在：它發(fā)現(xiàn)數(shù)據(jù)中隱藏的模式并以直觀的格式顯示它們，允許用戶消化數(shù)據(jù)，然后采取糾正措施解決問題，然后再進(jìn)一步進(jìn)入工作流程。

以將干凈的文本數(shù)據(jù)轉(zhuǎn)換為數(shù)字形式為例。工程師可以應(yīng)用“詞袋”等建模方法，該方法根據(jù)提供的文本數(shù)據(jù)創(chuàng)建一個數(shù)字矩陣，顯示每個單詞的使用頻率。從那里，工程師可以使用預(yù)測模型，如潛在狄利克雷分配（LDA）模型，該模型可以擬合到單詞/頻率矩陣中，以發(fā)現(xiàn)文本數(shù)據(jù)集中隱藏的主題和見解。

LDA 模型可以生成與數(shù)據(jù)中“隱藏主題”相關(guān)的詞云，顯示將文本數(shù)據(jù)擬合到此預(yù)測模型中后如何開始出現(xiàn)模式，從而幫助為創(chuàng)建相應(yīng)問題的解決方案提供信息。

使用新的敘述對模型（如上面示例中的模型）進(jìn)行測試以驗證模型的預(yù)測是否正確后，可以建立自動警報，以便系統(tǒng)在需要注意的任何問題上向響應(yīng)團(tuán)隊發(fā)送標(biāo)志。如果位置數(shù)據(jù)也可用，則結(jié)果會發(fā)現(xiàn)某些主題（例如，標(biāo)記的問題）與其位置數(shù)據(jù)之間存在相關(guān)性，因此該模型還可以通過使用多個數(shù)據(jù)流來補(bǔ)充文本數(shù)據(jù)來提醒響應(yīng)團(tuán)隊潛在的更大基礎(chǔ)設(shè)施問題。

第 4 階段：見解和預(yù)測模型部署

使用文本分析設(shè)置模型并驗證其可接受的性能后，可通過多種方式與工程團(tuán)隊和/或管理層共享結(jié)果和模型，包括生成報告或交互式筆記本（例如 MATLAB Live 編輯器）、將數(shù)據(jù)傳送到桌面或 Web 應(yīng)用程序（例如 MATLAB 應(yīng)用程序設(shè)計器），或在生產(chǎn)服務(wù)器或 Web 應(yīng)用程序服務(wù)器上托管應(yīng)用程序。

對于工業(yè)自動化、機(jī)械、汽車制造、航空航天設(shè)計或能源分配等行業(yè)的工程師來說，文本分析可以幫助他們執(zhí)行復(fù)雜的數(shù)值分析，以識別可以帶來更好結(jié)果并改進(jìn)預(yù)測性維護(hù)等功能的想法和概念組。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

編輯器

編輯器

+關(guān)注

關(guān)注
1

文章
805

瀏覽量
31163
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8408

瀏覽量
132567
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5500

瀏覽量
121113

如何使用自然語言處理分析文本數(shù)據(jù)

使用自然語言處理（NLP）分析文本數(shù)據(jù)是一個復(fù)雜但系統(tǒng)的過程，涉及多個步驟和技術(shù)。以下是一個基本的流程，幫助你理解如何使用NLP來

發(fā)表于 12-05 15:27 ?256次閱讀

數(shù)據(jù)科學(xué)工作流原理

數(shù)據(jù)科學(xué)工作流包括數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)探索與可視化、特征選擇與工程、模型選擇與訓(xùn)練、模型評估與優(yōu)化、結(jié)果解釋與報告、部署與監(jiān)控等環(huán)節(jié)。

發(fā)表于 11-20 10:36 ?185次閱讀

淺談無刷電機(jī)的工作流程

上一期的芝識課堂，我們跟大家一起分析了無刷電機(jī)的四個功能單元，并詳細(xì)分析了PWM和逆變器單元的工作情況，今天我們繼續(xù)來熟悉無刷電機(jī)工作流程中

發(fā)表于 11-12 13:46 ?428次閱讀

NVIDIA發(fā)布全新AI和仿真工具以及工作流

NVIDIA 在本周于德國慕尼黑舉行的機(jī)器人學(xué)習(xí)大會（CoRL）上發(fā)布了全新 AI 和仿真工具以及工作流。機(jī)器人開發(fā)者可以使用這些工具和工作流，大大加快 AI 機(jī)器人（包括人形機(jī)器人）的開發(fā)工作。

發(fā)表于 11-09 11:52 ?262次閱讀

全新NVIDIA AI工作流可檢測信用卡欺詐交易

該工作流由 AWS 上的 NVIDIA AI 平臺驅(qū)動，可幫助金融服務(wù)機(jī)構(gòu)節(jié)省資金并降低風(fēng)險。

發(fā)表于 10-30 11:41 ?458次閱讀

使用OPA180運(yùn)放構(gòu)建差分放大器，如何確定四個電阻的大小？

我目前打算使用OPA180運(yùn)放構(gòu)建差分放大器。如下圖所示如果我的放大倍數(shù)取0.4，那么取R1=R2=300K，RF=RG=120K，和R1=R2=30K，RF=RG=12K這兩個選取哪一組比較好。或者有什么方法可以用來確定這四個

發(fā)表于 08-16 12:36

行云流水線滿足你對工作流編排的一切幻想～skr

的核心組成部分，旨在加速軟件交付、提高質(zhì)量和實現(xiàn)持續(xù)改進(jìn)。流水線的核心是流水線模型，是實現(xiàn)工作流編排，執(zhí)行的重要基石，一個優(yōu)秀的流水線模型可以覆蓋用戶更多的實踐場景，按照用戶的所思所想支持編排相應(yīng)的工作流程，通過模型的分層設(shè)計，

發(fā)表于 08-05 13:42 ?266次閱讀

利用TensorFlow實現(xiàn)基于深度神經(jīng)網(wǎng)絡(luò)的文本分類模型

要利用TensorFlow實現(xiàn)一個基于深度神經(jīng)網(wǎng)絡(luò)（DNN）的文本分類模型，我們首先需要明確幾個關(guān)鍵步驟：數(shù)據(jù)預(yù)處理、模型構(gòu)建、模型訓(xùn)練、模型評估與調(diào)優(yōu)，以及最終的模型部署（盡管在本文

發(fā)表于 07-12 16:39 ?834次閱讀

卷積神經(jīng)網(wǎng)絡(luò)在文本分類領(lǐng)域的應(yīng)用

在自然語言處理（NLP）領(lǐng)域，文本分類一直是一個重要的研究方向。隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展，卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，簡稱CNN）在圖像識別領(lǐng)域取得了

發(fā)表于 07-01 16:25 ?703次閱讀

MathWorks與NVIDIA攜手革新醫(yī)療技術(shù)工作流

在醫(yī)療科技領(lǐng)域，軟件定義工作流正迎來新的突破。全球知名的數(shù)學(xué)計算軟件巨頭MathWorks與圖形處理器領(lǐng)導(dǎo)者NVIDIA近日宣布達(dá)成深度合作，將MATLAB?軟件成功集成至NVIDIA的Holoscan平臺。

發(fā)表于 05-11 10:17 ?371次閱讀

半導(dǎo)體發(fā)展的四個時代

臺積電的 Suk Lee 發(fā)表了題為“摩爾定律和半導(dǎo)體行業(yè)的第四個時代”的主題演講。Suk Lee表示，任何試圖從半導(dǎo)體行業(yè)傳奇而動蕩的歷史中發(fā)掘出一些意義的事情都會引起我的注意。正如臺積電所解釋

發(fā)表于 03-27 16:17

半導(dǎo)體發(fā)展的四個時代

臺積電的 Suk Lee 發(fā)表了題為“摩爾定律和半導(dǎo)體行業(yè)的第四個時代”的主題演講。Suk Lee表示，任何試圖從半導(dǎo)體行業(yè)傳奇而動蕩的歷史中發(fā)掘出一些意義的事情都會引起我的注意。正如臺積電所解釋

發(fā)表于 03-13 16:52

BUCK電路工作原理四個階段

BUCK電路工作原理四個階段? BUCK電路是一種常用的降壓轉(zhuǎn)換器，廣泛應(yīng)用于電源管理領(lǐng)域。其工作原理可以分為四個階段：導(dǎo)通、關(guān)斷、自阻抗、反饋調(diào)節(jié)。 1. 導(dǎo)通階段：在導(dǎo)通階段，輸

發(fā)表于 01-31 16:08 ?992次閱讀

四個單片機(jī)能共用一個晶振時鐘頻率來工作嗎？

四個單片機(jī)能共用一個晶振時鐘頻率來工作嗎？四個單片機(jī)共用一個晶振時鐘頻率來工作是可能的。在實際

發(fā)表于 01-31 11:31 ?1712次閱讀

ad轉(zhuǎn)換的四個步驟是什么

將對AD轉(zhuǎn)換的步驟進(jìn)行詳細(xì)介紹。一、采樣采樣目的是從連續(xù)時間域的模擬信號中提取離散時間域的信號。采樣過程需要遵循奈奎斯特定理（Nyquist Theorem），即采樣頻率必須大于等于信號最高頻率的兩倍，以保證采樣后的信號能夠完全恢復(fù)

發(fā)表于 01-15 17:48 ?7673次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

成功構(gòu)建文本分析工作流的四個步驟

評論

如何使用自然語言處理分析文本數(shù)據(jù)

數(shù)據(jù)科學(xué)工作流原理

淺談無刷電機(jī)的工作流程

NVIDIA發(fā)布全新AI和仿真工具以及工作流

全新NVIDIA AI工作流可檢測信用卡欺詐交易

使用OPA180運(yùn)放構(gòu)建差分放大器，如何確定四個電阻的大小？

行云流水線滿足你對工作流編排的一切幻想～skr

利用TensorFlow實現(xiàn)基于深度神經(jīng)網(wǎng)絡(luò)的文本分類模型

卷積神經(jīng)網(wǎng)絡(luò)在文本分類領(lǐng)域的應(yīng)用

MathWorks與NVIDIA攜手革新醫(yī)療技術(shù)工作流

半導(dǎo)體發(fā)展的四個時代

半導(dǎo)體發(fā)展的四個時代

BUCK電路工作原理四個階段

四個單片機(jī)能共用一個晶振時鐘頻率來工作嗎？

ad轉(zhuǎn)換的四個步驟是什么