為Power BI構建必應新聞模板的方法
Azure Machine Learning Studio提供一款瑞士軍刀般的出色工具,能夠以強大且高效的方式對文本數據集進行操作。舉例來說,其中的一套內置模塊可應用于語言檢測及文本預處理等較低級別任務,用于實現案例標準化、停止詞刪除、詞干提取與詞匯化等常見清理步驟。建立在此基礎之上的則為更為完整的模塊集合,能夠通過散列或TF-IF等指標將預處理文本轉換為N-gram,同時跳過其中的數字特征。在建立起一組數字特征后,您即可利用Azure ML中的任何一套現有學習算法根據需求建立起分類、回歸、推薦或者聚類模型。
除了使用N-gram功能進行模型訓練之外,大家還可以利用一組強大的模塊通過預訓練模型完成實體與關鍵詞提取等任務,并反過來利用這些提取信息依次構建不同類型的特征。
Azure ML在自身文本分析功能當中廣泛應用強大的Vowpal Wabbit(簡稱VW)庫。例如,潛在狄利克雷分析模塊即利用VW構建主題模型或者大規模數據集。由于VW本身擁有大量算法調整選項,因此能夠切實滿足各類學習任務的需求; VM高級用戶亦可在命令行界面當中直接使用我們的打包工具,同時公開全部選項以最大程度實現靈活性。
R與Python語言的開源生態系統還提供一系列不同類型的工具,用于實現不同(或者指向特定領域)格式文本的閱讀與解析任務。例如,R中的tm包可執行案例標準化與詞干提取等文本預處理任務,Python中的NLTK模塊則能夠完成從預處理到語音片段標記、再到分類與聚類模型構建等一系列文本分析工作。Azure ML允許大家在實驗過程當中輕松運用這些來自大型生態系統的卓越功能。舉例來說,Python 2.7.11與3.5環境就已經預先配置來自NTLK的全部語料庫與模型。
而這些功能還擁有另一項更為強大的特性,即允許用戶以任意方式對其加以給,從而立足文本數據構建起高度靈活的機器學習管道。在Azure ML出色操作能力的支持下,您可通過數次點擊將這些管道轉化為生產就緒型Web服務,并利用其完成實時與批量評分。
Power BI解決方案模板迎來大升級
面對數量如此眾多的工具選項,數據科學家該如何構建起一套能夠真正解決實際問題的端到端解決方案?
在今天的博文中,我們將講解為Power BI構建必應新聞模板的方法。必應新聞解決方案模板可幫助您根據關注方向,將來自數百家不同消息供應方的相關文章進行匹配。通過構建Azure服務自動化管道,其可提供一套交鑰匙型解決方案,幫助客戶輕松分析新聞內容。這套工作簿的強大之處在于,其能夠利用交叉過濾機制將全部許可證分析結果整合在一起。舉例來說,在必應新聞模板當中,用戶可以選擇主題、查看相關關鍵短語與關聯性命名實體,從而快速了解特定主題的要點。將這兩種AI技術加以組合,不僅構建起一種強大的大型文檔庫瀏覽方案,同時亦可幫助您快速發現值得關注的文章。
這套模板中包含四種不同的復雜機器學習技術,將其整合在一起將帶來高保真分析結果。模板架構詳見以下流程圖。
?
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%