色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何給工業大數據降維去噪,你可以試試特征選擇

格創東智 ? 2018-12-18 14:09 ? 次閱讀

本文作者:格創東智OT團隊 (轉載請注明來源及作者)


在之前格物匯的文章中,我們介紹了特征構建的幾種常用方法。特征構建是一種升維操作,針對特征解釋能力不足,可以通過特征構建的方法來增加特征解釋力,從而提升模型效果。隨著近幾年大數據技術的普及,我們可以獲取海量數據,但是這些海量數據帶給我們更多信息的同時,也帶來了更多的噪音和異常數據。如何降維去噪成為很多企業關注的焦點,今天我們將介紹特征工程中的一種降維方法——特征選擇。


什么是特征選擇

特征選擇( Feature Selection )也稱特征子集選擇( FeatureSubset Selection , FSS ),或屬性選擇( Attribute Selection )。是指從已有的N個特征(Feature)中選擇M個特征使得系統的特定指標最優化。

圖1.jpg



特征選擇主要有兩個功能

  • 減少特征數量、降維,使模型泛化能力更強,減少過擬合

  • 增強對特征和特征值之間的理解


特征選擇的流程


特征選擇的目標是尋找一個能夠有效識別目標的最小特征子集。尋找的一般流程可用下圖表示:


一般來說,通過枚舉來對特征子集進行選擇是一個比較費時的步驟,所以應使用一些策略來進行特征選擇,通常來說,我們會從兩個方面考慮來選擇特征:

>>>>

特征是否發散

如果一個特征不發散,例如方差接近于0,也就是說樣本在這個特征上基本上沒有差異,這個特征對于樣本的區分并沒有什么用。

>>>>

特征與目標的相關性

這點比較顯見,與目標相關性高的特征,應當優選選擇。除方差法外,本文介紹的其他方法均從相關性考慮。

根據特征選擇的形式又可以將特征選擇方法分為3種:

  • Filter

  • Wrapper

  • Embedded

特征選擇的方法


01

Filter


過濾法,按照發散性或者相關性對各個特征進行評分,設定閾值或者待選擇閾值的個數,選擇特征。

評分指標有:

  • 方差:評價指標的離散程度,越離散說明包含的信息越多。

  • 相關性:衡量特征對目標的解釋能力,相關系數越大說明解釋能力越強。

  • 卡方檢驗:檢驗定性自變量對定性因變量的相關性。

圖3.jpg

  • 互信息:也是評價定性自變量對定性因變量的相關性的。

圖4.jpg


02

Wrapper

包裝法,根據目標函數(通常是預測效果)評分,每次選擇若干特征,或者排除若干特征,主要的方法是遞歸特征消除法。遞歸消除特征法使用一個基模型來進行多輪訓練,每輪訓練后,減少若干特征,或者新增若干特征,進行評估看新增的特征是否需要保留,剔除的特征是否需要還原。最后再基于新的特征集進行下一輪訓練。

03

Embedded


嵌入法,先使用某些機器學習算法和模型進行訓練,得到各個特征的權值系數,根據系數從大到小選擇特征。類似于Filter方法,但是是通過訓練來確定特征的優劣。

一般分為如下兩大類:

>>>>

基于懲罰項的特征選擇法

這個方法可以用線性回歸模型來舉例說明,我們在線性模型的目標函數中增加L1正則項(實際上這就是lasso模型)。由于該正則項的存在,某些與目標y不太相關的特征的系數將縮減至0,而保留的特征系數將相應調整,從而達到了對特征進行篩選的效果,L1正則項系數越大,篩選的力度也就越大。

>>>>

基于樹模型的特征選擇法

在我們之前的文章中介紹過隨機森林,GDBT等等基于樹的模型,他們均有一個特點就是模型可以計算出特征的重要性。決策樹會優先將對預測目標y幫助最大的特征放在模型的頂端,因此根據這個效果我們計算得到特征的重要性,進而我們可以根據特征重要性對特征進行選擇。


今天我們大致了解了如何給工業大數據降維去噪,進行特征選擇,在后續文章中,我們將繼續帶大家了解特征工程的另一個內容——特征抽取,敬請期待。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 特征選擇
    +關注

    關注

    0

    文章

    12

    瀏覽量

    7183
  • 大數據
    +關注

    關注

    64

    文章

    8894

    瀏覽量

    137480
  • 智能制造
    +關注

    關注

    48

    文章

    5570

    瀏覽量

    76369
  • 工業互聯網
    +關注

    關注

    28

    文章

    4323

    瀏覽量

    94144
  • 工業大數據
    +關注

    關注

    0

    文章

    72

    瀏覽量

    7847
收藏 人收藏

    評論

    相關推薦

    西北工業大學OpenHarmony技術俱樂部正式揭牌成立

    11月15日,由OpenAtom OpenHarmony(以下簡稱“OpenHarmony”)項目群技術指導委員會與西北工業大學共同舉辦的“西北工業大學OpenHarmony技術俱樂部成立大會”在
    的頭像 發表于 11-19 18:04 ?310次閱讀
    西北<b class='flag-5'>工業大</b>學OpenHarmony技術俱樂部正式揭牌成立

    CASAIM與北京工業大學合作開展鋼桁梁鋼材三掃描試驗,研究高服役期鋼材銹蝕特征及力學性能退化規律

    近期,CASAIM與北京工業大學攜手,開展鋼桁梁鋼材三掃描試驗,此次研究結合了北京工業大學在材料科學方面的深厚積累,以及CASAIM在實際工程應用上的豐富經驗,共同推進鋼桁梁鋼材銹蝕機理的深入研究和力學性能退化規律的探索。
    的頭像 發表于 11-12 15:01 ?137次閱讀

    工業智能網關在設備遠程運中的作用

    地實現不同工業設備(如PLC、儀器儀表、CNC機床、傳感器等)與云平臺之間的通信,為設備遠程運提供了堅實的基礎。隨著物聯網、云計算、大數據等技術的飛速發展,工業智能網關作為連接
    的頭像 發表于 10-14 11:40 ?241次閱讀

    工業裝備智能保平臺是什么

    應運而生,成為保障生產連續性和設備高效運行的重要工具。 什么是工業裝備智能保平臺? 工業裝備智能保平臺是一種集成了大數據、云計算、人工智
    的頭像 發表于 08-21 14:19 ?240次閱讀

    圖像識別技術的原理是什么

    值化、濾波、邊緣檢測等操作。這些操作可以提高圖像的質量,減少噪聲,突出圖像的特征,為后續的特征提取和分類器設計提供基礎。 1.1
    的頭像 發表于 07-16 10:46 ?1068次閱讀

    工業大數據云平臺在設備預測性維護中的作用

    ,只有保證設備的安全穩定運行才能保障生產的持續,質量的可靠,提升企業產品競爭力。 因此,企業就需要加強對設備狀況的及時把握,并一定程度上實現工業設備預測性維護。為此,數之能提供的工業大數據云平臺可以全面接入
    的頭像 發表于 06-28 15:31 ?259次閱讀

    通過強化學習策略進行特征選擇

    來源:DeepHubIMBA特征選擇是構建機器學習模型過程中的決定性步驟。為模型和我們想要完成的任務選擇好的特征,可以提高性能。如果我們處理
    的頭像 發表于 06-05 08:27 ?363次閱讀
    通過強化學習策略進行<b class='flag-5'>特征</b><b class='flag-5'>選擇</b>

    工業大模型的五個基本問題

    工業業大模型是大模型為賦能工業應用所產生的產業新形態,是制造業數字化轉型3.0的重要載體,是一個新質體。
    發表于 04-23 16:04 ?718次閱讀
    <b class='flag-5'>工業大</b>模型的五個基本問題

    工業大數據發展面臨的問題

    工業大數據作為工業與數字經濟之間的橋梁紐帶,對加快工業數字化轉型、推進數實融合,支撐新型工業化建設意義重大。
    的頭像 發表于 04-16 11:52 ?552次閱讀

    工業物聯網設備運數據大屏有什么功能?

    ,并優化設備的運行效率和可靠性。對此,數之能提供具備廣泛接入性、高并發性、安全防護性的設備運數據大屏。 通過對接PLC、儀器儀表、工業機器人、數控機床、傳感器等設備數據,設備運
    的頭像 發表于 03-18 11:01 ?563次閱讀

    通過工業智能網關實現設備智能運管理

    需要人工現場排查和處理,不僅效率低下,而且成本較高。這是受限于設備單機運行、缺少聯網的限制,因此需要數據采集設備的加持。物通博聯推出的工業智能網關可以實現PLC、儀器儀表、工業機器人、
    的頭像 發表于 03-15 13:44 ?360次閱讀
    通過<b class='flag-5'>工業</b>智能網關實現設備智能運<b class='flag-5'>維</b>管理

    CYBT-343026傳輸大數據時會丟數據的原因?

    我正在使用 CYBT-343026 (CYW-20706 Silicon) 模塊。 我根據 SPP 樣本制作了一個操作 SPP 的應用程序。 但是,傳輸大數據時有時會丟失數據。 它從
    發表于 03-01 15:04

    淺析大數據時代下的數據中心運管理

    淺析大數據時代下的數據中心運管理 張穎姣 安科瑞電氣股份有限公司?上海嘉定201801 摘要:本文將從數據中心運管理的角度,聯系現實情況
    的頭像 發表于 02-22 14:40 ?390次閱讀
    淺析<b class='flag-5'>大數據</b>時代下的<b class='flag-5'>數據</b>中心運<b class='flag-5'>維</b>管理

    大數據技術是干嘛的 大數據核心技術有哪些

    的核心技術,包括數據采集、存儲與管理、處理與分析等方面。 一、大數據技術背景和概念 1.1 背景 隨著互聯網技術的迅猛發展,人們可以通過各種途徑產生、獲取和傳輸數據,使
    的頭像 發表于 01-31 11:07 ?3515次閱讀

    工業設備智能監控運管理云平臺

    隨著科技的飛速發展,工業設備智慧運云平臺以云計算、大數據、物聯網等先進技術為支撐,使設備運工作變得更加智能化、高效化,為企業降本增效、綠色發展提供了有力保障。 數之能推出的
    的頭像 發表于 01-25 15:39 ?752次閱讀
    主站蜘蛛池模板: 日本无码毛片久久久九色综合| 一个人视频日本在线观看| 在线一本码道高清| 久久草香蕉频线观| 91女神娇喘| 日本久久黄色| 国产福利视频一区二区| 亚洲欧洲日韩天堂无吗| 久久久免费观看| z00兽200俄罗斯| 性夜影院爽黄A爽免费动漫| 久久精品国产亚洲AV影院 | 日韩精品在线看| 国产区精品综合在线| 2022精品福利在线小视频| 色橹橹欧美在线观看视频高清| 精品国产国偷自产在线观看| 99热在线视频| 久久久久久久久a免费| 菠萝菠萝蜜免费播放高清| 亚洲精品国产品国语在线试看| 欧美末成年videos在线| 国产露脸A片国语露对白| 91精品免费久久久久久久久| 无人区尖叫之夜美女姐姐视频| 毛片免费在线播放| 国产人成无码视频在线观看| 99精彩免费观看| 亚洲精品久久无码AV片银杏| 日本不卡免免费观看| 久久毛片视频| 国产中文欧美日韩在线| 不卡一区二区高清观看视频| 在线观看国产区| 亚洲大片在线观看| 色婷婷亚洲精品天天综合影院| 美女露出逼| 久久久国产精品免费A片蜜臀| 国产人妻精品无码AV在线五十路| 扒开校花粉嫩小泬喷潮漫画| 1V1各种PLAY女主被肉|