色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

想掌握機器學習技術?從了解特征工程開始

格創東智 ? 2018-12-05 09:36 ? 次閱讀

本文作者:格創東智科技有限公司 OT團隊


人工智能是過去兩到三年時間內科技行業最熱的話題。而人工智能技術進步的背后,實質上是機器學習快速發展后所帶來的巨大提升。


機器學習被廣泛定義為“利用經驗來改善計算機系統的自身性能”。事實上,“經驗”在計算機中主要是以數據的形式存在的,因此數據是機器學習的前提和基礎。

在第一期格物匯的文章中,我們介紹了工業數據預處理的方法,主要針對數據格式異常,數據內容異常等問題進行了簡要探討。做數據預處理的主要目的是將雜亂無章的數據規整成我們想要的矩陣、表格、張量等結構,方便在之后的機器學習中進行模型訓練。然而數據中的問題還包含了冗余,噪聲,高維度,體量大等很多問題。解決這些問題的方法與數據預處理的方法在機器學習中被統稱為特征工程,今天我們就來了解一下吧。


特征工程是什么


當你想要你的預測模型性能達到最佳時,你要做的不僅是要選取最好的算法,還要盡可能的從原始數據中獲取更多的信息。那么問題來了,你應該如何為你的預測模型得到更好的數據呢?這就是特征工程要做的事,它的目的就是獲取更好的訓練數據

維基百科中給特征工程做出了簡單定義:特征工程是利用數據領域的相關知識來創建能夠使機器學習算法達到最佳性能的特征的過程。簡而言之,特征工程就是一個把原始數據轉變成特征的過程,這些特征可以很好的描述這些數據,并且利用它們建立的模型在未知數據上的表現性能可以達到最優(或者接近最佳性能)。從數學的角度來看,特征工程就是人工地去設計輸入變量X


特征工程的重要性


關于特征工程(Feature Engineering),已經是很古老很常見的話題了,坊間常說:“數據和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已”。由此可見,特征工程在機器學習中占有相當重要的地位


1、特征越好,靈活性越強

只要特征選得好,即使是一般的模型(或算法)也能獲得很好的性能,因為大多數模型(或算法)在好的數據特征下表現的性能都還不錯。好特征的靈活性在于它允許你選擇不復雜的模型,同時運行速度也更快,也更容易理解和維護。


2、特征越好,構建的模型越簡單

有了好的特征,即便你的參數不是最優的,你的模型性能也能仍然會表現的很nice,所以你就不需要花太多的時間去尋找最有參數,這大大的降低了模型的復雜度,使模型趨于簡單。


3、特征越好,模型的性能越出色

顯然,這一點是毫無爭議的,我們進行特征工程的最終目的就是提升模型的性能。


特征工程怎么做

既然特征工程這么重要,那么我們就來看看特征工程到底是如何實現或者工作的。特征工程到底分為哪些內容?我們大致可以參考如下流程圖來看看。



簡單來說,特征處理主要分如下三個方法:

特征構建

特征構建是指從原始數據中人工的找出一些具有實際意義的特征。需要花時間去觀察原始數據,思考問題的潛在形式和數據結構,對數據敏感性和機器學習實戰經驗能幫助特征構建。除此之外,屬性分割和結合是特征構建時常使用的方法。特征構建是個非常麻煩的問題,書里面也很少提到具體的方法,需要對問題有比較深入的理解。

特征抽取

一些觀測數據如果直接建模,其原始狀態的數據太多。像圖像、音頻和文本數據,如果將其看做是表格數據,那么其中包含了數以千計的屬性。特征抽取是自動地對原始觀測降維,使其特征集合小到可以進行建模的過程。通常可采用主成分分析(PCA)、線性判別分析(LDA))等方法;對于圖像數據,可以進行線(line)或邊緣(edge)的提取;根據相應的領域,圖像、視頻和音頻數據可以有很多數字信號處理的方法對其進行處理。

特征選擇

不同的特征對模型的準確度的影響不同,有些特征與要解決的問題不相關,有些特征是冗余信息,這些特征都應該被移除掉。特征選擇是自動地選擇出對于問題最重要的那些特征子集的過程。常用的特征選擇方法可以分為3類:過濾式(filter)、包裹式(wrapper)和嵌入式(embedding)。


小結

總的來說,數據會存在各種各樣的問題,針對這些問題我們的特征工程給出了相應的解決辦法:1.特征解釋能力不足,我們可以嘗試使用特征構建,對數據進行升維來提升特征解釋能力;2.特征冗余,維度太高,噪聲太多,我們可以通過特征抽取和特征選擇,來對數據進行降維去噪,提煉特征。當然還有其他的特征處理方法,一般需要根據具體問題而定。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8422

    瀏覽量

    132712
  • 智能制造
    +關注

    關注

    48

    文章

    5570

    瀏覽量

    76368
  • 工業互聯網
    +關注

    關注

    28

    文章

    4323

    瀏覽量

    94144
收藏 人收藏

    評論

    相關推薦

    飛凌嵌入式-ELFBOARD-ELF 2硬件分享之前言

    不同電路原理的增多,各種器件的特性和原理便會熟記于心。 此外,掌握模擬電子技術也是硬件設計的基礎。了解最基本的元件開始,如電阻、電容、電感
    發表于 12-02 13:34

    數據準備指南:10種基礎特征工程方法的實戰教程

    在數據分析和機器學習領域,原始數據中提取有價值的信息是一個關鍵步驟。這個過程不僅有助于輔助決策,還能預測未來趨勢。為了實現這一目標,特征工程技術
    的頭像 發表于 11-01 08:09 ?282次閱讀
    數據準備指南:10種基礎<b class='flag-5'>特征</b><b class='flag-5'>工程</b>方法的實戰教程

    人工智能、機器學習和深度學習存在什么區別

    人工智能指的是在某種程度上顯示出類似人類智能的設備。AI有很多技術,但其中一個很大的子集是機器學習——讓算法數據中學習
    發表于 10-24 17:22 ?2498次閱讀
    人工智能、<b class='flag-5'>機器</b><b class='flag-5'>學習</b>和深度<b class='flag-5'>學習</b>存在什么區別

    特征工程實施步驟

    數據中提取數值表示以供無監督模型使用的方法(例如,試圖之前非結構化的數據集中提取結構)。特征工程包括這兩種情況,以及更多內容。數據從業者通常依賴ML和深度學習算法
    的頭像 發表于 10-23 08:07 ?285次閱讀
    <b class='flag-5'>特征</b><b class='flag-5'>工程</b>實施步驟

    【「時間序列與機器學習」閱讀體驗】時間序列的信息提取

    個重要環節,目標是給定的時間序列數據中提取出有用的信息和特征,以支持后續的分析和預測任務。 特征工程(Feature Engineering)是將數據轉換為更好地表示潛在問題的
    發表于 08-17 21:12

    【《時間序列與機器學習》閱讀體驗】+ 時間序列的信息提取

    本人有些機器學習的基礎,理解起來一點也不輕松,加油。 作者首先說明了時間序列的信息提取是時間序列分析的一個重要環節,目標是給定的時間序列數據中提取出有用的信息和特征,以支持后續的分析
    發表于 08-14 18:00

    【「時間序列與機器學習」閱讀體驗】全書概覽與時間序列概述

    他領域(如自然語言處理、計算機視覺等)的關聯。 ●第2章“時間序列的信息提取”:介紹特征工程的核心概念及其在時間序列分析中的廣用,比如對原始數據進行歸一化、缺失值填充等轉換;以及如何通過特征
    發表于 08-07 23:03

    機器學習中的數據預處理與特征工程

    機器學習的整個流程中,數據預處理與特征工程是兩個至關重要的步驟。它們直接決定了模型的輸入質量,進而影響模型的訓練效果和泛化能力。本文將從數據預處理和
    的頭像 發表于 07-09 15:57 ?452次閱讀

    機器學習的經典算法與應用

    關于數據機器學習就是喂入算法和數據,讓算法數據中尋找一種相應的關系。Iris鳶尾花數據集是一個經典數據集,在統計學習機器
    的頭像 發表于 06-27 08:27 ?1672次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>的經典算法與應用

    特征工程與數據預處理全解析:基礎技術和代碼示例

    機器學習和數據科學的世界里,數據的質量是建模成功與否的關鍵所在。這就是特征工程和數據預處理發揮作用的地方。本文總結的這些關鍵步驟可以顯著提高模型的性能,獲得更準確的預測,我們將深入研
    的頭像 發表于 06-26 08:28 ?494次閱讀
    <b class='flag-5'>特征</b><b class='flag-5'>工程</b>與數據預處理全解析:基礎<b class='flag-5'>技術</b>和代碼示例

    名單公布!【書籍評測活動NO.35】如何用「時間序列與機器學習」解鎖未來?

    量化交易的概念、發展歷程,如何通過因子挖掘時間序列數據中提取特征并將其轉化為交易策略,以及機器學習在其他金融領域(包括資產定價、資產配置、波動率預測)的應用。 本書的兩位作者在時間
    發表于 06-25 15:00

    通過強化學習策略進行特征選擇

    來源:DeepHubIMBA特征選擇是構建機器學習模型過程中的決定性步驟。為模型和我們想要完成的任務選擇好的特征,可以提高性能。如果我們處理的是高維數據集,那么選擇
    的頭像 發表于 06-05 08:27 ?363次閱讀
    通過強化<b class='flag-5'>學習</b>策略進行<b class='flag-5'>特征</b>選擇

    嵌入式工程師需要掌握哪些技術?

    嵌入式工程師需要掌握哪些技術? 嵌入式系統是當今科技領域中的重要組成部分,它們存在于我們生活的方方面面,智能手機到汽車控制系統,家電到
    發表于 03-04 16:38

    數據預處理和特征工程的常用功能

    機器學習最基礎的5個流程,分別是數據獲取,數據預處理,特征工程,建模、測試和預測,上線與部署。
    的頭像 發表于 01-25 11:26 ?767次閱讀

    視覺焊縫跟蹤系統適配廣數機器人進行自動化焊接的應用

    ??隨著制造業的發展,自動化技術在焊接領域的應用變得愈發重要。為了提高焊接質量和效率,越來越多的企業開始采用機器人進行自動化焊接。而焊縫跟蹤技術作為自動化焊接的關鍵
    的頭像 發表于 01-07 10:52 ?482次閱讀
    主站蜘蛛池模板: 你的欲梦裸身在线播放| 亚洲精品国偷拍自产在线| 一亲二脱三插| 蕾丝边娱乐网| 末成年美女黄网站色大片连接| 台湾18成人影院| 国产综合视频在线观看一区| 又黄又粗又爽免费观看| 奶水太多h室友| 国产 亚洲 中文在线 字幕| 亚洲大码熟女在线| 麻豆成人啪啪色婷婷久久| 成人午夜剧场| 亚洲色欲色欲www474ee| 年轻漂亮的妺妺中文字幕版| 光棍天堂在线a| 中文字幕蜜臀AV熟女人妻| 日日摸天天添天天添无码蜜臀| 黄色a三级三级三级免费看| blacked黑人战小美女| 亚洲国产av| 秋霞电影午夜伦午夜| 久久高清免费视频| 高清国产mv视频在线观看| 中文字幕一区二区三区在线观看| 少妇高潮久久久久7777| 狼群资源网中文字幕| 国产国拍亚洲精品永久软件| 97精品视频在线观看| 亚洲精品久久久午夜麻豆 | 国产高清亚洲日韩字幕一区| 一个吃奶两个添下面H| 思思99热久久精品在线6| 免费 高清 中文在线观看| 国产专区青青在线视频| 纯h超级大尺度小黄文| 2017最新伦理伦理片67| 亚洲国产免费观看视频| 人和拘一级毛片| 麻豆精品2021最新| 精品福利一区|