色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器學習這四個東西你知道幾個?

倩倩 ? 來源:潤森知識 ? 2020-04-15 15:44 ? 次閱讀

分類變量特征提取

分類數據的獨熱編碼方法,分類變量特征提取(One-of-K or One-Hot Encoding):通過二進制數來表示每個解釋變量的特征

from sklearn.feature_extraction import DictVectorizer

onhot_encoder = DictVectorizer()

instances=[{‘city’:‘New York’},{‘city’:‘San Francisco’},{‘city’:‘Chapel Hill’}]

print (onhot_encoder.fit_transform(instances).toarray())

[[0. 1. 0.]

[0. 0. 1.]

[1. 0. 0.]]

文字特征提取-詞庫模型

文字模型化最常用方法,可以看成是獨熱編碼的一種擴展,它為每個單詞設值一個特征值。依據是用類似單詞的文章意思也差不多。可以通過有限的編碼信息實現有效的文檔分類和檢索。

CountVectorizer 類會將文檔全部轉換成小寫,然后將文檔詞塊化(tokenize)。文檔詞塊化是把句子分割成詞塊(token)或有意義的字母序列的過程。詞塊大多是單詞,但是他們也可能是一些短語,如標點符號和詞綴。

CountVectorizer類通過正則表達式用空格分割句子,然后抽取長度大于等于2的字母序列。

from sklearn.feature_extraction.text import CountVectorizer

corpus = [

‘UNC played Duke in basketball’,

‘Duke lost the basketball game’,

‘I ate a sandwich’

vectorizer = CountVectorizer()

print (vectorizer.fit_transform(corpus).todense())

print (vectorizer.vocabulary_)

[[0 1 1 0 1 0 1 0 0 1]

[0 1 1 1 0 1 0 0 1 0]

[1 0 0 0 0 0 0 1 0 0]]

{‘unc’: 9, ‘played’: 6, ‘duke’: 2, ‘in’: 4, ‘basketball’: 1, ‘lost’: 5, ‘the’: 8, ‘game’: 3, ‘ate’: 0, ‘sandwich’: 7}

對比文檔的特征向量

對比文檔的特征向量,會發現前兩個文檔相比第三個文檔更相似。如果用歐氏距離(Euclidean distance)計算它們的特征向量會比其與第三個文檔距離更接近。

兩向量的歐氏距離就是兩個向量歐氏范數(Euclidean norm)或L2范數差的絕對值:d=||x0-x1||向量的歐氏范數是其元素平方和的平方根:scikit-learn里面的euclidean_distances函數可以計算若干向量的距離,表示兩個語義最相似的文檔其向量在空間中也是最接近的。

from sklearn.feature_extraction.text import CountVectorizer

from sklearn.metrics.pairwise import euclidean_distances

vectorizer = CountVectorizer()

corpus = [

‘UNC played Duke in basketball’,

‘Duke lost the basketball game’,

‘I ate a sandwich’

counts = vectorizer.fit_transform(corpus).todense()

for x,y in [[0,1],[0,2],[1,2]]:

dist = euclidean_distances(counts[x],counts[y])

print(‘文檔{}與文檔{}的距離{}’.format(x,y,dist))

文檔0與文檔1的距離[[2.44948974]]

文檔0與文檔2的距離[[2.64575131]]

文檔1與文檔2的距離[[2.64575131]]

圖片特征的提取

數字圖像通常是一張光柵圖或像素圖,將顏色映射到網格坐標里。一張圖片可以看成是一個每個元素都是顏色值的矩陣。表示圖像基本特征就是將矩陣每行連起來變成一個行向量。光學文字識別(Optical character recognition,OCR)是機器學習的經典問題。

scikit-learn的digits數字集包括至少1700種0-9的手寫數字圖像。每個圖像都有8x8像像素構成。每個像素的值是0-16,白色是0,黑色是16。

# 通過像素提取特征值

from sklearn import datasets

import matplotlib.pyplot as plt

digits = datasets.load_digits()

print(‘Digit:’,digits.target[0])

print (digits.images[0])

plt.figure()

plt.axis(‘off’)

plt.imshow(digits.images[0], cmap=plt.cm.gray_r, interpolation=‘nearest’)

plt.show()

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 二進制
    +關注

    關注

    2

    文章

    795

    瀏覽量

    41643
  • 數字圖像
    +關注

    關注

    2

    文章

    119

    瀏覽量

    18748
  • 編碼
    +關注

    關注

    6

    文章

    940

    瀏覽量

    54814
收藏 人收藏

    評論

    相關推薦

    智譜推出四個全新端側模型 攜英特爾按下AI普及加速鍵

    ,GLM-Edge-4B-chat、GLM-Edge-1.5B-chat為端側大語言模型,GLM-Edge-V-5B、GLM-Edge-V-2B為端側多模態模型,這四個模型分別具有4.3B/1.5B
    的頭像 發表于 12-02 17:13 ?196次閱讀
    智譜推出<b class='flag-5'>四個</b>全新端側模型 攜英特爾按下AI普及加速鍵

    有兩組I2S信號送入到CS48540(DSP)中處理,在這四個IC中是依據什么來設置主從關系的呢?

    如上圖所示,有兩組I2S 信號(CS8416與PCM1808)送入到CS48540(DSP)中處理,在這四個IC中是依據什么來設置主從關系的呢?謝謝!
    發表于 11-04 06:47

    用PPS編譯生成了一.h文件,文件里頭的接口段代碼{44,28,0,0}這四個數字分別代表什么意思啊?

    VOLUME_control_names[] = { \"Volume_1\" }; 我想問的是{44,28,0,0}這四個數字分別代表什么意思啊?還請大家指教,不勝感激~!
    發表于 10-30 06:37

    使用OPA180運放構建差分放大器,如何確定四個電阻的大小?

    我目前打算使用OPA180運放構建差分放大器。如下圖所示 如果我的放大倍數取0.4,那么取R1=R2=300K,RF=RG=120K,和R1=R2=30K,RF=RG=12K這兩選取哪一組比較好。或者有什么方法可以用來確定這四個電阻的大小。謝謝!
    發表于 08-16 12:36

    IGBT的四個主要參數

    IGBT的四個主要參數對于選擇合適的IGBT器件至關重要。本文將介紹IGBT的四個主要參數:電壓等級、電流等級、開關頻率和熱性能。 1. 電壓等級 電壓等級是IGBT的一重要參數,它決定了IGBT能夠承受的最大電壓。電壓等級的
    的頭像 發表于 07-25 11:05 ?3292次閱讀

    四個2輸入異或門數據表

    電子發燒友網站提供《四個2輸入異或門數據表.pdf》資料免費下載
    發表于 05-22 09:58 ?0次下載
    <b class='flag-5'>四個</b>2輸入異或門數據表

    四個2輸入正極和柵極數據表

    電子發燒友網站提供《四個2輸入正極和柵極數據表.pdf》資料免費下載
    發表于 05-17 10:28 ?0次下載
    <b class='flag-5'>四個</b>2輸入正極和柵極數據表

    四個2輸入正極和柵極數據表

    電子發燒友網站提供《四個2輸入正極和柵極數據表.pdf》資料免費下載
    發表于 05-16 10:22 ?0次下載
    <b class='flag-5'>四個</b>2輸入正極和柵極數據表

    四個2輸入異或門數據表

    電子發燒友網站提供《四個2輸入異或門數據表.pdf》資料免費下載
    發表于 05-13 11:04 ?0次下載
    <b class='flag-5'>四個</b>2輸入異或門數據表

    四個2輸入正極和柵極數據表

    電子發燒友網站提供《四個2輸入正極和柵極數據表.pdf》資料免費下載
    發表于 05-10 10:10 ?0次下載
    <b class='flag-5'>四個</b>2輸入正極和柵極數據表

    為什么UM0424的FS-USB的庫文件里面丟失了幾個文件?

    在V3.3的版本里面有以下幾個文件: otgd_fs_cal.c otgd_fs_dev.c otgd_fs_pcd.c otgd_fs_int.c 以及對應的.h文件。 但是升級到V4.0.0的版本后,這四個文件以及對應的.h文件都去掉了。
    發表于 05-07 07:55

    電容6大特性參數,知道幾個

    硬件設計好不好,電容參數知多少? 原文整理自書籍《硬件設計指南》 電容是我們電子電路設計中最常用的元件之一,除了基本的電容容值之外,電容還有其他6大參數,知道幾個呢?本文章介紹MLCC陶瓷電容6
    的頭像 發表于 02-21 15:10 ?1048次閱讀
    電容6大特性參數,<b class='flag-5'>你</b><b class='flag-5'>知道</b><b class='flag-5'>幾個</b>?

    四個引腳無源晶振的接線方法

    無源晶振是一種常用的被動元件,用于產生穩定的時鐘信號。它通常有四個引腳,分別是VCC、GND、OUT和NC。
    的頭像 發表于 01-23 18:15 ?6513次閱讀

    SMT絲印技術的歷史發展的四個階段,知道嗎?

    SMT絲印技術的歷史發展的四個階段,知道嗎?
    的頭像 發表于 12-27 10:15 ?922次閱讀

    機器視覺的大核心功能

    通過計算機軟件進行處理和分析。機器視覺在工業、醫療、農業、交通、安防等領域都有廣泛的應用。 機器視覺的核心功能可以歸納為四個方面:圖像獲取、圖像處理、圖像分析和圖像識別。下面將詳細介紹這四個
    的頭像 發表于 12-25 11:15 ?1010次閱讀
    主站蜘蛛池模板: 美女大BXXXXN内射| 国产精品JIZZ在线观看A片| 亚洲视频免费| 小莹的性荡生活| 十九禁啊啪射视频在线观看| 欧美一区二区视频97色伦| 久久亚洲高清观看| 久久精品国产免费播放| 娇妻被朋友玩得呻吟在线电影| 国产精品久久久久久久久久影院 | 欧美 亚洲综合在线一区| 久久精品国产亚洲AV忘忧草蜜臀 | china野外18:19| 51国产偷自视频在线视频播放| 依人青青青在线观看| 亚洲视频免费在线观看| 亚洲精品视频区| 亚洲性无码av在线| 一级毛片全部免| 张津瑜的9分58秒7段免费| 永久免费毛片| 13一18TV处流血TV| 99久久麻豆AV色婷婷综合| 99视频导航| 成 人 片 免费播放| 动漫H片在线观看播放免费| 短篇合集纯肉高H深陷骚 | 中文字幕AV在线一二三区| 在线免费观看日本| 97精品少妇偷拍AV| 爱爱好爽好大好紧视频| 丰满饥渴老太性hd| 国产亚洲精品 在线视频 香蕉| 国产曰批试看免费视频播放免费| 国内精品久久久久影院男同志| 花蝴蝶高清观看免费| 久久精品亚洲AV高清网站性色| 美女夫妻内射潮视频| 日本xxx护士与黑人| 王晶经典三级| 亚洲一区乱码电影在线|