色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

無監督學習的數據集變換和聚類

汽車玩家 ? 來源:CSDN ? 作者:zzc_zhuyu ? 2020-05-04 18:28 ? 次閱讀

1、類型

主要有兩種類型:數據集變換和聚類。

無監督變換:

降維:接受數據的高維表示,找到新的表示方法,以用較少的特征概括重要特性。

找到“構成”數據的各個組成部分。例如,文本的主題提取。

聚類:

將數據劃分成不同的組,每組包含相似的物項

2、降維

1. 主成分分析(PCA)

一種旋轉數據集的方法,旋轉后的特征在統計上不相關。旋轉后,通常根據新特征對數據集的重要性來選擇它的一個子集。

主成分

方差最大的方向為“成分1”,這是包含包含最多信息的方向。之后找到與“成分1”正交的包含信息最多的方向,得到“成分2”……利用這一過程找到的方向成為主成分。通常,主成分的個數與原始特征相同。

在PCA找到的額旋轉表示中,坐標軸之間 不相關。

應用

高維數據集可視化

特征提取:找到一種數據表示,比給定的原始表示更適合于分析。

對PCA模型的另一種理解:僅適用一些成分對原始數據進行重建。

2. 非負矩陣分解(NMF)

在NMF中,目標是分量和系數均為非負。只能應用于每個特征都是非負的數據,因為非負分量的非負求和不可能得到負值。

與PCA不同,減少分量個數不僅會刪除一些方向,而且會創建一組完全不同的分量。

NMF的分量沒有按任何特定方法排序,所有分量的地位平等。

NMF使用了隨機初始化,根據隨機種子的不同可能會產生不同的結果。

3. t-SNE與流形學習

流形學習算法 :主要用于可視化,允許進行更復雜的映射。只能變換用于訓練的數據。

t-SNE:找到數據的一個二維表示,盡可能保持數據點之間的距離。試圖保存那些點比較靠近的信息。

3、聚類

聚類:將數據集劃分成組的任務,這些組叫做簇。

1. K均值聚類

原理

試圖找到代表數據特定區域的簇中心

算法過程

① 將每個數據點分配給最近的簇中心

② 將每個簇中心設置為所分配的所有數據點的平均值,如果簇的分配不再變化,結束;反之,執行步驟1

注:聚類算法與分類算法類似,但不存在真實的標簽,標簽本身沒有先驗意義。

注意

每個簇僅由其中心決定,這意味著每個簇都是凸型的,因此,只能找到相對簡單的形狀。

k均值假設所有簇在某種程度上有相同的直徑,它總是將簇之間的邊界剛好畫在簇中心的中間位置

k均值假設所有方向對每個簇同等重要

特點

優點:

容易理解和實現

運行速度相對較快

擴展到大型數據集比較容易

缺點:

依賴于隨機初始化

對簇形狀的假設的約束性較強

要求制定所要尋找到簇的個數

2. 凝聚聚類

算法首先聲明每個點是自己的簇,然后合并兩個最相似的簇,直到滿足某種停止準則為止。

連接準則:規定如何度量“最相似的簇”。

① ward型:兩個簇合并后,使得所有簇中方差增加最小

② average型:平均距離最小的兩個簇合并

③ complete型:簇中點之間最大距離最小的兩個簇合并

注:凝聚算法不能對新數據點做出預測

凝聚聚類生成了所謂的層次聚類

3. DBSCAN (具有噪聲的基于密度的空間聚類應用)

原理

識別特征空間的“擁擠”區域中的點,這些區域成為密集區域。簇形成數據的密集區域,并由相對較空的區域分隔開。在密集區域中的點成為核心樣本,指定參數eps和min_samples。如果在一個點eps的距離內至少有min_samples個數據點,則為核心樣本。

算法過程

① 任意選取一個點,檢查是否是核心樣本。

② 若不是,標記為噪聲。反之,標記為核心樣本,并分配一個新的簇標簽。然后檢查鄰居,若未被分配,分配簇標簽;如果是核心樣本,依次訪問鄰居。

③ 選取另一個尚未被訪問過的點,重復以上過程。

最后得到三種點:核心點、邊界點、噪聲。

特點

優點:

不需先驗設置簇的個數

可以劃分具有復雜形狀的簇

可以找出不屬于任何簇的點

缺點:

不允許對新的測試數據進行預測

聚類評估

1. 真實值評估

調整rand指數(ARI),歸一化互信息(NMI)

二者都給出了定量的度量,最佳值為1,0表示不相關的聚類。

2. 沒有真實值

輪廓系數 計算一個簇的緊致度,值越大越好,最高分數為1。雖然緊致的簇很好,但不允許復雜的形狀。

聚類小結

k均值

可以用簇的平均值來表示簇。

可被看做是一種分解方法,。每個數據點都由其簇中心表示

DBSCAN

可以檢測噪聲點

可以自動判斷簇的數量

允許簇有復雜的形狀

有時會生成大小差別很大的簇,可能是優點可能是缺點

凝聚聚類

可以提供數據的可能劃分的整個層次結構

可以通過樹狀圖查看

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4607

    瀏覽量

    92840
  • 無監督學習
    +關注

    關注

    1

    文章

    16

    瀏覽量

    2754
收藏 人收藏

    評論

    相關推薦

    時空引導下的時間序列自監督學習框架

    【導讀】最近,香港科技大學、上海AI Lab等多個組織聯合發布了一篇時間序列監督預訓練的文章,相比原來的TS2Vec等時間序列表示學習工作,核心在于提出了將空間信息融入到預訓練階段,即在預訓練階段
    的頭像 發表于 11-15 11:41 ?240次閱讀
    時空引導下的時間序列自<b class='flag-5'>監督學習</b>框架

    【「時間序列與機器學習」閱讀體驗】全書概覽與時間序列概述

    。 ●第5章“時間序列的相似度與”:介紹時間序列的相似性度量方法,如歐氏距離、動態時間規整算法等,用于衡量兩個或多個時間序列在形狀和模式上的相似程度;算法,如K-Means、D
    發表于 08-07 23:03

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    收集海量的文本數據作為訓練材料。這些數據不僅包括語法結構的學習,還包括對語言的深層次理解,如文化背景、語境含義和情感色彩等。 自監督學習
    發表于 08-02 11:03

    【《大語言模型應用指南》閱讀體驗】+ 基礎篇

    章節最后總結了機器學習的分類:有監督學習監督學習、半監督學習、自監督學習和強化
    發表于 07-25 14:33

    如何理解機器學習中的訓練、驗證和測試

    理解機器學習中的訓練、驗證和測試,是掌握機器學習核心概念和流程的重要一步。這三者不僅構成了模型學習
    的頭像 發表于 07-10 15:45 ?3807次閱讀

    神經網絡如何用監督算法訓練

    神經網絡作為深度學習的重要組成部分,其訓練方式多樣,其中監督學習是一種重要的訓練策略。監督學習旨在從未標記的
    的頭像 發表于 07-09 18:06 ?781次閱讀

    深度學習中的監督學習方法綜述

    應用中往往難以實現。因此,監督學習在深度學習中扮演著越來越重要的角色。本文旨在綜述深度學習中的監督學
    的頭像 發表于 07-09 10:50 ?683次閱讀

    PyTorch如何訓練自己的數據

    PyTorch是一個廣泛使用的深度學習框架,它以其靈活性、易用性和強大的動態圖特性而聞名。在訓練深度學習模型時,數據是不可或缺的組成部分。然而,很多時候,我們可能需要使用自己的
    的頭像 發表于 07-02 14:09 ?1640次閱讀

    基于FPGA的腦計算平臺 —PYNQ 集群的監督圖像識別腦計算系統

    STDP 監督學習算法,可運用于圖像的 監督分類。 從平臺設計角度: (1)本設計搭建的基于 PYNQ 集群的通用低功耗的大規模
    發表于 06-25 18:35

    傅里葉變換基本原理及在機器學習應用

    連續傅里葉變換(CFT)和離散傅里葉變換(DFT)是兩個常見的變體。CFT用于連續信號,而DFT應用于離散信號,使其與數字數據和機器學習任務更加相關。
    發表于 03-20 11:15 ?923次閱讀
    傅里葉<b class='flag-5'>變換</b>基本原理及在機器<b class='flag-5'>學習</b>應用

    機器學習基礎知識全攻略

    監督學習通常是利用帶有專家標注的標簽的訓練數據學習一個從輸入變量X到輸入變量Y的函數映射。Y = f (X),訓練數據通常是(n×x,y)的形式,其中n代表訓練樣本的大小,x和y分
    發表于 02-25 13:53 ?240次閱讀
    機器<b class='flag-5'>學習</b>基礎知識全攻略

    Meta發布新型監督視頻預測模型“V-JEPA”

    Meta,這家社交媒體和科技巨頭,近日宣布推出一種新型的監督視頻預測模型,名為“V-JEPA”。這一模型在視頻處理領域引起了廣泛關注,因為它通過抽象性預測生成視頻中缺失或模糊的部分來進行學習,提供了一種全新的視頻處理方法。
    的頭像 發表于 02-19 11:19 ?1009次閱讀

    描繪未知:數據缺乏場景的缺陷檢測方案

    Neuro-T 視覺平臺 克服了數據缺乏狀況的困難,通過零代碼設置 GAN模型 和 監督學習模型 ,輕松實現缺陷圖像的標注、繪制和導出。 工業應用中存在較多的缺陷檢測需求。針對缺陷檢測需求,常見的解決方案有兩種: 基于目標正
    的頭像 發表于 01-25 10:46 ?563次閱讀
    描繪未知:<b class='flag-5'>數據</b>缺乏場景的缺陷檢測方案

    2024年AI領域將會有哪些新突破呢?

    傳統的機器學習需要大量的標記數據進行訓練,但自監督學習可以通過監督的方式從大規模未標記的數據
    的頭像 發表于 01-24 09:58 ?2008次閱讀

    谷歌MIT最新研究證明:高質量數據獲取不難,大模型就是歸途

    另一個極端是,監督學習方法(即SupCE)會將所有這些圖像視為單一(如「金毛獵犬」)。這就忽略了這些圖像在語義上的細微差別,例如在一對圖像中狗在騎自行車,而在另一對圖像中狗坐在壽司屋內。
    的頭像 發表于 01-15 15:40 ?537次閱讀
    谷歌MIT最新研究證明:高質量<b class='flag-5'>數據</b>獲取不難,大模型就是歸途
    主站蜘蛛池模板: x8国产精品视频| 蜜桃传媒在线观看| 国产偷国产偷亚州清高APP| 国产全肉乱妇杂乱视频| 护士被老头边摸边吃奶的视频| 精品国产国产综合精品| 亚洲欧美中文字幕5发布| 亚洲人成77777在线视频| 最近2019中文字幕免费| 亚洲 制服 欧美 中文字幕| 人C交ZZZ0OOZZZ000| 美女脱了内裤张开腿让男人桶到爽| 美女洗澡脱得一二干净| 日韩精品欧美在线视频在线| 么公一夜要了我一八次视频HD| 精品99久久久久成人网站| 久久热在线视频精品店| 久久精品免费观看久久| 日产久久视频| 国精产品一区一区三区M | 老熟女重囗味GRANNYBBW| 日韩1区1区产品乱码芒果榴莲| 日日夜夜操操操| 日韩中文亚洲欧美视频二| 色姣姣狠狠撩综合网| 亚洲AV中文字幕无码久久| 午夜亚洲动漫精品AV网站| 野花韩国在线观看| 99久久做夜夜爱天天做精品| 18 japanese宾馆直播| 最近的2019中文字幕国语HD| 被cao的奶水直喷高H| 国产日韩欧美另类| 名女躁b久久天天躁| 牛牛在线精品视频(正)| 伦理片在线线手机版韩国免费观看 | 亚洲乱色视频在线观看| 亚洲国产成人精品青青草原100| 处xxxx.88| 久久精品观看| 色综合欧美色综合七久久|