色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

聚類是另一種無監督機器學習方法

倩倩 ? 來源:邊際實驗室 ? 2020-03-25 16:05 ? 次閱讀

聚類是另一種無監督機器學習方法,該方法將數據點分為相似的組,稱之為“類”。一個類包含來自數據集的一個觀察子集,同一類中的所有觀察值都被認為是“相似的”。每個類里觀測值彼此之間接近(稱為內聚),兩個不同的類里的觀測值彼此遠離或者盡可能不同(稱為分離)。下圖描述了類的內聚和分離。

聚類算法在許多投資問題中特別有用。例如,在對公司進行分組時,類可以發現公司之間的重要相似性和差異性,而這些相似性和差異性可能不會被標準的行業分類所捕捉。在投資組合管理中,聚類方法被用來改善投資組合的多樣化。

在實踐中,專家判斷在聚類算法中起著一定的作用。首先,專家必須確定什么是“相似”。每個公司都可以被認為是一個具有多種特征的觀察值,包含營業收入、利潤、財務比率等財務數值,以及其他潛在的模型輸入值。有了這些特征值,兩個觀測值之間的相似度或“距離”就可以被定義。距離越小,觀測結果越相似;距離越大,觀測結果越不相似。

一個常用的定義方法是歐幾里得距離,即兩點之間的直線距離。在機器學習中,經常使用的距離度量有十余種。在實踐中,距離度量的選擇取決于數據的性質(是否是數值)和被分析的業務類別。

一旦定義了相關的距離度量,我們就可以將類似的觀測結果分在一起。我們現在介紹兩種比較流行的聚類方法:K-Means和分層聚類。

K-Means

K-Means是一種相對較老的算法,它將觀察值重復劃分為一個固定的數字k(不重疊的類)。類的數量k是一個模型超參數,它的值由研究人員在學習開始之前設置。每個類由它的形心(centroid,即中心)定義,每個觀測值都由算法分配到與該觀測值最接近的形心的類中。

K-Means算法遵循迭代過程。如下表所示,k=3和一組關于變量的觀察結果可以用兩個特征來描述。

在表中,水平軸和垂直軸分別代表第一和第二特征。例如,投資分析師可能希望將一組公司用兩個測量標準分成三類。

算法將觀測數據按以下步驟進行分類:

1、首先確定k(本例為3)個初始隨機形心的位置。

2、算法分析每個觀測值的特征。基于使用的距離度量,K-Means將每個觀測值分配給最近的形心(類由形心定義)。

3、借助每個類中的觀測值,K-Means算法在計算每個類新的(k個)形心(形心是觀測值的平均值)。

4、然后將觀測結果重新分配到新的形心,根據觀測結果對類重新定義。

5、再次進行新的(k個)形心及類的確定過程。

K-Means算法將繼續迭代,直到沒有觀察結果被重新分配到另一個新的類(即不需要重新計算新的形心)。該算法最終收斂并得到最后的K個類及類內的觀察值。在k=3的約束下,K-Means算法最小化了類內的距離(內聚最大化),最大化了類間距離(分離最大化)。

K-Means算法速度快,在擁有上億個觀測數據的數據集上運行良好。但是,類的最終分配可能取決于形心的初始位置。為了解決這個問題,可以使用不同的形心多次運行該算法,然后根據業務目的選擇最有用的分類。

這種技術的一個限制是,在運行K-Means之前,必須確定類的數量(超參數k)。

因此,我們需要知道,研究問題及分析數據集,選擇多少個類是合理的。或者,可以選擇k的取值范圍,通過運行算法找到最優的類的數量——使類內距離最小,類內的相似度最大。但是,最終結果仍可能過于主觀。

以羅素3000指數為例,該指數跟蹤美國市值最高的3000只股票。這3000支股票可以根據財務特征(如總資產、總收益、盈利能力、杠桿率等)和經營特征(如員工人數、研發費用等)分為10個、50個甚至更多的類。由于處于同一行業類別中的公司可能具有非常不同的財務和運營特征,因此使用K-Means派生出不同的類可以為“同類”群體的性質提供獨特的理解。如前所述,k的準確選擇取決于所需的精度或分割的水平。我們還可以使用聚類對投資工具或對沖基金進行分類,作為標準分類的替代方法。聚類還可以幫助實現可視化數據,并有助于檢測趨勢或異常值。

總而言之,K-Means算法是投資實踐中最常用的算法之一,特別是在高維數據中發現特有模式及作為現有靜態行業分類的替代方法等方面。

分層聚類

分層聚類是一種用于構建層次類結構的迭代過程。在K-Means聚類中,算法將數據分割成預定數目的聚類;類之間沒有定義的關系。然而,在分層聚類中,算法會創建大小遞增(“內聚”)或遞減(“分離”)的中間類,直到達到最終的聚類。正如“分層”一詞所暗示的,該過程在多層類之間創建關系。雖然與K-Means聚類相比,分層聚類的計算量更大,但它的優點是允許分析師在決定使用哪種間隔的數據之前檢查不同間隔數據的分段。

更詳細地說,內聚式(自下至上)分層聚類先將每個觀察值作為自己的類。然后,算法根據距離(相似度)的度量找到兩個最近的類,并將它們合并成一個新的更大的類。這個過程不斷重復,直到所有的觀察值都聚集成一個類。下表中的A表描述了一個內聚聚類的假想示例,其中的觀察結果用字母表示(A到K),觀察結果周圍的圓圈表示類。這個過程從11個單獨的類開始,然后生成分組序列。第一個序列包括6個類,有5個類各自有2個觀測值,1個類有單個觀測值G。接下來生成2個類,一個類有6個觀測值,另一個類有5個觀測值。最后的結果是一個包含所有11個觀測值的大類,該大類包括兩個主要的子類,每個子類包含三個較小的孫類。

相反,分離式(自上而下)分層聚類從單個類的所有觀察值開始。然后根據距離(相似度)將觀測結果分成兩個類。然后,該算法逐步將中間類劃分為更小的類,直到每個類只包含一個觀察值。B表描述了分離式聚類的步驟,它以一個包含11個觀察值的類開始,算法生成兩個較小的類,一個有6個觀測值,另一個有5個觀測值;然后再分為6個類;最后生成11個類,每個類只包含一個觀測值。

在這個假設的例子中,內聚式和分離式聚類產生了相同的結果:兩個主要的子類,每個子類有三個更小的孫類。我們可以在6個類或2個類之間進行選擇。由于計算速度快,內聚式聚類是處理數據集的常用方法。內聚式聚類算法根據局部模式進行決策,不考慮數據的全局結構。因此,內聚式聚類非常適合于對較小的類進行識別。由于分離式聚類先從整體開始,所以常被側重于分析數據的全局結構,因此更適合于識別較大的類。

為了確定內聚式和分離式聚類的最佳結果,需要對兩個類之間的距離有明確的定義。一些常用的定義包括求每個類中所有觀測值之間直線距離的最小值、最大值或平均值。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 聚類算法
    +關注

    關注

    2

    文章

    118

    瀏覽量

    12129
  • 機器學習
    +關注

    關注

    66

    文章

    8420

    瀏覽量

    132682
  • K-means
    +關注

    關注

    0

    文章

    28

    瀏覽量

    11315
收藏 人收藏

    評論

    相關推薦

    傳統機器學習方法和應用指導

    用于開發生物學數據的機器學習方法。盡管深度學習般指神經網絡算法)是個強大的工具,目前也非常流行,但它的應用領域仍然有限。與深度
    的頭像 發表于 12-30 09:16 ?140次閱讀
    傳統<b class='flag-5'>機器</b><b class='flag-5'>學習方法</b>和應用指導

    磁通制動是另一種基于電機損耗的處理超速負載的方法

    電機
    深圳崧皓電子
    發布于 :2024年11月21日 07:16:32

    什么是機器學習?通過機器學習方法能解決哪些問題?

    計算機系統自身的性能”。事實上,由于“經驗”在計算機系統中主要以數據的形式存在,因此機器學習需要設法對數據進行分析學習,這就使得它逐漸成為智能數據分析技術的創新源之
    的頭像 發表于 11-16 01:07 ?417次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>學習</b>?通過<b class='flag-5'>機器</b><b class='flag-5'>學習方法</b>能解決哪些問題?

    【《時間序列與機器學習》閱讀體驗】+ 了解時間序列

    。 可以探索現象發展變化的規律,對某些社會經濟現象進行預測。 利用時間序列可以在不同地區或國家之間進行對比分析,這也是統計分析的重要方法。 而《時間序列與機器學習
    發表于 08-11 17:55

    【「時間序列與機器學習」閱讀體驗】全書概覽與時間序列概述

    。 ●第5章“時間序列的相似度與”:介紹時間序列的相似性度量方法,如歐氏距離、動態時間規整算法等,用于衡量兩個或多個時間序列在形狀和模式上的相似程度;
    發表于 08-07 23:03

    一種透鏡成像的新方法

    使用OAM-HHG EUV光束對高度周期性結構進行成像的EUV聚光顯微鏡 為了研究微電子或光子元件中的納米級圖案,一種基于透鏡成像的新方法可以實現近乎完美的高分辨率顯微鏡。 層析成像是一種
    的頭像 發表于 07-19 06:20 ?387次閱讀
    <b class='flag-5'>一種</b><b class='flag-5'>無</b>透鏡成像的新<b class='flag-5'>方法</b>

    神經網絡如何用監督算法訓練

    神經網絡作為深度學習的重要組成部分,其訓練方式多樣,其中監督學習一種重要的訓練策略。監督學習
    的頭像 發表于 07-09 18:06 ?806次閱讀

    深度學習中的監督學習方法綜述

    應用中往往難以實現。因此,監督學習在深度學習中扮演著越來越重要的角色。本文旨在綜述深度學習中的監督學
    的頭像 發表于 07-09 10:50 ?760次閱讀

    基于FPGA的腦計算平臺 —PYNQ 集群的監督圖像識別腦計算系統

    STDP 監督學習算法,可運用于圖像的 監督分類。 從平臺設計角度: (1)本設計搭建的基于 PYNQ 集群的通用低功耗的大規模
    發表于 06-25 18:35

    名單公布!【書籍評測活動NO.35】如何用「時間序列與機器學習」解鎖未來?

    捕捉復雜非線性模式的場景中顯得力不從心。 將時間序列的分析與預測用于大規模的數據生產直存在諸多困難。 在這種背景下,結合機器學習,特別是深度學習技術的時間序列分析
    發表于 06-25 15:00

    谷歌提出大規模ICL方法

    谷歌DeepMind團隊近日取得了項突破性的研究成果。他們提出了強化和監督新型的ICL(In-Context Learning)學習方法
    的頭像 發表于 05-14 14:17 ?361次閱讀

    一種利用光電容積描記(PPG)信號和深度學習模型對高血壓分類的新方法

    [22]。就像平均池化樣,最大池化是另一種用于減小特征圖大小的常用方法。它通過僅取每個區域的最大值來獲得最重要的特征。在機器學習中,池化
    發表于 05-11 20:01

    Meta發布新型監督視頻預測模型“V-JEPA”

    Meta,這家社交媒體和科技巨頭,近日宣布推出一種新型的監督視頻預測模型,名為“V-JEPA”。這模型在視頻處理領域引起了廣泛關注,因為它通過抽象性預測生成視頻中缺失或模糊的部分來
    的頭像 發表于 02-19 11:19 ?1026次閱讀

    谷歌MIT最新研究證明:高質量數據獲取不難,大模型就是歸途

    另一個極端是,監督學習方法(即SupCE)會將所有這些圖像視為單一類(如「金毛獵犬」)。這就忽略了這些圖像在語義上的細微差別,例如在對圖像中狗在騎自行車,而在
    的頭像 發表于 01-15 15:40 ?546次閱讀
    谷歌MIT最新研究證明:高質量數據獲取不難,大模型就是歸途

    請問初學者要怎么快速掌握FPGA的學習方法?

    對于初學者 FPGA的編程語言是什么? FPGA芯片的基礎結構也不了解. FPGA開發工具的名稱和使用方法都不知道. 要學的很多啊,請問有什么自學的學習方法么?
    發表于 01-02 23:01
    主站蜘蛛池模板: 青柠视频在线观看高清HD| 饥渴的40岁熟妇完整版在线| 国产成人拍精品免费视频爱情岛 | 亚洲不卡视频在线| 国产成人在线播放| 手机毛片免费看| 国产不卡视频在线观看| 色色色五的天| 国产精品成人观看视频免费| 日本孕妇大胆孕交| 电影 qvod| 四房色播手机版| 国产AV视频一区二区蜜桃| 色偷偷在线视频| 国产精品人妻无码久久久蜜桃 | 国产久久热99视频| 羞羞影院男女爽爽影院尤物| 国产午夜伦伦伦午夜伦| 亚洲精品成人AV在线观看爽翻 | 日本久久免费大片| 俄罗斯另类Z0Z0ZOZO| 丝瓜影院观看免费高清国际观察| 国产成人精品123区免费视频| 性绞姿始动作动态图| 经典WC女厕所里TV| 51精品国产AV无码久久久密桃| 免费被靠视频动漫| 成人在免费观看视频国产| 无码爽死成人777在线观看网站| 国产亚洲精品久久久久久一区二区 | 久久免费看少妇高潮A片特爽 | 欧美一区二区三区播放| 囯产精品久久久久久久久免费蜜桃| 我年轻漂亮的继坶2中字在线播放 我们中文在线观看免费完整版 | 最近在线视频观看2018免费| 你是淫荡的我的女王| 岛国大片在线播放免费| 亚洲乱码中文字幕久久| 男女性杂交内射妇女BBWXZ| 福利社影院| 在教室轮流被澡高H林萌|