色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

聚類分析基本概念梳理

倩倩 ? 來(lái)源:網(wǎng)絡(luò)整理 ? 2018-02-24 08:43 ? 次閱讀

聚類分析:簡(jiǎn)稱聚類(clustering),是一個(gè)把數(shù)據(jù)對(duì)象劃分成子集的過(guò)程,每個(gè)子集是一個(gè)簇(cluster),使得簇中的對(duì)象彼此相似,但與 其他簇中的對(duì)象不相似。聚類成為自動(dòng)分類,聚類可以自動(dòng)的發(fā)現(xiàn)這些分組,這是突出的優(yōu)點(diǎn)。

聚類分析是沒(méi)有給定劃分類別的情況下,根據(jù)樣本相似度進(jìn)行樣本分組的一種方法,是一種非監(jiān)督的學(xué)習(xí)算法。聚類的輸入是一組未被標(biāo)記的樣本,聚類根據(jù)數(shù)據(jù)自身的距離或相似度劃分為若干組,劃分的原則是組內(nèi)距離最小化而組間距離最大化,如下圖所示:

聚類分析基本概念梳理

常見(jiàn)的聚類分析算法如下:

K-Means: K-均值聚類也稱為快速聚類法,在最小化誤差函數(shù)的基礎(chǔ)上將數(shù)據(jù)劃分為預(yù)定的類數(shù)K。該算法原理簡(jiǎn)單并便于處理大量數(shù)據(jù)。

K-中心點(diǎn):K-均值算法對(duì)孤立點(diǎn)的敏感性,K-中心點(diǎn)算法不采用簇中對(duì)象的平均值作為簇中心,而選用簇中離平均值最近的對(duì)象作為簇中心。

系統(tǒng)聚類:也稱為層次聚類,分類的單位由高到低呈樹(shù)形結(jié)構(gòu),且所處的位置越低,其所包含的對(duì)象就越少,但這些對(duì)象間的共同特征越多。該聚類方法只適合在小數(shù)據(jù)量的時(shí)候使用,數(shù)據(jù)量大的時(shí)候速度會(huì)非常慢。

基本概念梳理

監(jiān)督學(xué)習(xí):分類成為監(jiān)督學(xué)習(xí)(supervised learning),因?yàn)榻o定了類標(biāo)號(hào)的信息,即學(xué)習(xí)算法是監(jiān)督的,因?yàn)樗桓嬷總€(gè)訓(xùn)練元素的 類隸屬關(guān)系。

無(wú)監(jiān)督學(xué)習(xí)(unsupervised learning):因?yàn)闆](méi)有提供類標(biāo)號(hào)信息。

數(shù)據(jù)挖掘?qū)垲惖牡湫鸵笕缦拢嚎缮炜s性、處理不同屬性類的能力、發(fā)現(xiàn)任意形狀的簇、處理噪聲數(shù)據(jù)的能力、簇的分離性

基本聚類方法描述:

1.劃分方法:(這是聚類分析最簡(jiǎn)單最基本的方法)采取互斥簇的劃分,即每個(gè)對(duì)象必須恰好屬于一個(gè)組。劃分方法是基于距離的,給定要構(gòu)建的分區(qū)數(shù)k,劃分方法首先創(chuàng)建一個(gè)初始劃分,然后它采用一種迭代的重定位技術(shù),通過(guò)把對(duì)象從一個(gè)組移動(dòng)到另一個(gè)組來(lái)改進(jìn)劃分。一個(gè)好的劃分準(zhǔn)則是:同一個(gè)簇中的相關(guān)對(duì)象盡可能相互“接近”或相關(guān),而不同簇中的對(duì)象盡可能地“遠(yuǎn)離”或不同。(什么是啟發(fā)式方法?啟發(fā)式方法指人在解決問(wèn)題時(shí)所采取的一種根據(jù)經(jīng)驗(yàn)規(guī)則進(jìn)行發(fā)現(xiàn)的方法。其特點(diǎn)是在解決問(wèn)題時(shí),利用過(guò)去的經(jīng)驗(yàn),選擇已經(jīng)行之有效的方法,而不是系統(tǒng)地、以確定的步驟去尋求答案。 如k-均值(k-means)和k-中心點(diǎn)(k-mediods)方法)。

2.層次方法:層次方法創(chuàng)建給定數(shù)據(jù)對(duì)象集的層次分解。層次方法可以分為凝聚和分裂的方法。凝聚的方法,也稱自底向上的方法,開(kāi)始將每個(gè)對(duì)象作為單獨(dú)的一組,然后逐次合并相近的對(duì)象或組,直到所有的組合并成為一個(gè)組。分裂的方法,也成為自頂向下的方法,開(kāi)始將所有的對(duì)象置于一個(gè)簇中,在每次的迭代中,一個(gè)簇被劃分為更小的簇,直到每個(gè)最終每個(gè)對(duì)象在單獨(dú)的一個(gè)簇中。

3.基于密度的方法:大部分劃分方法基于對(duì)象之間的距離進(jìn)行聚類,這樣的方法只能發(fā)現(xiàn)球狀簇,而在發(fā)現(xiàn)任意形狀簇時(shí)遇到了困難。已經(jīng)開(kāi)發(fā)的基于密度的聚類方法,其主要思想是:只要“鄰域”中的密度(對(duì)象或數(shù)據(jù)點(diǎn)的數(shù)目)超過(guò)了某個(gè)閾值(用戶自定義),就繼續(xù)增長(zhǎng)給定的簇。

4.基于網(wǎng)格的方法:把對(duì)象空間量化為有限個(gè)單元,形成一個(gè)網(wǎng)格結(jié)構(gòu)。所有的聚類操作都在這個(gè)網(wǎng)格上進(jìn)行。這種方法的主要優(yōu)點(diǎn)是處理速度快。

劃分方法:

k-均值方法是怎樣工作的:k-均值方法把簇的形心定義為簇內(nèi)點(diǎn)的均值。流程如下:在D中隨機(jī)的選擇k個(gè)對(duì)象,每個(gè)對(duì)象代表一個(gè)簇的初始均值或中心。對(duì)剩下的每個(gè)對(duì)象,根據(jù)其各個(gè)簇中心的歐氏距離,將它分配到最相似的簇。然后該算法迭代的改善簇內(nèi)變差。對(duì)于每個(gè)簇,它使用上次迭代分配到該簇的對(duì)象,計(jì)算新的均值。然后使用更新后的均值作為新的簇中心,重新分配所有對(duì)象。這個(gè)過(guò)程被稱為迭代的重定位(iterative relocation)。 缺點(diǎn):對(duì)利群點(diǎn)比較敏感。

k-均值算法流程:

1.從數(shù)據(jù)集D中選擇k個(gè)對(duì)象作為初始簇的中心

2.根據(jù)簇中對(duì)象的均值,將每個(gè)對(duì)象分配到最相似的簇。然后更新簇的均值,也就是重新計(jì)算每個(gè)簇的對(duì)象的均值。直到簇中的均值不再發(fā)生變化時(shí)算法結(jié)束

k-中心點(diǎn)算法對(duì)k-均值方法的優(yōu)化:為了降低k-均值算法對(duì)離群點(diǎn)的敏感性,研究了k-中心點(diǎn)方法。我們可以不采用簇中對(duì)象的均值作為參考點(diǎn),而是使用實(shí)際對(duì)象來(lái)代表簇,每個(gè)簇使用一個(gè)代表對(duì)象。其余每個(gè)對(duì)象被分配到與其最為相似的代表性對(duì)象所在的簇中。

k-中心點(diǎn)算法:從數(shù)據(jù)集D中隨機(jī)選擇k個(gè)對(duì)象作為初始的代表對(duì)象或種子 2.將每個(gè)剩余的對(duì)象分配到最近的代表對(duì)象所代表的簇,并隨機(jī)的選擇一個(gè)非代表對(duì)象o并計(jì)算用o代替代表對(duì)象oj的總代價(jià)S,如果S《0,則o替換oj,形成新的k個(gè)代表對(duì)象的集合 3.當(dāng)簇內(nèi)的成員不再發(fā)生變化時(shí)則結(jié)束算法。

k-means VS k-mediods:當(dāng)存在噪聲利群點(diǎn)時(shí),k-中心點(diǎn)方法比k-均值方法更棒,這是因?yàn)橹行狞c(diǎn)不像均值那樣容易受到利群點(diǎn)或其他極端值的影響。然而k-中心點(diǎn)每次迭代的復(fù)雜度是O(k(n-k)^2) 。當(dāng)n合k比較大時(shí),這種計(jì)算開(kāi)銷變得相當(dāng)大,遠(yuǎn)高于k-均值方法。

基于密度的方法:

DBSCAN(一重基于高密度連通區(qū)域的基于密度的聚類):該算法找出核心對(duì)象,也就是其鄰域稠密的對(duì)象。它連接核心對(duì)象和它們的鄰域,形成稠密區(qū)域作為簇。

DBSCAN如何確定對(duì)象的鄰域?:用戶先指定一個(gè)參數(shù)e》0用來(lái)指定每個(gè)對(duì)象的鄰域半徑。對(duì)象o的e-鄰域是以o為中心、以e為半徑的空間。

DBSCAN算法流程:

1.首先標(biāo)記所有的對(duì)象為“未探索”

2.然后隨機(jī)選擇一個(gè)為探索的對(duì)象p并標(biāo)記為“已探索”

3.如果p的e-鄰域至少有MinPts(鄰域密度閾值)個(gè)對(duì)象,則創(chuàng)建一個(gè)新的簇C,并把p添加到C中,并把它們記作N,遍歷N中的每個(gè)成員p‘,如果p’的鄰域也至少有MinPts個(gè)對(duì)象則保留,否則把p‘從N中刪除。

4.否則標(biāo)記p為噪聲 5.直到把所有的對(duì)象都遍歷完為止

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 聚類分析
    +關(guān)注

    關(guān)注

    0

    文章

    16

    瀏覽量

    7409
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    開(kāi)關(guān)電源的基本概念分析方法

    開(kāi)關(guān)電源的基本概念分析方法
    發(fā)表于 08-05 21:27

    Fpga Cpld的基本概念

    Fpga Cpld的基本概念
    發(fā)表于 08-20 17:14

    C語(yǔ)言基本概念

    C語(yǔ)言基本概念
    發(fā)表于 08-01 02:00

    Matlab提供的兩種聚類分析

    Matlab提供的兩種聚類分析提供源程序代碼
    發(fā)表于 04-29 11:21

    RAM技術(shù)的基本概念

    目前的鐵路和電力及航空航天等多個(gè)行業(yè)已紛紛推行系統(tǒng)可靠性分析RAM技術(shù),研發(fā)最佳的設(shè)備運(yùn)行維護(hù)方案,從而消除設(shè)備隱患,避免設(shè)備事故發(fā)生,降低裝置非計(jì)劃停工次數(shù)和設(shè)備運(yùn)行維護(hù)費(fèi)用,促進(jìn)裝置安全長(zhǎng)周期運(yùn)行,具有重要的現(xiàn)實(shí)意義。本文主要概括介紹RAM技術(shù)的基本概念
    發(fā)表于 12-16 07:04

    STM32的中斷系統(tǒng)基本概念

    STM32 中斷系統(tǒng)概述筆記(一)中斷概述中斷相關(guān)的基本概念STM32的中斷系統(tǒng)基本概念:NVIC 嵌套向量中斷控制器中斷通道中斷優(yōu)先級(jí)優(yōu)先級(jí)分組EXTI 外部中斷控制器三種外部中斷觸發(fā)方式引腳分組
    發(fā)表于 01-07 07:32

    無(wú)線定位基本概念與原理

    無(wú)線定位基本概念簡(jiǎn)介,以及其原理分析
    發(fā)表于 11-11 18:01 ?147次下載

    電路的基本概念和基本定理

    一、電路的基本概念和基本定理 二、電阻電路的分析方法 三、動(dòng)態(tài)電路 四、正弦穩(wěn)態(tài)電路
    發(fā)表于 07-03 08:59 ?0次下載

    詳細(xì)介紹時(shí)序基本概念Timing arc

    時(shí)序分析基本概念介紹——Timing Arc
    的頭像 發(fā)表于 01-02 09:29 ?2.4w次閱讀
    詳細(xì)介紹時(shí)序<b class='flag-5'>基本概念</b>Timing arc

    spss聚類分析樹(shù)狀圖

    借助主成分得分對(duì)河南省各市進(jìn)行聚類分析。在進(jìn)行聚類分析時(shí),指標(biāo)越多就會(huì)使樣品間的共性顯示得越少,太多的指標(biāo)會(huì)使計(jì)算出的樣品間的距離偏大,從而不利于樣品間相似性的綜合和聚類分析的進(jìn)行,往往達(dá)不到所想
    的頭像 發(fā)表于 02-12 15:59 ?4.8w次閱讀

    基于Python的聚類分析及其應(yīng)用簡(jiǎn)介

    基于Python的聚類分析及其應(yīng)用簡(jiǎn)介。
    發(fā)表于 05-28 10:54 ?8次下載

    FPGA設(shè)計(jì)中時(shí)序分析基本概念

    時(shí)序分析時(shí)FPGA設(shè)計(jì)中永恒的話題,也是FPGA開(kāi)發(fā)人員設(shè)計(jì)進(jìn)階的必由之路。慢慢來(lái),先介紹時(shí)序分析中的一些基本概念
    的頭像 發(fā)表于 03-18 11:07 ?2693次閱讀

    介紹時(shí)序分析基本概念lookup table

    今天要介紹的時(shí)序分析基本概念是lookup table。中文全稱時(shí)序查找表。
    的頭像 發(fā)表于 07-03 14:30 ?1510次閱讀
    介紹時(shí)序<b class='flag-5'>分析</b>的<b class='flag-5'>基本概念</b>lookup table

    介紹時(shí)序分析基本概念MMMC

    今天我們要介紹的時(shí)序分析基本概念是MMMC分析(MCMM)。全稱是multi-mode, multi-corner, 多模式多端角分析模式。這是在先進(jìn)工藝下必須要使用的一種時(shí)序
    的頭像 發(fā)表于 07-04 15:40 ?2611次閱讀
    介紹時(shí)序<b class='flag-5'>分析</b><b class='flag-5'>基本概念</b>MMMC

    時(shí)序分析Slew/Transition基本概念介紹

    今天要介紹的時(shí)序分析基本概念是Slew,信號(hào)轉(zhuǎn)換時(shí)間,也被稱為transition time。
    的頭像 發(fā)表于 07-05 14:50 ?3223次閱讀
    時(shí)序<b class='flag-5'>分析</b>Slew/Transition<b class='flag-5'>基本概念</b>介紹
    主站蜘蛛池模板: 中文字幕在线不卡精品视频99| chaopeng 在线视频| 公主纯肉高H文| 浪货嗯啊趴下NP粗口黄暴| 欧美成人momandson| 人妻少妇69式99偷拍| 伊人久久网站| 国产在线观看www| 日韩欧美1区| 99久久无码热高清精品| 久久国产精品永久网站| 香蕉鱼视频观看在线视频下载| chinese东北老年tv视频| 久久免费视频| 亚洲精品无码一区二区三区四虎 | 大胸美女被c| 免费无码一区二区三区蜜桃大| 亚洲一日韩欧美中文字幕在线| 国产精品免费大片| 日韩亚洲人成在线| 99国内偷揿国产精品人妻| 久久re热在线视频精69| 亚洲精品无码专区在线播放| 国产精品女主播主要上线| 日本久久不射| WWW国产亚洲精品久久久日本| 伦理 电影在线观看百度影音| 一级毛片视频免费| 护士喂我吃乳液我脱她内裤| 无码天堂亚洲内射精品课堂| 动漫女生的逼| 日韩美一区二区| 把极品白丝班长啪到腿软| 免费夜色污私人影院网站| 4480yy午夜私人影院| 久久人妻熟女中文字幕AV蜜芽| 亚洲午夜电影| 久久99热在线观看7| 伊人久久精品99热超碰| 精品视频网站| 一边喂奶一边做边爱|