色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

10個(gè)機(jī)器學(xué)習(xí)中常用的距離度量方法

穎脈Imgtec ? 2022-11-03 10:35 ? 次閱讀

作者:Jonte Dancker

來(lái)源:DeepHub IMBA


距離度量是有監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)算法的基礎(chǔ),包括k近鄰、支持向量機(jī)和k均值聚類等。

距離度量的選擇影響我們的機(jī)器學(xué)習(xí)結(jié)果,因此考慮哪種度量最適合這個(gè)問(wèn)題是很重要的。因此,我們?cè)跊Q定使用哪種測(cè)量方法時(shí)應(yīng)該謹(jǐn)慎。但在做出決定之前,我們需要了解距離測(cè)量是如何工作的,以及我們可以從哪些測(cè)量中進(jìn)行選擇。

本文將簡(jiǎn)要介紹常用的距離度量方法、它們的工作原理、如何用Python計(jì)算它們以及何時(shí)使用它們。這樣可以加深知識(shí)和理解,提高機(jī)器學(xué)習(xí)算法和結(jié)果。fdf794a0-5937-11ed-b116-dac502259ad0.png在更深入地研究不同的距離測(cè)量之前,我們先要有一個(gè)關(guān)于它們?nèi)绾喂ぷ饕约叭绾芜x擇合適的測(cè)量的大致概念。距離度量用于計(jì)算給定問(wèn)題空間中兩個(gè)對(duì)象之間的差異,即數(shù)據(jù)集中的特征。然后可以使用該距離來(lái)確定特征之間的相似性, 距離越小特征越相似。

對(duì)于距離的度量,我們可以在幾何距離測(cè)量和統(tǒng)計(jì)距離測(cè)量之間進(jìn)行選擇,應(yīng)該選擇哪種距離度量取決于數(shù)據(jù)的類型。特征可能有不同的數(shù)據(jù)類型(例如,真實(shí)值、布爾值、分類值),數(shù)據(jù)可能是多維的或由地理空間數(shù)據(jù)組成。


幾何距離測(cè)量1、歐氏距離 Euclidean distance歐氏距離度量?jī)蓚€(gè)實(shí)值向量之間的最短距離。由于其直觀,使用簡(jiǎn)單和對(duì)許多用例有良好結(jié)果,所以它是最常用的距離度量和許多應(yīng)用程序的默認(rèn)距離度量。fe14fd38-5937-11ed-b116-dac502259ad0.png歐氏距離也可稱為l2范數(shù),其計(jì)算方法為:fe38b61a-5937-11ed-b116-dac502259ad0.pngPython代碼如下from scipy.spatial import distance distance.euclidean(vector_1, vector_2)歐氏距離有兩個(gè)主要缺點(diǎn)。首先,距離測(cè)量不適用于比2D或3D空間更高維度的數(shù)據(jù)。第二,如果我們不將特征規(guī)范化和/或標(biāo)準(zhǔn)化,距離可能會(huì)因?yàn)閱挝坏牟煌鴥A斜。2、曼哈頓距離 Manhattan distance曼哈頓距離也被稱為出租車或城市街區(qū)距離,因?yàn)閮蓚€(gè)實(shí)值向量之間的距離是根據(jù)一個(gè)人只能以直角移動(dòng)計(jì)算的。這種距離度量通常用于離散和二元屬性,這樣可以獲得真實(shí)的路徑。fe497ab8-5937-11ed-b116-dac502259ad0.png曼哈頓距離以l1范數(shù)為基礎(chǔ),計(jì)算公式為:fe5b34a6-5937-11ed-b116-dac502259ad0.pngPython代碼如下from scipy.spatial import distance distance.cityblock(vector_1, vector_2)曼哈頓的距離有兩個(gè)主要的缺點(diǎn)。它不如高維空間中的歐氏距離直觀,它也沒(méi)有顯示可能的最短路徑。雖然這可能沒(méi)有問(wèn)題,但我們應(yīng)該意識(shí)到這并不是最短的距離。3、切比雪夫距離 Chebyshev distance切比雪夫距離也稱為棋盤距離,因?yàn)樗莾蓚€(gè)實(shí)值向量之間任意維度上的最大距離。它通常用于倉(cāng)庫(kù)物流中,其中最長(zhǎng)的路徑?jīng)Q定了從一個(gè)點(diǎn)到另一個(gè)點(diǎn)所需的時(shí)間。fe65d6d6-5937-11ed-b116-dac502259ad0.png切比雪夫距離由l -無(wú)窮范數(shù)計(jì)算:fe75cc3a-5937-11ed-b116-dac502259ad0.pngPython代碼如下from scipy.spatial import distance distance.chebyshev(vector_1, vector_2)

切比雪夫距離只有非常特定的用例,因此很少使用。

4、閔可夫斯基距離 Minkowski distance閔可夫斯基距離是上述距離度量的廣義形式。它可以用于相同的用例,同時(shí)提供高靈活性。我們可以選擇 p 值來(lái)找到最合適的距離度量。fe7ee90a-5937-11ed-b116-dac502259ad0.png閔可夫斯基距離的計(jì)算方法為:fe9bec6c-5937-11ed-b116-dac502259ad0.pngPython代碼如下from scipy.spatial import distance distance.minkowski(vector_1, vector_2, p)

由于閔可夫斯基距離表示不同的距離度量,它就有與它們相同的主要缺點(diǎn),例如在高維空間的問(wèn)題和對(duì)特征單位的依賴。此外,p值的靈活性也可能是一個(gè)缺點(diǎn),因?yàn)樗赡芙档陀?jì)算效率,因?yàn)檎业秸_的p值需要進(jìn)行多次計(jì)算。

5、余弦相似度和距離 Cosine similarity余弦相似度是方向的度量,他的大小由兩個(gè)向量之間的余弦決定,并且忽略了向量的大小。余弦相似度通常用于與數(shù)據(jù)大小無(wú)關(guān)緊要的高維,例如,推薦系統(tǒng)或文本分析。feac9fd0-5937-11ed-b116-dac502259ad0.png余弦相似度可以介于-1(相反方向)和1(相同方向)之間,計(jì)算方法為:febb1ccc-5937-11ed-b116-dac502259ad0.png余弦相似度常用于范圍在0到1之間的正空間中。余弦距離就是用1減去余弦相似度,位于0(相似值)和1(不同值)之間。Python代碼如下from scipy.spatial import distance distance.cosine(vector_1, vector_2)

余弦距離的主要缺點(diǎn)是它不考慮大小而只考慮向量的方向。因此,沒(méi)有充分考慮到值的差異。

6、半正矢距離 Haversine distance半正矢距離測(cè)量的是球面上兩點(diǎn)之間的最短距離。因此常用于導(dǎo)航,其中經(jīng)度和緯度和曲率對(duì)計(jì)算都有影響。fecaeb8e-5937-11ed-b116-dac502259ad0.png半正矢距離的公式如下:fee112c4-5937-11ed-b116-dac502259ad0.png其中r為球面半徑,φ和λ為經(jīng)度和緯度。Python代碼如下from sklearn.metrics.pairwise import haversine_distances haversine_distances([vector_1, vector_2])

半正矢距離的主要缺點(diǎn)是假設(shè)是一個(gè)球體,而這種情況很少出現(xiàn)。

7、漢明距離漢明距離衡量?jī)蓚€(gè)二進(jìn)制向量或字符串之間的差異。feec7542-5937-11ed-b116-dac502259ad0.png對(duì)向量按元素進(jìn)行比較,并對(duì)差異的數(shù)量進(jìn)行平均。如果兩個(gè)向量相同,得到的距離是0之間,如果兩個(gè)向量完全不同,得到的距離是1。Python代碼如下from scipy.spatial import distance distance.hamming(vector_1, vector_2)

漢明距離有兩個(gè)主要缺點(diǎn)。距離測(cè)量只能比較相同長(zhǎng)度的向量,它不能給出差異的大小。所以當(dāng)差異的大小很重要時(shí),不建議使用漢明距離。


統(tǒng)計(jì)距離測(cè)量統(tǒng)計(jì)距離測(cè)量可用于假設(shè)檢驗(yàn)、擬合優(yōu)度檢驗(yàn)、分類任務(wù)或異常值檢測(cè)8、杰卡德指數(shù)和距離 Jaccard IndexJaccard指數(shù)用于確定兩個(gè)樣本集之間的相似性。它反映了與整個(gè)數(shù)據(jù)集相比存在多少一對(duì)一匹配。Jaccard指數(shù)通常用于二進(jìn)制數(shù)據(jù)比如圖像識(shí)別的深度學(xué)習(xí)模型的預(yù)測(cè)與標(biāo)記數(shù)據(jù)進(jìn)行比較,或者根據(jù)單詞的重疊來(lái)比較文檔中的文本模式。fefb9f2c-5937-11ed-b116-dac502259ad0.pngJaccard距離的計(jì)算方法為:ff13c034-5937-11ed-b116-dac502259ad0.pngPython代碼如下from scipy.spatial import distance distance.jaccard(vector_1, vector_2)

Jaccard指數(shù)和距離的主要缺點(diǎn)是,它受到數(shù)據(jù)規(guī)模的強(qiáng)烈影響,即每個(gè)項(xiàng)目的權(quán)重與數(shù)據(jù)集的規(guī)模成反比。

9、Sorensen-Dice指數(shù)S?rensen-Dice指數(shù)類似于Jaccard指數(shù),它可以衡量的是樣本集的相似性和多樣性。該指數(shù)更直觀,因?yàn)樗?jì)算重疊的百分比。S?rensen-Dice索引常用于圖像分割和文本相似度分析。ff201f5a-5937-11ed-b116-dac502259ad0.png計(jì)算公式如下:ff31b65c-5937-11ed-b116-dac502259ad0.pngPython代碼如下from scipy.spatial import distance distance.dice(vector_1, vector_2)

它的主要缺點(diǎn)也是受數(shù)據(jù)集大小的影響很大。

10、動(dòng)態(tài)時(shí)間規(guī)整 Dynamic Time Warping動(dòng)態(tài)時(shí)間規(guī)整是測(cè)量?jī)蓚€(gè)不同長(zhǎng)度時(shí)間序列之間距離的一種重要方法??梢杂糜谒袝r(shí)間序列數(shù)據(jù)的用例,如語(yǔ)音識(shí)別或異常檢測(cè)。ff444e70-5937-11ed-b116-dac502259ad0.png為什么我們需要一個(gè)為時(shí)間序列進(jìn)行距離測(cè)量的度量呢?如果時(shí)間序列長(zhǎng)度不同或失真,則上述面說(shuō)到的其他距離測(cè)量無(wú)法確定良好的相似性。比如歐幾里得距離計(jì)算每個(gè)時(shí)間步長(zhǎng)的兩個(gè)時(shí)間序列之間的距離。但是如果兩個(gè)時(shí)間序列的形狀相同但在時(shí)間上發(fā)生了偏移,那么盡管時(shí)間序列非常相似,但歐幾里得距離會(huì)表現(xiàn)出很大的差異。動(dòng)態(tài)時(shí)間規(guī)整通過(guò)使用多對(duì)一或一對(duì)多映射來(lái)最小化兩個(gè)時(shí)間序列之間的總距離來(lái)避免這個(gè)問(wèn)題。當(dāng)搜索最佳對(duì)齊時(shí),這會(huì)產(chǎn)生更直觀的相似性度量。通過(guò)動(dòng)態(tài)規(guī)劃找到一條彎曲的路徑最小化距離,該路徑必須滿足以下條件:邊界條件:彎曲路徑在兩個(gè)時(shí)間序列的起始點(diǎn)和結(jié)束點(diǎn)開始和結(jié)束單調(diào)性條件:保持點(diǎn)的時(shí)間順序,避免時(shí)間倒流連續(xù)條件:路徑轉(zhuǎn)換限制在相鄰的時(shí)間點(diǎn)上,避免時(shí)間跳躍整經(jīng)窗口條件(可選):允許的點(diǎn)落入給定寬度的整經(jīng)窗口坡度條件(可選):限制彎曲路徑坡度,避免極端運(yùn)動(dòng)我們可以使用 Python 中的 fastdtw 包:from scipy.spatial.distance import euclidean from fastdtw import fastdtw ?distance, path = fastdtw(timeseries_1, timeseries_2, dist=euclidean)

動(dòng)態(tài)時(shí)間規(guī)整的一個(gè)主要缺點(diǎn)是與其他距離測(cè)量方法相比,它的計(jì)算工作量相對(duì)較高。


總結(jié)在這篇文章中,簡(jiǎn)要介紹了十種常用的距離測(cè)量方法。本文中已經(jīng)展示了它們是如何工作的,如何在Python中實(shí)現(xiàn)它們,以及經(jīng)常使用它們解決什么問(wèn)題。如果你認(rèn)為我錯(cuò)過(guò)了一個(gè)重要的距離測(cè)量,請(qǐng)留言告訴我。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

    用于開發(fā)生物學(xué)數(shù)據(jù)的機(jī)器學(xué)習(xí)方法。盡管深度學(xué)習(xí)(一般指神經(jīng)網(wǎng)絡(luò)算法)是一個(gè)強(qiáng)大的工具,目前也非常流行,但它的應(yīng)用領(lǐng)域仍然有限。與深度學(xué)習(xí)相比
    的頭像 發(fā)表于 12-30 09:16 ?200次閱讀
    傳統(tǒng)<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)方法</b>和應(yīng)用指導(dǎo)

    什么是機(jī)器學(xué)習(xí)?通過(guò)機(jī)器學(xué)習(xí)方法能解決哪些問(wèn)題?

    來(lái)源:Master編程樹“機(jī)器學(xué)習(xí)”最初的研究動(dòng)機(jī)是讓計(jì)算機(jī)系統(tǒng)具有人的學(xué)習(xí)能力以便實(shí)現(xiàn)人工智能。因?yàn)闆](méi)有學(xué)習(xí)能力的系統(tǒng)很難被認(rèn)為是具有智能的。目前被廣泛采用的
    的頭像 發(fā)表于 11-16 01:07 ?428次閱讀
    什么是<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>?通過(guò)<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)方法</b>能解決哪些問(wèn)題?

    華為設(shè)備中常用的RIP命令及其應(yīng)用

    RIP(Routing Information Protocol,路由信息協(xié)議)是一種應(yīng)用廣泛的距離矢量路由協(xié)議,尤其適用于中小型網(wǎng)絡(luò)。本文將詳細(xì)介紹在華為設(shè)備中常用的RIP命令及其應(yīng)用,以幫助網(wǎng)絡(luò)管理員和工程師更好地理解和配置RIP協(xié)議。
    的頭像 發(fā)表于 08-12 18:10 ?775次閱讀

    【「時(shí)間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】全書概覽與時(shí)間序列概述

    。 ●第5章“時(shí)間序列的相似度與聚類”:介紹時(shí)間序列的相似性度量方法,如歐氏距離、動(dòng)態(tài)時(shí)間規(guī)整算法等,用于衡量?jī)?b class='flag-5'>個(gè)或多個(gè)時(shí)間序列在形狀和模式上的相似程度;聚類算法,如K-Means、D
    發(fā)表于 08-07 23:03

    機(jī)器學(xué)習(xí)中的數(shù)據(jù)分割方法

    機(jī)器學(xué)習(xí)中,數(shù)據(jù)分割是一項(xiàng)至關(guān)重要的任務(wù),它直接影響到模型的訓(xùn)練效果、泛化能力以及最終的性能評(píng)估。本文將從多個(gè)方面詳細(xì)探討機(jī)器學(xué)習(xí)中數(shù)據(jù)分割的方法
    的頭像 發(fā)表于 07-10 16:10 ?1865次閱讀

    深度學(xué)習(xí)中的時(shí)間序列分類方法

    的發(fā)展,基于深度學(xué)習(xí)的TSC方法逐漸展現(xiàn)出其強(qiáng)大的自動(dòng)特征提取和分類能力。本文將從多個(gè)角度對(duì)深度學(xué)習(xí)在時(shí)間序列分類中的應(yīng)用進(jìn)行綜述,探討常用的深度學(xué)
    的頭像 發(fā)表于 07-09 15:54 ?985次閱讀

    機(jī)器人視覺(jué)技術(shù)中常見(jiàn)的圖像分割方法

    機(jī)器人視覺(jué)技術(shù)中的圖像分割方法是一個(gè)廣泛且深入的研究領(lǐng)域。圖像分割是將圖像劃分為多個(gè)區(qū)域或?qū)ο蟮倪^(guò)程,這些區(qū)域或?qū)ο缶哂心撤N共同的特征,如顏色、紋理、形狀等。在機(jī)器人視覺(jué)中,圖像分割對(duì)
    的頭像 發(fā)表于 07-09 09:31 ?742次閱讀

    機(jī)器視覺(jué)中常用的光源類型及優(yōu)點(diǎn)?

    中常用的光源類型及其優(yōu)點(diǎn)。 一、LED光源 優(yōu)點(diǎn) (1)高亮度:LED光源具有高亮度,能夠提供足夠的光線,使圖像更加清晰。 (2)低能耗:LED光源的能耗較低,能夠降低整個(gè)系統(tǒng)的運(yùn)行成本。 (3)長(zhǎng)壽命:LED光源的使用壽命較長(zhǎng),一
    的頭像 發(fā)表于 07-04 10:28 ?631次閱讀

    深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)的對(duì)比

    在人工智能的浪潮中,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)無(wú)疑是兩大核心驅(qū)動(dòng)力。它們各自以其獨(dú)特的方式推動(dòng)著技術(shù)的進(jìn)步,為眾多領(lǐng)域帶來(lái)了革命性的變化。然而,盡管它們都屬于機(jī)器
    的頭像 發(fā)表于 07-01 11:40 ?1413次閱讀

    名單公布!【書籍評(píng)測(cè)活動(dòng)NO.35】如何用「時(shí)間序列與機(jī)器學(xué)習(xí)」解鎖未來(lái)?

    應(yīng)用,將理論基礎(chǔ)與實(shí)踐案例相結(jié)合,作者憑借扎實(shí)的數(shù)學(xué)功底及其在企業(yè)界的豐富實(shí)踐經(jīng)驗(yàn),將機(jī)器學(xué)習(xí)與時(shí)間序列分析巧妙融合在書中。 全書書共分為8章,系統(tǒng)介紹時(shí)間序列的基礎(chǔ)知識(shí)、常用預(yù)測(cè)方法
    發(fā)表于 06-25 15:00

    smt貼片加工常用的檢測(cè)修理方法有哪些

    一站式PCBA智造廠家今天為大家講講SMT貼片加工常見(jiàn)問(wèn)題有哪些?SMT貼片加工常用的檢測(cè)修理方法。隨著電子產(chǎn)品的不斷發(fā)展,SMT貼片加工成為電子制造業(yè)中常見(jiàn)且關(guān)鍵的工藝。然而,貼片加工過(guò)程中可能會(huì)
    的頭像 發(fā)表于 06-13 09:32 ?587次閱讀

    深度學(xué)習(xí)度量學(xué)習(xí)融合的綜述

    如今,機(jī)器學(xué)習(xí)的應(yīng)用廣泛,包括人臉識(shí)別、醫(yī)療診斷等,為復(fù)雜問(wèn)題和大量數(shù)據(jù)提供解決方案。機(jī)器學(xué)習(xí)算法能基于數(shù)據(jù)產(chǎn)生成功的分類模型,但每個(gè)數(shù)據(jù)都有其問(wèn)題,需定義區(qū)別特征進(jìn)行正確分類。
    發(fā)表于 04-24 09:49 ?437次閱讀
    深度<b class='flag-5'>學(xué)習(xí)</b>與<b class='flag-5'>度量</b><b class='flag-5'>學(xué)習(xí)</b>融合的綜述

    機(jī)器學(xué)習(xí)8大調(diào)參技巧

    今天給大家一篇關(guān)于機(jī)器學(xué)習(xí)調(diào)參技巧的文章。超參數(shù)調(diào)優(yōu)是機(jī)器學(xué)習(xí)例程中的基本步驟之一。該方法也稱為超參數(shù)優(yōu)化,需要搜索超參數(shù)的最佳配置以實(shí)現(xiàn)最
    的頭像 發(fā)表于 03-23 08:26 ?636次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>8大調(diào)參技巧

    工業(yè)鏡頭中常見(jiàn)的參數(shù)之工作距離、物距、法蘭距及鏡頭接口

    工業(yè)鏡頭中常用的一些關(guān)于距離的參數(shù),別再傻傻分不清了。工作距離(WD)是指鏡頭最下端機(jī)械面到物體的距離。物像距離(O/I)指物平面到相機(jī)芯片
    的頭像 發(fā)表于 03-11 15:29 ?5482次閱讀
    工業(yè)鏡頭<b class='flag-5'>中常</b>見(jiàn)的參數(shù)之工作<b class='flag-5'>距離</b>、物距、法蘭距及鏡頭接口

    gis中常用的空間分析方法

    將詳細(xì)介紹GIS中常用的空間分析方法,包括空間插值、緩沖區(qū)分析、空間統(tǒng)計(jì)、領(lǐng)域分析、網(wǎng)絡(luò)分析和多標(biāo)準(zhǔn)決策等。 一、空間插值 空間插值是一種將有限數(shù)量的點(diǎn)數(shù)據(jù)轉(zhuǎn)換為連續(xù)表面的方法。常見(jiàn)的空間插值
    的頭像 發(fā)表于 02-25 13:44 ?5730次閱讀
    主站蜘蛛池模板: 秋霞网韩国理伦片免费看| 软糯白嫩双性受h| 国产午夜精品不卡视频| 国产精品久久高潮呻吟无码| 国产哺乳期奶水avav| 国产成人免费高清激情视频| 和老外3p爽粗大免费视频| 姐姐不~不可以动漫在线观看| 九色PORNY蝌蚪视频首页| 久久综合中文字幕无码| 妺妺窝人体色777777野大粗 | 99久久久精品| jj插入bb| 国产成人在线小视频| 久久精品亚洲AV高清网站性色| 毛片无码免费无码播放| 欧美日韩另类在线观看视频| 日韩中文网| 性夜影院爽黄A爽免费动漫| 亚洲欧洲日韩天堂无吗| 越南美女内射BBWXZ| 99热久久视频只有精品6国产| 国产精品久久久久久AV免费不卡| 狼人射综合| 男插女高潮一区二区| 性肥胖BWBWBW| JAPANRCEP老熟妇乱子伦视频| 国产在线高清亚洲精品一区| 老司机午夜影院味味| 无人区日本电影在线观看高清| 一个人免费完整观看日本| 99久久就热视频精品草| 花蝴蝶高清观看免费| 日本艳妓BBW高潮一19| 小xav导航| xxxx免费观看| 国产野外无码理论片在线观看| 奇米狠狠一区二区三区| 中文无码第3页不卡av| 成年视频xxxxxx在线| 国内极度色诱视频网站|