色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何通過深度學(xué)習(xí)來完成計算機(jī)視覺中的所有工作?

電子設(shè)計 ? 來源:電子設(shè)計 ? 作者:電子設(shè)計 ? 2021-01-20 22:39 ? 次閱讀

作者 | George Seif
譯者 | 天道酬勤,責(zé)編 | Carol
出品 | AI科技大本營(ID:rgznai100)

你想做計算機(jī)視覺嗎?

如今,深度學(xué)習(xí)是必經(jīng)之路。大規(guī)模數(shù)據(jù)集以及深層卷積神經(jīng)網(wǎng)絡(luò)(CNN)的表征能力可提供超準(zhǔn)確和強大的模型。但目前仍然只有一個挑戰(zhàn):如何設(shè)計模型?

像計算機(jī)視覺這樣廣泛而復(fù)雜的領(lǐng)域,解決方案并不總是清晰明了的。計算機(jī)視覺中的許多標(biāo)準(zhǔn)任務(wù)都需要特別考慮:分類、檢測、分割、姿態(tài)估計、增強和恢復(fù)以及動作識別。盡管最先進(jìn)的網(wǎng)絡(luò)呈現(xiàn)出共同的模式,但它們都需要自己獨特的設(shè)計。

那么,我們?nèi)绾螢樗羞@些不同的任務(wù)建立模型呢?

作者在這里向你展示如何通過深度學(xué)習(xí)完成計算機(jī)視覺中的所有工作!

1、分類

計算機(jī)視覺中最出名的就是分類。圖像分類網(wǎng)絡(luò)從一個固定大小的輸入開始。輸入圖像可以有任意數(shù)量的通道,但對于RGB圖像通常為3。在設(shè)計網(wǎng)絡(luò)時,分辨率在技術(shù)上可以是任意大小,只要足夠大到能夠支持在整個網(wǎng)絡(luò)中將要進(jìn)行的向下采樣量即可。例如,如果你對網(wǎng)絡(luò)內(nèi)的4個像素進(jìn)行向下采樣,則你的輸入大小至少應(yīng)為42= 16 x 16像素。

隨著深入網(wǎng)絡(luò),當(dāng)我們嘗試壓縮所有信息并降至一維矢量表示形式時,空間分辨率將降低。為了確保網(wǎng)絡(luò)始終有能力將其提取的所有信息進(jìn)行處理,我們根據(jù)深度的比例增加特征圖的數(shù)量,來適應(yīng)空間分辨率的降低。也就是說,我們在向下采樣過程中損失了空間信息,為了適應(yīng)這種損失,我們擴(kuò)展了特征圖來增加我們的語義信息。

在選擇了一定數(shù)量的向下采樣后,特征圖被矢量化并輸入到一系列完全連接的圖層中。最后一層的輸出與數(shù)據(jù)集中的類一樣多。

pIYBAGAIPlqAYhy4AADE72sreUU824.png

2、目標(biāo)檢測

目標(biāo)檢測器分為兩種:一級和二級。他們兩個都以錨框開始。這些是默認(rèn)的邊界框。我們的檢測器將預(yù)測這些框與地面真相之間的差異,而不是直接預(yù)測這些框。
在二級檢測器中,我們自然有兩個網(wǎng)絡(luò):框提議網(wǎng)絡(luò)和分類網(wǎng)絡(luò)??蛱嶙h網(wǎng)絡(luò)在認(rèn)為很有可能存在物體的情況下為邊界框提供坐標(biāo)。再次,這些是相對于錨框。然后,分類網(wǎng)絡(luò)獲取每個邊界框中的潛在對象進(jìn)行分類。

在一級檢測器中,提議和分類器網(wǎng)絡(luò)融合為一個單一階段。網(wǎng)絡(luò)直接預(yù)測邊界框坐標(biāo)和該框內(nèi)的類。由于兩個階段融合在一起,所以一級檢測器往往比二級檢測器更快。但是由于兩個任務(wù)的分離,二級檢測器具有更高的精度。

pIYBAGAIPpqAc-jlAAIgOgGiPUI400.png

快速RCNN二級目標(biāo)檢測架構(gòu)

pIYBAGAIPtiAeKB7AAAlc41pCuY006.png

SSD一級目標(biāo)檢測架構(gòu)

3、分割

分割是計算機(jī)視覺中較獨特的任務(wù)之一,因為網(wǎng)絡(luò)既需要學(xué)習(xí)低級信息,也需要學(xué)習(xí)高級信息。低級信息可按像素精確分割圖像中的每個區(qū)域和對象,而高級信息可直接對這些像素進(jìn)行分類。這導(dǎo)致網(wǎng)絡(luò)被設(shè)計為將來自較早層和高分辨率(低層空間信息)的信息與較深層和低分辨率(高層語義信息)相結(jié)合。

如下所示,我們首先通過標(biāo)準(zhǔn)分類網(wǎng)絡(luò)運行圖像。然后,我們從網(wǎng)絡(luò)的每個階段提取特征,從而使用從低到高的范圍內(nèi)的信息。每個信息級別在依次組合之前都是獨立處理的。當(dāng)這些信息組合在一起時,我們對特征圖進(jìn)行向上采樣,最終得到完整的圖像分辨率。

要了解更多關(guān)于如何分割與深度學(xué)習(xí)工作的細(xì)節(jié),請查看這篇文章:
https://towardsdatascience.com/semantic-segmentation-with-deep-learning-...

o4YBAGAIPxiARK_ZAAIETEcDNyo272.png

GCN細(xì)分架構(gòu)

4、姿態(tài)估計

姿態(tài)估計模型需要完成兩個任務(wù):
(1)檢測圖像中每個身體部位的關(guān)鍵點;
(2)找出如何正確連接這些關(guān)鍵點。

這分以下三個階段完成:

① 使用標(biāo)準(zhǔn)分類網(wǎng)絡(luò)從圖像中提取特征。

② 給定這些特征,就可以訓(xùn)練一個子網(wǎng)絡(luò)來預(yù)測一組2D熱圖。每個熱圖都與一個特定的關(guān)鍵點相關(guān)聯(lián),并包含每個圖像像素關(guān)于是否可能存在關(guān)鍵點的置信值。

③ 再次給出分類網(wǎng)絡(luò)的特征,我們訓(xùn)練一個子網(wǎng)絡(luò)來預(yù)測一組2D向量場,其中每個向量場都與關(guān)鍵點之間的關(guān)聯(lián)度進(jìn)行編碼。然后,具有較高關(guān)聯(lián)性的關(guān)鍵點被稱為已連接。

用這種方法訓(xùn)練子網(wǎng)絡(luò)的模型,可以聯(lián)合優(yōu)化關(guān)鍵點的檢測并將它們連接在一起。

o4YBAGAIP1eAeFJQAAC_v2DDHOc228.png

OpenPose姿態(tài)估計架構(gòu)

5、增強和恢復(fù)

增強和恢復(fù)網(wǎng)絡(luò)是它們自己獨特的野獸。我們不會對此進(jìn)行任何向下采樣,因為我們真正關(guān)心的是高像素/空間精度。向下采樣會真正抹殺這些信息,因為它將減少我們?yōu)榭臻g精度而擁有的像素數(shù)。相反,所有處理都是在全圖像分辨率下完成的。

我們開始以全分辨率將想要增強/恢復(fù)的圖像傳遞到我們的網(wǎng)絡(luò),而無需進(jìn)行任何修改。網(wǎng)絡(luò)僅由許多卷積和激活函數(shù)組成。這些塊通常是受啟發(fā)的,并且有時直接復(fù)制那些最初為圖像分類而開發(fā)的塊,例如殘差塊、密集塊、擠壓激勵塊等。最后一層沒有激活函數(shù),即使是sigmoid或softmax也沒有,因為我們想直接預(yù)測圖像像素,不需要任何概率或分?jǐn)?shù)。

這就是所有這些類型的網(wǎng)絡(luò)。在圖像的全分辨率上進(jìn)行了大量的處理,來達(dá)到較高的空間精度,使用了與其他任務(wù)相同的卷積。

o4YBAGAIP5WACSmFAABx3MfYS3Y734.png

EDSR超分辨率架構(gòu)

6、動作識別

動作識別是少數(shù)幾個需要視頻數(shù)據(jù)才能正常運行的應(yīng)用程序之一。要對一個動作進(jìn)行分類,我們需要了解隨著時間推移,場景中發(fā)生的變化, 這自然導(dǎo)致我們需要視頻。我們的網(wǎng)絡(luò)必須經(jīng)過訓(xùn)練來學(xué)習(xí)時空信息,即時空變化。最完美的網(wǎng)絡(luò)是3D-CNN。

顧名思義,3D-CNN是使用3D卷積的卷積網(wǎng)絡(luò)。它們與常規(guī)CNN的不同之處在于,卷積是在3維上應(yīng)用的:寬度、高度和時間。因此,每個輸出像素都是根據(jù)其周圍像素以及相同位置的前一幀和后一幀中的像素進(jìn)行計算來預(yù)測的。

o4YBAGAIQDKAfS05AAAu8FYu9L8276.png

直接大量傳遞圖像

視頻幀可以通過幾種方式傳遞:

直接在大批量中,例如第一個圖。由于我們正在傳遞一系列幀,因此空間和時間信息都是可用的。

o4YBAGAIQJCAC7ZxAACA2TWy-TM901.png

單幀+光流(左) 視頻+光流(右)

我們還可以在一個流中傳遞單個圖像幀(數(shù)據(jù)的空間信息),并從視頻中傳遞其相應(yīng)的光流表示形式(數(shù)據(jù)的時間信息)。我們將使用常規(guī)2D CNN從這兩者中提取特征,然后再將其組合起來傳遞給我們的3D CNN,后者將兩種類型的信息進(jìn)行合并。

將幀序列傳遞給一個3D CNN,并將視頻的光流表示傳遞給另一個3D CNN。這兩個數(shù)據(jù)流都具有可用的空間和時間信息。鑒于我們正在對視頻的兩種不同表示(均包含我們的所有信息)進(jìn)行特定處理,因此這是最慢的選擇,但也可能是最準(zhǔn)確的選擇。

所有這些網(wǎng)絡(luò)都輸出視頻的動作分類。

文章來源于AI科技大本營,作者George Seif

審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏

    評論

    相關(guān)推薦

    量子計算機(jī)與普通計算機(jī)工作原理的區(qū)別

    超越世界上最強大的超級計算機(jī)完成以前不可想象的任務(wù)!這意味著量子計算機(jī)可能會徹底改變我們的生活。 在本文中,我們將先了解普通計算機(jī)工作
    的頭像 發(fā)表于 11-24 11:00 ?279次閱讀
    量子<b class='flag-5'>計算機(jī)</b>與普通<b class='flag-5'>計算機(jī)工作</b>原理的區(qū)別

    【小白入門必看】一文讀懂深度學(xué)習(xí)計算機(jī)視覺技術(shù)及學(xué)習(xí)路線

    ,幫我們做決定。整個過程就是為了讓機(jī)器能看懂圖像,然后根據(jù)這些圖像做出聰明的選擇。二、計算機(jī)視覺實現(xiàn)起來難嗎?人類依賴視覺,找輛汽車輕而易舉,畢竟汽車那么大,一眼
    的頭像 發(fā)表于 10-31 17:00 ?396次閱讀
    【小白入門必看】一文讀懂<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>計算機(jī)</b><b class='flag-5'>視覺</b>技術(shù)及<b class='flag-5'>學(xué)習(xí)</b>路線

    計算機(jī)視覺有哪些優(yōu)缺點

    計算機(jī)視覺作為人工智能領(lǐng)域的一個重要分支,旨在使計算機(jī)能夠像人類一樣理解和解釋圖像和視頻的信息。這一技術(shù)的發(fā)展不僅推動了多個行業(yè)的變革,也帶來了諸多優(yōu)勢,但同時也伴隨著一些挑戰(zhàn)和局限
    的頭像 發(fā)表于 08-14 09:49 ?920次閱讀

    機(jī)器視覺計算機(jī)視覺有什么區(qū)別

    。機(jī)器視覺的研究目標(biāo)是讓機(jī)器具有類似人類的視覺能力,能夠自動、準(zhǔn)確地完成各種視覺任務(wù)。 計算機(jī)視覺
    的頭像 發(fā)表于 07-16 10:23 ?520次閱讀

    計算機(jī)視覺的五大技術(shù)

    計算機(jī)視覺作為深度學(xué)習(xí)領(lǐng)域最熱門的研究方向之一,其技術(shù)涵蓋了多個方面,為人工智能的發(fā)展開拓了廣闊的道路。以下是對計算機(jī)
    的頭像 發(fā)表于 07-10 18:26 ?1330次閱讀

    計算機(jī)視覺工作原理和應(yīng)用

    計算機(jī)視覺(Computer Vision,簡稱CV)是一門跨學(xué)科的研究領(lǐng)域,它利用計算機(jī)和數(shù)學(xué)算法模擬人類視覺系統(tǒng)對圖像和視頻進(jìn)行識別、
    的頭像 發(fā)表于 07-10 18:24 ?1909次閱讀

    計算機(jī)視覺與人工智能的關(guān)系是什么

    引言 計算機(jī)視覺是一門研究如何使計算機(jī)能夠理解和解釋視覺信息的學(xué)科。它涉及到圖像處理、模式識別、機(jī)器學(xué)習(xí)等多個領(lǐng)域的知識。人工智能則是研究如
    的頭像 發(fā)表于 07-09 09:25 ?620次閱讀

    計算機(jī)視覺與智能感知是干嘛的

    引言 計算機(jī)視覺(Computer Vision)是一門研究如何使計算機(jī)能夠理解和解釋視覺信息的學(xué)科。它涉及到圖像處理、模式識別、機(jī)器學(xué)習(xí)
    的頭像 發(fā)表于 07-09 09:23 ?917次閱讀

    計算機(jī)視覺和機(jī)器視覺區(qū)別在哪

    計算機(jī)視覺和機(jī)器視覺是兩個密切相關(guān)但又有明顯區(qū)別的領(lǐng)域。 一、定義 計算機(jī)視覺 計算機(jī)
    的頭像 發(fā)表于 07-09 09:22 ?446次閱讀

    計算機(jī)視覺屬于人工智能嗎

    屬于,計算機(jī)視覺是人工智能領(lǐng)域的一個重要分支。 引言 計算機(jī)視覺是一門研究如何使計算機(jī)具有視覺
    的頭像 發(fā)表于 07-09 09:11 ?1291次閱讀

    計算機(jī)視覺怎么給圖像分類

    圖像分類是計算機(jī)視覺領(lǐng)域中的一項核心任務(wù),其目標(biāo)是將輸入的圖像自動分配到預(yù)定義的類別集合。這一過程涉及圖像的特征提取、特征表示以及分類器的設(shè)計與訓(xùn)練。隨著深度
    的頭像 發(fā)表于 07-08 17:06 ?643次閱讀

    深度學(xué)習(xí)計算機(jī)視覺領(lǐng)域的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)作為其中的核心技術(shù)之一,已經(jīng)在計算機(jī)視覺領(lǐng)域取得了顯著的成果。計算機(jī)
    的頭像 發(fā)表于 07-01 11:38 ?777次閱讀

    計算機(jī)視覺的主要研究方向

    計算機(jī)視覺(Computer Vision, CV)作為人工智能領(lǐng)域的一個重要分支,致力于使計算機(jī)能夠像人眼一樣理解和解釋圖像和視頻的信息。隨著
    的頭像 發(fā)表于 06-06 17:17 ?951次閱讀

    計算機(jī)視覺的十大算法

    隨著科技的不斷發(fā)展,計算機(jī)視覺領(lǐng)域也取得了長足的進(jìn)步。本文將介紹計算機(jī)視覺領(lǐng)域的十大算法,包括它們的基本原理、應(yīng)用場景和優(yōu)缺點。這些算法在圖像處理、目標(biāo)檢測、人臉識別等領(lǐng)域有著廣泛的應(yīng)
    的頭像 發(fā)表于 02-19 13:26 ?1236次閱讀
    <b class='flag-5'>計算機(jī)</b><b class='flag-5'>視覺</b>的十大算法

    計算機(jī)視覺:AI如何識別與理解圖像

    計算機(jī)視覺是人工智能領(lǐng)域的一個重要分支,它致力于讓機(jī)器能夠像人類一樣理解和解釋圖像。隨著深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的發(fā)展,人們對于如何讓AI識別和理解圖像產(chǎn)生了濃厚的興趣。本文將探討
    的頭像 發(fā)表于 01-12 08:27 ?1417次閱讀
    <b class='flag-5'>計算機(jī)</b><b class='flag-5'>視覺</b>:AI如何識別與理解圖像
    主站蜘蛛池模板: 少妇无码太爽了视频在线播放 | 69人体阴展网| 18黄女脱内衣| 88福利视频| 成人免费在线观看视频| 亚洲综合中文| 怡春院欧美一区二区三区免费| 厕所xxxxx| 老头狠狠挺进小莹体内视频| 三级黄在线| 97在线国内自拍视频| 狠狠色狠狠色综合| 欧美日韩中文字幕综合图区| 亚洲成人网导航| qvod播放电影| 免费观看99热只有精品| 亚洲精品久久久午夜麻豆| 大胸美女被cao哭| 欧美亚洲日韩一道免费观看| 亚洲中文字幕AV在天堂| 国产精品点击进入在线影院高清| 欧美高清 videos sexo| 2018年免费三级av观看| 娇女的呻吟亲女禁忌h16| 亚瑟天堂久久一区二区影院| 国产电影三级午夜a影院| 色播播影院| 国产福利一区二区精品| 天堂岛www天堂资源在线| 国产成人精品免费青青草原app| 全彩acg无翼乌火影忍者| yellow免费观看完整版直播| 欧美xx69| 俄罗斯雏妓的BBB孩交| 网红刘婷hd国产高清| 国产欧美日韩视频怡春院| 亚洲风情无码免费视频| 久艾草在线精品视频在线观看| 伊人久久青草| 免费。色婬网站| 动漫女生的逼|