要實(shí)現(xiàn)計(jì)算機(jī)視覺必須有圖像處理的幫助,而圖像處理倚仗與模式識別的有效運(yùn)用,而模式識別是人工智能領(lǐng)域的一個(gè)重要分支,人工智能與機(jī)器學(xué)習(xí)密不可分。縱觀一切關(guān)系,發(fā)現(xiàn)計(jì)算機(jī)視覺的應(yīng)用服務(wù)于機(jī)器學(xué)習(xí),各個(gè)環(huán)節(jié)缺一不可,相輔相成。
計(jì)算機(jī)視覺
計(jì)算機(jī)視覺(computer vision):用計(jì)算機(jī)來模擬人的視覺機(jī)理獲取和處理信息的能力。就是指用攝影機(jī)和電腦代替人眼對目標(biāo)進(jìn)行識別、跟蹤和測量等機(jī)器視覺,并進(jìn)一步做圖形處理,用電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。
計(jì)算機(jī)視覺研究相關(guān)的理論和技術(shù),試圖建立能夠從圖像或者多維數(shù)據(jù)中獲取'信息'的人工智能系統(tǒng)。計(jì)算機(jī)視覺的挑戰(zhàn)是要為計(jì)算機(jī)和機(jī)器人開發(fā)具有與人類水平相當(dāng)?shù)囊曈X能力。
機(jī)器視覺需要圖象信號,紋理和顏色建模,幾何處理和推理,以及物體建模。一個(gè)有能力的視覺系統(tǒng)應(yīng)該把所有這些處理都緊密地集成在一起。
圖像處理
圖像處理(image processing):用計(jì)算機(jī)對圖像進(jìn)行分析,以達(dá)到所需結(jié)果的技術(shù)。又稱影像處理。
圖像處理一般指數(shù)字圖像處理。數(shù)字圖像是指用數(shù)字?jǐn)z像機(jī)、掃描儀等設(shè)備經(jīng)過采樣和數(shù)字化得到的一個(gè)大的二維數(shù)組,該數(shù)組的元素稱為像素,其值為一整數(shù),稱為灰度值。
圖像處理技術(shù)的主要內(nèi)容包括圖像壓縮,增強(qiáng)和復(fù)原,匹配、描述和識別3個(gè)部分。常見的處理有圖像數(shù)字化、圖像編碼、圖像增強(qiáng)、圖像復(fù)原、圖像分割和圖像分析等。
模式識別
模式識別(Pattern Recognition)是指對表征事物或現(xiàn)象的各種形式的(數(shù)值的、文字的和邏輯關(guān)系的)信息進(jìn)行處理和分析,以對事物或現(xiàn)象進(jìn)行描述、辨認(rèn)、分類和解釋的過程,是信息科學(xué)和人工智能的重要組成部分。
模式識別又常稱作模式分類,從處理問題的性質(zhì)和解決問題的方法等角度,模式識別分為有監(jiān)督的分類(Supervised Classification)和無監(jiān)督的分類(Unsupervised Classification)兩種。模式還可分成抽象的和具體的兩種形式。前者如意識、思想、議論等,屬于概念識別研究的范疇,是人工智能的另一研究分支。我們所指的模式識別主要是對語音波形、地震波、心電圖、腦電圖、圖片、照片、文字、符號、生物傳感器等對象的具體模式進(jìn)行辨識和分類。
模式識別研究主要集中在兩方面:
一是研究生物體(包括人)是如何感知對象的,屬于認(rèn)識科學(xué)的范疇;
二是在給定的任務(wù)下,如何用計(jì)算機(jī)實(shí)現(xiàn)模式識別的理論和方法
應(yīng)用計(jì)算機(jī)對一組事件或過程進(jìn)行辨識和分類,所識別的事件或過程可以是文字、聲音、圖像等具體對象,也可以是狀態(tài)、程度等抽象對象。這些對象與數(shù)字形式的信息相區(qū)別,稱為模式信息。
模式識別與統(tǒng)計(jì)學(xué)、心理學(xué)、語言學(xué)、計(jì)算機(jī)科學(xué)、生物學(xué)、控制論等都有關(guān)系。它與人工智能、圖像處理的研究有交叉關(guān)系。
機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)(Machine Learning)是研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。它是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑,其應(yīng)用遍及人工智能的各個(gè)領(lǐng)域,它主要使用歸納、綜合而不是演繹。
機(jī)器學(xué)習(xí)在人工智能的研究中具有十分重要的地位。一個(gè)不具有學(xué)習(xí)能力的智能系統(tǒng)難以稱得上是一個(gè)真正的智能系統(tǒng),但是以往的智能系統(tǒng)都普遍缺少學(xué)習(xí)的能力。隨著人工智能的深入發(fā)展,這些局限性表現(xiàn)得愈加突出。正是在這種情形下,機(jī)器學(xué)習(xí)逐漸成為人工智能研究的核心之一。它的應(yīng)用已遍及人工智能的各個(gè)分支,如專家系統(tǒng)、自動推理、自然語言理解、模式識別、計(jì)算機(jī)視覺、智能機(jī)器人等領(lǐng)域。
機(jī)器學(xué)習(xí)的研究是根據(jù)生理學(xué)、認(rèn)知科學(xué)等對人類學(xué)習(xí)機(jī)理的了解,建立人類學(xué)習(xí)過程的計(jì)算模型或認(rèn)識模型,發(fā)展各種學(xué)習(xí)理論和學(xué)習(xí)方法,研究通用的學(xué)習(xí)算法并進(jìn)行理論上的分析,建立面向任務(wù)的具有特定應(yīng)用的學(xué)習(xí)系統(tǒng)。這些研究目標(biāo)相互影響相互促進(jìn)。
人類研究計(jì)算機(jī)的目的,是為了提高社會生產(chǎn)力水平,提高生活質(zhì)量,把人從單調(diào)復(fù)雜甚至危險(xiǎn)的工作中解救出來。今天的計(jì)算機(jī)在計(jì)算速度上已經(jīng)遠(yuǎn)遠(yuǎn)超過了人,然而在很多方面,特別是在人類智能活動有關(guān)的方面例如在視覺功能、聽覺功能、嗅覺功能、自然語言理解能力功能等等方面,還不如人。
這種現(xiàn)狀無法滿足一些高級應(yīng)用的要求。例如,我們希望計(jì)算機(jī)能夠及早地發(fā)現(xiàn)路上的可疑情況并提醒汽車駕駛員以避免發(fā)生事故,我們更希望計(jì)算機(jī)能幫助我們進(jìn)行自動駕駛,目前的技術(shù)還不足以滿足諸如此類高級應(yīng)用的要求,還需要更多的人工智能研究成果和系統(tǒng)實(shí)現(xiàn)的經(jīng)驗(yàn)。
人工智能
人工智能,是由人類設(shè)計(jì)并在計(jì)算機(jī)環(huán)境下實(shí)現(xiàn)的模擬或再現(xiàn)某些人智能行為的技術(shù)。一般認(rèn)為,人類智能活動可以分為兩類:感知行為與思維活動。模擬感知行為的人工智能研究的一些例子包括語音識別、話者識別等與人類的聽覺功能有關(guān)的"計(jì)算機(jī)聽覺",物體三維表現(xiàn)的形狀知識、距離、速度感知等與人類視覺有關(guān)的"計(jì)算機(jī)視覺",等等。模擬思維活動的人工智能研究的例子包括符號推理、模糊推理、定理證明等與人類思維有關(guān)的"計(jì)算機(jī)思維",等等。
從圖像處理和模式識別發(fā)展起來的計(jì)算機(jī)視覺研究對象之一是如何利用二維投影圖像恢復(fù)三維景物世界。計(jì)算機(jī)視覺使用的理論方法主要是基于幾何、概率和運(yùn)動學(xué)計(jì)算與三維重構(gòu)的視覺計(jì)算理論,它的基礎(chǔ)包括射影幾何學(xué)、剛體運(yùn)動力學(xué)、概率論與隨機(jī)過程、圖像處理、人工智能等理論。
計(jì)算機(jī)視覺要達(dá)到的基本目的有以下幾個(gè):
(1) 根據(jù)一幅或多幅二維投影圖像計(jì)算出觀察點(diǎn)到目標(biāo)物體的距離;
(2) 根據(jù)一幅或多幅二維投影圖像計(jì)算出目標(biāo)物體的運(yùn)動參數(shù);
(3) 根據(jù)一幅或多幅二維投影圖像計(jì)算出目標(biāo)物體的表面物理特性;
(4) 根據(jù)多幅二維投影圖像恢復(fù)出更大空間區(qū)域的投影圖像。
計(jì)算機(jī)視覺要達(dá)到的最終目的是實(shí)現(xiàn)利用計(jì)算機(jī)對于三維景物世界的理解,即實(shí)現(xiàn)人的視覺系統(tǒng)的某些功能。
在計(jì)算機(jī)視覺領(lǐng)域里,醫(yī)學(xué)圖像分析、光學(xué)文字識別對模式識別的要求需要提到一定高度。又如模式識別中的預(yù)處理和特征抽取環(huán)節(jié)應(yīng)用圖像處理的技術(shù);圖像處理中的圖像分析也應(yīng)用模式識別的技術(shù)。在計(jì)算機(jī)視覺的大多數(shù)實(shí)際應(yīng)用當(dāng)中,計(jì)算機(jī)被預(yù)設(shè)為解決特定的任務(wù),然而基于機(jī)器學(xué)習(xí)的方法正日漸普及,一旦機(jī)器學(xué)習(xí)的研究進(jìn)一步發(fā)展,未來"泛用型"的電腦視覺應(yīng)用或許可以成真。
人工智能所研究的一個(gè)主要問題是:如何讓系統(tǒng)具備"計(jì)劃"和"決策能力"?從而使之完成特定的技術(shù)動作(例如:移動一個(gè)機(jī)器人通過某種特定環(huán)境)。這一問題便與計(jì)算機(jī)視覺問題息息相關(guān)。在這里,計(jì)算機(jī)視覺系統(tǒng)作為一個(gè)感知器,為決策提供信息。另外一些研究方向包括模式識別和機(jī)器學(xué)習(xí)(這也隸屬于人工智能領(lǐng)域,但與計(jì)算機(jī)視覺有著重要聯(lián)系),也由此,計(jì)算機(jī)視覺時(shí)常被看作人工智能與計(jì)算機(jī)科學(xué)的一個(gè)分支。
機(jī)器學(xué)習(xí)是研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。它是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑,其應(yīng)用遍及人工智能的各個(gè)領(lǐng)域,它主要使用歸納、綜合而不是演譯。
為了達(dá)到計(jì)算機(jī)視覺的目的,有兩種技術(shù)途徑可以考慮。
第一種是仿生學(xué)方法,即從分析人類視覺的過程入手,利用大自然提供給我們的最好參考系--人類視覺系統(tǒng),建立起視覺過程的計(jì)算模型,然后用計(jì)算機(jī)系統(tǒng)實(shí)現(xiàn)之。
第二種是工程方法,即脫離人類視覺系統(tǒng)框框的約束,利用一切可行和實(shí)用的技術(shù)手段實(shí)現(xiàn)視覺功能。此方法的一般做法是,將人類視覺系統(tǒng)作為一個(gè)黑盒子對待,實(shí)現(xiàn)時(shí)只關(guān)心對于某種輸入,視覺系統(tǒng)將給出何種輸出。
這兩種方法理論上都是可以使用的,但面臨的困難是,人類視覺系統(tǒng)對應(yīng)某種輸入的輸出到底是什么,這是無法直接測得的。而且由于人的智能活動是一個(gè)多功能系統(tǒng)綜合作用的結(jié)果,即使是得到了一個(gè)輸入輸出對,也很難肯定它是僅由當(dāng)前的輸入視覺刺激所產(chǎn)生的響應(yīng),而不是一個(gè)與歷史狀態(tài)綜合作用的結(jié)果。
不難理解,計(jì)算機(jī)視覺的研究具有雙重意義。
其一,是為了滿足人工智能應(yīng)用的需要,即用計(jì)算機(jī)實(shí)現(xiàn)人工的視覺系統(tǒng)的需要。這些成果可以安裝在計(jì)算機(jī)和各種機(jī)器上,使計(jì)算機(jī)和機(jī)器人能夠具有"看"的能力。
其二,視覺計(jì)算模型的研究結(jié)果反過來對于我們進(jìn)一步認(rèn)識和研究人類視覺系統(tǒng)本身的機(jī)理,甚至人腦的機(jī)理,也同樣具有相當(dāng)大的參考意義。
審核編輯:黃飛
-
圖像處理
+關(guān)注
關(guān)注
27文章
1295瀏覽量
56803 -
人工智能
+關(guān)注
關(guān)注
1792文章
47409瀏覽量
238924 -
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1698瀏覽量
46030 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8424瀏覽量
132766
原文標(biāo)題:【光電智造】計(jì)算機(jī)視覺與圖像處理、模式識別、機(jī)器學(xué)習(xí)學(xué)科之間的關(guān)系
文章出處:【微信號:今日光電,微信公眾號:今日光電】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論