(2021年7月19日,北京)在近日舉辦的 ICME 2021 上,墨奇科技 CEO 及聯合創始人邰騁、墨奇科技 CTO 及聯合創始人湯林鵬受邀發表 Tutorial 演講,介紹了如何將指紋識別問題轉化為高精度圖像搜索問題,基于先進的多尺度特征表示、極少樣本的自學習框架、超高性能的異構搜索系統,首次實現了無需細節特征的指紋比對系統,達到 20 億量級上的秒級、高精度、自動化比對,并揭示了這一技術泛化到其他自然圖像和非結構化數據上的可能性。
演講還介紹了利用多目視覺和結構光的非接觸指紋采集技術的原理,以及下一代保護隱私的生物識別技術特性和實現途徑探索。
指紋識別傳統方法的挑戰、基于機器學習的改進與局限性
指紋識別是一種典型生物特征比對方式,一般來說有兩種類型任務:第一種是驗證,也稱之為 1:1 的比對,是看這個人是不是他所宣稱的人,例如手機解鎖等,這相對比較容易。第二種是識別,也稱之為 1:N 的比對,要回答的是這個人是誰。從以下系統錯比率和漏比率就可以看到,1:N 的問題比 1:1 的問題要困難得多,而且隨著庫容增大,這一問題會變得更加困難。
現有的比對系統主要是基于衡量輸入的相似度取閾值,一個真的比對分數是比較高的,通常會形成偏右的分布。而錯誤比對的分數會比較低,形成偏左邊分布。這兩個分布可能有重疊,所以系統會犯兩種錯誤:錯比(false match/false accept):把不同的人當成同一個人;漏比(false nonmatch/false reject):把同一個人當成不同的人。以下公式中,下標 N 是指有 N 個人的 1:1 的識別,可以看到兩類系統漏比率基本相當,而錯比率 1:N 系統近似于是 1:1 系統的 N 倍。
現場指紋(latent-print)比對是一個典型的1:N 識別的問題,對這一問題,傳統指紋系統尚未能很好地解決。傳統指紋識別方法主要有三方面問題:如何實現現場指紋圖像自動增強、如何進行畸變校正,如何加速流程實現在大庫中的快速比對。
這三方面問題存在于指紋識別的不同環節:
·首先是采集環節,通過指紋傳感器采集指紋信息,通常分為人員指紋和現場指紋兩類,其中,人員指紋(tenprint)通過人員主動參與獲得(例如油墨按捺或滾動),通常質量較高,而現場指紋(latent-print)需要借助粉塵顯影等方式顯現,圖像質量往往較差,通常需要進行圖像增強后才能使用。
·第二個環節是通過圖像增強進行特征提取。在傳統指紋識別流程中需要提取細節特征點(minutia),即一些帶有方向的點,包括端點和分叉點等,用于比對相似性。這一環節需要使用方向估計(orientatioin estimation)(如傅里葉近似法或梯度法)、使用 Gabor 濾波器進行圖像平滑、去除假特征等圖像增強操作,以獲得細節特征。然而對于現場指紋,有時圖像增強不佳,過度壓縮,反而把真正的細節特征給去除了。
·第三個環節是細節特征比對,在對需要比對的兩個模型做細節特征對齊(alignment)后,對比對數量和精度進行評分,并設置閾值,以獲得相似性分數。然而傳統指紋系統這一環節依賴于專家對細節特征進行人工標注,技術門檻很高,效率卻很低。
針對這些問題,近年來,研究者們在利用機器學習技術來改進傳統的指紋識別上做了大量的工作,包括利用生成對抗網絡(GAN)進行現場指紋圖像增強,使用基于卷積神經網絡(CNN)進行畸變校正,以及通過 FingerNet 端到端細節特征提取方法直接從圖像中提取特征點。這些基于深度學習的方法是對傳統方法的一種改進。
然而,這些方法在精確度、訓練數據和性能上仍存在局限:
·第一,在精確度上,由于這些方法都是基于細節特征,而細節特征本身的精度就有限,只覆蓋了指紋信息中的一小部分,曲率和幾何信息都丟失了。只使用了細節特征的系統,隨著數據庫大小的增加,準確率會迅速下降,即“大庫衰減”現象。
·第二,這些方法需要大量的訓練數據,但是這些數據并不易于獲得,而通過合成數據訓練的模型通常并不能很好地應用到真實數據中。
·第三,在性能表現上,仍不能達到預期,尤其在大型數據庫比對上花費的時間過長。
新一代指紋識別技術:將指紋比對問題轉化為高精度圖像搜索問題
墨奇科技一直致力于探尋新的技術路徑來解決這些問題,并發現了一種可行的方式:除了傳統細節特征外,指紋上還有很多信息,例如紋線的曲率、疏密分布、宏觀的走向、拓撲結構等等,這些信息對于身份識別都很重要。如果指紋比對看作一個特殊的圖像搜索問題,就會發現解決問題的關鍵在于多尺度表示,即對不同信息運用不同尺度予以表示。然而圖像搜索問題更多是相似性搜索問題,對于準確率的要求遠沒有指紋比對這么高。
圖:多尺度特征
那么如何實現高精度的圖像搜索呢?
首先需要一個更有效的數學框架為指紋圖像構建最佳的多尺度表示,可以更搜索友好而非壓縮友好,讓高精度、高性能的圖像搜索成為可能。這里運用的是自適應小波框架。新的表達方法具有三個顯著優勢:一是可以學習向量、圖和標簽的多尺度特征。二是更容易構造多個特征。例如,在從像素到整體圖像的每一個中間尺度上,都提取了標簽(label)、向量(vector)和圖(graph)等不同的特征,極大地擴充了指紋信息。三是表示更具冗余性,并且具有完全重構特性,因此,可以對其應用不同的操作以獲得更多特征,例如一個點在不同尺度上,可以包含標簽等信息。
其次,只需要極少樣本的自學習框架,讓系統可以自學習。單張圖片的訓練信號大大增加,因而學習所需的標記數據很少;給定一對指紋圖像,在全部尺度都可以開展學習;當專家使用系統時,會不斷提供匹配/非匹配對,從而實現系統自驅動;特征具有局部性,無需再使用細節特征。因而,適應多尺度特征的 AI 自學習框架,能夠從搜索候選中不斷自學,達到無監督學習。
另外,超高性能的異構系統和架構,讓準確性和速度提升。專門用于視覺搜索的異構多層分布式系統,針對多尺度特征進行了優化。在比對過程中,向量和標簽被首先分配到 GPU/NPU 中去,利用其強大的并行計算能力,對特征進行初步的比對和過濾;對結果使用 CPU 進行圖等幾何特征的比對和精確匹配,以及對于多種算法的候選列表進行再排序以優化最終的結果,最終實現指紋圖像的高速比對。
上圖:需要人工標注細節特征
下圖:無標注比對自動搜索指紋圖像相似的區域
憑借這些底層的技術創新,墨奇科技的新一代指紋識別系統徹底改變了傳統系統的工作流程,且突破性地不需要人工標注,與現有絕大部分依賴人工的指紋系統都有本質的差別。
以前,人們必須去現場收集指紋,帶回到辦公室,讓指紋專家標記特征并將這些模板發送到系統進行比對、等待結果。而現在只需要在現場用一些攝影設備(例如手機)來拍攝指紋,就可處理更多特征數量和特征維度,但比對效率和響應速度卻更高,可以秒級返回高精度結果,突破性地實現了 20 億量級大庫的秒級、高精度、自動化比對。這一技術目前已運用到了指紋以外的更多圖像,如掌紋識別上,未來還可能推廣到更廣泛的圖像搜索應用中。
相較于傳統系統,雖然墨奇科技下一代指紋識別系統需要處理的特征數量和特征維度更多,但比對效率和響應速度卻更高。基于以上的技術突破,該系統是目前行業內比對速度更快、精度更高的系統,同時降低了大庫衰減率。
新一代指紋采集技術:將指紋采集升級到非接觸 3D 時代
疫情期間,非接觸指紋采集和識別技術受到越來越多的關注。傳統指紋采集大多是接觸式的,需要手指按壓在儀器表面。而非接觸指紋采集具有更明顯的優勢:
·一是因為這種技術能夠提供更高質量的指紋圖像,包括采集更多 3D 信息和更大的指紋面積,且與傳統接觸式不同,無需擔心不同油墨量會影響指紋質量,按壓過程中也不會出現非均勻畸變。
·二是因為這種技術對用戶更友好,采集速度更快、更便捷、更衛生,并且不需要非常專業的操作人員協助指導。
非接觸式指紋技術涉及到幾個關鍵技術,包括三維曲面重建和三維到二維曲面映射。指紋三維曲面重建目前主要有兩種方案:第一種是利用多目視覺技術,在指紋采集時,手指的每一部分都需要出現在至少兩個攝像頭的視野中;另外一種則基于結構光技術,通過向被測物體表面投射特定圖案的光線,通過對光的反射構建三維曲面。
墨奇科技提出了將多目視覺和結構光結合使用的新方法。其中,多目視覺聚焦于中間部分,結構光聚焦于邊緣部分,并與多目視覺的三維結果進行交叉驗證,這樣就實現了從不同角度對指紋的三維曲面進行高精密度的重建。
圖:多目視覺技術+結構光
三維到二維曲面映射技術,主要有兩種展開方式:參數化展開和非參數化展開。參數化展開將手指看做一個圓柱體,將圓柱體從三維鋪平到二維平面。該方法簡單有效,但是它無法保持手指垂直方向上的曲線距離,況且指尖部分也和圓柱體有很大的不同,所以會有有很多失真和誤差。非參數化展開實際上是模擬手指如何在平面上展開,構建從三維表面到二維平面的非參數映射。這種方法需要的計算量更大,對三維曲面的精度要求也更高。
墨奇科技組合運用了這兩種方式。
圖:墨奇首創了高圖像質量的非接觸式指紋掃描儀
第一行左邊結果來自傳統的掃描儀
中間圖像來自墨奇非接觸指紋掃描儀
第二行來自業界其他非接觸設備
基于這些技術,墨奇首創了高圖像質量、與滾動捺印采集面積相當的非接觸式指紋掃描儀。它融合了世界領先的非接觸光學采集技術和三維視覺技術,通過高精度曲面重建算法,使手指表面三維建模達到亞毫米精度,擁有采集速度快、采集質量高、無需滾動捺印、無形變、采集面積更大等核心優勢,是國際領先、國內首創的自主科技創新成果,將指紋技術全面升級到非接觸 3D 時代。
保護隱私的生物識別技術
生物識別技術在許多應用中帶來了便利和安全,但另一方面,對由此引發的隱私問題的關注也在不斷增長,而且重要日益凸顯。和密碼不同,生物特征與每個人都永久相連,具有終生不變的特性,一旦泄露就永遠泄露。因此,生物特征識別技術需要一種更有效的隱私保護機制。
用戶的原始特征和采集到的模板都是用戶的隱私信息,都應該被保護。用來比對的是使用變換函數變換后的特征,并只將變換后的特征存在數據庫里。對照密碼常使用的哈希加密,我們可以用類似的方法,使用加密哈希變換和存儲生物特征信息嗎?
實際上,典型的哈希函數在生物特征識別上并不起作用,因為生物特征數據會隨著時間變化,例如同一個人的指紋可以有不同的形狀和面積,面部圖像可以有不同的角度和亮度,虹膜數據也可能隨睜眼或閉眼而變化,而例如用一個 SHA256 的哈希值,即使原始數據改變了一位,哈希值也完全改變了。
既然典型的哈希函數不起作用,保護隱私的生物識別技術應該具有哪些特性?墨奇科技認為,一個真正保護隱私的生物識別系統需要具備如下三點:
·第一,不可逆。在給定比對特征的情況下,恢復原始的特征模板非常困難,并且這一難度通常由 NP-hard 類問題來保證。這一特性防止了濫用存儲的生物特征數據進行欺騙或重放攻擊,因為攻擊者將無法從變換后的特征中獲取原始模板,這樣就提高了生物識別認證系統的安全性。
·第二,可撤銷。一旦某一個模板泄露或被認為不安全,就可以安全注銷,然后簽發一個新模板,這樣就使得使用生物識別的方式和使用密碼的方式一樣可撤銷。
·第三,非關聯性。這意味著想要確定一個或者多個變換后的模板是源于同一個原始特征,在計算上應該是困難的。也就是說,用戶有不同的生物識別應用,但彼此之間并不關聯,比如說有小區門禁、支付等不同的應用并不交叉認證,從而保護了個人的隱私。
如果滿足了上述三點,那么這樣的方案才可被稱為可撤銷的生物識別技術,其中有三種方案最具代表性:Biohashing 、Fuzzy Commitment 和 Fuzzy Vault。
·第一種方案,Biohashing,使用一個外部密鑰 k 生成從原始模板 T 中生成 biohash H (T, k)。這種方法的優點是由于需要同時借助原始生物特征模板和外部密鑰兩個因素驗證,實際上提高了準確性。然而,該方案的缺點是仍需要記住密鑰,且一旦密鑰暴露,原始生物特征數據也不安全。
·第二種方案,Fuzzy Commitment,使用糾錯碼技術,優點是可以看到用戶不需要記住任何密鑰,而缺點在于取決于糾錯碼的構造,不可撤銷性或者不可鏈接性可能無法完全滿足。
·第三種方案,Fuzzy Vault,實際上假設原始生物特征模板包含圖像的許多特征點,使用一組網格點對圖像進行分區,并將這些特征點量化到網格,如果足夠多的特征點是正確的,那多項式可以用Generalized Reed Solomon解碼技術來恢復,否則,有很多錯誤點的多項式重建問題,實際上是 NP-hard 問題。這種方法的優點是多項式重建問題的難度保證了一定的安全屬性,缺點是比對速度很慢。
圖:Biohashing 、Fuzzy Commitment 和 Fuzzy Vault
由此可見,研發保護隱私的生物識別相當困難,現有系統很難達到。另一方面,對于所有保護隱私的生物識別系統,都存在錯比率(FMR)和漏比率(FNMR)之間的權衡問題,可以視為安全性和便利性之間的權衡。
事實上,任何可撤銷的生物識別系統的安全級別實際上都受 1/FMR 的限制,因為攻擊者可能會生成一個數量超過 1/FMR 合成生物特征樣本數據庫,然后在如此大量的樣本中,可以只找到一個與原始樣本具有足夠相似度的樣本,然后我們就可以找到匹配并破解系統,還原原始的生物特征樣本。因此,我們需要一個具有非常低的 FMR 錯比率的系統,才能確保安全。
對于指紋識別系統來說,未來可撤銷的保護隱私的指紋識別系統,未來發展方向包括:
·第一,進一步提高指紋圖像的質量和獨特性。通過采集更大的圖像面積、掃描一只手的多根手指等方式,可以顯著增加指紋細節特征的數量,從而有效提高安全級別,而非接觸指紋采集實際上是實現這一目標的一種非常有前景的方法。
·第二,結合多種方式在安全與便捷之間實現更好的平衡。比如,通過在每個指紋細節特征點中增加嵌入式向量,使得指紋細節點更具區別性,從而用更少的指紋細節特征達到相同的安全級別。
墨奇科技正在將圖像比對和密碼學相組合,引領下一代保護隱私的生物特征識別技術。盡管保護隱私的生物識別技術由于各種技術困難尚未被廣泛采用,但必是生物識別技術的未來。
ICME 2021 簡介:
全球計算機多媒體頂級會議 ICME 全稱 IEEE International Conference on Multimedia and Expo,2021 年于 7 月 5 日 - 9 日于線上召開。
ICME 是計算機多媒體領域最重要和權威的兩大國際旗艦會議之一,會議輪流由美洲、歐洲、亞洲城市主辦,至今已連續舉辦 20 屆,每年都有約 500 位學者參會,收到約 1000 份論文,涵蓋文本分析、圖形圖像、視頻處理、語音和音頻信號處理等主題。
評論
查看更多