四虎影院在线观看网站,色天天综合,天天av天天翘天天综合网

【導讀】OCR（Optical Charac ter Recognition），也稱光學字符識別，是通過掃描等光學輸入方式將各種票據、報刊、書籍、文稿及其它印刷品的文字轉化為圖像信息，再利用文字識別技術將圖像信息轉化為可以使用的計算機輸入的一種技術。其實大家都在應用這項技術——快遞單號的掃描識別、火車票的驗證等等。最近，Facebook 研究人員提出了一個大規模圖像文本提取和識別系統——Rosetta。接下來 AI 科技大本營就為大家解讀一下這個 OCR 界的最新神器。

摘要

在本文中，我們提出了一個可部署、可擴展的光學字符識別 (OCR) 系統，稱之為 Rosetta，用于處理 Facebook 上每天上傳的圖片。對于 Facebook 這樣社交網絡中的互聯網用戶而言，通過圖像內容共享實現對圖像及其包含文字的理解，已經成為信息溝通的一種主要方式，這對促進搜索和推薦應用來說也是至關重要的。這里，我們提出 Rosetta 系統結構，這是一種有效的建模技術用于檢測和識別圖像中的文本。通過進行大量的評估實驗，我們解釋了這種實用系統是如何用于構建 OCR 系統，以及如何在系統的開發期間部署特定的組分。

簡介

人們在 Facebook 等社交網絡中的信息共享主要是通過一些視覺媒體，如圖片和視頻等。在過去的幾年里，每天上傳到社交媒體平臺上的照片數量成倍增長，這對大量視覺信息的處理技術提出了挑戰。圖像理解的主要挑戰之一是將有關圖像中的文本信息檢索出來，這也稱為光學字符識別 (OCR)，這是一個將電子圖像中的字體，繪圖或場景文本轉化為機器編碼文本的過程。從圖像中獲取這樣的文本信息是非常重要的，這也能促進許多不同的現實應用，如圖像搜索和推薦等。

在光學字符識別任務中，給定一張圖像，我們的 OCR 系統能夠正確地提取所覆蓋或嵌入的文本圖片。這種任務所面臨的挑戰主要是來自一些潛在的字體、語言、詞典和其他語言變體，包括特殊的符號，非字典單詞或圖像中的 URL，email ID 等特定信息。此外，圖像的質量往往也會隨著自然場景圖像中文字的出現而變化不同的背景。另一方面，社交網絡上每天上傳的圖像數量都是龐大的，對于如此大量的圖片進行處理也是目前這項任務所要面臨的一大挑戰。我們想要在圖像上傳的同時，實時地進行 OCR 處理，這需要我們花費大量的時間對系統的組件進行優化。

總的說來，我們希望建立一個強大而準確的 OCR 系統，來實時處理每天上傳的數億張圖像。本文，我們提出一種可擴展的 OCR 系統 Rosetta，為 Facebook 日常網絡社交提供支持。我們的 OCR 系統分為文本檢測和文本識別兩個階段：基于 Faster-RCNN 模型，在文本檢測階段我們的系統能夠檢測出圖像內包含文本的區域；采用基于全卷積網絡的字符識別模型，在文本識別階段我們的系統能夠處理檢測到的位置并識別出文本的內容。下圖1展示了 Rosetta 系統的檢測識別效果。

圖1 使用 Rosetta 系統進行 OCR 文本識別。首先，基于 Faster-RCNN 模型檢測出單詞的位置，并采用全卷積模型生成每個單詞的轉路信息。

方法

我們的 OCR 系統 Rosetta 主要包含兩個階段：檢測和識別階段。在檢測階段，我們的系統能夠檢測出圖像中可能包含文字的矩形區域。在識別階段，我們對每個檢測到的區域，使用全卷積神經網絡模型，識別并轉錄該區域的單詞，實現文本識別。兩階段的處理過程有幾大好處，包括解耦訓練處理、部署并更新檢測和識別模型的能力，并行地運行文本識別，獨立地支持不同語言的文本識別等。下圖2詳細說明我們系統的流程。

圖2 兩階段模型的結構。第一階段是基于 Faster-RCNN 模型進行單詞檢測。第二階段使用具有 CTC 損失的全卷積模型進行單詞識別。這兩個模型是獨立訓練的。

▌文本檢測模型

文本檢測階段，我們采用最先進的 Faster-RCNN 目標檢測網絡。簡而言之，Faster-RCNN 通過一個全卷積神經網絡和區域建議網絡 (RPN) 同時實現目標的檢測和識別：學習表征一張圖像的卷積特征映射并生成 k 個高可能性的文本建議區域候選框及其置信度得分，隨后按置信度分數排序這些候選框并利用非極大值抑制 (NMS) 算法得到最有希望的檢測區域，再從候選框中提取相關的特征映射并學習一個分類器來識別它們。此外，邊界框回歸 (bounding-box regression) 通常用于提高邊界框生成的準確性。

考慮到模型效率的問題，我們的文本檢測模型采用基于 ShuffleNet 結構的 Faster-RCNN 模型，而 ShuffleNet 卷積結構是在 ImageNet 數據集上經過預訓練得到的。整個文本檢測系統是以監督式的，端到端的方式進行訓練的。訓練過程中，該檢測系統采用內部合成的數據進行訓練，并在 COCO-Text 數據集上進行微調后應用于學習真實世界數據集特征。了，

▌文本識別模型

文本識別階段，我們嘗試了以下兩種不同的模型結構，并采用了不同的文本損失函數。

基于字符序列的編碼模型 (CHAR)。該模型假設所有圖像都具有相同的大小并且存在最大可識別字符數量 k。對于較長的單詞，單詞中只有 k 個字符能夠被識別出。該 CHAR 模型的主體由一系列卷積結構組成，后接上 k 個獨立的多類分類器，用于預測在每個位置上出現的字符。在訓練期間，共同學習卷積體和 k 個不同的分類器。使用 k 個并行損失 (softmax + negative cross-entropy) 并提供合理的基線就能很容易地訓練 CHAR 模型，但這有兩個重大缺點：它無法正確識別長的單詞串 (如 URL 地址)，分類器中大量的參數容易導致模型出現過擬合現象。

基于全卷積模型。我們將此模型稱為 CTC，因為它使用 seq2seq 的CTC損失函數用于模型的訓練，并輸出一系列字符。CTC 模型的結構示意圖如下圖3所示，基于 ResNet-18 結構，在最后一層的卷積中預測輸入字符在每個圖像中最可能的位置。與其他工作不同的是，我們在此不使用顯式循環神經網絡結構 (如 LSTM 或 GRU) 或任何的注意力機制，而直接生成每個字符的概率。訓練時，我們采用 CTC 損失函數，通過邊緣化所有可能對齊的路徑集合來計算給定標簽的條件概率，這就能夠使用動態編程進行有效地計算。如圖3所示，特征映射的每一列對應于圖像每個位置所有字符的概率分布，CTC 能夠找到它們之間的對齊預測，即可能包含重復的字符或空白字符 (-)和真實標簽。

圖3 文本識別模型的結構

▌Rosetta 系統

下圖4展示了 Rosetta 的系統結構，其在線圖片處理的流程主要包含以下幾個步驟：

Rosetta 將客戶端的圖片下載到本地計算機集群，并通過預處理步驟，如調整大小和規范化來進一步處理。

執行文本檢測模型 (圖4中的步驟4) 獲取圖像中所有單詞的位置信息 (邊界框坐標和置信度分數)。

將單詞的位置信息傳遞給文本識別模型 (圖4中的步驟5)，用于提取圖像給定裁剪區域的單詞字符。

所提取的文本信息及圖像中文本的位置信息都被存儲在 TAO 中，這是 Facebook 的一個分布式圖形數據庫 (圖4中的步驟6)。

諸如圖片搜索等下游應用程序可以從 TAO 中訪問所提取的圖像文本信息 (圖4中的步驟7)。

圖4 Rosetta 系統結構，這是 Facebook 的可擴展的文本識別系統。

實驗

我們對 Rosetta OCR 系統進行了大量的評估實驗。首先，我們定義用于評估準確性和系統處理時間的度量，并描述用于訓練和評估的數據集。我們在單獨的數據集上進行保準的模型訓練和評估過程。進一步，我們評估文本檢測和文本識別模型，以及系統準確性和運行時間之間的權衡。

▌評估度量

對于文本檢測模型，我們采用 mAP 和 IoU 作為評估度量。而對于文本識別模型，我們使用 accuracy 和 Levenshtein’s edit distance 作為我們的評估指標。

▌數據庫

我們采用 COCO-Text 數據集對我們的模型進行訓練和測試。COCO-Text 數據集包含大量自然場景下注釋的文字，由超過63000張圖片和145000文本實例組成。為了解決 COCO-Text 數據與 Facebook 上圖片數據分布不匹配的問題，我們還通過隨機重疊 Facebook 中圖像的文本來生成了一個大規模的合成數據集。

▌模型檢測性能

下表1，表2，表3分別展示了 Faster-RCNN 檢測模型在不同數據測試集上的的檢測性能，不同卷積主體結構的推理時間，以及 ResNet-18 和 ShuffleNet 為卷積主體的檢測性能。

表1 在不同數據測試集上 Faster-RCNN 檢測模型的mAP。準確性是 mAP 在合成訓練數據集上的相對改進。→表示微調，即 A→B 表示在 A 上訓練并在 B 上微調。

表2 以各種卷積結構為主體的 Faster-RCNN 模型的推理時間。表中的數字為相對于 ResNet-50 的改進。

表3 使用 ResNet-18 和 Shuffle 結構的 Faster R-CNN 在 COCO-Text 數據集上評估結果。表格中的 mAP 是對 ResNet-18 的 3個RPN 寬高比的相對改進。

▌模型識別性能

下表4，表5分別展示了在不同數據集上模型的識別性能以及結合檢測和識別系統檢測到的詞召回率下降的歸一化幅度。

表4不同數據集上模型的識別性能。越高的 accuracy 和越低的 edit distance 代表越好的結果。表中的數字是相對于在合成數據集上訓練的 CHAR 模型的改進。

表5 檢測和識別組合系統檢測到詞召回率下降的歸一化幅度

結論

本文，我們提出了魯棒而有效的文本檢測和識別模型，并用于構建可擴展的 OCR 系統 Rosetta。我們對 Rosetta 系統進行了大量的評估，結果展示系統在權衡模型精度和處理時間方面都能實現高效率的性能。進一步地，我們的系統將部署到實際生產中并用于處理 Facebook 用戶每天上傳的圖片。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

圖像

圖像

+關注

關注
2

文章
1091

瀏覽量
40686
Facebook

Facebook

+關注

關注
3

文章
1432

瀏覽量
55329
識別系統

識別系統

+關注

關注
1

文章
138

瀏覽量
18901

原文標題：OCR大突破：Facebook推出大規模圖像文字檢測識別系統——Rosetta

文章出處：【微信號：rgznai100，微信公眾號：rgznai100】歡迎添加關注！文章轉載請注明出處。

車輛牌照識別系統的原理及算法研究

車輛牌照識別系統的原理及算法研究本文對車輛牌照自動識別系統中圖象預處理、特征提取和字符識別等環節涉及的新算法、新技術以及

發表于 12-02 12:59

FPGA和Nios_軟核的語音識別系統的研究

FPGA和Nios_軟核的語音識別系統的研究引言語音識別的過程是一個模式匹配的過程在這個過程中，首先根據說話人的語音特點建立語音模型，對輸

發表于 08-11 11:47

基于DSP的快速紙幣圖像識別技術研究

本課題通過對現有圖像識別技術進行研究和分析，針對當前DSP(數字信號處理)技術的新發展，提出了基于DSP的快速圖像識別概念。快速圖像識別技術

發表于 11-05 14:43

研究：面部識別技術目前并不可靠

時表現如何。為此他們選取了來自世界各地的將近70萬人的100萬張網絡照片，以此來測試算法在識別兩張照片是否為同一個人的表現。　　研究人員發現，當面部識別算法面對更大的數據集時，它的準確

發表于 06-28 14:10

微軟語音識別系統錯誤率僅為5.1%，達成新的精準里程碑！

類轉錄者相提并論，后者擁有類似于聽幾次文本的能力。　　兩項研究都記錄了總機語料庫的錄音，這是自上世紀90年代初以來，研究人員用來測試語音識別系統的約2,400

發表于 08-23 09:18

大規模MIMO的性能

軌跡產生的容量斜坡仍然比需求線平坦。面對此挑戰，3GPP 標準實體近來提出了數據容量“到2020 年增長1000 倍”的目標，以滿足演進性或革命性創意的需要。這種概念要求基站部署極大規模的天線陣

發表于 07-17 07:54

基于STM32嵌入式的孤立詞語音識別系統設計

語音識別是機器通過識別和理解過程把人類的語音信號轉變為相應文本或命令的技術，其根本目的是研究出一種具有聽覺功能的機器。本設計

發表于 08-06 08:32

一個大規模超文本網絡搜索引擎剖析（英文版）

一個大規模超文本網絡搜索引擎剖析（英文版）

發表于 04-30 14:09 ?0次下載

圖像處理的板形識別系統設計

針對現階段基于圖像檢測的板形識別在缺陷的檢出率普遍較低以及檢測速度慢等問題，文中提出了一種基于計算機圖像處理的板形

發表于 11-15 16:00 ?12次下載

<b class='flag-5'>圖像</b>處理的板形<b class='flag-5'>識別系統</b>設計

以色列研究人員開發出了一種能夠識別不同刺激的新型傳感系統

據麥姆斯咨詢報道，海法以色列理工學院的研究人員開發出了一種能夠識別并區分不同刺激的創新型傳感系統。該系統

發表于 05-21 08:45 ?969次閱讀

研究人員們提出了一系列新的點云處理模塊

為了探索這些問題的解決辦法、來自倫敦大學學院的研究人員們提出了一系列新的點云處理模塊，從效率、信息共享和點云卷積操作等方面進行了研究，得到了更寬、更深、更快效率更高的點云處理網絡，讓更

發表于 08-02 14:44 ?3134次閱讀

JD和OPPO的研究人員們提出了一種姿勢引導的時尚圖像生成模型

研究人員的主要目的在于訓練一個生成模型，將模特在當前姿勢上的圖像遷移到其他的目標姿勢上去，實現對于衣著等商品的全面展示。

發表于 08-02 14:50 ?2637次閱讀

Facebook的研究人員提出了Mesh R-CNN模型

這一研究的目標是通過單張圖像輸入，對圖像中的物體進行檢測、獲取不同物體的類別、掩膜和對應的三維網格，并對真實世界中的復雜模型進行有效處理。在2D深度網絡的基礎上，

發表于 08-02 15:51 ?4015次閱讀

Facebook向研究人員發布友誼數據

Facebook在一篇博文中表示，卡耐基梅隆大學的研究人員“不會與Facebook分享個人調查反饋，Facebook也不會與

發表于 04-22 10:58 ?3390次閱讀

華裔女博士提出：Facebook提出用于超參數調整的自我監督學習框架

【導讀】Facebook的研究人員近日提出了一種用于超參數調整的自我監督學習框架。

發表于 04-26 09:45 ?1831次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

Facebook研究人員提出了一個大規模圖像文本提取和識別系統——Rosetta

評論

車輛牌照識別系統的原理及算法研究

FPGA和Nios_軟核的語音識別系統的研究

基于DSP的快速紙幣圖像識別技術研究

研究：面部識別技術目前并不可靠

微軟語音識別系統錯誤率僅為5.1%，達成新的精準里程碑！

大規模MIMO的性能

基于STM32嵌入式的孤立詞語音識別系統設計

一個大規模超文本網絡搜索引擎剖析（英文版）

圖像處理的板形識別系統設計

以色列研究人員開發出了一種能夠識別不同刺激的新型傳感系統

研究人員們提出了一系列新的點云處理模塊

JD和OPPO的研究人員們提出了一種姿勢引導的時尚圖像生成模型

Facebook的研究人員提出了Mesh R-CNN模型

Facebook向研究人員發布友誼數據

華裔女博士提出：Facebook提出用于超參數調整的自我監督學習框架