自然環(huán)境中的自動文本讀取,也稱為場景文本檢測/識別或PhotoOCR,已成為計算機視覺中越來越流行和重要的研究課題。
該文本是人類最輝煌和最有影響力的創(chuàng)作之一。文本中體現(xiàn)的豐富、精確的高級語義有助于理解我們周圍的世界,并構(gòu)建可以在實時環(huán)境中部署的自主解決方案。因此,從自然環(huán)境中自動讀取文本,也稱為場景文本檢測/識別或PhotoOCR,已成為計算機視覺中越來越流行和重要的研究課題。
隨著人類語言書面形式的發(fā)展,我們開發(fā)了數(shù)千種獨特的字體系列。當我們添加大小寫(大寫/小寫/單大小寫/小寫)、傾斜(斜體/羅馬)、比例(水平刻度)、重量、特定尺寸(顯示/文本)、斜紋和襯線化(超系列中的襯線/無襯線)時,這個數(shù)字會增長到數(shù)百萬,這使得文本識別成為機器學習令人興奮的學科。
賽靈思作為 OCR 解決方案的選擇
如今,Xilinx 通過其各種功能強大的平臺為 10 項新開發(fā)中的 7 項提供支持,并引領(lǐng)基于 FPGA 的系統(tǒng)設(shè)計趨勢。Softnautics 之所以選擇 Xilinx 來實施該解決方案,是因為其集成的 Vitis? AI 堆棧和強大的硬件功能。
Xilinx Vitis? 是一款免費的開源開發(fā)平臺,可將硬件模塊打包為軟件可調(diào)用函數(shù),并與標準開發(fā)環(huán)境、工具和開源庫兼容。它可自動使軟件和算法適應 Xilinx 硬件,無需 VHDL 或 Verilog 專業(yè)知識。
選擇合適的賽靈思平臺
全面而豐富的 Xilinx 工具集和生態(tài)系統(tǒng)使原型設(shè)計成為一個非常可預測的過程,并加快了解決方案的開發(fā),從而將整體開發(fā)時間縮短了多達 70%。
Xilinx Ultrascale+ 平臺,因為它提供了最佳的應用處理和 FPGA 加速功能。它還提供令人印象深刻的高級合成能力,與早期型號相比,每瓦系統(tǒng)級性能提高了 5 倍。它支持 Xilinx Vitis AI,提供廣泛的功能,使用加速庫構(gòu)建 AI 推理。
Xilinx Vitis AI堆棧和加速利用該軟件創(chuàng)建混合應用,并通過將 TensorFlow-lite 移植/遷移到 ARM 來實現(xiàn)有效的序列預測 LSTM 功能。它使用N2Cube軟件在處理側(cè)(PS)上運行。圖像預處理和后處理是通過Vivado使用HLS實現(xiàn)的,Vitis用于使用CTPN(連接主義文本提案網(wǎng)絡(luò))進行推理。我們最終將解決方案升級為使用視頻管道進行實時場景文本檢測,并使用強大的數(shù)據(jù)集改進了模型。
場景文本檢測
有許多可用的實現(xiàn),并且正在研究新的實現(xiàn)。盡管如此,在野外檢測和識別文本時,仍可能遇到一系列重大挑戰(zhàn)。與文檔中的腳本相比,自然場景的困難主要源于三個差異:
多樣性和可變性源于語言、顏色、字體、大小、方向等。
寫文本的生動背景
場景文本的縱橫比和布局可能會有很大差異
此類解決方案在需要對視頻流進行實時文本檢測的各個領(lǐng)域具有廣泛的適用性,具有更高的準確性和快速識別能力。這些應用領(lǐng)域很少:
停車驗證 — 城鎮(zhèn)正在使用移動 OCR 來驗證汽車是否根據(jù)城市法規(guī)自動停車。停車檢查員可以使用帶有OCR的移動設(shè)備掃描車輛的車牌,并與在線數(shù)據(jù)庫進行檢查,以查看是否允許他們停車。
移動文檔掃描 — 各種移動應用程序允許用戶拍攝文檔的照片并將其轉(zhuǎn)換為文本。這種 OCR 任務比傳統(tǒng)的文檔掃描儀更具挑戰(zhàn)性,因為照片具有不可預測的圖像角度、照明條件和文本質(zhì)量。
數(shù)字資產(chǎn)管理 - 該軟件有助于組織富媒體資產(chǎn),如圖像、視頻和動畫。DAM 系統(tǒng)的一個關(guān)鍵方面是富媒體的可搜索性。通過在上傳的圖像和視頻幀上運行 OCR,DAM 可以使富媒體可搜索,并使用有意義的標簽豐富它。
審核編輯:郭婷
-
賽靈思
+關(guān)注
關(guān)注
32文章
1794瀏覽量
131305 -
計算機
+關(guān)注
關(guān)注
19文章
7508瀏覽量
88068 -
AI
+關(guān)注
關(guān)注
87文章
30993瀏覽量
269278
發(fā)布評論請先 登錄
相關(guān)推薦
評論