作者:Softnautics 市場(chǎng)營(yíng)銷總監(jiān)Prasant Agarwal
解決方案總監(jiān) Ranganathan SK
文本是人類最具智慧、最有影響力的創(chuàng)造之一。文本中所蘊(yùn)含的豐富、精確的高級(jí)語(yǔ)義可以幫助我們理解周遭世界,并用于構(gòu)建可部署在真實(shí)環(huán)境中的自主運(yùn)行解決方案。因此,自然環(huán)境下的自動(dòng)文本讀取,也稱為場(chǎng)景文本檢測(cè)/識(shí)別或 Photo OCR(Optical Character Recognition,光學(xué)字符識(shí)別),已成為計(jì)算機(jī)視覺(jué)領(lǐng)域中關(guān)注度和重要性日益提高的研究課題。
隨著人類語(yǔ)言書寫形式的演進(jìn),已經(jīng)發(fā)展出數(shù)千種獨(dú)特的字體系。再加上大小寫(大寫/小寫/全大全小/小型大寫)、斜體(意大利體/羅馬體)、縮放體(橫向縮放)、粗細(xì)、指定大小(顯示/文本)、波痕體、襯線(總體分為襯線體和無(wú)襯線體),這一數(shù)量可以擴(kuò)充到數(shù)百萬(wàn),使得文本識(shí)別成為機(jī)器學(xué)習(xí)領(lǐng)域中一個(gè)振奮人心的專業(yè)學(xué)科。
為什么賽靈思技術(shù)成為開發(fā) OCR 解決方案的不二之選?
如今,賽靈思豐富多樣的強(qiáng)大平臺(tái)已為 70% 的新開發(fā)提供支持,引領(lǐng)著基于 FPGA 系統(tǒng)的設(shè)計(jì)發(fā)展趨勢(shì)。Softnautics 之所以選擇賽靈思技術(shù)來(lái)實(shí)現(xiàn)這個(gè)解決方案,是因?yàn)樗瑫r(shí)集成了 Vitis AI 堆棧和強(qiáng)大的硬件功能。
賽靈思 Vitis 是一款免費(fèi)、開源的開發(fā)平臺(tái),可將硬件模塊封裝成軟件可調(diào)用功能,同時(shí)與標(biāo)準(zhǔn)的開發(fā)環(huán)境、工具和開源庫(kù)兼容。它能夠根據(jù)軟件和算法自動(dòng)適配賽靈思硬件,無(wú)需具備 VHDL 或 Verilog 專業(yè)知識(shí)。
選擇正確的賽靈思平臺(tái)
綜合全面且豐富多樣的賽靈思工具集和生態(tài)系統(tǒng)使原型設(shè)計(jì)成為高度可預(yù)測(cè)的過(guò)程,這有助于加快解決方案的開發(fā)速度,從而將總體開發(fā)時(shí)間縮短高達(dá) 70%。
Softnautics 選擇賽靈思 Ultrascale+ 平臺(tái)是因?yàn)樗峁┝俗顑?yōu)秀的應(yīng)用處理和 FPGA 加速功能。此外,它還提供了優(yōu)異的高層次綜合(HLS)功能。與此前的平臺(tái)相比,系統(tǒng)級(jí)單位功耗性能提高了 4 倍。它支持賽靈思 Vitis AI,后者為使用加速庫(kù)構(gòu)建 AI 推斷提供了廣泛功能。
Softnautics 采用了賽靈思 Vitis AI 堆棧并運(yùn)用該軟件提供加速,開發(fā)出混合應(yīng)用,同時(shí)實(shí)現(xiàn)了 LSTM 功能,通過(guò)將 TensorFlow-lite 移植/遷移到 ARM 進(jìn)行有效的序列預(yù)測(cè)。它使用 N2Cube 軟件在處理側(cè)(PS)運(yùn)行。圖像預(yù)處理/后處理通過(guò) Vivado 使用 HLS 實(shí)現(xiàn),而 Vitis 的作用是使用連接文本提議網(wǎng)絡(luò)(CTPN)完成推斷。最終,Softnautics 將該解決方案用于視頻流水線中的實(shí)時(shí)場(chǎng)景文本檢測(cè),并使用可靠的數(shù)據(jù)集對(duì)模型進(jìn)行改進(jìn)。
場(chǎng)景文本檢測(cè)
目前已有多種實(shí)現(xiàn)方案可供使用,新的實(shí)現(xiàn)方案也在研究中。在自然場(chǎng)景進(jìn)行文本檢測(cè)和識(shí)別時(shí),仍然可能會(huì)遇到一系列的艱巨挑戰(zhàn)。與文檔中的腳本相比,自然場(chǎng)景下的檢測(cè)和識(shí)別困難主要源于以下三大差異:
語(yǔ)言、顏色、字體、大小、方向等造成的多樣化和可變性 書寫文本的背景色彩鮮艷 場(chǎng)景文本的縱橫比和布局可能會(huì)有很大的不同
這種解決方案廣泛適用于要求對(duì)視頻流進(jìn)行實(shí)時(shí)文本檢測(cè)的眾多領(lǐng)域,具有較高的精確度和快速識(shí)別能力。部分典型應(yīng)用領(lǐng)域如:
泊車驗(yàn)證 — 一些市鎮(zhèn)按照城市規(guī)定正在使用移動(dòng) OCR 自動(dòng)驗(yàn)證車輛是否按照市鎮(zhèn)規(guī)定泊車。城市泊車檢查員使用配備有 OCR 功能的移動(dòng)設(shè)備掃描車輛牌照,并通過(guò)在線數(shù)據(jù)庫(kù)查看是否允許該車輛泊車。 移動(dòng)文檔掃描 — 各種移動(dòng)應(yīng)用允許用戶為文檔拍照,然后將其轉(zhuǎn)換成文本。與采用傳統(tǒng)的文檔掃描儀相比,這種 OCR 工作的難度更大,因?yàn)檎掌趫D像角度、光照條件和文本質(zhì)量方面往往無(wú)法預(yù)測(cè)。 數(shù)字資產(chǎn)管理 — 該軟件有助于對(duì)圖像、視頻和動(dòng)畫等富媒體資產(chǎn)進(jìn)行組織管理。DAM 系統(tǒng)的主要特征之一就是能搜索富媒體。通過(guò)在上傳的圖像和視頻幀上運(yùn)行 OCR,DAM 能讓富媒體變得可搜索,并使用有意義的標(biāo)簽豐富它。
Softnautics 團(tuán)隊(duì)一直深耕基于賽靈思 FPGA 的解決方案,在賽靈思技術(shù)方面積累了豐富的經(jīng)驗(yàn),并深刻理解各種復(fù)雜性。因此,該公司僅用不到四個(gè)星期便推動(dòng)這一解決方案從構(gòu)思到概念驗(yàn)證的飛速進(jìn)展。依托公司針對(duì)端到端解決方案構(gòu)建的專業(yè)知識(shí),您能夠在賽靈思平臺(tái)上借助最快速的概念實(shí)現(xiàn)服務(wù),可視化您的構(gòu)想,大幅加快上市進(jìn)程。
原文標(biāo)題:智能 OCR 解決方案使用 Xilinx Ultrascale+ 和 Vitis AI 進(jìn)行開發(fā)
文章出處:【微信公眾號(hào):FPGA開發(fā)圈】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
責(zé)任編輯:haq
-
FPGA
+關(guān)注
關(guān)注
1630文章
21759瀏覽量
604308 -
賽靈思
+關(guān)注
關(guān)注
32文章
1794瀏覽量
131338 -
AI
+關(guān)注
關(guān)注
87文章
31134瀏覽量
269471 -
OCR
+關(guān)注
關(guān)注
0文章
145瀏覽量
16388
原文標(biāo)題:智能 OCR 解決方案使用 Xilinx Ultrascale+ 和 Vitis AI 進(jìn)行開發(fā)
文章出處:【微信號(hào):FPGA-EETrend,微信公眾號(hào):FPGA開發(fā)圈】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論