色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

自動圖片文本辨認是計算機視覺和機器學習處理大型數據的重要案例

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-10-13 08:54 ? 次閱讀

Dropbox是Dropbox公司的在線存儲服務,通過云計算實現互聯網上的文件同步,用戶可以存儲并共享文件和文件夾。最近,研究人員在一次產品更新后,在用戶的工作流中加入了人工智能模塊,并加入了光學字符識別(OCR)技術。用戶從這些變化中最明顯的感受就是,他們可以在圖像或PDF文件中直接搜索英文文本。

從圖像中(包括PDF)自動識別文本是一項前景廣闊的技術。在Dropbox中,用戶總共存儲了超過200億個圖像和PDF文件,其中10%—20%是文本照片,例如收據和白色背景的圖像,這些都是目前圖像中文本識別的新對象。另外還有25%的PDF文件是掃描版文本,同樣可以用作自動文本識別。

計算機視覺的角度來看,雖然對人類來說,看真實的文件和影印版的沒有太大差別,但對計算機就大不一樣了:文件可以通過搜索被檢索,用戶輸入一些單詞就可以從文件中找到目標對象。但在圖像上,檢索系統就無法工作了,因為它顯示的只是一堆像素。通常,圖像格式(例如JPEG、PNG、GIF等)都無法被檢索,因為它們沒有文本內容。只有基于文本的文件(例如TXT、DOCX或HTML)才能被檢索。但PDF介于二者中間,因為它既能包含文本,也能包含圖像。自動圖像中的文本識別可以辨認這些文本,并將其中的數據進行分類。

所以現在,如果用戶在任意格式下搜索英文文本,Dropbox都能顯示出結果。這篇文章就講解了研究人員的具體做法。

認識問題

首先,我們要對此任務有大致了解,尤其是要知道要處理的數據數量有多大,這不僅關系到所需成本,還有助于評估其有用性。具體需要了解的有以下三方面:

我們應該處理哪些類型的文件?

這些文件中有哪些含有可用光學字符識別技術處理的內容?

對于像PDF這樣有多頁的文件,我們需要處理幾頁才能讓模型變得有效?

我們想處理的文件類型是目前不包含可檢索文本內容的文件,這包括圖像格式和不含有文字的PDF文檔。但是,并不是所有的圖像或PDF都含有文本,大多數只是一些照片或圖示。所以,研究的關鍵是機器學習模型需要判斷,給定的內容是否能用光學字符識別技術,也就是說其中是否含有能用OCR系統識別出的文本,例如不包含街景照片的文件的掃描件等等。我們訓練的模型是一個卷積神經網絡,輸入圖像并處理后,會將輸出結果傳遞到二元決策中,看它是否含有文本內容。

最常見的圖像格式是JPEG,我們發現大約有9%的JPEG圖像可能含有文本。對于PDF,情況就比較復雜了,因為一份PDF文件可能含有多頁,每頁又可能有三種類型的內容:

已經經過嵌入或可檢索的文本(69%)

有圖片格式的文本,暫不可被檢索(28%)

沒有實質文本內容(3%)

我們主要關注第二種情況,因為這是我們研究的對象。總的來說,我們的目標用戶擁有的JPEG數量是PDF的兩倍,但是每個PDF文件平均有8頁,而且PDF可能有更多的文本圖片,所以總的來說,PDF含有的文本是JPEG的10倍。

文本頁數

一旦確定了文件類型,我們就要決定以何種方式處理這些文件。有些PDF文件有很多頁,處理起來很費時。幸運的是,對于長文本,即使只檢索幾頁,也可以讓文本更易于搜索。所以,我們統計了PDF采樣中頁數的分布情況,弄清楚每份文件最多可以對幾頁進行檢索。最終結果顯示,一半的PDF只有一頁內容,大約90%的PDF在10頁及以下。所以我們把上限定為10頁,這意味著我們可以對將近90%的文檔進行索引,而且運用了足夠多的頁數。

自動圖像文本識別系統的組成

格式轉換

當我們開始用OCR提取文本后,需要確定如何對PDF文件中的圖像數據進行轉換:我們可以對文件流中的像素圖像目標分開提取,或者可以將整頁PDF轉換成光柵圖像數據。兩種方法都實踐之后,我們選擇了后者,因為我們已經已經有了穩定的大型PDF轉換工具。使用這一系統的優點如下:

它可以自然地擴展到其他需要翻譯或嵌有圖片的文件格式中,例如PowerPoint、PostScript和其他支持的格式。

轉換過程很自然地保留了文本符的順序和頁面中文本的位置,考慮了文件結構。

在我們此前的Chromium項目中,服務器部分的轉換是基于PDFium完成的,這是一個由谷歌基于Chrome瀏覽器開源的項目。這一軟件同樣用于對全文的檢測,判斷文本是否只含有圖片,可以幫助我們決定是否進行OCR處理。

一旦我們開始轉換,每份文件中的內容都會同時進行處理,我們將每一頁轉化成2048×2048的正方形像素,保留了原始的長寬比。

文件圖像分類

我們帶有OCR技術的機器學習模型最初是為了Dropbox的文件掃描功能創建的,目的是為了了解用戶最近是否上傳了可以“將其轉化成掃描格式”的圖片。分類器在創建時,在圖像特征上使用了一個線性分類器。模型在來源不同的數千張照片上訓練,包括公共圖像、私人圖像以及Dropbox員工貢獻出的圖像。

最初,分類器偶爾會出現誤報的情況(即模型認為圖像中含有文本,但實際上沒有),例如在含有白墻、天際線、開闊的水域等照片中。雖然人類能輕松分辨這些景觀,但是對分類器來說它們看起來都是一樣的:都有平整開闊的背景和水平線。經過每次迭代后,我們在訓練集中添加“消極”標簽,可以顯著提高模型的分類精確度,從而高效地教會模型,雖然這些圖像有很多類似文本文件的特征,但它們沒有文本。

拐角檢測

確定圖像中文本的拐角并確定它的大致形狀是另一個重要步驟。給定轉角的坐標,圖片中的文章可以用簡單的幾何轉換進行修正。文本的拐角檢測元組使用另一個ImageNet深度卷積網絡創建的(DenseNet-121),其最頂層換成了一個回歸因子,可以生成四個拐角坐標。有了坐標,就能輕易地將文本修正成易于檢測的版本了。

token提取

OCR系統從拐角檢測階段獲取修正過的圖像作為輸入,并生成token檢測,包括針對tokens和文本的邊界框。這些大致按token的順序排列并添加到搜索索引中。如果有多個頁面,每頁上token的列表會連接在一起生成一個大表。

合并各元素

為了能在所有可以被索引的文件中進行紫銅圖像文本識別,我們需要一個系統能對輸入的文件執行添加和編輯,并開始相關處理。這就需要用到Cape框架,這是一種靈活大型的處理框架,可以進行事件流的分時間處理。我們在OCR處理中加入了新的Cape工作器,稱為lambda,作為框架的一部分。

整個處理過程如下:

基于圖像中是否有符合要求的JPEG、GIF或PDF,檢查我們是否應該繼續處理文本。

運行含有OCR技術的分了器,確定圖像中是否有文本。

運行文本拐角檢測器,對其進行修正。

用OCR引擎提取tokens。

向用戶的搜索索引中添加token列表。

結語

自動圖片文本辨認是計算機視覺和機器學習處理大型數據的重要案例。讓圖片中的文本可搜索只是深度了解文本結構和內容的第一步,有了這一成果,Dropbox可以幫助用戶更好地管理他們的文件。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 云計算
    +關注

    關注

    39

    文章

    7916

    瀏覽量

    138376
  • 計算機視覺
    +關注

    關注

    8

    文章

    1703

    瀏覽量

    46249
  • 機器學習
    +關注

    關注

    66

    文章

    8460

    瀏覽量

    133437

原文標題:Dropbox用機器學習,從海量圖片中對文本進行檢索

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    機器視覺計算機視覺的關系簡述

    計算機視覺是一門獨立的學科,有著30年左右的歷史,集圖像處理、模式識別、人工智能技術為一體,著重服務于一幅或多幅圖像的計算機分析。機器
    發表于 05-13 14:57

    【我是電子發燒友】七步帶你認識計算機視覺(Computer Vision)

    `計算機視覺(Computer vision)是一門研究如何使機器“看”的科學,更進一步的說,就是指用攝影機和計算機代替人眼對目標進行識別、跟蹤和測量等
    發表于 06-14 21:06

    什么是人工智能、機器學習、深度學習和自然語言處理

    領域,包括機器學習、深度學習數據挖掘、計算機視覺、自然語言
    發表于 03-22 11:19

    計算機視覺與圖像處理、模式識別、機器學習學科之間的關系

    計算機視覺(computer vision):用計算機來模擬人的視覺機理獲取和處理信息的能力。就是指用攝影機和電腦代替人眼對目標進行識別、跟
    的頭像 發表于 01-26 17:10 ?1.6w次閱讀

    深度學習后的計算機視覺應用領域解析

    計算機視覺是使用計算機及相關設備對生物視覺的一種模擬,是人工智能領域的一個重要部分,它主要任務是通過對采集的
    發表于 07-22 16:49 ?1914次閱讀

    機器學習計算機視覺的前20個圖像數據

    計算機視覺使計算機能夠理解圖像和視頻的內容。計算機視覺的目標是使人類視覺系統可以實現任務
    發表于 01-28 07:40 ?5次下載
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>和<b class='flag-5'>計算機</b><b class='flag-5'>視覺</b>的前20個圖像<b class='flag-5'>數據</b>集

    計算機視覺重要性及如何幫助解決問題

      機器學習計算機視覺是一種基于人工智能的計算機視覺。基于人工智能的基于
    的頭像 發表于 04-06 16:49 ?3959次閱讀

    什么是機器視覺計算機?

    機器視覺是用于通過分析視頻和圖像幫助計算機做出決策的硬件和軟件的集成。在制造業中,機器視覺通常用于生產線上,以便在產品的每個階段進行
    的頭像 發表于 12-26 17:51 ?1087次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>視覺</b><b class='flag-5'>計算機</b>?

    什么是機器視覺?機器視覺計算機有什么關系?

    機器視覺計算機視覺有什么區別
    的頭像 發表于 06-05 09:28 ?1471次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>視覺</b>?<b class='flag-5'>機器</b><b class='flag-5'>視覺</b>與<b class='flag-5'>計算機</b>有什么關系?

    機器視覺計算機視覺的區別

    機器視覺計算機視覺的區別 機器視覺計算機
    的頭像 發表于 08-09 16:51 ?2184次閱讀

    計算機視覺與圖像處理、模式識別、機器學習學科之間的關系

    計算機視覺(computer vision):用計算機來模擬人的視覺機理獲取和處理信息的能力。就是指用攝影機和電腦代替人眼對目標進行識別、跟
    的頭像 發表于 01-18 16:41 ?724次閱讀

    機器視覺計算機視覺的區別

    在人工智能和自動化技術的快速發展中,機器視覺(Machine Vision, MV)和計算機視覺(Computer Vision, CV)作
    的頭像 發表于 06-06 17:24 ?1635次閱讀

    計算機視覺屬于人工智能嗎

    屬于,計算機視覺是人工智能領域的一個重要分支。 引言 計算機視覺是一門研究如何使計算機具有
    的頭像 發表于 07-09 09:11 ?1574次閱讀

    計算機視覺機器視覺區別在哪

    計算機視覺機器視覺是兩個密切相關但又有明顯區別的領域。 一、定義 計算機視覺
    的頭像 發表于 07-09 09:22 ?602次閱讀

    機器視覺計算機視覺有什么區別

    。機器視覺的研究目標是讓機器具有類似人類的視覺能力,能夠自動、準確地完成各種視覺任務。
    的頭像 發表于 07-16 10:23 ?736次閱讀
    主站蜘蛛池模板: 免费观看国产视频 | 成人午夜精品无码区久久漫画日本 | 欧美精品成人久久网站 | 色中色入口2015 | 果冻传媒色AV国产播放 | 攻把受做哭边走边肉楼梯PLAY | 久草在线在线精品观看 | 麻豆成人AV久久无码精品 | 成年女人免费影院播放 | 少妇厨房愉情理9伦片视频 少妇被躁爽到高潮无码久久 | 动漫人物差差差30分钟免费看 | 扒开校花粉嫩小泬喷潮漫画 | 男同志video最新猛男 | 久久99影院 | 97国产蝌蚪视频在线观看 | 蜜桃麻豆WWW久久囤产精品免费 | 午夜免费啪视频观看视频 | 强奷漂亮女老板在线播放 | 天天爽夜夜爽夜夜爽 | 粗壮挺进邻居人妻无码 | 快播成电影人网址 | 花蝴蝶高清观看免费 | 久久久久久免费观看 | 99热热在线精品久久 | 亚洲精品一区三区三区在线观看 | 很黄很色60分钟在线观看 | 精品国产乱码久久久久久免费流畅 | 国产精品人妻99一区二 | 国产小视频免费在线观看 | 久久无码av三级 | 3D内射动漫同人资源在线观看 | 被老师按在办公桌吸奶头 | 青柠在线电影高清免费观看 | 视频一区在线免费观看 | 中国毛片网 | 午夜国产精品影院在线观看 | 欧美 亚洲 有码中文字幕 | 果冻传媒在线观看资源七夕 | 国产精品久久久久影院色 | 亚洲欧洲日韩视频在钱 | 久久精品国产96精品亚洲 |