將掃描的PDF轉換為可搜索的文檔
快速精確的基于神經網絡的引擎
糾正低質量掃描
120多種語言
.Net2.0+、.Net5、標準、核心
將掃描的PDF轉換為可搜索的PDF
4行代碼,僅此而已
多虧了簡單的API,您可以使用幾行代碼將掃描的PDF 轉換為可搜索的文檔。
順便說一句,不僅僅是PDF。將JPEG、多頁TIFF 或 PNG轉換為可搜索的 PDF到您的應用程序現(xiàn)在只需幾分鐘,而不是幾小時或幾天。
閱讀 120多種語言的多種圖像格式
Tesseract.NET SDK 可以準確識別120多種語言的文本,支持多語言文本,并且可以通過訓練使用以前未知的語言。支持的標準包括英語、法語、意大利語、德語、西班牙語、阿拉伯語、中文、希伯來語、日語、俄語、泰語等。
正確的低質量掃描
例如,去歪斜輸入過濾器會自動旋轉圖像,因此它是正確的向上和正交的。如果頁面過于傾斜,則Tesseract的線分割質量會顯著降低,這會嚴重影響OCR 的質量。
Patagames OCR SDK 內置的用于增強OCR性能的輸入過濾器包括:二值化、對比度和對比度標準化、去偏斜、增強分辨率、腐蝕和擴張、膨脹和放氣、反轉、移除邊框、旋轉、ToGray和白色背景。
為您的.Net 應用程序配備OCR 功能的最佳方式
雖然Tesseract 無疑是迄今為止最好的OCR 庫,但Tesseract.NET SDK是為您的應用程序配備文本識別功能的最佳方式之一。
Tesseract.Net SDK 結合了易于部署、卓越的識別精度、快速OCR 和各種輸出選項(包括PDF、HOCR、UNLV和純文本),提供靈活簡單的API 以及許多高級和低級文本識別程序。
多虧了簡單的API,您可以用幾行代碼將給定的圖像轉換為可搜索的文本。如果您需要更詳細地了解文本的組成部分,Tesseract.NETSDK API 提供了許多類來檢索單個字母、單詞、段落甚至字體參數(shù)。
審核編輯 :李倩
-
PDF
+關注
關注
1文章
169瀏覽量
33734 -
代碼
+關注
關注
30文章
4802瀏覽量
68735 -
應用程序
+關注
關注
37文章
3283瀏覽量
57750
原文標題:Patagames:正方體.NetSDKC# OCR 庫
文章出處:【微信號:哲想軟件,微信公眾號:哲想軟件】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論