色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何用Java幾行代碼從圖片提取文字

Android編程精選 ? 來源:CSDN博客 ? 作者:興趣使然的程序猿 ? 2021-10-28 14:05 ? 次閱讀

	
近日瀏覽網上一些圖片提取文字的網站,覺得甚是有趣,花費半日也做了個在線圖片識別程序,完成了兩個技術方案的選擇,一是tesseract+python flask的方案實現,二是tesseract+spring web的技術解決方案,并簡作論述,與君共勉。

一、tesseract-ocr介紹

ocr含義是Optical Character Recognition,含義即視覺字符識別。而tesseract是該領域特別優(yōu)秀開源的作品。

官方的tesseract定義:

OCR engine - libtesseract and a command line program - tesseract.

即tesseract包括一個視覺字符識別引擎libtesseract和命令行程序tesseract。

當前最新穩(wěn)定版本是4.x.x基于LSTM,源碼可從找到tesseract的GitHub: tesseract.找到。

關于tesseract的工作模式如上圖所示。假設現在有一個圖片輸入,整個執(zhí)行流程為:

  1. 輸入(一張圖片)
  2. 有用信息提?。ū热缫粋€圖片上只有一個字,那其他留白的是無用,這個字上每個色素是有效的并且相關)
  3. 找出文字/線條
  4. 字符分類集
  5. 輸入與分類集對比找出最接近的
  6. 輸出識別結果

二、安裝tesseract

第一步下載

下載合適的exe安裝文件:

網址:https://digi.bib.uni-mannheim.de/tesseract/,下載完成后后裝即可

第二步環(huán)境變量配置

在path變量中加入tesseract-ocr的安裝路徑

第三步安裝成功檢測

使用tesseract指令,顯示如下:

linux環(huán)境下載安裝與上述類似

下載leptonica 和 tesseract兩個包,解壓安裝,配置環(huán)境變量即可。網上很容易找到該安裝包。

三、使用命令行

1.tesseract + 圖片路徑 + 保存結果名 + -l 語言集

示列:tesseract 1606150081.png 1606150081 -l chi_sim

2.tesseract + 圖片路徑 +stdout -l +語言集

示列:tesseract D:company uigushopspring-2s est.png stdout -l chi_sim

有了上述之后就可以完成web圖片識別程序的開發(fā)啦,廢話不多說,直接上代碼。

四、程序實現(Python)

程序設計思路:

上傳圖片 -> 保存 ->對上傳的圖片執(zhí)行tesseract指令->獲取識別結果

只有二十多行代碼就實現了,so easy,以后網上看到圖片識別程序再也不會感覺神奇了吧!

關注Java核心技術,推送更多 Java 干貨!76f796be-3762-11ec-82a8-dac502259ad0.png

#coding=utf-8
fromflaskimportFlask,request
importos
importdatetime
importtime

app=Flask(__name__)

defget_time_stamp():
times=datetime.datetime.now().strftime('%Y-%m-%d%H:%M:%S')
array=time.strptime(times,"%Y-%m-%d%H:%M:%S")
time_stamp=int(time.mktime(array))
returntime_stamp

@app.route('/image/extract',methods=['POST'])
defpure_rec():
file=request.files.get('file')
ts=str(get_time_stamp())
up_path=os.path.join(ts+file.filename)
file.save(up_path)
cmd="tesseract"+up_path+""+ts+"-lchi_sim"
print(cmd)
os.system(cmd)
withopen(ts+".txt",'r+',encoding="utf-8")asf:
result=f.read()
returnresult

if__name__=='__main__':
app.run(debug=True)

五、程序實現(Java)

不需要任何引入第三方jar包,搭建一個簡單的springboot web項目就可以了,沒有其他額外的依賴。

推薦一個 Spring Boot 基礎教程及實戰(zhàn)示例:https://www.javastack.cn/categories/Spring-Boot/

Controller:

packagecom.lbh.web.controller;

/*
*Copyright@lbhbinhao@163.com
*Author:liubinhao
*Date:2020/11/23
*++++______@authorliubinhao____________
*+++//|//|//|
*+/_____/|/_____/|/_____/|
*|||||||||
*||||||________|||
*|||||/|||
*|||||/___________|||
*|||___________________||____________|||
*||//|||||||
*||/_________________//||/||/
*|_________________________|/b|_____|/|_____|/
*/
importorg.springframework.web.bind.annotation.PostMapping;
importorg.springframework.web.bind.annotation.RequestParam;
importorg.springframework.web.bind.annotation.RestController;
importorg.springframework.web.multipart.MultipartFile;

importjava.io.BufferedReader;
importjava.io.File;
importjava.io.IOException;
importjava.io.InputStreamReader;

@RestController
publicclassLiteralExtractController{

@PostMapping("/image/extract")
publicStringreg(@RequestParam("file")MultipartFilefile)throwsIOException{
Stringresult="";
Stringfilename=file.getOriginalFilename();
Filesave=newFile(System.getProperty("user.dir")+""+filename);
if(!save.exists()){
save.createNewFile();
}
file.transferTo(save);
Stringcmd=String.format("tesseract%sstdout-l%s",System.getProperty("user.dir")+""+filename,"chi_sim");
result=cmd(cmd);
returnresult;
}

publicstaticStringcmd(Stringcmd){
BufferedReaderbr=null;
try{
Processp=Runtime.getRuntime().exec(cmd);
br=newBufferedReader(newInputStreamReader(p.getInputStream()));
Stringline=null;
StringBuildersb=newStringBuilder();
while((line=br.readLine())!=null){
sb.append(line+"
");
}
returnsb.toString();
}catch(Exceptione){
e.printStackTrace();
}
finally
{
if(br!=null)
{
try{
br.close();
}catch(Exceptione){
e.printStackTrace();
}
}
}
returnnull;
}
}

哈哈哈,還有帥氣的程序logo。

六、實驗測試

很簡單二十多行代碼就完成了,看看效果怎么樣吧。

七、總結

圖片識別在當今網絡技術領域是非常熱門的一塊,而這次完成的這個程序完全是依賴別人開源框架來完成了這個技術實現,在應用層面這是成功的,但是本質上并沒有實際算法,技術核心上的東西,如果只關心應用層開發(fā)上述解決了我們計算機在規(guī)則字符識別上的問題。

上述代碼中基本沒有難點,直接復制即可使用。此外,tesseract作為一款優(yōu)秀的開源字符識別軟件,但它也不是萬能的,tesseract只能識別規(guī)則的字符,對于一些藝術字,抽象字它是無能為力的。
責任編輯:haq


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • JAVA
    +關注

    關注

    19

    文章

    2967

    瀏覽量

    104729
  • 代碼
    +關注

    關注

    30

    文章

    4786

    瀏覽量

    68549

原文標題:Java 幾行代碼提取圖片文字,過個厲害了。。

文章出處:【微信號:AndroidPush,微信公眾號:Android編程精選】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Java 23功能介紹

    Java 23 包含全新和更新的 Java 語言功能、核心 API 以及 JVM,同時適合新的 Java 開發(fā)者和高級開發(fā)者。?IntelliJ IDEA 2024.2?開始已支持
    的頭像 發(fā)表于 12-04 10:02 ?197次閱讀
    <b class='flag-5'>Java</b> 23功能介紹

    Java代碼之美,遵循樣式規(guī)范開始

    作者:京東零售 劉仲偉 在軟件開發(fā)的世界里,代碼不僅是程序的基石,更是程序員交流的通用語言。而Java,作為一門廣泛應用于企業(yè)級應用的編程語言,其代碼的可讀性和一致性對于項目的長期維護和團隊協作
    的頭像 發(fā)表于 11-27 11:42 ?189次閱讀
    <b class='flag-5'>Java</b><b class='flag-5'>代碼</b>之美,<b class='flag-5'>從</b>遵循樣式規(guī)范開始

    對比Python與Java編程語言

    Python與Java都是目前非常流行的編程語言,它們各有其獨特的優(yōu)勢和適用場景。以下是對這兩種編程語言的對比: 一、語法和易用性 Python 語法簡潔,代碼更易讀,非常適合初學者。 動態(tài)類型系統
    的頭像 發(fā)表于 11-15 09:31 ?295次閱讀

    java反編譯能拿到源碼嗎

    Java反編譯是一種將編譯后的Java字節(jié)碼(.class文件)轉換回Java代碼的過程。雖然反編譯可以幫助理解代碼的邏輯和結構,但它并不
    的頭像 發(fā)表于 09-02 11:03 ?993次閱讀

    java反編譯的代碼可以修改么

    Java反編譯是一種將編譯后的Java字節(jié)碼(.class文件)轉換回源代碼的過程。反編譯后的代碼可以進行修改,但是需要注意,反編譯代碼的質
    的頭像 發(fā)表于 09-02 11:00 ?656次閱讀

    華納云:java web和java有什么區(qū)別java web和java有什么區(qū)別

    Java Web和Java是兩個不同的概念,它們在功能、用途和實現方式上存在一些區(qū)別,下面將詳細介紹它們之間的區(qū)別。 1. 功能和用途: – Java是一種編程語言,它提供了一種用于開發(fā)各種應用程序
    的頭像 發(fā)表于 07-16 13:35 ?793次閱讀
    華納云:<b class='flag-5'>java</b> web和<b class='flag-5'>java</b>有什么區(qū)別<b class='flag-5'>java</b> web和<b class='flag-5'>java</b>有什么區(qū)別

    何用java語言開發(fā)一套數字化產科系統? 數字化產科管理平臺源碼

    何用java語言開發(fā)一套數字化產科系統 數字化產科管理平臺源碼
    的頭像 發(fā)表于 07-06 09:38 ?1010次閱讀
    如<b class='flag-5'>何用</b><b class='flag-5'>java</b>語言開發(fā)一套數字化產科系統? 數字化產科管理平臺源碼

    探討AI編寫代碼技術,以及提高代碼質量的關鍵:靜態(tài)代碼分析工具Perforce Helix QAC &amp; Klocwork

    令軟件開發(fā)人員夜不能寐的事情比比皆是。如今,他們最關心的問題不再是如何用自己喜歡的語言(C、C++、Erlang、Java 等)表達最新的算法,而是人工智能(AI)。 本文中,我們將介紹AI編寫代碼
    的頭像 發(fā)表于 06-05 14:10 ?402次閱讀

    何用代碼在運行的時候設置程序防止被讀出?

    何用代碼在運行的時候設置程序防止被讀出
    發(fā)表于 06-03 07:24

    怎樣STM32F407的UID碼中提取生產年份和月份信息?

    請問怎樣STM32F407的UID碼中提取生產年份和月份信息?
    發(fā)表于 06-03 06:28

    扎心靈魂小拷問:有了AI編寫代碼之后,軟件工程師會被AI取代嗎?

    軟件開發(fā)者們有很多讓他們焦慮的事情。他們最擔心的不再是如何用他們最喜歡的編程語言(C、C++、Erlang、Java等)表達最新的算法。相反,這種擔憂正逐漸被人工智能(AI)所取代。 在這里,我們將探討AI編寫代碼的過程,并回
    的頭像 發(fā)表于 05-24 19:17 ?645次閱讀
    扎心靈魂小拷問:有了AI編寫<b class='flag-5'>代碼</b>之后,軟件工程師會被AI取代嗎?

    鴻蒙OS開發(fā)實例:【瀑布流式圖片瀏覽】

    瀑布流式展示圖片文字,在當前產品設計中已非常常見,本篇將介紹關于WaterFlow的圖片瀏覽場景,順便集成Video控件,以提高實踐的趣味性
    的頭像 發(fā)表于 03-29 17:38 ?1180次閱讀
    鴻蒙OS開發(fā)實例:【瀑布流式<b class='flag-5'>圖片</b>瀏覽】

    MB91530_590 EVB板添加字庫,能顯示圖片但是沒有文字顯示是為什么?

    我的 MB91530_590EVB板在應用例程中添加字庫 能顯示圖片但是沒有文字顯示。 我是在開發(fā)板的例程中修改的。 我是按照文檔一步一步做的,為什么顯示不出文字,有知道原因的請盡快回復,不勝感激。 最后顯示的結果:沒有
    發(fā)表于 02-22 08:19

    何用Rust過程宏魔法簡化SQL函數呢?

    這是 RisingWave 中一個 SQL 函數的實現。只需短短幾行代碼,通過在 Rust 函數上加一行過程宏,我們就把它包裝成了一個 SQL 函數。
    的頭像 發(fā)表于 01-23 09:43 ?949次閱讀
    如<b class='flag-5'>何用</b>Rust過程宏魔法簡化SQL函數呢?

    淺談代碼優(yōu)化與過度設計

    本文記錄了作者代碼優(yōu)化”到“過度設計”的典型思考過程,這過程中涉及了很多Java的語法糖及設計模式的東西,很典型,能啟發(fā)思考,遂記錄下來。 有一天Review師妹的代碼,看到一
    的頭像 發(fā)表于 01-19 10:05 ?545次閱讀
    淺談<b class='flag-5'>代碼</b>優(yōu)化與過度設計
    主站蜘蛛池模板: 51久久成人国产精品麻豆| 亚洲成人免费看| 熟女人妻AV五十路六十路| 色偷拍自怕亚洲在线| 小SB几天没做SAO死了H| 亚洲精品无码AAAAAA片| 这里只有精品网| 99久久无码一区人妻A片竹菊 | 小黄文污到你湿| 亚洲人成电影网站色2017| 自拍偷拍12p| 俄罗斯bbbbbbbbb大片| 国产一区二区三区四区五在线观看 | 亚洲精品成人| 259luxu高跟黑色丝袜系列| 把腿张开JI巴CAO死你H教室| 国产精品悠悠久久人妻精品| 久久99AV无色码人妻蜜| 女人张开腿让男人添| 18动漫在线观看| 苍井空教师BD在线观看全集| 国产精品一区二区AV97| 久久视频这里只精品6国产| 青青伊人精品| 亚洲欧美国产综合在线| 99热只有精品| 国产一区91| 嫩草伊人久久精品少妇AV网站| 色爰情人网站| 宅男午夜大片又黄又爽大片| 超碰caoporon最新视频| 精品欧美小视频在线观看| 青青青久久| 亚洲中文在线精品国产| 亚洲三级大片| silk118中文字幕无删减| 国产亚洲精品久久久久久禁果TV| 男女一边摸一边做羞羞的事情免费| 婷婷五月久久丁香国产综合| 69久久国产露脸精品国产| 国产女合集第六部|