亚洲成人在线观看,亚洲曰本大成网站mmm,中国人的xxxnxxx

近日瀏覽網上一些圖片提取文字的網站，覺得甚是有趣，花費半日也做了個在線圖片識別程序，完成了兩個技術方案的選擇，一是tesseract+python flask的方案實現，二是tesseract+spring web的技術解決方案，并簡作論述，與君共勉。

一、tesseract-ocr介紹

ocr含義是Optical Character Recognition，含義即視覺字符識別。而tesseract是該領域特別優(yōu)秀開源的作品。

官方的tesseract定義：

OCR engine - libtesseract and a command line program - tesseract.

即tesseract包括一個視覺字符識別引擎libtesseract和命令行程序tesseract。

當前最新穩(wěn)定版本是4.x.x基于LSTM，源碼可從找到tesseract的GitHub: tesseract.找到。

關于tesseract的工作模式如上圖所示。假設現在有一個圖片輸入，整個執(zhí)行流程為：

輸入（一張圖片）
有用信息提?。ū热缫粋€圖片上只有一個字，那其他留白的是無用，這個字上每個色素是有效的并且相關）
找出文字/線條
字符分類集
輸入與分類集對比找出最接近的
輸出識別結果

二、安裝tesseract

第一步下載

下載合適的exe安裝文件：

網址：https://digi.bib.uni-mannheim.de/tesseract/，下載完成后后裝即可

第二步環(huán)境變量配置

在path變量中加入tesseract-ocr的安裝路徑

第三步安裝成功檢測

使用tesseract指令，顯示如下：

linux環(huán)境下載安裝與上述類似

下載leptonica 和 tesseract兩個包，解壓安裝，配置環(huán)境變量即可。網上很容易找到該安裝包。

三、使用命令行

1.tesseract + 圖片路徑 + 保存結果名 + -l 語言集

示列:tesseract 1606150081.png 1606150081 -l chi_sim

2.tesseract + 圖片路徑 +stdout -l +語言集

示列:tesseract D:company uigushopspring-2s est.png stdout -l chi_sim

有了上述之后就可以完成web圖片識別程序的開發(fā)啦，廢話不多說，直接上代碼。

四、程序實現(Python)

程序設計思路:

上傳圖片 -> 保存 ->對上傳的圖片執(zhí)行tesseract指令->獲取識別結果

只有二十多行代碼就實現了，so easy，以后網上看到圖片識別程序再也不會感覺神奇了吧！

關注Java核心技術，推送更多 Java 干貨！

#coding=utf-8
fromflaskimportFlask,request
importos
importdatetime
importtime

app=Flask(__name__)

defget_time_stamp():
times=datetime.datetime.now().strftime('%Y-%m-%d%H:%M:%S')
array=time.strptime(times,"%Y-%m-%d%H:%M:%S")
time_stamp=int(time.mktime(array))
returntime_stamp

@app.route('/image/extract',methods=['POST'])
defpure_rec():
file=request.files.get('file')
ts=str(get_time_stamp())
up_path=os.path.join(ts+file.filename)
file.save(up_path)
cmd="tesseract"+up_path+""+ts+"-lchi_sim"
print(cmd)
os.system(cmd)
withopen(ts+".txt",'r+',encoding="utf-8")asf:
result=f.read()
returnresult

if__name__=='__main__':
app.run(debug=True)

五、程序實現（Java）

不需要任何引入第三方jar包，搭建一個簡單的springboot web項目就可以了，沒有其他額外的依賴。

推薦一個 Spring Boot 基礎教程及實戰(zhàn)示例：https://www.javastack.cn/categories/Spring-Boot/

Controller:

packagecom.lbh.web.controller;

/*
*Copyright@lbhbinhao@163.com
*Author:liubinhao
*Date:2020/11/23
*++++______@authorliubinhao____________
*+++//|//|//|
*+/_____/|/_____/|/_____/|
*|||||||||
*||||||________|||
*|||||/|||
*|||||/___________|||
*|||___________________||____________|||
*||//|||||||
*||/_________________//||/||/
*|_________________________|/b|_____|/|_____|/
*/
importorg.springframework.web.bind.annotation.PostMapping;
importorg.springframework.web.bind.annotation.RequestParam;
importorg.springframework.web.bind.annotation.RestController;
importorg.springframework.web.multipart.MultipartFile;

importjava.io.BufferedReader;
importjava.io.File;
importjava.io.IOException;
importjava.io.InputStreamReader;

@RestController
publicclassLiteralExtractController{

@PostMapping("/image/extract")
publicStringreg(@RequestParam("file")MultipartFilefile)throwsIOException{
Stringresult="";
Stringfilename=file.getOriginalFilename();
Filesave=newFile(System.getProperty("user.dir")+""+filename);
if(!save.exists()){
save.createNewFile();
}
file.transferTo(save);
Stringcmd=String.format("tesseract%sstdout-l%s",System.getProperty("user.dir")+""+filename,"chi_sim");
result=cmd(cmd);
returnresult;
}

publicstaticStringcmd(Stringcmd){
BufferedReaderbr=null;
try{
Processp=Runtime.getRuntime().exec(cmd);
br=newBufferedReader(newInputStreamReader(p.getInputStream()));
Stringline=null;
StringBuildersb=newStringBuilder();
while((line=br.readLine())!=null){
sb.append(line+"
");
}
returnsb.toString();
}catch(Exceptione){
e.printStackTrace();
}
finally
{
if(br!=null)
{
try{
br.close();
}catch(Exceptione){
e.printStackTrace();
}
}
}
returnnull;
}
}