亚洲成人一区,私人家庭影院5577,自拍偷拍片

俗話說：“一圖勝千言”。圖像包含豐富的視覺信息，但有時關鍵信息位于圖像的文本當中。雖然識字的人可以輕松理解圖像中嵌入的文字，但我們如何利用計算機視覺和機器學習來教計算機做到這一點呢？

今天，我們將向您展示如何使用 TensorFlow Lite 從 Android 設備上的圖像中提取文本。我們將引導您完成最近開源的光學字符識別（OCR） Android 參考應用的關鍵步驟，您可參考該處獲取完整代碼。在下方動畫中，可以看到該應用如何從三款 Google 產品徽標圖片中提取產品名稱。

該處

https://github.com/tensorflow/examples/tree/master/lite/examples/optical_character_recognition/android

從圖像中識別文本的過程即為 OCR，該技術在多個領域中廣泛使用。例如，Google 地圖運用 OCR 技術從地理定位圖像中提取信息，進而完善 Google 地圖。

Google 地圖運用 OCR 技術

https://ai.googleblog.com/2017/05/updating-google-maps-with-deep-learning.html

一般來說，OCR 是一個包含多個步驟的流水線。相關步驟通常包含文本檢測和文本識別：

使用文本檢測模型查找文本周圍的邊界框；

執行一些后處理操作，以轉換邊界框；

將這些邊界框內的圖像轉換為灰度圖像，如此一來，文本識別模型便可繪制出文字和數字。

在示例中，我們將利用 TensorFlow Hub 中的文本檢測和文本識別模型。多個不同的模型版本可用來權衡速度/準確率的取舍；我們在此使用的是 float16 量化模型。如需有關模型量化的更多信息，請參閱 TensorFlow Lite 量化文檔。

文本檢測

https://hub.tensorflow.google.cn/sayakpaul/lite-model/east-text-detector/fp16/1

文本識別

https://hub.tensorflow.google.cn/tulasiram58827/lite-model/keras-ocr/float16/2

TensorFlow Lite 量化

https://tensorflow.google.cn/lite/performance/model_optimization

我們還會使用 OpenCV，這是一款廣泛使用的計算機視覺庫，適用于非極大值抑制（NMS）和透視變換（我們稍后會對此展開討論），以對檢測結果進行后處理。此外，我們還會使用 TFLite 支持庫對圖像進行灰度和標準化處理。

非極大值抑制

https://www.coursera.org/lecture/convolutional-neural-networks/non-max-suppression-dvrjH

TFLite 支持庫

https://tensorflow.google.cn/lite/inference_with_metadata/lite_support

對于文本檢測，由于檢測模型支持 320x320 的固定像素，我們會使用 TFLite 支持庫調整輸入圖像的大小并對其進行標準化處理：

檢測模型

https://hub.tensorflow.google.cn/sayakpaul/lite-model/east-text-detector/fp16/1

val imageProcessor =

ImageProcessor.Builder（）.add（ResizeOp（height， width， ResizeOp.ResizeMethod.BILINEAR））.add（NormalizeOp（means， stds））.build（）

var tensorImage = TensorImage（DataType.FLOAT32）

tensorImage.load（bitmapIn）

tensorImage = imageProcessor.process（tensorImage）

接下來，我們使用 TFLite 運行檢測模型：

detectionInterpreter.runForMultipleInputsOutputs（detectionInputs， detectionOutputs）

檢測模型的輸出是一些經過旋轉且圖像內包含文本的邊界框。我們會運行非極大值抑制，借助 OpenCV 為每個文本塊確定一個邊界框：

NMSBoxesRotated（

boundingBoxesMat，

detectedConfidencesMat，

detectionConfidenceThreshold.toFloat（），

detectionNMSThreshold.toFloat（），

indicesMat

）

有些時候，圖像內的文本會出現變形（例如，我的筆記本電腦上的“kubernetes”貼紙），并伴隨一個透視角度：

如果我們只是將原始旋轉邊界框直接“喂”給識別模型，則該模型不太可能正確識別字符。在本例中，我們需要使用 OpenCV 來進行透視變換：

val rotationMatrix = getPerspectiveTransform（srcPtsMat， targetPtsMat）

warpPerspective（

srcBitmapMat，

recognitionBitmapMat，

rotationMatrix，

Size（recognitionImageWidth.toDouble（）， recognitionImageHeight.toDouble（）））

之后，我們會再次使用 TFLite 支持庫，在邊界框內調整變換圖像的大小，并對其進行灰度和歸一化處理：

val imageProcessor =

ImageProcessor.Builder（）.add（ResizeOp（height， width， ResizeOp.ResizeMethod.BILINEAR））.add（TransformToGrayscaleOp（））.add（NormalizeOp（mean， std））.build（）

最后，我們會運行文本識別模型、根據模型輸出繪制出字符與數字，然后更新應用界面：

recognitionInterpreter.run（recognitionTensorImage.buffer， recognitionResult）

var recognizedText = “”for （k in 0 until recognitionModelOutputSize） {

var alphabetIndex = recognitionResult.getInt（k * 8）if（alphabetIndex in 0..alphabets.length - 1）

recognizedText = recognizedText + alphabets［alphabetIndex］}

Log.d（“Recognition result：”， recognizedText）if （recognizedText ！= “”） {

ocrResults.put（recognizedText， getRandomColor（））}

這樣就完成了，就是這么簡單。此時，我們可以在我們的應用中使用 TFLite 來提出輸入圖像中的文本。

最后我想指出的是，如果您只是需要一個即用型 OCR SDK，您可以直接使用 Google ML Kit 的文字識別功能。ML Kit 底層使用了 TFLite，并且對于大多數 OCR 用例而言足矣。在以下情況下，您可以使用 TFLite 來構建專屬 OCR 解決方案：

您有自己想要使用的專屬文本檢測/識別 TFLite 模型；

您有特殊的業務需求（例如識別顛倒的文本），并且需要自定義 OCR 流水線；

您希望支持 ML Kit 沒有覆蓋的語言；