量化是在 CPU 上最流行的加速神經網絡推理方法之一。去年,TensorFlow Lite 通過 XNNPACK 后端提高了浮點模型的性能。如今,我們將 XNNPACK 后端擴展至量化模型。各個計算機視覺模型就表現而言,與默認的 TensorFlow Lite 量化內核相比,改擴展在 ARM64 手機上的速度平均提升 30%,在 x86-64 筆記本電腦及桌面設備系統上提升 5 倍,在 WebAssembly SIMD 的瀏覽器內推理上提升 20 倍。
TensorFlow Lite
https://tensorflow.google.cn/lite
XNNPACK 后端
https://github.com/tensorflow/tensorflow/blob/master/tensorflow/lite/delegates/xnnpack/README.md
XNNPACK 中的量化推理針對 TensorFlow 模型優化工具包所用的對稱量化架構進行了優化。XNNPACK 既支持傳統的按張量量化架構,也支持較新且準確率更高的帶有權重渠道量化和激活按張量量化的架構。此外,XNNPACK 還支持非對稱量化架構,但效率有所降低。
對稱量化架構
https://tensorflow.google.cn/lite/performance/quantization_spec#symmetric_vs_asymmetric
傳統的按張量量化架構
https://arxiv.org/abs/1712.05877
帶有權重渠道量化和激活按張量量化的架構
https://arxiv.org/abs/1806.08342
性能提升
我們在一些邊緣設備和神經網絡架構針對 XNNPACK 加速的量化推理進行了評估。我們以下文介紹的四個公開模型和兩個內部量化模型為基準,它涵蓋了常見的計算機視覺任務:
1.EfficientNet-Lite0 圖像分類 [下載]
下載
https://tfhub.dev/tensorflow/lite-model/efficientnet/lite0/int8/2
2.EfficientDet-Lite0 對象檢測 [下載]
EfficientDet-Lite0
https://arxiv.org/abs/1911.09070
下載
https://tfhub.dev/tensorflow/lite-model/efficientdet/lite0/int8/1
3.DeepLab v3 分割,使用 MobileNet v2 特征提取器 [下載]
DeepLab v3
https://ai.googleblog.com/2018/03/semantic-image-segmentation-with.html
MobileNet v2
https://arxiv.org/abs/1801.04381
下載
https://tfhub.dev/sayakpaul/lite-model/deeplabv3-mobilenetv2/1/default/1
4.CartoonGAN 圖像風格轉化 [下載]
CartoonGAN
https://ieeexplore.ieee.org/document/8579084
下載
https://tfhub.dev/sayakpaul/lite-model/cartoongan/int8/1
5.Face Mesh 特征點的量化版本
6.視頻分割的量化版本
視頻分割
https://ai.googleblog.com/2018/03/mobile-real-time-video-segmentation.html
使用 XNNPACK 在 Android/ARM64 手機上對量化的計算機視覺模型進行單線程推理時的速度提升
在六個 Android ARM64 移動設備上,XNNPACK 與默認的 TensorFlow Lite 量化內核相比,平均提升 30%。
使用 XNNPACK 在 x86-64 筆記本電腦和桌面設備系統上對量化的計算機視覺模型進行單線程推理時的速度提升
XNNPACK 在搭載 x86 處理器的筆記本電腦和桌面設備系統上有了更大幅度的提升。在我們基準測試中的 5 個 x86 處理器上,XNNPACK 將推理速度平均提升 5 倍。值得注意的是,不支持 AVX 指令集的低端和老式處理器,通過將量化推理轉換為 XNNPACK,將速度提升 20 倍以上,而 TensorFlow Lite 以前的推理后端只針對 AVX、AVX2 和 AVX512 指令集優化了,而 XNNPACK 則為所有 x86-64 處理器提供了優化實現。
通過 V8 運行時,使用 XNNPACK 在手機、筆記本電腦和桌面設備上對量化的計算機視覺模型進行單線程 WebAssembly SIMD 推理的速度提升
除了傳統的移動設備和筆記本電腦/桌面設備平臺外,XNNPACK 還通過 TensorFlow Lite Web API 為網絡平臺進行量化推理加速。上圖展示了在 3 個 x86-64 和 2 個 ARM64 系統上通過 V8 JavaScript 引擎運行 WebAssembly SIMD 基準時,與默認的 TensorFlow Lite 實現相比,幾何速度平均提升 20 倍。
TensorFlow Lite Web API
https://github.com/tensorflow/tfjs/tree/master/tfjs-tflite
兩年的優化
XNNPACK 起初是 QNNPACK 庫的一個分支,但是由于 XNNPACK 的第一個版本專注于浮點推理,而 QNNPACK 專注于量化推理,因此無法將兩者進行比較。如今,隨著 XNNPACK 引入對量化推理的支持及近兩年的性能優化,我們可以直接評估。
QNNPACK
https://github.com/pytorch/QNNPACK
為了比較這兩個量化推理后端,我們將隨機的 MobileNet v1 和 MobileNet v2 模型從 XNNPACK API 移植到 QNNPACK API,并在兩個 ARM64 Android 手機和兩個 x86-64 系統上對其單線程性能進行了基準測試。上圖顯示了結果,XNNPACK 在兩年內取得了驚人的進步。XNNPACK 在舊的 Pixel 3a 手機上的速度提升 50%,在新的 Pixel 4a 手機上速度提升 4 到 5 倍,在 x86-64 筆記本電腦上提升 2.5X,在 x86-64 工作站上提升 3 倍多。XNNPACK 從 QNNPACK 派生出來后的兩年中進行了多種優化,這使其性能提升:
MobileNet v1
https://github.com/google/XNNPACK/blob/master/models/qs8-mobilenet-v1.cc
MobileNet v2
https://github.com/google/XNNPACK/blob/master/models/qs8-mobilenet-v2.cc
●
XNNPACK 保留了 QNNPACK 中的優化,如間接卷積算法和針對微架構的微內核選擇,并通過間接反卷積算法將其進一步增強,同時具備更靈活的能力,如量化加法運算符和量化乘法運算符中內置的類 numpy 廣播。
間接卷積算法
https://arxiv.org/abs/1907.02129
間接反卷積算法
https://ieeexplore.ieee.org/document/9150450
●
卷積、反卷積和全連接運算符將 8 位激活和權重的乘積累積為 32 位數字,最終需要將該數字轉換回來,或者重新量化為 8 位數字。有多種方法可以實現重新量化,但 QNNPACK 采用了來自 GEMMLOWP庫的架構,該庫開創了神經網絡推理的量化計算。然而,人們后來發現 GEMMLOWP 的重新量化架構在準確率和性能方面并不是最優的,XNNPACK 憑借更高的性能和準確率取代了它。
GEMMLOWP 庫
https://github.com/google/gemmlowp
●
QNNPACK 以非對稱量化架構為目標,其中激活和權重都表示為無符號整數,并帶有零點和比例量化參數,而 XNNPACK 的優化專注于對稱量化,其中激活和權重都是有符號整數,且權重有額外的限制:權重的零點始終為零,量化的權重被限制在 [-127, 127] 范圍間(雖然 -128 可以表示為有符號 8 位整數,但是仍被排除在外)。在 XNNPACK 中利用對稱量化時具有兩個計算優勢。首先,過濾器權重是靜態時,輸入零點與過濾器權重的乘積累積結果可以完全融合到卷積、反卷積和全連接運算符中的偏移項中。因此,推理計算中完全沒有零點參數。其次,有符號的 8 位輸入元素與限制在 [-127, 127] 的權重元素的乘積可以填入 15 位。如此一來,卷積、反卷積和全連接運算符的微內核能夠在 16 位變量上進行一半的累積,而不是始終將乘積擴展到 32 位。
表示為無符號整數,并帶有零點和比例量化參數
https://arxiv.org/abs/1712.05877
●
QNNPACK 微內核針對 ARM 上的 NEON SIMD 指令集和 x86 上的 SSE2 SIMD 指令集進行了優化,但 XNNPACK 支持更多的特定指令集優化。XNNPACK 中的大多數量化微內核都針對 x86/x86-64 上的 SSE2、SSE4.1、AVX、XOP、AVX2 和 AVX512 指令集,ARM/ARM64 上的 NEON、NEON V8 和 NEON 點積指令集,以及 WebAssembly SIMD 指令集進行了優化。此外,XNNPACK 為 WebAssembly 1.0 和 pre-NEON ARM 處理器提供標量支持。
●
QNNPACK 為高端 ARM 和低端 ARM 內核引入了提供專門匯編微內核的想法,而 XNNPACK 將這一想法進一步推進。XNNPACK 不僅針對 Cortex-A53、Cortex-A55 以及具有或不具有 NEON 點積指令集的高端內核的專門專家調整軟件流水線匯編微內核,甚至在它們之間還支持實時切換。進行推理的線程從大核遷移到小核時,XNNPACK 會自動適應,從使用針對大核優化的微內核轉換到針對小核優化的微內核。
●
QNNPACK 主要專注于多線程推理,并將計算分割成大量的小任務,每個任務計算輸出張量的一個小切片。XNNPACK 重新設計了并行化,讓任務變得靈活:可以分割為細粒度或粗粒度,具體取決于參與并行化的線程數量。通過動態調整任務粒度,XNNPACK 在單線程執行中實現了低開銷,在多線程推理中實現了高并行化效率。
總之,這些優化讓 XNNPACK 擁有最先進的量化推理能力,且讓 TensorFlow Lite 成為最通用的量化推理解決方案,涵蓋包括 Raspberry Pi Zero、Chromebook,以及具有服務器類處理器的工作站在內的眾多系統。
如何使用?
量化的 XNNPACK 推理在所有平臺 TensorFlow Lite 的 CMake 構建,以及網絡平臺 TensorFlow Lite 的 Bazel 構建中默認啟用,并將在 2.7 版本的 TensorFlow Lite Web API 中可用。在其他平臺的 Bazel 構建中,量化的 XNNPACK 推理通過構建時的選擇機制啟用。使用 Bazel 構建 TensorFlow Lite 時,如果添加 --define tflite_with_xnnpack=true --define xnn_enable_qs8=true,TensorFlow Lite 解釋器將默認使用 XNNPACK 后端,使用具有對稱量化的受支持運算符。可以通過添加 --define xnn_enable_qu8=true Bazel 選項,對非對稱量化的運算符進行有限支持。
TensorFlow Lite Web API
https://github.com/tensorflow/tfjs/tree/master/tfjs-tflite
可加速哪些運算?
XNNPACK 后端目前支持量化的 TensorFlow Lite 運算符的子集(請參閱文檔,了解詳細信息和限制)。XNNPACK 支持由模型優化工具包通過訓練后的整數量化和量化感知訓練產生的模型,但不支持訓練后的動態范圍量化。
文檔
https://github.com/tensorflow/tensorflow/blob/master/tensorflow/lite/delegates/xnnpack/README.md#quantized-operators
未來展望
這是 XNNPACK 集成到 TensorFlow Lite 后的第三個版本,之前是浮點實現的初始版本以及引入稀疏推理支持的后續版本。在未來版本中,我們將添加以下改進:
●
最新 ARM 處理器上的半精度推理
●
稀疏量化推理。
●
更加快速的密集推理。
希望您能在 GitHub 和 StackOverflow 頁面上積極發表您的想法和評論,您也可以在 discuss.tensorflow.org 上提問。
GitHub
https://github.com/tensorflow/tensorflow/issues
StackOverflow
https://stackoverflow.com/questions/tagged/tensorflow-lite
discuss.tensorflow.org
http://discuss.tensorflow.org
責任編輯:haq
-
cpu
+關注
關注
68文章
10872瀏覽量
211996 -
模型
+關注
關注
1文章
3254瀏覽量
48878
原文標題:用 XNNPACK 加速量化推理
文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論