在 Python 使用用 json.dumps(data) 時突然發現特別慢,data 本身不大,但是一個包含很多元素的列表,所以促使本人尋找一個替代的 JSON 處理庫。大概對比了一個 ujson(UtltraJSON), python-rapidjson(RapidJSON) 和 Python 自帶的 json 庫。還有一個 simplejson 是為兼容 Python 2.6 以前用的(json 是 Python 2.6 新加入的 API),性能有些差?;旧辖€是老的辣,想要收獲更好的性能,還得仰賴傳統的 C/C++ 語言,ujson 是用純 C 寫的,RapidJSON 是 C++ 寫的,后者還是十美分的開源產品。json, ujson, rapidjson 三者 loads() 方法的性能差別不太明顯,但 dumps() 大對象時 Python 自帶的 json 庫就要考驗用戶的耐心了。注:最開始本來認定了 ujson 為最佳選擇, 所以先從 usjon 和 rapidjson 切入的,后來寫作本文的過程中,從 usjon 的自我介紹中發現了 Rust 寫的 orjson 很顯眼,才加入了 orjson 的測試,看來 orjson 更值得擁有。以上三個 json 組件的安裝方式分別為
pip install python-rapidjson
$ pip install simplejson
自己測試了一個 ujson 和 rapidjson 與 Python json 庫的 dumps() 的性能,simpejson 不太考慮了。測試代碼如下
# test.py
from time import timeimport sysimport string
num = int(sys.argv[1])lib = sys.argv[2]
items = []for i in range(num): items.append({c:c for c in string.ascii_letters})start = time()if lib == ‘ujson’: import ujson ujson.dumps(items)elif lib == ‘rapidjson’: import rapidjson rapidjson.dumps(items)else: import json json.dumps(items)
print(time() - start)
執行 python 1000|10000|100000|1000000 json|ujson|rapidjson, 試結果統計如下(數字為不同情況下的耗時):
基本上測試的性能和 Benchmark of Python JSON libraries 中的是一致的。從原文中截取了兩張圖如下:
在 UltraJSON 的 Github 項目頁面中也有對比 ujson, nujson, orjson, simplejson, json 的 Benchmarks。其中列出的 orjson(pip install orjson) 和 nujson(pip install nujson, Fork 了 UltraJSON 來支持 Numpy 序列化的) 性能表現上不錯,orjson 表現上比 ujson 還更為卓越。
看到了 orjson 后,趕緊做個對比測試,在上面的 test.py 代碼中再加上
elif lib == ‘orjson’: import orjson orjson.dumps(items)
再列出完整的對比數據
繼續翻看 orjson 的 Github 主頁面 ijl/orjson, 它既非用 C 也不是用 C++ 寫的,而是 Rust 語言,真是讓我眼前一亮,Rust 程序運行速度真的能與 C/C++ 相媲美的。寫到這里我要開始改變當初只認 ujson 的主意了,orjson 或許是更佳的選擇, 本文的標題也由最初擬定的 “Python 處理 JSON 必要時我選擇 ujson(UltraJSON)” 變成了 “Python 處理 JSON 必要時我選擇 ujson 和 orjson”。這也是寫博客時,盡可能收集更多的素材多的魅力。
補充一下,orjson 的 dumps() 函數使用略有不同,不再用 indent 參數,并且返回值是 bytes,所以格式化成字符串的寫法如下
import orjson
json_str = orjson.dumps(record, option=orjson.OPT_INDENT_2).decode()
另外,在使用 ujson 時碰到的一個 bug 也順便記錄在此,就不立新篇了,反正現在找東西都不太看標題,而是 Google 到其中的內容。ujson 3.0.0 和 3.1.0 版本的 dumps() 的 indent 參數工作不正常,有個未關閉的 ticket ‘indent’ parameter for dumps doesn‘t indent properly in 3.0.0 #415。比如使用 ujson 3.1.0 時的現像是
》》》 import ujson》》》 ujson.dumps({’a‘: 1, ’b‘: 2})’{“a”:1,“b”:2}‘
》》》 ujson.dumps({’a‘: 1, ’b‘: 2}, indent=0)’{“a”:1,“b”:2}‘
》》》 ujson.dumps({’a‘: 1, ’b‘: 2}, indent=1)’{
“a”: 1,
“b”: 2
}‘
》》》 ujson.dumps({’a‘: 1, ’b‘: 2}, indent=2)’{
“a”: 1,
“b”: 2
}‘
》》》 ujson.dumps({’a‘: 1, ’b‘: 2}, indent=8)’{
“a”: 1,
“b”: 2
}‘
indent 大于 1 時都當作 1。
換回到 ujson 2.0.3 版本時沒問題
》》》 import ujson》》》 ujson.dumps({’a‘: 1, ’b‘: 2}, indent=2)’{
“a”: 1,
“b”: 2
}‘
》》》 ujson.dumps({’a‘: 1, ’b‘: 2}, indent=8)’{
“a”: 1,
“b”: 2
}‘
在這個問題未解決之前就暫時用 pip install ujson==2.0.3 安裝 ujson 2.0.3 吧,但是這個版本無法序列化 datetime 類型。
原文鏈接:https://yanbin.blog/python-json-choose-ujson-if-necessary/
責任編輯:haq
-
python
+關注
關注
56文章
4798瀏覽量
84799 -
JSON
+關注
關注
0文章
119瀏覽量
6980
原文標題:Python 處理 JSON 我選擇 ujson 和 orjson
文章出處:【微信號:magedu-Linux,微信公眾號:馬哥Linux運維】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論