最近在學習嵌入式Linux,沒系統掌握前暫時沒辦法輸出相關的博文,最近準備先分享一些Python數據可視化的相關知識。
本篇文章為Python數據可視化第一篇,講解如何選擇合適的圖表進行數據可視化。
國外專家Nathan Yau總結了數據可視化過程中要經歷的4個過程。
你擁有什么樣的數據(What data do you have)?
你想表達什么樣的數據信息(What do you want to know about your data)?
你應該采用什么樣的數據可視化方法(What visualization methods should youuse)?
你從圖表中能獲得什么樣的數據信息(What do you see and does it makessense)?
如下圖所示:
其中,你應該采用什么樣的數據可視化方法尤為關鍵,這就需要我們了解有哪些圖表類型來可視化數據。
根據表達數據的側重內容點,將圖表類型分為6大類:類別比較圖表、數據關系圖表、數據分布圖表、時間序列圖表、局部整體圖表和地理空間圖表(有些圖表也可以歸類于兩種或多種圖表類型)。
1
類別比較圖表
類別比較型圖表的數據一般分為:數值型和類別型兩種數據類型,主要包括:柱形圖、條形圖、雷達圖、坡度圖、詞云圖等,通常用來比較數據的規(guī)模。
如下所示:
2
數據關系圖表
數據關系型圖表分為數值關系型、層次關系型和網絡關系型三種圖表類型。
數值關系型圖表主要展示兩個或多個變量之間的關系,包括最常見的散點圖、氣泡圖、曲面圖、矩陣散點圖等。該圖表的變量一般都為數值型,當變量為1~3個時,可以采用散點圖、氣泡圖、曲面圖等;當變量多于3個時,可以采用高維數據可視化方法,如平行坐標系、矩陣散點圖、徑向坐標圖、星形圖和切爾諾夫臉譜圖等。
層次關系型圖表著重表達數據個體之間的層次關系,主要包括包含和從屬兩類,比如公司不同部門的組織結構,不同洲的國家包含關系等,包括節(jié)點鏈接圖、樹形圖、冰柱圖、旭日圖、圓填充圖、矩形樹狀圖等。
網絡關系型圖表是指那些不具備層次結構的關系數據的可視化。與層次關系型數據不同,網絡關系型數據并不具備自底向上或者自頂向下的層次結構,表達的數據關系更加自由和復雜,其可視化的方法常包括:桑基圖、和弦圖、節(jié)點鏈接圖、弧長鏈接圖、蜂箱圖等。
如下圖所示:
3
數據分布圖表
數據分布型圖表主要顯示數據集中的數值及其出現的頻率或者分布規(guī)律,包括統計直方圖、核密度曲線圖、箱形圖、小提琴圖等。
如下圖所示:
其中,統計直方圖最為簡單與常見,又稱質量分布圖,由一系列高度不等的縱向條紋或線段表示數據分布的情況,一般用橫軸表示數據類型,縱軸表示分布情況。
4
時間序列圖表
時間序列型圖表強調數據隨時間的變化規(guī)律或者趨勢,X軸一般為時序數據,Y軸為數值型數據,包括折線圖、面積圖、雷達圖、日歷圖、柱形圖等。
如下圖所示:
其中,折線圖是用來顯示時間序列變化趨勢的標準方式,非常適用于顯示在相等時間間隔下數據的趨勢。
5
局部整體圖表
局部整體型圖表能顯示出局部組成成分與整體的占比信息,主要包括餅圖、圓環(huán)圖、旭日圖、華夫餅圖、矩形樹狀圖等。
餅圖是用來呈現部分和整體關系的常見方式,在餅圖中,每個扇區(qū)的弧長(以及圓心角和面積)大小為其所表示的數量的比例。但要注意的是,這類圖很難去精確比較不同組成的大小。
6
地理空間圖表
地理空間型圖表主要展示數據中的精確位置和地理分布規(guī)律,包括等值區(qū)間地圖、帶氣泡的地圖、帶散點的地圖等。地圖用地理坐標系可以映射位置數據。位置數據的形式有許多種,包括經度、緯度、郵編等。但通常都是用緯度和經度來描述的。Python的GeoPandas包可以讀取SHP和GEOJSON等格式的地理空間數據,使用plot()函數或者ggplot()函數可以繪制地理空間型圖表。
《地圖管理條例》第十五條規(guī)定:“國家實行地圖審核制度。向社會公開的地圖,應當報送有審核權的測繪地理信息行政主管部門審核。但是,景區(qū)圖、街區(qū)圖、地鐵線路圖等內容簡單的地圖除外。”
繪制這些不同類型的圖表,主要使用matplotlib、plotnine、Seaborn等包。對于二維直角坐標系下的圖表,主要使用plotnine和Seaborn;對于極坐標系和三維直角坐標系下的圖表,則需要使用matplotlib繪制以上不同類別的圖表。
這些圖表的繪制方法在后面的文章都會進行詳細講解。
審核編輯:劉清
-
python
+關注
關注
56文章
4793瀏覽量
84634
原文標題:Python數據可視化:如何選擇合適的圖表可視化?
文章出處:【微信號:美男子玩編程,微信公眾號:美男子玩編程】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論