編者按:在日常工作中,數(shù)據(jù)可視化是數(shù)據(jù)科學(xué)家不可或缺的一個“好幫手”。它能以圖像的形式生動有趣地把數(shù)據(jù)信息有效傳遞給他人,是人與人、部門與部門之間高效溝通交流的工具。但是,這些作用也決定了它必須兼具美學(xué)和統(tǒng)計(jì)功能:太繁則華而不實(shí);太簡則晦澀難懂。如何把握設(shè)計(jì)與功能之間的平衡,創(chuàng)建出簡潔直觀的可視化圖像?這是個連行業(yè)老人都感到頭疼的問題。
本文來自資深統(tǒng)計(jì)學(xué)家Nathan Yau,他向我們展示了如何基于目標(biāo)問題,為同一個數(shù)據(jù)集設(shè)計(jì)14種不同的可視化圖像。
不久前,我寫了一篇關(guān)于如何構(gòu)建動態(tài)金字塔圖表的教程。寫完文章后,我偶然看到了一張金字塔圖,制圖人Lisa Charlotte Rost根據(jù)當(dāng)前德國各年齡段男性、女性人數(shù),用兩個完全不同的圖表展示了社會兩性人口分布和社會兩性人數(shù)在未來的變化趨勢。
同一個數(shù)據(jù)集,不同的焦點(diǎn)。我覺得這很有趣,于是做了一版美國版的動態(tài)金字塔圖:
如上圖所示,這幅可視化關(guān)注的是2015-2060年間各年齡段男性、女性人口的分布情況。
而這是用相同數(shù)據(jù)繪制的第二幅可視化圖表,可以發(fā)現(xiàn),雖然它仍關(guān)注在具體某個年齡段是男性多還是女性多,但它能反映整個年齡段的總?cè)丝谮厔荩@個信息是第一幅圖欠缺的。
那么,哪幅圖更好呢?
答案取決于你想知道什么。如果你只想知道是男性多還是女性多,那么第一幅圖更直觀;但是,如果你想知道總?cè)丝诘淖兓闆r,而不是男女人數(shù)差異大小,第二幅圖更合適。
這個例子告訴我們,在可視化數(shù)據(jù)之前,多問問自己可視化的目的會幫我們更好地選擇圖表。可視化圖像不應(yīng)該只是一堆漫無目的、沒有重點(diǎn)的圖形,我們不一定要在上面呈現(xiàn)翔實(shí)的數(shù)據(jù)——盡管它們對分析和探索很有用,但必須明確闡釋數(shù)據(jù)之間的密切聯(lián)系,這是數(shù)據(jù)演示的意義所在。
接下來,就讓我們?nèi)砸陨鲜雒绹丝跀?shù)據(jù)集為例,看看可視化在實(shí)踐中是如何運(yùn)作的。
首先,這里有一個數(shù)據(jù)樣本:
Year Age Gender Projected.Population
2014 0 Female 1939928
2014 0 Male 2031919
2014 1 Female 1933019
2014 1 Male 2024845
2014 2 Female 1941924
2014 2 Male 2030157
...
數(shù)據(jù)集地址:wonder.cdc.gov/
已知數(shù)據(jù)集來源可靠,里面的所有內(nèi)容都由美國衛(wèi)生與人類服務(wù)部提供。數(shù)據(jù)集中共4個特征:年份、居民年齡、居民性別和預(yù)計(jì)人口。其中年份的范圍是2014-2060,居民年齡分布在0至100以上之間,性別分為男性/女性,預(yù)計(jì)人口在9000到270萬之間。
針對以上信息,現(xiàn)在我們可以提出一些問題并實(shí)現(xiàn)相應(yīng)可視化。
這個數(shù)據(jù)集大致反映了什么?
如果可視化的目標(biāo)是解答這個問題,動態(tài)金字塔圖能提供對整個數(shù)據(jù)集的整體反饋。如下圖所示,隨著人口年齡的增長,圖中色塊會往縱向不斷延伸;隨著人口總數(shù)的增加,圖中色塊會橫向變寬。圖中展示的內(nèi)容已經(jīng)足以概括數(shù)據(jù)集,如果實(shí)在要跳錯,它確實(shí)有一個小問題,就是沒有直觀展示兩性人口數(shù)的對比情況。
和現(xiàn)在相比,2060年一共有多少人?
如果你只關(guān)心總?cè)丝诙皇悄挲g、性別,一個簡單的條形圖就足夠了。
或者,你也可以把它總結(jié)為一句話:從2018年至2060年,人口預(yù)計(jì)將增長26.5%。
男多女少or女多男少?
對于這個問題,其實(shí)我們可以用文首的動態(tài)金字塔圖來解釋。但它的不足之處是多了一個年齡維度,這就使看圖的人只能對比每個年齡段的男女人口,而沒法直接看出兩性的總?cè)丝诓罹啵ㄒ烙?jì)曲線下方的區(qū)域)。
因此,為了解決這個問題,我們可以用最基礎(chǔ)的可視化圖像之一——折線圖,一條表示女性,一條表示男性,上方曲線人多,下方曲線人少。如下圖所示,在未來幾十年內(nèi),美國將繼續(xù)維持女多男少的局面。
如果想表現(xiàn)男性和女性人數(shù)之間的差距將隨著時間推移而減少,你可以在兩條線之間補(bǔ)充一些垂線,更直觀地表現(xiàn)趨勢:
你也可以把人口差算出來,繪制人數(shù)差距圖:
如果不想用折線圖,連接的散點(diǎn)圖也是一種比較男性和女性人口隨時間變化的方法:
如上圖所示,左上區(qū)域表示女性人數(shù),又下區(qū)域表示男性人數(shù),中間的黑色虛線表示兩性人數(shù)相等的狀態(tài)。由于美國女多男少,表示實(shí)際人口的藍(lán)色散點(diǎn)線目前在女性一側(cè),但隨著時間推移,藍(lán)線會不斷向?qū)蔷€靠近,表示人數(shù)差距將越來越小。
如何比較男性和女性的年齡分布?
一般情況下,如果要顯示某一時間點(diǎn)某區(qū)域的男女比例和年齡構(gòu)成,人口金字塔是所有可視化圖像中的首選。之前我們展示了一幅動態(tài)金字塔圖,它的優(yōu)點(diǎn)是能體現(xiàn)總?cè)藬?shù)變化和年齡分布趨勢,但考慮到這里我們的目標(biāo)是比較男女年齡分布,鏡像圖結(jié)構(gòu)不夠直觀,動態(tài)變化也會為對比帶來麻煩,所以靜態(tài)人口金字塔圖更合適。
一種方法是把男女圖像排列一側(cè),直接上下對比:
另一種方法是重疊圖表進(jìn)行強(qiáng)制比較。無論選擇什么樣的展示方法,直觀簡介始終是第一位的。
每年增加多少人口?
人口增長率是一種常見可視化對象,對于一個國家而言,人口增長的速度肯定不是一成不變的,我們可以計(jì)算人口的同比增長變化,更合理地反映社會情況:
除了增速,人口的實(shí)際增長量也是人們感興趣的點(diǎn),我們可以用下面的圖可視化每年的絕對增長量:
每個年齡的預(yù)計(jì)變化是多少?
如果你感興趣的目標(biāo)是年齡,我們也可以統(tǒng)計(jì)每個年齡的人口數(shù)變化范圍,如下圖所示,線段越長,人口增長地越多:
那么全國哪個年齡的人數(shù)最多呢?下面的圖能給我們答案:
到目前為止,我們應(yīng)該已經(jīng)看出不同問題對具體可視化方法的巨大影響了。這給了我們一些啟發(fā):
拿到數(shù)據(jù)集時,原問題只是一個開始,它可能會帶來更多問題
問題提供了關(guān)注焦點(diǎn),因?yàn)閳D形是對特定問題的解答
要過濾一切不需要呈現(xiàn)的內(nèi)容
-
可視化
+關(guān)注
關(guān)注
1文章
1194瀏覽量
20933 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24689
原文標(biāo)題:數(shù)據(jù)可視化技巧:提出問題,描繪答案
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論