關于數據科學的趨勢和前景,這里有你想了解的信息
創造或產生的信息量或數據量每天都在迅速增加。醫療、零售、資訊科技、咨詢,甚至政府機構等多個業界的數據量都在快速增長。這種增長的基本原因是,越來越多的人擁有比以往更多的工具來創建和共享信息。消費者不是唯一創造數據的人員,企業也在產生大量數據。
在不久的過去,行業和組織在做出關鍵決策時,很大程度上依賴于猜測。而大數據和數據科學讓他們能夠瀏覽大量的信息,并在解決各自行業的問題時感到自信。
隨著可用數據量的增加,管理信息或數據的問題變得更加困難。為了處理這些不斷增長的數據并理解這些數據,需要越來越多的數據科學專家,以便組織能夠對其業務做出明智的決策。
由于最近幾年數據量的爆發式增長,全球數據科學專家的數量也在增加。所以,問題來了,如果數據科學專家的數量逐年增加,那么專家們在哪里存在,比例又是多少呢?
本文我們將嘗試用 2011-2018年 Stack Overflow 的調查數據來尋找答案。
Stack Overflow 是一個每月都有大量的活躍用戶的在線技術論壇。利用調查結果,我們可以發現一般軟件工程師社區以及數據科學社區的見解。在這次分析中,我使用 “2011-2018年 Stack Overflow 開發者調查” 的數據來了解數據科學社區的增長情況。
一般來說,數據科學社區包括“數據庫管理員”、“商業智能專家”、“數據倉庫專家”、“機器學習專家”、“數據科學家”和“具有統計或數學背景的開發人員”。
本文分析了全球不同國家、不同行業和不同規模企業的數據科學社區增長的比例和趨勢。
因此,我們可以先問自己以下幾個問題:
從2011年到2018年,數據科學社區的增長趨勢是什么?
數據科學社區在哪些國家發展?
近年來各國數據科學社區的發展趨勢是什么?
數據科學社區在哪些行業增長,占多大比例?
近年來,不同行業的數據科學社區的發展趨勢是什么?
在哪種類型企業(小型、中型和大型)中,數據科學社區增長了? 比例是多少?
近年來,不同規模的企業在數據科學領域的增長趨勢是什么?
以上問題的答案均以調查數據為依據。讓我們逐一回答這些問題。
1. 從2011年到2018年,數據科學社區的增長趨勢是什么?
從上面的可視化結果我們可以看出,近年來,數據科學社區在軟件開發人員中發展迅速。它從2014年才開始顯著增長,但2015年后開始呈指數級增長。這與最近幾年的也是指數級的數據爆炸是同步發生的。
從那以后,數據爆炸越來越多。為了從每天產生的新數據中進行處理和分析,全球每年都在創造越來越多的數據科學工作。
2. 數據科學社區在哪些國家發展?
從上圖我們可以觀察得到數據科學專家數量排名前十的國家中數據科學社區的發展趨勢。美國引領了增長的趨勢,其次是印度、德國、英國等。
美國數據科學社區的增長趨勢呈指數級,處于全盛時期;其次是印度、德國和英國的數據科學社區,增長趨勢也呈指數級,但尚未達到全盛時期。對于加拿大、巴西、俄羅斯、法國、澳大利亞和西班牙等其他國家來說,數據科學社區的人數有所增加,但與前四個國家相比增速緩慢。
從美國擁有硅谷時起,它就成為了大型軟件和IT組織、銀行、金融和保險公司、醫療服務提供商、教育機構、更好的基礎設施的領軍者和技術家園,并始終處于技術和 IT 先進程度的頂端,這些行業及其創建的日常服務僅在美國就創建了大量的數據。因此,與其他國家相比,美國需要更多的數據科學專家,這是具有指數增長合理性的。
印度一直是美國 IT 服務供應商國家中很重要的一部分,美國與印度具有相同份額的 IT 工作量。與美國一樣,印度在上述各個領域也有自己的一套數據科學要求。因此,印度正在創造大量的數據科學機會,也在引領印度數據科學社區快速增長。
德國、英國以及其他排名前六的國家也是如此。大量的數據被創造出來,為了處理、保存和理解這些數據,每個國家對數據科學專家的需求也在快速增長,但是根據每個國家的需求和市場的不同,需求增長的速度也不同。
從上方的可視化圖中,我們可以觀察到排名前十的國家的數據科學社區的增長趨勢,但現在是按某個國家歷年的份額(或比例)來衡量的。因此,對于每個國家來說,2011年專家的比例最低,之后專家的比例上升,直到2018年,專家比例達到最大值。因此,對于每個國家而言,在8年的時間里,2011年是數據科學社區所占比例最低的一年,2018年是所占比例最高的一年,8年時間里每個國家所占比例之為100%。
此外,比例的增長是指數級的,這與這些國家近年來以指數方式制造的數據是一致的。我們可以清楚地看到,每一個擁有數據科學專家的排名前十的國家都有相同的模式,即多年的指數增長,但他們的速度不同。
3.近年來各國數據科學社區的發展趨勢是什么?
從上圖中,我們可以得到以下結論:
在2011年,并不是所有排名前十的國家都在使用數據科學。大多數國家的數據科學專家比例為0,只有美國、英國、澳大利亞和德國等少數國家有數據科學的存在,而美國在前10名的所有國家中占有50%的數據科學專家份額。
美國的份額每年都遠遠超過其他國家。2011年,美國在數據科學專家中所占的比例約為50%,并且逐年在不同國家的數據科學專家中所占的比例都在提高。2018年,美國擁有數據科學專家數量約38%的份額。
隨著時間的推移,其他國家也開始使用數據科學,占其他國家的比例從0上升到20%。
不同國家的數據科學專家群體增長率不同,特別要說的是印度,從2011年的0增長到2018年的18%左右。
德國的份額也有所增加。澳大利亞在幾年間逐漸失去了它的份額。英國先是有所增長,但隨著時間的推移,這一比例略有下降。
自從其他國家開始擁有數據科學社區的份額,美國失去了一些它在數據科學社區的份額,但仍然保持所有這些年來最高的百分比。
2011年,使用數據科學的國家份額差異較大,這一比例差異逐年減小,到2018年,國家之間的份額差異變得更小。這意味著排名前十的國家中,每個國家都在使用數據科學。但根據需求和市場的不同,每個國家使用數據科學的份額也有所不同。
4. 數據科學社區在哪些行業增長,占多大份額?
綜合2011-2018年各年份的數據,在2017年和2018年的調查中,沒有關于個人所屬行業的數據。因此,以下推論基于2011-2016年的調查數據。
從上面的可視化結果來看,幾乎所有的行業都或多或少地使用了數據科學,主要應用于軟件產品、金融和銀行業、咨詢、醫療和教育行業。此外,從可視化結果中我們可以看到,最多數據科學專家的行業對應的是 “Other”,這表示 Stack overflow 的調查中沒有使用數據科學的行業。
“Other” 可以指各種行業,如:各種類別的研究、醫藥、制藥、電子商務、建筑、運輸、保險、旅游和酒店、公用事業、自然資源和能源等。
在現在這個輕科技時代,所有行業和組織都被數據淹沒,數據正以指數級的方式被創造出來。因此,數據科學正以不同的比例被各行各業所使用,因為數據科學會產生更明智的決策。
從上圖中我們可以觀察到數據科學專家排名前十的行業中數據科學社區的增長趨勢。我們可以看到,“Other” 引領了增長趨勢,其次是軟件產品、金融/銀行等。這里的 “Other” 行業也可以看作是指各種研究、醫藥、制藥、電子商務、建筑、運輸、保險、旅游和酒店、公用事業、自然資源和能源等行業。
數據科學社區在軟件產品和金融/銀行業呈指數增長趨勢,在咨詢、教育、醫療保健領域的增長也呈上升趨勢,但相較之下速度較慢。
互聯網、政府、媒體/廣告和制造業也有上升趨勢,但只是在 2014年之后,而且與其他行業相比,增幅非常小。
“Other” 是許多其他行業的組合,其上升趨勢最大,因為它結合了“Other” 類別中每個行業的趨勢。因此,我們不能得出“Other”的確有最大的上升趨勢的結論。
使用數據科學的行業的上升趨勢就像指數一樣,它與跨行業的數據也在以指數的方式被創造密切相關。
行業內數據的創造和交換的增加意味著,行業需要更多的數據科學專家來保管和處理數據,以數據為參考,從而在不同的行業中為各自的業務做出更好、更明智的決策。
根據每個行業的需要、需求、地理位置和市場,數據科學專家的需求以不同的速度增長。因此,2014年之后,幾乎所有行業都在使用數據科學。
5. 近年來,不同行業的數據科學界的發展趨勢是什么?
從上面的圖中,我們可以觀察得到以下結論:
在2011年,并不是所有排名前十的行業都在使用數據科學。10個行業中有3個行業的數據科學專家比例為0。
2011年,軟件產品在數據科學界的份額最高,為30%,其次是咨詢和金融/銀行業,各占20%,這3個行業占數據科學專家份額的70%。其余30%的份額中,其他行業和教育行業各占10%,醫療和制造業各占5%。
直到2013/2014年,媒體/廣告,互聯網,政府才開始占有份額。
隨著時間的推移,前十大行業的數據科學社區所占的份額也在不斷上升和下降。多年間這些行業所占比例的差異越來越小。
從那以后,其他行業也開始有了自己的份額,軟件產品、咨詢、金融/銀行業在數據科學領域的份額逐年下降。
從圖中我們還可以看出,數據科學專家所在的 “Other” 行業,可能是指各種研究不同、藥品、醫療、電子商務、建筑、運輸、保險、旅行和酒店、公用事業、自然資源和能源等的增長超過了其他行業。在2011年之后,該行業一直位居前兩位。這意味著數據科學在許多其他行業中得到了應用,而不僅僅局限于少數行業。
2014年以后,各個行業在數據科學的使用上保持了一致性,各行業的數據科學專家份額約為3%至18%。
2011年使用數據科學的行業份額差異更大,而且這一份額差異逐年下降,2018年,行業份額差異變小,這意味著前十大行業中的每一個都在使用數據科學,但根據每個行業的地理位置、需求和市場的不同,所占份額也有所不同。
6. 在哪種類型的企業(小型、中型或大型)中,數據科學社區增長了? 比例是多少?
由于 Stack Overflow 在2014-2015年間沒有與企業規模相關的數據,我們使用了 2011-2013年 和 2016-2018年 兩個時間段來推測不同規模企業的數據科學專家的趨勢。此外,對于這兩個時間段,行業規模的類別也有所不同。
下圖是2011-2013年的觀察結果:
從以上對 2011-2013年使用數據科學的不同規模企業所占份額的可視化結果,我們可以得到較早期,即 2011-2013年間的以下結論:
這里小型企業是初創企業 (1-25人)和成熟小企業(25-100人)的組合,中型企業是指中等規模 (100-999人),大型企業是指財富500強 (1000+人),我們可以作如下陳述:
1) 小型企業擁有35%的數據科學專家份額,中型企業占29%,大型企業占36%。
2) 2011-2013年中型企業擁有數據科學專家35人,略低于小型企業的42人,大型企業的43人。
因此,在2011-2013年,如果我們將初創企業和成熟的小企業視為小型企業,2011-2013年數據科學專家在不同規模企業中所占的份額分布大致相同。
以下是2016-2018年的觀察結果:
從以上對 2016-2018年 不同規模企業使用數據科學比例的可視化結果我們可以看出, 2016年到 2018年期間,小型企業(0-499名員工)擁有的數據科學專家遠遠超過中型企業(500-4999名員工)和大型企業(5000–10000+員工)。數據科學專家在小型企業中的比例是 65%,中型企業和大型企業中分別是 16.47% 和 18.22% 。
因此,大部分數據科學專家位于小型企業(1-499名員工)和超大型企業(10000+名員工),兩者的份額之和為 79%,其余 21% 的份額位于其他企業(500-9999名員工)。因此,數據科學專家要么在小型企業工作,要么在超大型企業工作。
與 2011-2013年相比,2016-2018年期間,小型企業的數據科學專家份額有所上升,而中型和大型企業的數據科學專家份額有所下降。
下面可能是它發生的潛在原因:
到 2016年,數據科學已經出現了面向未來的新技術。因此,現有的小型企業開始聘請越來越多的數據科學專家,就像大型企業在 2011-2013年所做的那樣,以便處理和保存不斷增長的數據,并能在各自的業務中做出明智的決策。
由于數據科學對全球各個行業都產生了巨大的影響,具備處理各行業數據科學需求能力的新的初創企業或小型公司紛紛涌現出來,它們聘請了具有數據科學技能的高素質專業人才。這些初創企業愿意為數據科學專家提供高待遇,因為這些小型組織知道,他們將從這些招聘中獲得回報和收益,因為數據會以指數方式增長,對數據的服務的處理、保存和理解的需求也將增加,從長遠來看會使小型企業受益匪淺。這導致了與 2011-2013年相比的小型企業中數據科學專家數量的增加。
自 2016-2018年以來,小型企業的數據科學專家份額逐年上升,而中型和大型企業的數據科學專家的比例有所下降。
7.近年來,不同規模的企業在數據科學領域的增長趨勢是什么?
以下是2011-2013年的觀察結果:
從上面的圖形,我們可以得到以下結論:
1) 2011年,初創企業(1-25人)和大型企業(1000+員工)在 4個類別中排名墊底,而到了 2013年,他們排名前兩位。
2) 類似地,2011年,成熟的小企業(25 - 100員工的)和中型企業(100 - 999)在 4個類別中排名前 2,而到了 2013年,他們排名墊底。
3) 因此,幾年間初創企業(1-25人)和大型企業(1000+人)的數據科學專家所占份額呈上升趨勢,而中型企業(25-100人)和成熟小企業(100-999人)的數據科學專家所占份額呈下降趨勢。
大型企業擁有更多數據科學專家的一個潛在原因是,大型企業在投入研究和開發,并對未來幾年將更有生產力、更高效和更廣泛應用的技術抱有愿景。
由于大型企業已經知道每天的數據創造量呈指數級增長,他們雇傭了更多的數據科學專家,以便更好地處理和保存數據,并在各個業務中做出明智的決策。
另一方面,很少有初創企業是由一群預見到數據科學成為未來技術的潛力的志同道合的人創辦,并在 2011年至 2013年期間開始聘用數據科學專家。中型企業也聘用了數據科學專家,但專家的數量出現了上下波動。
此外,在 2011-2013年期間,數據科學專家的數量要少得多。因此,大型企業對罕見的擁有數據科學技能的數據科學專家的負擔能力更強。初創企業或許可能是由數據科學專家自己創辦的,因此他們不得不聘請志同道合的數據專家加入。因此,大型企業和初創企業的數據科學專家數量有所增加。
此外,與其他規模企業相比,大型企業擁有龐大的數據,大型企業對數據科學專家的需求比其他規模企業更大,從而雇傭的數據科學專家比其他規模企業更多。而對于初創企業來說,由于他們的形成只是由于未來數據科學的巨大潛力,所以更多的數據科學專家被雇到初創企業中。
以下是2016-2018年的觀察結果:
從上面的可視化圖中,我們可以觀察得到以下結論:
1) 小型企業(0-9,10-19,20-99,100-499人)呈逐年上升趨勢,中型企業(500-999,1000-4999)、大型企業(5000-9999,10000+)呈逐年下降趨勢。因此,從 2016-2018年開始,小型企業(1-499人)的數據科學專家數量在不同規模企業中所占的比例逐年上升,而中型企業(500-4999人)和大型企業(5000-10000 +員工)的數據科學專家所占比例逐年下降。
2) 2016-2018年間,超大型企業(10000+員工)在不同規模企業數據科學專家所占比例中每年都處于前 4 位。
因此,2016-2018年間,小型企業(0-499名員工)和超大型企業(10000+名員工)的數據科學專家數量在不同規模企業的總和中占有最多比例。
總結
因此,綜合所有問題的答案,根據 2011-2018年 Stack Overflow survey 的數據,我們可以得到:
隨著數據以驚人的速度增長,明智的選擇是注意這一點 —— 不可以忽視數據革命。
在數據高速增長的背景下,對數據科學專家的需求也在快速增長,但根據每個國家和行業的需求、地理位置和市場的不同,其增長速度也不同。
數據科學專家主要分布在美國,接著是印度、德國、英國、加拿大等其他國家。
幾乎所有行業都在或多或少地使用數據科學,而其主要應用在軟件產品、金融和銀行業、咨詢、醫療和教育等行業。
到2018年底,不同規模的企業中,小型企業(0-499名員工)和特大型企業(10000多名員工) 的數據科學專家所占份額最大。
雖然在某一時刻,數據爆炸可能會開始放緩,但事實是企業和消費者每天每秒都在不斷地創造新的信息。企業需要創建、存儲、管理和分析手邊的大量數據,對于所有行業來說,這都提供了數據科學項目的業務需求。
-
大數據
+關注
關注
64文章
8884瀏覽量
137423 -
數據科學
+關注
關注
0文章
165瀏覽量
10054
原文標題:關于數據科學的趨勢和前景,這里有你想了解的信息
文章出處:【微信號:TheBigData1024,微信公眾號:人工智能與大數據技術】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論