作為一門逐漸成熟的新興領(lǐng)域,與數(shù)據(jù)科學相關(guān)的很多領(lǐng)域開始變得備受青睞,比如數(shù)據(jù)工程,數(shù)據(jù)分析以及機器學習和深度學習。數(shù)據(jù)科學家們必須帶著具有科學性、創(chuàng)造性和研究性的思維,從各路數(shù)據(jù)集中提取有用信息,以解決客戶面臨的潛在挑戰(zhàn)。
生活會不斷衍生出數(shù)據(jù),涉及零售、交通、金融和醫(yī)療健康領(lǐng)域。觸手可及的各類計算產(chǎn)品和人工智能的飛速發(fā)展將一群通過獲取、分析和利用原始數(shù)據(jù)的數(shù)據(jù)科學家們推到了聚光燈下。
2016年,數(shù)據(jù)科學家們選出了在北美洲最受歡迎的50種工作,這份榜單是參考收入潛力、工作滿意度以及在Glassdoor招聘網(wǎng)站上的需求量等各項指標得出的結(jié)果。
所以成為一名數(shù)據(jù)科學家應具備哪些品質(zhì)呢?
為了搞清楚這個問題,我采訪了Ben Chu,他是路孚特實驗室的一名資深數(shù)據(jù)科學家。Chu有人工智能領(lǐng)域的背景,擅長處理語言、語義和圖表,并且在新加坡的路孚特實驗室有著兩年的工作經(jīng)驗。
1.保持好奇
Chu在訪談的一開始就提到,數(shù)據(jù)科學家應該像調(diào)查員一樣思考。你要時刻保持好奇,永遠都想知道“為什么?”“就好像自己是一個偵探,通過這些數(shù)據(jù)拼湊細節(jié)以尋找新的線索。”
在金融界,數(shù)據(jù)科學家們從一系列數(shù)據(jù)集中提取信息,以供客戶參考并幫助制定決策。數(shù)據(jù)科學家們會把目光鎖定在客戶想要解決的問題上面,然后從他們獲得的數(shù)據(jù)中抽絲剝繭,得出線索。
通過和Chu的交談,我領(lǐng)悟到了抓重點的重要性,調(diào)查背景也是很重要的。如果不能解決潛在問題,即使是再完美的分析也無助于此。有時候你需要轉(zhuǎn)回來,嘗試新的方法,重新思考問題。核心在于要保持好奇,愛上提問。
2.有創(chuàng)造力
數(shù)據(jù)科學并不僅僅指一種科學的方法,這個稱號其實會誤導大家。你不一定要有科研背景,但必須有創(chuàng)新性思維——另一種思維是解決問題的關(guān)鍵。
“我經(jīng)常在兩種思維之間來回切換,是通過科學性思維還是創(chuàng)造性思維來探索更多的新的不同的解決方式。有邏輯的、科學的思考對于結(jié)論產(chǎn)出的幫助是必不可少的,但具備創(chuàng)造性思維也同樣重要:我也將成功和失敗的案例視為觀察新模式的線索。”
3.學習如何編碼
你需要扎實的編碼技能,才能預處理不同的數(shù)據(jù)源,并且能夠使用各種數(shù)據(jù)處理技術(shù),來解決棘手或不完整的數(shù)據(jù)。你得能夠創(chuàng)建一個機器學習管道,這要求你知道如何構(gòu)建模型,如何使用工具和框架來評估和分析其性能。
與大多數(shù)數(shù)據(jù)科學家一樣,Chu使用Python,因為里面有許多很贊的包可用于操作和建模數(shù)據(jù)。事實上,GalasWalk在2017的上半年為數(shù)據(jù)科學家提供了10000份招聘信息,發(fā)現(xiàn)Python、R和SQL這三種特殊技能是數(shù)據(jù)科學中大多數(shù)職位空缺的根本原因。
Ben Chu的團隊依賴于開源的機器學習軟件包,如Tensorflow、Pytorch和BERT。
“我們主要將Confluence用作文檔工具;MLFlow、Amazon Sagemaker、Scikit Learn、Tensorflow、PyTorch和BERT用于機器學習;Apache Spark用于在大型數(shù)據(jù)集上構(gòu)建快速數(shù)據(jù)管道;Athena用作處理后數(shù)據(jù)的存儲數(shù)據(jù)庫。我們還使用Superset連接數(shù)據(jù),輕松構(gòu)建儀表板以輸出圖表,使其更直觀。”
4.科學思考
數(shù)據(jù)科學家們會運用不同的工具來管理流程、數(shù)據(jù)、進行注釋和編碼。“我必須十分努力,時刻衡量并追蹤自己的進度,這樣才有機會開展復盤工作,嘗試新的方向,不斷比對結(jié)果。”
“重要的是要時刻秉持科學的原則,在分析時參考相應的數(shù)據(jù),實驗和文獻,以便隨時調(diào)整結(jié)論。我需要把這些資料整理好,所以我會用Notion作為初步保存所有筆記、論文和可視化的基本工具。
Chu強調(diào),不僅要保留目前的調(diào)查記錄,還要保留以前所有調(diào)查結(jié)果的記錄。“這就像是一本數(shù)據(jù)科學日志。每當遇到類似的情況時,我都會把值得參考的要點保存好,下次再遇到問題時可以有指導。”
5.擔心“冒名頂替綜合征”,大可不必
Chu現(xiàn)在是路孚特實驗室的資深數(shù)據(jù)科學家,但他年少時曾想成為一名音樂家,并且對語言特別著迷。“對于我在自然語言處理領(lǐng)域的工作,這需要我對語言學有較深的了解,特別是語義學和語言的細微差別。”
他解釋說,一個數(shù)據(jù)科學團隊需要一系列技能——他和他的同事?lián)碛袕牟煌尘鞍l(fā)展而來的重疊技能。
“你需要的技能將取決于工作領(lǐng)域。比如我需要對金融領(lǐng)域有很好的了解,數(shù)據(jù)分析目前應用于防詐騙領(lǐng)域,通過建立異常檢測方法來檢測交易數(shù)據(jù)中不符合規(guī)范的欺詐‘行為’”。
“像我這樣的數(shù)據(jù)科學家需要懂得如何處理各種孤立的金融數(shù)據(jù)。關(guān)鍵是要建立各種數(shù)據(jù)之間的聯(lián)系,如果不知道它們之間的聯(lián)系的話,就無法建立一個成功的模式。”
做一名計算機科學家或數(shù)學家并不是進入數(shù)據(jù)科學領(lǐng)域的必要條件。沒有人精通所有領(lǐng)域。你可能有法律、經(jīng)濟或科學背景。這些背景決定了你的思考方式。如果能靈活運用各種知識并將其系統(tǒng)化,那么在使用工具、框架和數(shù)據(jù)集時,就能夠熟悉這些工具、框架和數(shù)據(jù)集的細節(jié)。
如何開始
對于那些熱衷于數(shù)據(jù)科學技能的人,Chu提供了一些實用的技巧,這些技巧很容易學會。你可以尋找研究社區(qū),參加網(wǎng)絡(luò)研討會,并在網(wǎng)上尋找找到培訓課程。一旦可以進行當面交流,Chu建議你在數(shù)據(jù)科學領(lǐng)域活躍起來。
“參加會議和編程馬拉松,這將幫助你研究建立一個強大的網(wǎng)絡(luò),讓你有機會說出自己的想法,啟發(fā)研究和回答疑問”。
數(shù)據(jù)科學是一個全新的領(lǐng)域,而且還在處于不斷成熟階段。隨著機器學習和深度學習工程師的出現(xiàn),數(shù)據(jù)科學家、數(shù)據(jù)工程師和數(shù)據(jù)分析員等各種不同的職位也出現(xiàn)了,也許你會發(fā)現(xiàn)自己更適合或者更喜歡另一個職位呢。
一切都在不斷變化之中,永葆好奇心和創(chuàng)造力,繼續(xù)探索吧!
-
編程
+關(guān)注
關(guān)注
88文章
3614瀏覽量
93686 -
數(shù)據(jù)分析
+關(guān)注
關(guān)注
2文章
1445瀏覽量
34050 -
數(shù)據(jù)科學
+關(guān)注
關(guān)注
0文章
165瀏覽量
10053
發(fā)布評論請先 登錄
相關(guān)推薦
評論