編者按:斯克里普斯研究所數(shù)據(jù)科學(xué)家Michael Galarnyk討論了數(shù)據(jù)科學(xué)作品集應(yīng)該包括哪些內(nèi)容,如何提高作品集的吸引力等問題。
作品集是表明你是一頭數(shù)據(jù)科學(xué)獨(dú)角獸的方式
如何找到一份數(shù)據(jù)科學(xué)的工作?了解足夠多的統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、編程等知識(shí),仍然不容易找到工作。我發(fā)現(xiàn)不少人可能具備了得到工作所需的技能,但沒有作品集。盡管簡(jiǎn)歷很重要,作品集(你的數(shù)據(jù)科學(xué)技能的公開證明)對(duì)找工作幫助極大。即使你有推薦人,能夠向潛在雇主表明你能做什么,而不是僅僅告訴他們你可以做什么,仍然是很重要的。本文包含一些鏈接,其中許多數(shù)據(jù)科學(xué)的職業(yè)人士(數(shù)據(jù)科學(xué)管理者、數(shù)據(jù)科學(xué)家、社區(qū)大拿)及其他一些人談?wù)撟髌芳瘧?yīng)該包括什么,如何吸引注意力。讓我們開始吧。
作品集的重要性
準(zhǔn)備作品集的過程本身可以讓你學(xué)到東西,同時(shí)作品集還能幫你找到工作。從本文的主題出發(fā),讓我們將作品集定義為你的數(shù)據(jù)科學(xué)技能的公開證據(jù)。這一定義來自于Mode Analytics blog的Marissa Gemma對(duì)DataCamp首席數(shù)據(jù)科學(xué)家David Robinson的訪談。David提到他是如何找到第一份工作的:
對(duì)我而言,最有效的策略是公開作品。我博士后期寫了一些博客,做了許多開源項(xiàng)目的開發(fā),這些有助于為我提供數(shù)據(jù)科學(xué)技能的公開證明。但我得到我在業(yè)界的第一份工作是一個(gè)特別明顯的公開作品的例子。在我的博士期間,我在StackExchange系列網(wǎng)站很活躍,然后StackExchange的一個(gè)工程師搜到我的一個(gè)回答(一個(gè)解釋貝塔分布背后直覺的回答)。他對(duì)這一回答印象非常深刻,通過Twitter聯(lián)系了我,經(jīng)過幾輪面試,我最終入職StackExchange.
你也許覺得這不過是一個(gè)孤例,但是你可能常常發(fā)現(xiàn),你越活躍,碰到類似這樣的事情的概率就越大。正如David在自己的博客上所寫:
你做的公開工作越多,這樣的異常事件出現(xiàn)的概率就越大:有人注意到你的工作并向你推薦工作機(jī)會(huì),或者正在面試你的某人聽說過你做的工作。
人們經(jīng)常忘記軟件工程師和數(shù)據(jù)科學(xué)家同樣會(huì)google他們的問題。如果某些人通過查看你的公開作品解決了他們的問題,他們可能對(duì)你評(píng)價(jià)更高,并聯(lián)系你。
作品集可以滿足對(duì)經(jīng)驗(yàn)的要求
即使是初級(jí)職位,大部分公司也想要招至少有一點(diǎn)實(shí)際經(jīng)驗(yàn)的人。你可能看過類似下面的meme:
(譯文:初級(jí)職位開放招聘:面向畢業(yè)生。要求:5年經(jīng)驗(yàn),6塊奧林匹克金牌,具有超能力。)
問題在于,如果你需要經(jīng)驗(yàn)獲得第一份工作,你如何獲得經(jīng)驗(yàn)?如果這個(gè)問題有答案的話,那么答案是項(xiàng)目。項(xiàng)目也許是工作經(jīng)驗(yàn)的最佳替代品,正如Will Stanton所說:
如果你沒有任何數(shù)據(jù)科學(xué)家的經(jīng)驗(yàn),那么你絕對(duì)需要進(jìn)行獨(dú)立項(xiàng)目。
事實(shí)上,當(dāng)Jonathan Nolis面試候選人的時(shí)候,他想要聽?wèi)?yīng)聘者描述最近的問題/項(xiàng)目:
我想要聽聽他最近做的一個(gè)項(xiàng)目。我會(huì)問他項(xiàng)目是怎么開始的,他如何確定值得為這個(gè)項(xiàng)目付出時(shí)間和精力,過程,結(jié)果。我也會(huì)問他從項(xiàng)目中學(xué)到了什么。我從這個(gè)問題的答案中獲取了很多信息:他是否可以講好一個(gè)故事,談?wù)勥@一問題與大局的關(guān)系,說說他是如何處理其中碰到的難點(diǎn)的。
如果你沒有數(shù)據(jù)科學(xué)的相關(guān)工作經(jīng)驗(yàn),最好的選擇是談?wù)勀阕罱龅囊粋€(gè)數(shù)據(jù)科學(xué)項(xiàng)目。
列入作品集的項(xiàng)目類型
數(shù)據(jù)科學(xué)是如此廣闊的一個(gè)領(lǐng)域,很難知道招聘人員想看到什么樣的項(xiàng)目。Quora的數(shù)據(jù)科學(xué)管理者,William Chen在Kaggle的CareerCon 2018上發(fā)表了他的意見(youtu.be/xrhPjE7wHas):
我喜歡那些以超出家庭作業(yè)水準(zhǔn)的方法,體現(xiàn)了對(duì)數(shù)據(jù)的興趣的項(xiàng)目。任何課程的大作業(yè),你探索了一個(gè)有趣的數(shù)據(jù)集,找到了有趣的結(jié)果……在寫作部分用點(diǎn)心……我真的很喜歡看到找到有趣、新穎的東西的好文章……包括用一些可視化方法分享他們的工作。
很多人意識(shí)到了創(chuàng)建項(xiàng)目的價(jià)值,但很多人碰到的問題是從哪里得到有趣的數(shù)據(jù)集,得到之后做什么。Airbnb的數(shù)據(jù)科學(xué)家Jason Goodman,在他的博客文章Advice on Building Data Portfolio Projects(創(chuàng)建數(shù)據(jù)科學(xué)作品集項(xiàng)目的建議)中談?wù)摿嗽S多不同的項(xiàng)目創(chuàng)意,并且給出了應(yīng)該使用哪類數(shù)據(jù)集的良好建議。他的觀點(diǎn)與William一致,要使用有趣的數(shù)據(jù)。
我發(fā)現(xiàn)最好的作品集項(xiàng)目更偏重處理有趣的數(shù)據(jù),而不是進(jìn)行酷炫的建模。許多人基于財(cái)經(jīng)數(shù)據(jù)或Twitter數(shù)據(jù)做一些事;這樣不是不行,但是數(shù)據(jù)內(nèi)在地沒有那么有趣,所以你是在爬坡。
他博客文章中的另一個(gè)觀點(diǎn)是抓取網(wǎng)頁是獲取有趣數(shù)據(jù)的很好的方式。如果你對(duì)通過Python抓取網(wǎng)頁構(gòu)建你自己的數(shù)據(jù)集感興趣,可以看看我之前的文章。如果你來自學(xué)術(shù)界,那么你提出的理論可以算是非常大的一個(gè)項(xiàng)目。William Chen在之前提到的視頻中談到了這一點(diǎn)。
Social Good Project的交通巡航數(shù)據(jù)科學(xué)
城市交通量的很大一部分來自尋找停車場(chǎng)的司機(jī),還有等待乘客或趕去接乘客上車的司機(jī)。這些駕駛模式統(tǒng)稱為交通巡航(traffic cruising),它們是造成西雅圖市區(qū)擁堵的重要原因。Social Good Project的交通巡航數(shù)據(jù)科學(xué)項(xiàng)目,是我個(gè)人覺得很有意思的一個(gè)項(xiàng)目。當(dāng)然還有許多有意思的項(xiàng)目。
不要列入作品集的項(xiàng)目類型
很多人都建議,不要在作品集中包含老套的項(xiàng)目。
Jeremie Harris在The 4 fastest ways not to get hired as a data scientist(應(yīng)聘數(shù)據(jù)科學(xué)家失敗的4種最快方法)中寫道:
突出你在微不足道的概念證明類數(shù)據(jù)集上做的個(gè)人項(xiàng)目,我覺得很難想到比這更快的讓你的簡(jiǎn)歷被扔到“絕對(duì)不招”那一堆的方法了。
如果你不清楚我說的是什么樣的數(shù)據(jù)集的話,那下面是一些給你帶來的傷害遠(yuǎn)大于給你的幫助的項(xiàng)目:
泰坦尼克數(shù)據(jù)集上的存活分類
MNIST數(shù)據(jù)集上的手寫數(shù)字識(shí)別
iris數(shù)據(jù)集上的花的種類識(shí)別
使用這些數(shù)據(jù)集的話,你沒有太多在應(yīng)聘者中脫穎而出的方法。確保列出新穎的項(xiàng)目。
泰坦尼克(A)、MNIST(B)、iris(C)分類
迭代作品集
Favio Vazquez寫過一篇出色的博客,談?wù)撍侨绾潍@得一份數(shù)據(jù)科學(xué)家工作的。當(dāng)然,他的其中一條建議就是要有一個(gè)作品集。
要有一個(gè)作品集。如果你正找一份嚴(yán)肅、有償?shù)臄?shù)據(jù)科學(xué)工作,那就在真實(shí)數(shù)據(jù)上進(jìn)行一些項(xiàng)目。如果可以,把它們發(fā)到GitHub上。除了Kaggle競(jìng)賽,尋找你熱愛的東西,或者你想要解決的問題,并使用你的知識(shí)進(jìn)行你的項(xiàng)目。
Favio的另一項(xiàng)有意思的發(fā)現(xiàn)是,在找工作的過程中,你應(yīng)該不斷提升自己。
我大約申請(qǐng)了125份工作(老實(shí)說,也許你申請(qǐng)的更多),最終只有25-30個(gè)申請(qǐng)得到了回復(fù),而其中一些回復(fù)不過是:謝謝,但很抱歉…… 在大約15次面試的機(jī)會(huì)中,我多少都學(xué)到了一些東西并提升了自己。雖然不得不應(yīng)對(duì)大量拒絕,但是我挺喜歡面試的過程(坦率地說,不是所有面試都喜歡)。在整個(gè)求職過程中,我堅(jiān)持每天編程,閱讀了很多文章,這些都很有幫助。
當(dāng)你學(xué)到更多東西,自我得到了提升,你的作品集也應(yīng)該更新。其他許多文章也給出了類似的建議。正如Jason Goodman所說:
公開發(fā)布項(xiàng)目并不意味著項(xiàng)目完結(jié)了。在發(fā)布之后,要勇于持續(xù)不斷地增補(bǔ)和編輯。
當(dāng)你找工作時(shí),這條建議尤其正確。有很多成功的故事,比如Airbnb的數(shù)據(jù)科學(xué)家Kelly Peng,她在找工作的過程中不斷提升自己。她的一篇博客統(tǒng)計(jì)了申請(qǐng)和面試的數(shù)量:
求職申請(qǐng):475次
電話面試:50次
完成take-home challenge:9次
現(xiàn)場(chǎng)面試:8次
offer:2家
求職用時(shí):6個(gè)月
很明顯,她申請(qǐng)了很多工作,并堅(jiān)持不懈。她的文章甚至提到如何從面試經(jīng)歷中持續(xù)學(xué)習(xí)。
記錄你被問到的所有面試題,尤其是你沒回答上來的問題。你可以再次失敗,但不要在同一地點(diǎn)失敗。你應(yīng)該不斷學(xué)習(xí)并有所提高。
“如果你還沒得到面試機(jī)會(huì),提交更多的申請(qǐng),持續(xù)尋找學(xué)習(xí)和提升的方法。”
在一頁簡(jiǎn)歷中收錄作品集
找到你的作品集的途徑之一是你的簡(jiǎn)歷。所以我們來說說簡(jiǎn)歷。一份數(shù)據(jù)科學(xué)簡(jiǎn)歷應(yīng)該聚焦于你的技術(shù)能力。簡(jiǎn)歷為你提供了一個(gè)簡(jiǎn)潔地體現(xiàn)資質(zhì)、顯示你適合特定職位的機(jī)會(huì)。招聘人員會(huì)非常快速地瀏覽簡(jiǎn)歷,你僅僅有很短的時(shí)間留下印象。完善你的簡(jiǎn)歷可以增加你獲得面試機(jī)會(huì)的幾率。你需要確保簡(jiǎn)歷的每個(gè)部分、每一行都是有效的。
Quora的數(shù)據(jù)科學(xué)管理人員William Chen就制作數(shù)據(jù)科學(xué)簡(jiǎn)歷提出了9條建議(youtu.be/xrhPjE7wHas)。下面我將簡(jiǎn)要地總結(jié)這9條建議,其中和項(xiàng)目、作品集有關(guān)的是第6、7、8條,也許第9條也可以算。
篇幅:將篇幅控制在一頁以內(nèi),使用單欄布局,這樣便于快速瀏覽。
目標(biāo):簡(jiǎn)歷中不要包含“目標(biāo)”。它并不能讓你脫穎而出,而且會(huì)擠占更重要的東西(技能、項(xiàng)目、經(jīng)驗(yàn)等)的空間。一般不需要寫求職信,除非你的求職信非常有個(gè)性。
課程:列出和工作描述相關(guān)的課程。
技能:不要給你的技能打分。如果你想要評(píng)價(jià)你的技能,使用熟練、熟悉之類的詞匯。你甚至完全可以不寫評(píng)價(jià)。
不要使用量化評(píng)分
技能:列出工作描述中提到的技能。你可以按照擅長(zhǎng)程度排列技能。
項(xiàng)目:不要寫上老套的項(xiàng)目或者家庭作業(yè)類的項(xiàng)目。它們無法讓你脫穎而出。列出新穎的項(xiàng)目。
老套的項(xiàng)目
項(xiàng)目:列出結(jié)果和鏈接。如果你參加的是Kaggle競(jìng)賽,列出百分比排名可以幫助閱讀你簡(jiǎn)歷的人了解你在競(jìng)爭(zhēng)中所處的位置。永遠(yuǎn)別忘了加上相應(yīng)的博客文章或論文的鏈接,這些有助于招聘人員深入了解你的項(xiàng)目(優(yōu)先列出處理真實(shí)世界的復(fù)雜問題的項(xiàng)目,你從中學(xué)到新東西的項(xiàng)目)。
好的例子
注意,上圖中第二份簡(jiǎn)歷作者列出了一個(gè)額外的鏈接,指向他的博客(more at ...),這是在簡(jiǎn)歷中列入作品集的一種方法。
作品集:填上你在網(wǎng)絡(luò)站點(diǎn)的活動(dòng)。最基本的是LinkedIn頁面,它有點(diǎn)類似簡(jiǎn)歷擴(kuò)展。GitHub和Kaggle頁面可以展示你的作品。你也可以加上其他站點(diǎn)的鏈接。你可以寫上關(guān)于你的GitHub倉(cāng)庫的描述。加上你分享知識(shí)的站點(diǎn)的鏈接(medium,quora)。數(shù)據(jù)科學(xué)正是一個(gè)關(guān)于分享知識(shí)和向其他人溝通數(shù)據(jù)意味著什么的行業(yè)。你不必加上上面所有的內(nèi)容,但是選擇一些列在你的簡(jiǎn)歷上是很有必要的(后文將繼續(xù)討論這些站點(diǎn))。
經(jīng)驗(yàn):根據(jù)工作列出你的經(jīng)驗(yàn)。經(jīng)驗(yàn)是簡(jiǎn)歷的核心,不過如果你沒有工作經(jīng)驗(yàn),你應(yīng)該怎么做?列出你的獨(dú)立項(xiàng)目,比如頂點(diǎn)項(xiàng)目(capstone project,譯者注,一些院校為學(xué)生開設(shè)的應(yīng)用所學(xué)于實(shí)際工作的項(xiàng)目),獨(dú)立研究,理論工作,Kaggle競(jìng)賽。如果你沒有工作經(jīng)驗(yàn),這些可以作為替代。避免在簡(jiǎn)歷中加上無關(guān)的工作經(jīng)驗(yàn)。
如果你想了解數(shù)據(jù)科學(xué)管理人員是如何審閱作品集和簡(jiǎn)歷的,可以看下Kaggle的CareerCon 2018上的視頻:
視頻:youtu.be/kBR0EtGOkzc
審閱的簡(jiǎn)歷:https://drive.google.com/drive/folders/1hqrBBZAxnhckto-gU1EKtXeesmtQqX9i
社交媒體的重要性
這一節(jié)的性質(zhì)與上一節(jié)類似。GitHub頁面、Kaggle頁面、Stack Overflow頁面等可以支持你的簡(jiǎn)歷。列上網(wǎng)絡(luò)頁面對(duì)招聘人員來說是一個(gè)良好的信號(hào)。
正如David Robinson所說:
通常而言,當(dāng)我評(píng)估候選人時(shí),我很樂意看看他們公開分享的東西,即使分享的東西沒有經(jīng)過精心打磨或者并未完成。分享一些東西幾乎總是比什么都不分享要好。
Will Stanton指出了數(shù)據(jù)科學(xué)家喜歡看到這些的原因:
數(shù)據(jù)科學(xué)家使用這些工具分享他們自己的作品,尋找問題的答案。如果你使用這些工具,那么你正向數(shù)據(jù)科學(xué)家發(fā)送信號(hào):你是其中一員,即使你并沒有作為數(shù)據(jù)科學(xué)家工作過。
數(shù)據(jù)科學(xué)很大一部分是關(guān)于溝通和展示數(shù)據(jù),所以這些網(wǎng)絡(luò)頁面是很有用的。這些平臺(tái)除了可以展示你的經(jīng)驗(yàn),同時(shí)也能幫助你引起注意,讓別人發(fā)現(xiàn)你的簡(jiǎn)歷。人們確實(shí)通過多種渠道在網(wǎng)上找到你的簡(jiǎn)歷(LinkedIn、GitHub、Twitter、Kaggle、Medium、Stack Overflow、Tableau Public、Quora、Youtube等)。你甚至?xí)l(fā)現(xiàn)這些網(wǎng)站可以互相補(bǔ)充。
GitHub
(上為Jennifer Bryan和Yuan (Terry) Tang的GitHub頁面)
GitHub頁面是體現(xiàn)你能力的強(qiáng)有力的信號(hào)。在簡(jiǎn)歷的項(xiàng)目部分,人們經(jīng)常留下他們所寫的代碼的GitHub鏈接。你也可以在GitHub上放上你寫的文檔和markdown。GitHub讓人們查看你創(chuàng)建的項(xiàng)目,以及你是如何創(chuàng)建它的。在一些公司,招聘人員會(huì)查看申請(qǐng)人的GitHub。這是向雇主顯示你不是假陽性樣本的另一種方式。如果你在GitHub上花上一些時(shí)間,你可以比別人得到更好的評(píng)價(jià)。
值得一提的是,你需要README.md之類的東西描述你的項(xiàng)目,因?yàn)閿?shù)據(jù)科學(xué)的很大一部分在于溝通結(jié)果。確保README.md文件清除地描述了你的項(xiàng)目是什么,你的項(xiàng)目做什么,以及如何運(yùn)行你的代碼。
Kaggle
參加Kaggle競(jìng)賽,創(chuàng)建核(kernel),參與討論都是展示你作為數(shù)據(jù)科學(xué)家的能力的方式。需要強(qiáng)調(diào)的是,正如Colleen Farrelly在一個(gè)quora問答中指出的,Kaggle和業(yè)界的項(xiàng)目不一樣。Kaggle競(jìng)賽是處理好的任務(wù),為你獲取數(shù)據(jù),同時(shí)為你清洗數(shù)據(jù)至可用的格式。Kaggle競(jìng)賽讓你實(shí)踐數(shù)據(jù)分析,設(shè)計(jì)模型。Reshama Shaikh寫過一篇要不要參加Kaggle競(jìng)賽的文章,其中提到了Kaggle競(jìng)賽的價(jià)值:
沒錯(cuò),參加Kaggle競(jìng)賽并不能證明你勝任數(shù)據(jù)科學(xué)家的工作。參加一門課程、出席一次會(huì)議、分析一個(gè)數(shù)據(jù)集、閱讀一本數(shù)據(jù)科學(xué)的書也不能。參加競(jìng)賽增加了你的經(jīng)驗(yàn),增強(qiáng)了你的作品集。它是你其他項(xiàng)目的補(bǔ)充,而不是數(shù)據(jù)科學(xué)技能集的唯一證明。
同樣,許多Kaggle宗師持續(xù)參加Kaggle競(jìng)賽也是有理由的。
不像簡(jiǎn)歷那樣受篇幅所限,LinkedIn頁面讓你可以更詳細(xì)地描述你的項(xiàng)目和工作經(jīng)驗(yàn)。Udacity有一篇完善LinkedIn頁面的指南(How to Stand Out on LinkedIn)。LinkedIn的一個(gè)重要部分是它們的搜索工具,為了能夠在搜索結(jié)果中出現(xiàn),你的個(gè)人頁面必須要有相關(guān)的關(guān)鍵詞。招聘人員常常在LinkedIn上找人。LinkedIn可以讓你查看哪些公司曾經(jīng)搜過你,哪些公司看過你的個(gè)人頁面。
除了便于公司搜索到你,LinkedIn同時(shí)提供了許多其他特性,例如請(qǐng)求推薦。Jason Goodman在他的文章Advice on Applying to Data Science Jobs(申請(qǐng)數(shù)據(jù)科學(xué)工作的建議)中提到,使用LinkedIn間接請(qǐng)求推薦:
我從未,從來沒有在沒有內(nèi)推的情況下申請(qǐng)任何一家公司……一旦我對(duì)某家公司感興趣,我就用LinkedIn查找在那家公司的一度聯(lián)系人或二度聯(lián)系人。我會(huì)給他發(fā)消息,請(qǐng)他談下在那家公司工作的體驗(yàn),以及,如果可能的話,是否可以幫我聯(lián)系數(shù)據(jù)科學(xué)團(tuán)隊(duì)中的某人。只要有可能,我會(huì)和他面談(咖啡或午飯)而不是通過電話。順便提下,Trey Causey最近寫了一篇關(guān)于如何請(qǐng)求這類會(huì)面的文章。我不會(huì)直接請(qǐng)求工作,但他們通常會(huì)問我的簡(jiǎn)歷,或者幫我內(nèi)推,或者把我介紹給想要招人的主管。如果他們看起來不樂意做這些……我會(huì)直接感謝他們抽出時(shí)間見我,然后進(jìn)行下個(gè)日程。
注意他沒有直接請(qǐng)求內(nèi)推。盡管常見的應(yīng)聘建議說申請(qǐng)工作時(shí)要找內(nèi)推,非常重要的是你仍然需要作品集,經(jīng)驗(yàn),或勝任工作的某種證明。Jason甚至在上面的文章中提到了作品集的重要性,他寫的另一篇文章也提到了這點(diǎn)。
在面試了多家AI公司之后,Aman Dalmia領(lǐng)悟到了類似的道理:
網(wǎng)絡(luò)不是給人發(fā)消息,讓人給你內(nèi)推。我剛開始常犯這個(gè)錯(cuò)誤,直到我讀到了Mark Meloon的文章Climbing the Relationship Ladder to Get a Data Science Job,其中他提到了建立真正的聯(lián)系的關(guān)鍵在于首先提供幫助。
他提到的另一點(diǎn)是LinkedIn可以幫你推廣你的內(nèi)容/作品集。
網(wǎng)絡(luò)的另一個(gè)關(guān)鍵步驟是推廣你的內(nèi)容。例如,如果你擅長(zhǎng)某事,寫關(guān)于它的博客,然后在Facebook和LinkedIn上分享。它不僅幫助其他人,它也可以幫助你。
Medium和其他博客平臺(tái)
有某種形式的博客極有幫助。數(shù)據(jù)科學(xué)很大一部分是關(guān)于溝通和展示數(shù)據(jù)。寫博客是練習(xí)這一技能的方式,也是展示你勝任這一技能的方式。描述一個(gè)項(xiàng)目或者一個(gè)數(shù)據(jù)科學(xué)主題讓你可以和社區(qū)分享你的心得,同時(shí)鼓勵(lì)你寫下進(jìn)展和想法。這是面試時(shí)用的到的技能。
正如David Robinson所言:
寫博客是你練習(xí)相關(guān)技能的好機(jī)會(huì)。
數(shù)據(jù)清洗:處理多種多樣的數(shù)據(jù)集的一大益處是你學(xué)習(xí)處理“原始”數(shù)據(jù),也許它是期刊文章的附件,或者電影字幕。
統(tǒng)計(jì)學(xué):處理不熟悉的數(shù)據(jù)讓你有機(jī)會(huì)將統(tǒng)計(jì)學(xué)方法應(yīng)用于實(shí)踐之中,撰寫溝通和傳授概念的博客幫助你建立自己的理解。
機(jī)器學(xué)習(xí):使用過一次某個(gè)預(yù)測(cè)算法和將其應(yīng)用到多種問題上有著很大的區(qū)別,這需要你理解你為什么選擇一種算法,不選擇另一種。
可視化:你制作的圖形能讓人看到,會(huì)鼓勵(lì)你開始完善它們,乃至建立你自己的風(fēng)格。
溝通:你獲得了寫作的經(jīng)驗(yàn),聯(lián)系如何結(jié)構(gòu)化數(shù)據(jù)驅(qū)動(dòng)的主張。這也許是和寫博客最相關(guān)的技能,因?yàn)樗茈y通過其他途徑練習(xí)。并且,它是任何數(shù)據(jù)科學(xué)職位不可或缺的部分。
通過撰寫博客,你可以練習(xí)和其他人交流你的發(fā)現(xiàn)。同時(shí)這也是另一種推廣自己的形式。我以前寫的博客使用Scrapy自建數(shù)據(jù)集和Python Environment Management with Conda(基于Conda管理Python環(huán)境)讓我學(xué)到了很多東西,也讓我得到了許多通常得不到的機(jī)會(huì)。我發(fā)現(xiàn)寫博客的一個(gè)主要好處是,人們通過博客的評(píng)論指出我的項(xiàng)目的問題,并向我提出改進(jìn)的建議,這樣,就不用等到面試中,讓面試人員指出我的缺陷和問題了。另一個(gè)更明顯的好處是,在寫博客的過程中,你通常需要閱讀大量關(guān)于數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)方面的博客文章,并在此過程中學(xué)到很多東西。
至于博客的平臺(tái),我推薦使用Medium。Manali Shinde在她的博客文章How to Construct a Data Science Portfolio from Scratch(如何從頭開始構(gòu)建數(shù)據(jù)科學(xué)作品集)中給出了一個(gè)很好的選擇Medium寫博客的理由:
我也想過基于WordPress或Squarespace之類的工具創(chuàng)建自己的網(wǎng)站。盡管使用這些平臺(tái)來托管你自己的作品集很棒,但我想要找一個(gè)能夠讓更多人看到的地方,一個(gè)相當(dāng)不錯(cuò)的標(biāo)簽系統(tǒng),能把我的內(nèi)容傳達(dá)給更多人。很幸運(yùn),如我們所知,Medium符合這些條件(并且它是免費(fèi)的)。
如果你知道寫什么,我建議你看下David Robinson的建議。
twitter.com/drob
(譯文:如果同一段代碼寫過3次,寫一個(gè)函數(shù)。如果同樣的建議你給過3次,寫一篇博客。)
多刷刷Twitter,給你提供了認(rèn)識(shí)同一領(lǐng)域的人,乃至和他們互動(dòng)的機(jī)會(huì)。你也可以在Twitter上推廣你的博客,這樣你的作品集就有更多被看到的機(jī)會(huì)。和人在Twitter上互動(dòng)的機(jī)會(huì)很多。Reshama Shaikh寫過一篇很有名的博客First Data Science Job,其中提到:
David Robinson會(huì)很慷慨地轉(zhuǎn)推你的第一篇數(shù)據(jù)科學(xué)文章。一個(gè)超過兩萬關(guān)注者的轉(zhuǎn)推,這是一個(gè)無法抗拒的提議。
除了推廣自己,Twitter還有其他用途。Data Science Renee有一篇文章How to use Twitter to Learn Data Science (or Anything)。這是一篇很有洞察力的關(guān)于如何使用Twitter學(xué)習(xí)技能的文章。當(dāng)然她的文章也提到了Twitter對(duì)她的網(wǎng)絡(luò)和得到機(jī)會(huì)的幫助。
我收到了在播客和博客中受訪的邀請(qǐng)(其中一些很快就要發(fā)表),合同工作的邀請(qǐng),免費(fèi)出席會(huì)議的邀請(qǐng)(很不幸我去不了,但我仍然很興奮能收到邀請(qǐng))。業(yè)界的“知名”人士聯(lián)系我,以某種方式一起合作。
Tableau Public
不是每份數(shù)據(jù)科學(xué)工作都用Tableau之類的BI工具。然而,如果你打算申請(qǐng)的工作要用到這些工具,值得注意的是有網(wǎng)站可以讓你發(fā)布公開的面板(dashboard)。例如,如果你了解Tableau,你可以在Tableau Public上發(fā)布一些面板。盡管很多公司可能允許你在工作中再學(xué)習(xí)Tableau,具備Tableau技能的公開證據(jù)是有幫助的。如果你想查看一些Tableau Public頁面的優(yōu)秀例子,可以看下Orysya Stus和Brit Cava的頁面。
結(jié)語
記住作品集是一個(gè)過程。不斷改進(jìn)
長(zhǎng)期以來,一份漂亮的簡(jiǎn)歷都是向潛在雇主展示你的技能的主要工具。今時(shí)今日,有更多展示技能和得到工作的方式。作為公開證據(jù)的作品集是獲得你通常難以得到的機(jī)會(huì)的一種方法。特別強(qiáng)調(diào),作品集是一個(gè)迭代的過程。隨著你知識(shí)的增長(zhǎng),你的作品集也應(yīng)該隨之更新。永遠(yuǎn)不要停止學(xué)習(xí)和成長(zhǎng)。甚至這篇博客文章本身都會(huì)因?yàn)榉答伜椭R(shí)的增加而更新。如果你想了解一些面試的建議/指南,可以看下Brandon Rohrer的advice on how to survive a data science interview(如何在數(shù)據(jù)科學(xué)面試中幸存的建議),Sadat的interview guide(面試指南),或者Springboard's advice(Springboard的建議)。
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8425瀏覽量
132775 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24740 -
數(shù)據(jù)科學(xué)
+關(guān)注
關(guān)注
0文章
165瀏覽量
10078
原文標(biāo)題:如何打造數(shù)據(jù)科學(xué)作品集
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論