數(shù)據(jù)科學(xué)剛剛度過(guò)了它的黃金五年。
自2012年以來(lái),這個(gè)行業(yè)發(fā)展迅速。它幾乎完整經(jīng)歷了Gartner技術(shù)成熟度曲線的每個(gè)階段。
度過(guò)了初期使用階段、有關(guān)AI和偏見(jiàn)的負(fù)面新聞、Facebook等公司的第二三輪風(fēng)投。現(xiàn)在的數(shù)據(jù)科學(xué)正處于高增長(zhǎng)使用階段:即使是銀行、醫(yī)療保健公司和落后市場(chǎng)五年的其他100強(qiáng)企業(yè),也在招聘機(jī)器學(xué)習(xí)中的數(shù)據(jù)科學(xué)崗位。
但現(xiàn)實(shí)正在發(fā)生巨大的變化。
來(lái)自captech基金的資深數(shù)據(jù)科學(xué)家Vicki Boykis發(fā)布了一篇《數(shù)據(jù)科學(xué)不一樣了》的文章,引起了廣泛討論。五年前被譽(yù)為“最性感“職業(yè)的數(shù)據(jù)科學(xué)家,正在進(jìn)入一個(gè)新的階段。
我們?cè)撊绾螒?yīng)對(duì)?一起看看。
大數(shù)據(jù)(還記得Hadoop和Pig嗎?)已經(jīng)出局,R語(yǔ)言的采用率急劇上升,Python在《經(jīng)濟(jì)學(xué)人》雜志中被表?yè)P(yáng)多次,“云”已經(jīng)再次改變了一切。
不幸的是,大眾媒體在數(shù)據(jù)科學(xué)領(lǐng)域的炒作始終沒(méi)有改變。
直到今天,在各類不負(fù)責(zé)任的媒體口中,數(shù)據(jù)科學(xué)家依然是“21世紀(jì)最性感最容易找工作的職業(yè)”。而事實(shí)上,希望進(jìn)入這個(gè)行業(yè)的初級(jí)數(shù)據(jù)科學(xué)家已經(jīng)供過(guò)于求,他們一旦獲得夢(mèng)寐的“數(shù)據(jù)科學(xué)家”稱號(hào)后,實(shí)際展現(xiàn)出來(lái)的能力并不能達(dá)到預(yù)期的那樣。
新數(shù)據(jù)科學(xué)家的供過(guò)于求
首先,我們來(lái)談?wù)劤跫?jí)數(shù)據(jù)科學(xué)家的供過(guò)于求。
圍繞數(shù)據(jù)科學(xué)的持續(xù)媒體炒作極大地提高了過(guò)去五年市場(chǎng)上的初級(jí)人才數(shù)量。
這純粹是傳聞,你大可不必相信。但是,基于我參與篩選簡(jiǎn)歷、做剛?cè)腴T(mén)的數(shù)據(jù)科學(xué)家的導(dǎo)師、做采訪者和受訪者以及與處于類似職位的朋友和同事們的對(duì)話的經(jīng)歷,可以初步感受到,每個(gè)數(shù)據(jù)科學(xué)職位而言,特別是入門(mén)級(jí)的職位,候選人都已經(jīng)從20個(gè)增加到100個(gè)或更多。
我最近和一個(gè)朋友談話,他的一個(gè)開(kāi)放職位收到了500份簡(jiǎn)歷。
這并不奇怪。更多的傳聞是來(lái)自像機(jī)器學(xué)習(xí)教父吳恩達(dá)的職位空缺,他的AI創(chuàng)業(yè)公司每周要求70-80小時(shí)的工作時(shí)間。
即便如此,他依然收到了很多人試圖免費(fèi)為他志愿工作。截止到目前,據(jù)他所說(shuō),他的辦公室已經(jīng)全部坐滿。
正確估計(jì)市場(chǎng)供需當(dāng)然不容易,但Wired的一篇文章可以提供一些線索:
”對(duì)2018年4月份招聘廣告的研究發(fā)現(xiàn),美國(guó)有超過(guò)10000個(gè)職位空缺,面向有人工智能或機(jī)器學(xué)習(xí)技能的人。“
文章繼續(xù)表明:
”超過(guò)10萬(wàn)人開(kāi)始學(xué)習(xí)Fast.ai提供的深度學(xué)習(xí)課程,F(xiàn)ast.ai是一家專注于擴(kuò)大人工智能應(yīng)用的創(chuàng)業(yè)公司?!?/p>
讓我們做一道簡(jiǎn)單的數(shù)學(xué)題。
假設(shè)MOOC(慕課)的平均完成率約為7%,那意味著,這一年會(huì)有7000人可以填補(bǔ)這10000個(gè)工作崗位。這一年如此,但明年又如何呢?我們是否假設(shè)數(shù)據(jù)科學(xué)的就業(yè)率穩(wěn)定?如果是這樣,數(shù)據(jù)科學(xué)的就業(yè)市場(chǎng)看起來(lái)就會(huì)縮小很多。
我們?cè)賮?lái)看一項(xiàng)更廣泛的研究,LinkedIn表示市場(chǎng)上缺少151,717個(gè)具有數(shù)據(jù)科學(xué)技能的人才。雖然目前還不清楚這是指數(shù)據(jù)科學(xué)家還是僅具有部分技能的人,但我們假設(shè)是前者。那樣的話,該國(guó)數(shù)據(jù)科學(xué)家有150000個(gè)職位空缺。
鑒于有100000人已經(jīng)開(kāi)始了數(shù)據(jù)科學(xué)課程,我們假設(shè)其中有7000人能完成課程。
但是,這些數(shù)字還都沒(méi)有考慮到所有創(chuàng)造新的數(shù)據(jù)科學(xué)候選人的計(jì)劃和途徑:有像Coursera這樣的Fast.ai之外的MOOC,有超過(guò)10個(gè)像Metis和GA(General Assembly)這樣的每季度25人參加的全國(guó)性訓(xùn)練營(yíng),還有像加州大學(xué)洛杉磯分校等地的遠(yuǎn)程學(xué)位——分析和數(shù)據(jù)科學(xué)的學(xué)士學(xué)位,YouTube等,還有大量無(wú)法在極其緊張的就業(yè)市場(chǎng)找到工作、正從學(xué)術(shù)界轉(zhuǎn)向數(shù)據(jù)科學(xué)的博士們。
這里有第三個(gè)確鑿證據(jù),來(lái)自PWC,它指出2015年數(shù)據(jù)科學(xué)家有4萬(wàn)個(gè)職位空缺。它還從總體上估計(jì),認(rèn)為分析技能的市場(chǎng)供應(yīng)(再次說(shuō)明,它比數(shù)據(jù)科學(xué)范圍更大,但也是一個(gè)比較點(diǎn))到2018年將會(huì)使市場(chǎng)過(guò)度擁擠。
將此與數(shù)百個(gè)數(shù)據(jù)科學(xué)課程的訓(xùn)練營(yíng)相結(jié)合,如果有人要進(jìn)入某個(gè)行業(yè),你將看到一場(chǎng)大風(fēng)暴。
根據(jù)我在業(yè)內(nèi)工作并與100多名同事交談的直覺(jué),這兩條推特最終使我確信數(shù)據(jù)科學(xué)行業(yè)存在供應(yīng)泡沫。
首先,是這個(gè)有關(guān)入門(mén)數(shù)據(jù)科學(xué)課程的推特:
Cal的入門(mén)數(shù)據(jù)科學(xué)課程是Data 8,這門(mén)課很受歡迎,位于澤勒巴赫教室。開(kāi)課時(shí)間是2018年秋季學(xué)期第一天。
和UVA開(kāi)設(shè)數(shù)據(jù)科學(xué)學(xué)院的消息:
UVA很自豪地宣布計(jì)劃中的數(shù)據(jù)科學(xué)學(xué)院成立,它將滿足社會(huì)增長(zhǎng)最快的需求之一
由于在適應(yīng)工業(yè)界的新趨勢(shì)上,學(xué)術(shù)界通常是滯后的,因此這個(gè)趨勢(shì)真的該引起初級(jí)數(shù)據(jù)科學(xué)家們的重視,所有人都希望找一個(gè)數(shù)據(jù)科學(xué)的職位。考慮到他們?cè)谑袌?chǎng)上的競(jìng)爭(zhēng)者數(shù)量,剛獲得數(shù)據(jù)科學(xué)學(xué)位的人很難找到真的入行。
在三、四年前情況還并非如此,然而現(xiàn)在數(shù)據(jù)科學(xué)已經(jīng)從一個(gè)流行詞匯轉(zhuǎn)變?yōu)楣韫扰菽飧蟮墓菊衅傅穆毼唬嚓P(guān)的職位不僅更加正式化,而且有著更嚴(yán)格的準(zhǔn)入要求(即傾向于曾經(jīng)具備數(shù)據(jù)科學(xué)工作經(jīng)驗(yàn)的人)。數(shù)據(jù)科學(xué)職位的面試仍然難以把握,并且與工作完全不匹配。
正如許多博客文章指出的那樣,你未必在第一次嘗試時(shí)就能找到理想工作。 因此,就業(yè)市場(chǎng)相當(dāng)艱難,對(duì)于大量入門(mén)者來(lái)說(shuō)更加困難重重。
Hinton對(duì)于機(jī)器學(xué)習(xí)領(lǐng)域現(xiàn)狀的想法:
“我們應(yīng)該采取全新的想法。我們都知道從長(zhǎng)遠(yuǎn)來(lái)看,一個(gè)全新的想法將比一個(gè)個(gè)微小的改進(jìn)更有效。當(dāng)我們這個(gè)群體只有一些資深人士和一大批青少年時(shí),這就是缺點(diǎn)。”
數(shù)據(jù)科學(xué)存在有誤導(dǎo)性的工作需求
第二個(gè)問(wèn)題是,一旦這些初學(xué)者進(jìn)入市場(chǎng),他們會(huì)對(duì)數(shù)據(jù)科學(xué)的工作模式產(chǎn)生不切實(shí)際的期望。每個(gè)人都認(rèn)為他們將進(jìn)行機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和貝葉斯模擬。
這并不是他們的錯(cuò),這正是一些數(shù)據(jù)科學(xué)課程和技術(shù)媒體們一直以來(lái)強(qiáng)調(diào)的內(nèi)容。自從很久之前我第一次過(guò)分樂(lè)觀地瀏覽Hacker News 上邏輯回歸的帖子以來(lái),情況并沒(méi)有發(fā)生多大變化。
現(xiàn)實(shí)情況是,“數(shù)據(jù)科學(xué)”從未像機(jī)器學(xué)習(xí)那樣關(guān)注數(shù)據(jù)清洗,數(shù)據(jù)轉(zhuǎn)換以及將數(shù)據(jù)從一個(gè)地方移動(dòng)到另一個(gè)地方。
我最近進(jìn)行的極其非科學(xué)的調(diào)查問(wèn)卷證實(shí)了這一點(diǎn):
作者2019年1月在推特上做的調(diào)查溫暖:
近一段時(shí)間以來(lái)對(duì)此非常好奇,所以我決定創(chuàng)建一個(gè)調(diào)查問(wèn)卷:
“作為2019年被稱為'數(shù)據(jù)科學(xué)家'的人,我花了大部分時(shí)間在(60%以上):”
選擇了(“其他”)也歡迎在回復(fù)中添加。
調(diào)查結(jié)果:
6% 選擇特性/模型
67% 清理數(shù)據(jù)/移動(dòng)數(shù)據(jù)
4% 在產(chǎn)品中部署模型
23% 分析/呈現(xiàn)數(shù)據(jù)
許多行業(yè)專家發(fā)送的推文也是如此:
“在我最近的幾個(gè)機(jī)器學(xué)習(xí)項(xiàng)目中,復(fù)雜的地方不再是建?;蚺嘤?xùn)里;二是在在輸入預(yù)處理中。我發(fā)現(xiàn)自己耗盡的是CPU而不是GPU,并且在一個(gè)項(xiàng)目中我真的不確定如何進(jìn)一步優(yōu)化python(我也正在考慮c ++)?!?/p>
— mat kelcey
“我在初級(jí)ML/ CV工程師身上看到的最失敗的一面是對(duì)構(gòu)建數(shù)據(jù)集完全缺乏興趣。雖然這是一項(xiàng)無(wú)聊的工作,但我認(rèn)為在整理數(shù)據(jù)集時(shí)能夠?qū)W習(xí)到很多東西。這就像是問(wèn)題的一半?!?/p>
— Katherine Scott
伴隨著數(shù)據(jù)清洗,當(dāng)炒作周期繼續(xù)發(fā)揮著它的效應(yīng)時(shí),更加清晰的是,數(shù)據(jù)工具和將模型投入生產(chǎn)變得比在一臺(tái)機(jī)器上從頭開(kāi)始構(gòu)建ML算法更加重要,特別是隨著云資源可用性的爆炸式增長(zhǎng)。
顯而易見(jiàn)的是,在炒作周期的后期階段,數(shù)據(jù)科學(xué)將逐漸接近工程學(xué),而數(shù)據(jù)科學(xué)家需要的技能不再主要基于可視化和統(tǒng)計(jì)學(xué),而是更符合傳統(tǒng)的計(jì)算機(jī)科學(xué)課程:像單元測(cè)試和持續(xù)集成這樣的概念,很快就成了術(shù)語(yǔ),并被用作數(shù)據(jù)科學(xué)家和從事ML工程的數(shù)值科學(xué)家常用的工具集。
這也導(dǎo)致了幾件事的發(fā)生:首先是“機(jī)器學(xué)習(xí)工程師”這個(gè)頭銜的崛起,在過(guò)去的3-4年里,它帶來(lái)了更多的聲望和更高的收入潛力。
其次,它導(dǎo)致了數(shù)據(jù)科學(xué)家職稱的嚴(yán)重縮水。由于數(shù)據(jù)科學(xué)家職稱的聲望,像Lyft這樣的公司會(huì)招聘這類職位,但要求擁有數(shù)據(jù)分析師的技能,這就造成了別扭的情況——數(shù)據(jù)科學(xué)的職位究竟需要做什么,又有多少職位提供給新入職的工作者。
我們作為資深從業(yè)者、記者、經(jīng)理、行業(yè)會(huì)議發(fā)言人、撰寫(xiě)工作要求的人力資源經(jīng)理,仍然不能很好地解決這個(gè)重要的難題。
給新數(shù)據(jù)科學(xué)家的建議
因此,本著繼續(xù)為初學(xué)者提供建議的精神,我將給任何在2019年向我咨詢?nèi)绾芜M(jìn)入數(shù)據(jù)科學(xué)領(lǐng)域的人發(fā)送這封郵件。
這是一個(gè)兩步計(jì)劃:
不要一味追求數(shù)據(jù)科學(xué)的工作
為成為數(shù)據(jù)科學(xué)家做好準(zhǔn)備,而不是單單為了數(shù)據(jù)科學(xué)。調(diào)整你的技能組合。
這些聽(tīng)起來(lái)真是令人沮喪!但是,讓我來(lái)詳細(xì)說(shuō)明這兩個(gè)問(wèn)題,希望它們看起來(lái)不那么黯淡。
謹(jǐn)慎選擇數(shù)據(jù)科學(xué)
鑒于每個(gè)初級(jí)崗位有50或100或200個(gè)人投簡(jiǎn)歷,因此不要與那些人競(jìng)爭(zhēng)。不必攻讀數(shù)據(jù)科學(xué)學(xué)位,不必參加訓(xùn)練營(yíng)(邊注:我見(jiàn)過(guò)的大多數(shù)訓(xùn)練營(yíng)都是效率低下的,他們?cè)诤芏痰臅r(shí)間內(nèi)讓求職者處理太多的信息,使得求職者無(wú)法有效地對(duì)數(shù)據(jù)科學(xué)有所了解,在這里我就不細(xì)說(shuō)了)。
不要做別人正在做的事情,因?yàn)檫@樣不能使你脫穎而出。你是在和一個(gè)堆積如山、過(guò)度飽和的行業(yè)競(jìng)爭(zhēng),這只會(huì)讓事情變得更困難。在我之前提到的那份PWC報(bào)告中,數(shù)據(jù)科學(xué)職位的數(shù)量估計(jì)為5萬(wàn)。數(shù)據(jù)工程職位的數(shù)量為50萬(wàn)。而數(shù)據(jù)分析師的數(shù)量是12.5萬(wàn)。
通過(guò)“后門(mén)”進(jìn)入數(shù)據(jù)科學(xué)和技術(shù)的職位要容易得多,比如從做初級(jí)開(kāi)發(fā)人員開(kāi)始,或者從DevOps、項(xiàng)目管理開(kāi)始,以及從事最相關(guān)的數(shù)據(jù)分析師、信息管理員等類似職位,而不是直接申請(qǐng)其他人也同時(shí)競(jìng)爭(zhēng)的5個(gè)崗位。這將花費(fèi)更長(zhǎng)的時(shí)間,但是在你從事數(shù)據(jù)科學(xué)工作的同時(shí),也在學(xué)習(xí)對(duì)你的整個(gè)職業(yè)生涯至關(guān)重要的IT技能。
了解當(dāng)今數(shù)據(jù)科學(xué)所需的技能
下面是一些你在數(shù)據(jù)空間中實(shí)際需要處理的問(wèn)題:
創(chuàng)建Python包
將R語(yǔ)句投入實(shí)際生產(chǎn)
優(yōu)化Spark工作,使其更有效地運(yùn)行
版本控制數(shù)據(jù)
使模型和數(shù)據(jù)可復(fù)制
版本控制SQL
在數(shù)據(jù)湖中建立和維護(hù)干凈的數(shù)據(jù)
大規(guī)模時(shí)間序列預(yù)測(cè)工具
擴(kuò)展Jupyter筆記本的共享
考慮清洗數(shù)據(jù)的系統(tǒng)
大量的JSON
雖然在數(shù)據(jù)科學(xué)中有許多有趣的統(tǒng)計(jì)問(wèn)題需要考慮,但這些博客鏈接都沒(méi)有解決它們。盡管調(diào)整模型、可視化和分析占據(jù)了你作為數(shù)據(jù)科學(xué)家的部分時(shí)間,但數(shù)據(jù)科學(xué)一直主要的工作是如何得到可以直接使用的干凈數(shù)據(jù)。
所有這些博客文章有什么共同之處?那就是良好的數(shù)據(jù)背景下的各個(gè)工程技能。
你該如何準(zhǔn)備解決這些問(wèn)題,并為工作做好準(zhǔn)備?學(xué)習(xí)以下三種技能,它們都是基礎(chǔ)技能,并且相互之間有關(guān)聯(lián),從入門(mén)到精通。
所有這些技能的真正關(guān)鍵之處在于,它們對(duì)于數(shù)據(jù)科學(xué)之外的軟件開(kāi)發(fā)也是基礎(chǔ)和重要的,這意味著如果你找不到數(shù)據(jù)科學(xué)相關(guān)的工作,也可以快速地過(guò)渡到軟件開(kāi)發(fā)或devops。我認(rèn)為這種靈活性與針對(duì)特定數(shù)據(jù)相關(guān)任務(wù)的培訓(xùn)同樣重要。
1.學(xué)習(xí)SQL
首先,我建議無(wú)論目標(biāo)是成為數(shù)據(jù)工程師、ML專家還是AI 專家,每個(gè)人都需要學(xué)習(xí)SQL。
SQL并不吸引人,它也不是我剛才列出的問(wèn)題的解決方案。但實(shí)際上,為了理解如何訪問(wèn)數(shù)據(jù),你極有可能在某個(gè)地方遇到需要編寫(xiě)一些SQL查詢并獲得答案的數(shù)據(jù)庫(kù)。
SQL非常強(qiáng)大且受歡迎,以至于NoSQL和鍵值存儲(chǔ)解決方案也在復(fù)現(xiàn)它。只需查看Presto、Athena,它們由Presto、BigQuery、KSQL、Pandas和Spark等等提供支持。如果你發(fā)現(xiàn)自己被大量的數(shù)據(jù)工具所淹沒(méi),那么很可能有SQL是適合你的。而且,一旦你理解了SQL范式,就能更容易理解其他查詢語(yǔ)言,從而開(kāi)辟一個(gè)全新的領(lǐng)域。
在學(xué)好SQL之后,下一步是了解數(shù)據(jù)庫(kù)如何工作以及為什這樣就可以學(xué)習(xí)優(yōu)化查詢。你不會(huì)成為數(shù)據(jù)庫(kù)開(kāi)發(fā)人員,但是許多概念將延續(xù)到你的其他編程生活中。
2.學(xué)好編程語(yǔ)言、學(xué)習(xí)編程概念
前文我們談?wù)撨^(guò)如何學(xué)習(xí)SQL的問(wèn)題,當(dāng)你使用SQL的時(shí)候,你會(huì)有這樣一個(gè)疑問(wèn),這樣的數(shù)據(jù)庫(kù)處理軟件,它是不是一個(gè)編程語(yǔ)言呢?答案是肯定的,不過(guò)它屬于聲明式編程。你可以指定所需要的輸出(就是你想從數(shù)據(jù)表中把哪幾列提取出來(lái)),但沒(méi)法控制它用什么方式把結(jié)果反饋。SQL抽象出大量發(fā)生在數(shù)據(jù)庫(kù)內(nèi)的信息。
與之相對(duì)的,如果你需要一種可以指定數(shù)據(jù)從哪里、用什么方式被選取出來(lái)。像Java、Python、Scala、R、Go等等這些都是現(xiàn)在流行的面向?qū)ο蟮倪^(guò)程化語(yǔ)言。
大家現(xiàn)在對(duì)用哪種語(yǔ)言去做數(shù)據(jù)科學(xué)依舊有很多爭(zhēng)論,當(dāng)然也不會(huì)在這里指定一種語(yǔ)言是最合適的。但我想說(shuō)的是,在我的日常工作中,Python對(duì)我的幫助真的很大。作為一個(gè)初學(xué)者來(lái)說(shuō),Python很容易上手,而且也是數(shù)據(jù)領(lǐng)域里最流行的編程語(yǔ)言。為什么這么說(shuō)呢,因?yàn)樗梢蕴幚砗芏鄶?shù)據(jù)問(wèn)題,如構(gòu)建一個(gè)模型放入到scikitlearn里、訪問(wèn)AWS API云平臺(tái)服務(wù)接口、制作網(wǎng)頁(yè)服務(wù)應(yīng)用、清洗數(shù)據(jù)、創(chuàng)建深度學(xué)習(xí)模型等等。而在統(tǒng)計(jì)領(lǐng)域里,R還是更為廣泛使用。
但同樣的,我還是建議不用去深究統(tǒng)計(jì)領(lǐng)域,Python基本可以滿足編程需求了。
當(dāng)然Python在大規(guī)模應(yīng)用、打包依賴關(guān)系、一些特定數(shù)字處理、特別是時(shí)間序列和R那樣開(kāi)包即用(Python不像R有很多成型的功能包、更細(xì)致的統(tǒng)計(jì)功能模型) 等等問(wèn)題上也不是很適用。
如果你不選擇Python,那也沒(méi)什么問(wèn)題。但你應(yīng)該選擇一門(mén)語(yǔ)言讓你在數(shù)據(jù)科學(xué)之外的領(lǐng)域,一樣可以大展拳腳。舉個(gè)例子來(lái)說(shuō),如果你的第一份工作是數(shù)據(jù)分析師、質(zhì)量保障員、初級(jí)的軟件開(kāi)發(fā)人員或者其他崗位,這都將是作為你進(jìn)入這個(gè)行業(yè)的敲門(mén)磚。
如果說(shuō)一旦你選擇掌握某種編程語(yǔ)言,就會(huì)開(kāi)始學(xué)習(xí)它的范式,研究它與整個(gè)計(jì)算機(jī)生態(tài)系統(tǒng)的關(guān)系。
在開(kāi)始研究之后,你就會(huì)面對(duì)這樣一系列問(wèn)題。如何用你掌握的編程語(yǔ)言進(jìn)行面向?qū)ο缶幊蹋∣OP)?什么是面向?qū)ο缶幊??如何讓你的代碼更簡(jiǎn)化?你使用的語(yǔ)言是通過(guò)什么樣依賴關(guān)系工作的?對(duì)你寫(xiě)好的代碼如何打包,怎樣進(jìn)行版本控制、持續(xù)集成、模型部署?到哪里去找這種語(yǔ)言社區(qū)去交流學(xué)習(xí),他們什么時(shí)候進(jìn)行交流研討會(huì)?
然后你需要做的就是不斷地了解這門(mén)語(yǔ)言,知道它的優(yōu)缺點(diǎn),然后用這門(mén)語(yǔ)言做些有趣的編程,找到其中的樂(lè)趣。
然后就像武俠小說(shuō)里練就奇功一樣,當(dāng)你打通任通二脈,這種編程語(yǔ)言能力成為你身體的一部分,然后你就去學(xué)習(xí)第二種編程語(yǔ)言,它將會(huì)教給你更多關(guān)于語(yǔ)言設(shè)計(jì)、算法和模式的內(nèi)容,了解這個(gè)更豐富有趣的語(yǔ)言世界。
3.學(xué)會(huì)如何在云平臺(tái)進(jìn)行操作
現(xiàn)在你知道如何進(jìn)行編程,那下一步要做的就是把這些能力和理論推廣到云平臺(tái)上,跟其他編程者進(jìn)行共享。
現(xiàn)在云服務(wù)無(wú)處不在,很有可能你的下一份工作就是需要在云平臺(tái)上完成的。有了云技術(shù),如果能夠搶先一步,就越容易走到前列,就比如現(xiàn)在有越來(lái)越多的機(jī)器學(xué)習(xí)范例轉(zhuǎn)移到了云服務(wù)供應(yīng)商(如亞馬遜的SageMaker、谷歌的Cloud AI、微軟的Azure Machine Learning),那上面會(huì)有更多現(xiàn)成的模板來(lái)實(shí)現(xiàn)你想要的算法、也有更多的公司數(shù)據(jù)會(huì)存儲(chǔ)在云上。
當(dāng)然你也有機(jī)會(huì)跟AWS行業(yè)領(lǐng)導(dǎo)者合作,但越來(lái)越多的地方開(kāi)始使用Google Cloud云服務(wù),還有一些較為保守的傳統(tǒng)企業(yè)也開(kāi)始用Microsoft Azure云服務(wù)。我的建議是對(duì)這上文提到的三家云服務(wù)公司做一個(gè)用戶調(diào)查,然后選擇一個(gè)更適合你們的。云設(shè)計(jì)范式是通用的,所以你應(yīng)該更關(guān)心如何將服務(wù)連接在一起、如何將你使用的部分與云上其他應(yīng)用做邏輯隔離,以及如何解析處理大量的JSON。
一個(gè)很酷的事情是,現(xiàn)在三家云服務(wù)供應(yīng)商都開(kāi)始提供他們的產(chǎn)品認(rèn)證。我通常不太相信認(rèn)證是知識(shí)獲取的標(biāo)志,但是你可以通過(guò)認(rèn)證學(xué)到云平臺(tái)很重要的工作原理,這也是工程里另一個(gè)組成部分——網(wǎng)絡(luò)。
所以在你找到下一份工作之前,可以有時(shí)間充分學(xué)習(xí)一下這三家的證書(shū),并且在云平臺(tái)上自由發(fā)揮一下,也是不錯(cuò)的選擇。
還有一大部分我們沒(méi)有講到,就是“軟技能”(知道如何構(gòu)建、知道如何在工作環(huán)境下交流、知道其他人的需求)。這種能力與技術(shù)能力同樣重要,也有很多博客專門(mén)提到這種能力。
4、最后一步
現(xiàn)在深呼吸,我知道你已經(jīng)做好準(zhǔn)備了。
如果說(shuō)上面說(shuō)的內(nèi)容已經(jīng)足夠打動(dòng)你,說(shuō)明在2019年,你已經(jīng)做好成為一名數(shù)據(jù)科學(xué)家、或機(jī)器學(xué)習(xí)工程師、或云專家、AI法師的準(zhǔn)備了。
請(qǐng)記住,遵循這些建議的最終目標(biāo)是打敗那些具有數(shù)據(jù)科學(xué)學(xué)位、通過(guò)訓(xùn)練營(yíng)和通過(guò)教程的工作人員。
你想進(jìn)入這個(gè)行業(yè),得到一個(gè)數(shù)據(jù)相關(guān)職位,朝你期待的工作而努力,并且盡可能多的了解整個(gè)科技行業(yè)的發(fā)展。
我的最后一點(diǎn)誠(chéng)懇建議和鼓勵(lì)是:這些東西對(duì)任何一個(gè)人來(lái)說(shuō)都相當(dāng)困難,而且看起來(lái)你需要了解成百上千的事情,永遠(yuǎn)不要失去信心。(不忘初心)
就像上面這個(gè)博客里,這個(gè)作者學(xué)習(xí)MOOC一開(kāi)始都是幺蛾子,每個(gè)都是新東西,而且并沒(méi)有接觸過(guò)除了Windows以外其他操作系統(tǒng),也沒(méi)有接觸過(guò)終端,但是經(jīng)過(guò)努力終于做出了自己想要的分類器。
所以她也說(shuō)到,在這個(gè)領(lǐng)域?qū)τ诿總€(gè)人來(lái)說(shuō)都不容易,任何事情都是挑戰(zhàn),但是最終你都會(huì)克服并且一點(diǎn)點(diǎn)解決掉,你會(huì)發(fā)現(xiàn)車到山前必有路,柳暗花明又一村。
不要被分析問(wèn)題的困難所擊倒。從一個(gè)小問(wèn)題入手,積跬步以至千里,最終問(wèn)題會(huì)迎刃而解。告訴大家請(qǐng)記住,你的第一份在數(shù)據(jù)科學(xué)領(lǐng)域的工作不一定就是數(shù)據(jù)科學(xué)家。
我最喜歡的其中一本書(shū)是安妮.拉莫特的《Bird By Bird》,是一本關(guān)于寫(xiě)作的書(shū)。很有趣的是,這本書(shū)的書(shū)名是作者的哥哥當(dāng)年不得不寫(xiě)的一份讀書(shū)報(bào)告。
“三十年前,我十歲的哥哥正在努力寫(xiě)一份關(guān)于鳥(niǎo)類的研究報(bào)告。他本來(lái)有三個(gè)月的時(shí)間進(jìn)行寫(xiě)作,但是明天就要交了。我們?cè)诎亓职⑺沟募依镄∥堇?,哥哥他絞盡腦汁地寫(xiě)那份報(bào)告,幾乎要留下眼淚,而他被這艱巨的任務(wù)禁錮在廚房餐桌旁,周圍散落著活頁(yè)紙、鉛筆和一些沒(méi)有開(kāi)封過(guò)的鳥(niǎo)類書(shū)籍。這時(shí)候父親來(lái)到旁邊坐下,抱住哥哥的肩膀說(shuō)道,“Bird by bird,孩子。就是把鳥(niǎo)一個(gè)個(gè)列出來(lái)””
后來(lái)他就完成了。
不要讓天花亂墜宣傳信息壓倒你。不要因?yàn)槟切r(shí)髦的詞或者帶著MacBook那種時(shí)尚人士形象所蒙蔽。集中在一只鳥(niǎo)的身上,從那里開(kāi)始。
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8424瀏覽量
132765 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8896瀏覽量
137517 -
數(shù)據(jù)科學(xué)
+關(guān)注
關(guān)注
0文章
165瀏覽量
10078
原文標(biāo)題:被擠爆的數(shù)據(jù)科學(xué)行業(yè)!五年前“最性感的職業(yè)”怎么了?
文章出處:【微信號(hào):BigDataDigest,微信公眾號(hào):大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論