數據挖掘,從字面上理解,就是在數據中找到有用的東西,哪些東西有用就要看具體的業務目標了。最簡單的就是統計應用了,比如電商數據,如淘寶統計過哪個省購買泳衣最多、哪個省的女生胸罩最大等,進一步,可以基于用戶的瀏覽、點擊、收藏、購買等行為推斷用戶的年齡、性別、購買能力、愛好等能表示一個人的畫像,就相當于用這些挖掘出來的屬性來刻畫一個人,這些還是最簡單的東西,更深層次的比如預測(股票預測),但是比較難。
說到數據挖掘。往往與機器學習離不開。比如分類、聚類、關聯規則挖掘、個性化推薦、預測、神經網絡、深度學習等。很多年前說人工智能AI(比如產生式系統、專家系統等,好像現在提得比較少了),90年代AI到了瓶頸階段,機器學習是一個突破口,現在機器學習又遇到了瓶頸階段,深度學習又是一個突破口(其實神經網絡出來了很久,但是為什么中間一段時間沉寂了,在70年代左右出現了低潮(根據評論修改),我歸結是兩點,第一神經網絡就像一個黑夾子一樣,很多東西不透明,模型的解釋性不強,以及當時沒辦法處理非線性分類問題(后面多層感知器便可以對非線性問題進行擬合,如解決XOR問題),參數過多,訓練復雜,容易出錯,容易過擬合,無法保證全局最優,加上很多問題無法用數學方法證明(個人理解)等等,科學家和工程師還是有區別的,科學家都想把一個問題歸結為數學問題,然后證明出來,他們就會認為是有意義的,數學上證明其有效往往比做千百個實驗說明其有效要好些吧,工程師往往更在乎效果與結果),直到后來出現了BP算法。第二,得益于現在的大規模計算工具,能夠處理PB級別的數據了。總之現在人工智能還遠沒達到人類的水平,最后結果會怎樣,這個暫時不設想。
目前正處于大數據時代,很多企業擁有巨大的數據,比如阿里擁有消費數據、百度擁有搜索數據,騰訊擁有社交數據,消費數據與搜索數據都可以直接變現形成商業模式,而社交數據暫時還無法直接變現,至少企鵝現在還在探尋中,舉個例子,你的朋友圈,qq空間到處是廣告,你是不是很討厭,差評,呵呵。數據有了,還有個重要的方面,處理數據的能力,也就是數據處理工具,能夠處理這么大的數據量,二者不可或缺,缺一談什么大數據都是耍流氓。
對于數據挖掘工程師:
首先你數學知識肯定要扎實吧,統計與概率論是最基本(也有人說現在的機器學習是統計學習,確實有道理)、微分與積分肯定要知道、數學公式要看的懂吧,進階階段最優化,隨機過程等。建議去看看機器學習十大算法與一些深度學習的東西,多看大牛的博客。
對于語言,搞科研知道matlab就永不怕了,但是對于工程師嘛,肯定要知道寫代碼吧,不懂寫代碼的工程師都是扯淡,不要寫代碼的數據挖掘與機器學習,那是研究員,懂得一門高級語言與一門腳本語言就差不多了(如JAVA或C++,Python或R,個人推薦Java與Python,因為像Hadoop、Spark、Hive、MPI之類的都對Java提供了很方便的接口,Python寫腳本很爽),還需要懂得Linux、Shell、SQL,這都是個人意見,至少在阿里,用java+sql+python+shell,阿里有個很牛逼的東西叫做ODPS,現在叫MaxCoupute,可以去阿里云官網查查相關資料。
對于你所說的excel、SAS、SPSS,數據分析人員專用,因為工程師嘛,編程語言還是必須的。對于是否需要學習hadoop、hive之類的,個人意見是只要知道用,然后怎么用,怎么在上面實現一些算法,怎么去優化自己寫的程序就差不多了,它們只是工具,而且更新得很快,就說hadoop吧,我還沒完全搞明白,就逐漸被spark取代了,記住,這些只是工具而已。推薦個加深你數據挖掘功力的東西weka(單機版的)與mahout(分布式的,有基于hadoop與spark),都是開源的。
對于工作是否需要設計新算法,我覺得在企業還是沒有要求這么高,除非你覺得自己很牛逼,想向google看齊,但是設計一個好的算法并能解決實際問題的算法,不是一朝一夕的,個人觀點,很多算法可以想出來,最大的問題就是怎樣去證明其正確,其有效。想到企業中去,多看看google與ms工程性的文章,想研究就多看看學術大牛的文章,比如ICML,IJCAI,KDD,NIPS,CVPR等。大部分工作是,將已有的機器學習與數據挖掘算法應用到具體的實踐中,根據業務場景與數據特點對算法進行改造或者調整等。
最后舉個例子,你在淘寶上買一件衣服,系統怎樣向你推薦你感興趣的并且和這件衣服搭配的褲子或者飾品,這就是數據挖掘工程師的一方面工作。
-
工程師
+關注
關注
59文章
1569瀏覽量
68509
發布評論請先 登錄
相關推薦
評論