色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

這些年來,我們的數據科學究竟發生了什么變化?

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-08-13 09:07 ? 次閱讀

編者按:Kaggle是全球最大數據建模和數據分析競賽平臺,也是檢驗個人水平的最佳舞臺。現如今,隨著社會對機器學習人才的需求提高,在Kaggle上刷到過前5%、10%也成了應聘的一個硬指標。考慮到Kaggle的權威性和受歡迎度,這么多年來,這個平臺的數據應該能體現整個數據科學領域的發展軌跡。

多年來,數據科學領域的許多趨勢已經發生了改變。Kaggle,作為全球最大、最受歡迎的數據科學社區,記錄著這些變化的演進狀態。本文將使用Kaggle Meta Data逐一分析,看看這些年來,我們的數據科學究竟發生了什么變化?

1. 線性回歸 vs logistic回歸

線性回歸與邏輯回歸是機器學習中比較基礎又很常用的內容,其中前者可以進行連續值預測,后者能被用于解決分類問題。所以我們先從它們開始,根據Kaggle論壇的帖子數對比這兩種算法的熱度趨勢。

藍:線性回歸;橙:logistic回歸

如上圖所示,橙線大多數時間都在藍線之上,用戶這些年來似乎一直都更喜歡聊logistic回歸。而宏觀來看,兩種算法的變化趨勢幾乎吻合,峰值重合度較高,雖然起伏明顯,但這8年來,它們總體是呈上升趨勢的。

那么logistic回歸受歡迎的原因是什么?一個跡象表明,Kaggle上的分類問題遠多于回歸問題,其中一個代表是這些年來最受歡迎的泰坦尼克號生存預測競賽。這是Kaggle上歷史最“悠久”的競賽之一,用戶的討論自然也很激烈。而最受歡迎的回歸問題則是房價預測,但人們通常會在完成泰坦尼克號之后再考慮這個問題。

在2017年10月和2018年3月,Kaggle論壇上關于logistic回歸的討論量大幅增加。對此,一個可能的解釋是平臺上出現的新競賽——惡意評論分類。當時一些團隊分享了不少和分類模型相關的高質量經驗,其中就包括logistic回歸。

2. XgBoost的霸主地位

藍:決策樹;橙:隨機森林;綠:XgBoost;紅:LightGBM;紫:CatBoost

在2014年以前,線性模型、決策樹和隨機森林的討論量雖然不多,但它們占據絕對話語權。2014年,時為華盛頓大學博士的陳天奇開源XgBoost算法,受到大眾追捧,之后它也迅速成了Kaggle競賽中的常客。時至今日,XgBoost在競賽中的使用率還是很高,性能也很好,不少奪冠方案中都有它的身影。

但是,根據曲線我們可以注意到,自從2016年LightGBM被提出后,XgBoost的討論量出現了一定程度的下降,而LightGBM卻一路水漲船高。可以預見,在學界開源更好的模型前,這個算法將在未來幾年占據主導地位。現在LightGBM也已經出現在不少競賽中,比如Porto Seguro的安全駕駛預測,它的優點是比XgBoost實現速度更快、更簡單。

除了這些算法,圖中“最年輕”的CatBoost也有走紅的趨勢。

3. 神經網絡深度學習的趨勢

藍:神經網絡;橙:深度學習

幾十年來,神經網絡在學界和工業界一直不溫不火,但如上圖所示,隨著大型數據集的出現和計算機算力的大幅提升,近幾年這種趨勢已經發生了變化。

從2014年起,我們相繼迎來了theano、tensorflow、keras,與此同時,一個名為深度學習的時代也漸漸出現在世人視野里。在Kaggle上,用戶發表的有關深度學習的帖子數不斷上升,并最終超過神經網絡。此外,諸如亞馬遜、谷歌等的云服務提供商也正擁抱新技術,以更加積極的姿態展示在云上訓練深層神經網絡的能力。

深度學習模型是Kaggle競賽中的新星,目前它已經在圖像分類、文本分類競賽中嶄露頭角,比如Data Science Bowl、Quora重復問題分類等。而伴隨RNN、CNN的不斷改進,深度學習的流行趨勢似乎已經勢不可擋。此外,一些嘗試已經證實,遷移學習和預訓練模型在競賽中能夠表現出色。

這種技術讓人們看到了可能性。為了讓用戶從實踐中學到更多知識,Kaggle可以推出更多和圖像分類建模相關的比賽,但以當前的情況看,現在限制用戶大規模使用深度學習的是它的算力要求。但這種問題是可以被解決的。Kaggle已經添加GPU支持,未來,相信嘗試深度學習的用戶會越來越多。

4. Kaggle上流行的ML工具

藍:Scikit;橙:Tensorflow;綠:Keras;紅:Pytorch

在2015年以前,如果一個數據科學家想構建機器學習模型,Scikit Learn是他唯一可以選擇的庫;2015年后,這種局面發生了改變,作為ML生態的一部分,谷歌開源軟件庫Tensorflow,并讓它迅速在全球范圍內普及。

但是Tensorflow也存在缺點,就是它比較難學,因此雖然用戶非常多,但在Kaggle這個競賽平臺上,大多數用戶還是傾向于選擇更靈活、更簡單的Keras。畢竟究其本質,Keras可以被看作是Tensorflow封裝后的一個API

5. XgBoost vs Keras

藍:XgBoost;橙:Keras

既然Keras是深度學習框架,我們可以把它看做深層神經網絡的間接代表。

XgBoost與深度學習孰優孰劣?這是去年Quora上吵翻天的一個問題。而從Kaggle的數據看,前者一直處于領先地位,而后者也在奮力追趕。相比復雜、層多的神經網絡,XgBoost的優點是更快,對硬件要求更低,因此也更受普通用戶歡迎。

但這個結果并不代表優劣,拿陳天奇博士自己的話說,就是:

不同的機器學習模型適用于不同類型的任務。深層神經網絡通過對時空位置建模,能夠很好地捕獲圖像、語音、文本等高維數據。而基于樹模型的XGBoost則能很好地處理表格數據,同時還擁有一些深層神經網絡所沒有的特性(如:模型的可解釋性、輸入數據的不變性、更易于調參等)。

6. 可視化工具比拼

藍:Matplotlib;橙:Seaborn;綠:Plotly

從2017年起,Plotly就像開了掛一樣一路走紅,現在已經成為Kaggle用戶最常用的可視化工具。排名第二的是Seaborn,它實際上是在Matplotlib的基礎上進行了更高級的API封裝,生成的圖更好看,而作為補充,Matplotlib的圖更有特色。

7. 數據科學過程步驟比拼

藍:Exploration;橙:特征工程;綠:調參;紅:集成

在上圖中,最受Kaggle用戶關注的是模型的集成。參加競賽時,雖然最后提交的是一個模型,但參賽者會先訓練若干個弱模型,最后再用集成方法進行整合堆疊。這種做法在回歸和分類任務中非常常見。

至于同樣倍受矚目Exploration,近期,無數數據科學家已經一遍遍強調了探索性數據分析(EDA)的重要性,而他們的呼吁起到了效果。如果我們沒法確保數據的可靠性,最后的模型很可能會出問題。

但對于這個結果,有些人可能會感到意外。因為如果想在競賽中取得好名次,調參和模型微調肯定必不可少,但這兩個時間、精力消耗的“大戶”的排名卻不高。所以我們應該牢記,雖然集成是建模過程的最后一步,但我們應該在特征工程和模型調整上投入相當長的時間。

最為人津津樂道的子平臺

藍:數據集;橙:Kernel;綠:競賽;紅:Learn

既然Kaggle是個數據科學競賽平臺,用戶們討論的內容自然是參加什么競賽,用了什么數據集,并分享看到的實用代碼。而根據上圖的曲線,自從2016年推出后,代碼Kernel的受歡迎度一路飆升,畢竟用戶們可以在上面看到其他參賽者自愿公開的模型代碼,這對于學習和交流來說是不可多得的優質資源。

此外,Kaggle還推出了課程子平臺Kaggle Learn,雖然目前在討論度上不及數據集、Kernel和競賽,但這些課程主要面向初學者。未來,隨著課程內容的豐富和新手人數的增加,這個板塊的流行指日可待。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4771

    瀏覽量

    100720
  • 機器學習
    +關注

    關注

    66

    文章

    8408

    瀏覽量

    132574
  • 大數據
    +關注

    關注

    64

    文章

    8884

    瀏覽量

    137408

原文標題:Kaggle CTO力薦:從Kaggle歷史數據看機器學習競賽趨勢

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    這些年,你沒見過的電子元器件

    本帖最后由 eehome 于 2013-1-5 09:53 編輯 這些年,你沒見過的電子元器件,你能認出幾個?
    發表于 04-28 13:56

    Python人工智能學習工具包+入門與實踐資料集錦

    ,之后漸漸成為我工作中的第一輔助腳本語言,雖然開發語言是C/C++,但平時的很多文本數據處理任務都交給了Python。這些年來,接觸和使用了很多Python工具包,特別是在文本處理,科學計算,機器學習
    發表于 11-22 14:46

    IDT將進軍模擬領域

    時刻保持著敏銳的洞察力和預見性,審時度勢,適時而變,才有希望繼續健康地生存發展下去。這些年來我們目睹了太多這樣的例子,收購、并購、分離、轉換市場定位、拓展新的領域,只有“變化”才是唯一不變的。
    發表于 06-28 07:06

    MCU中的ETH IP是否與H753/743中的相同,還是發生了變化

    這些新 MCU 中的 ETH IP 是否與 H753/743 中的相同,還是發生了變化?在 H73x/72x 的勘誤表中,與 ETH 相關的項目列表很長——是因為 IP 不同,還是更好的測試?
    發表于 01-17 06:27

    人機大戰三周年:圍棋界發生了哪些巨變?

    三年后的現在,圍棋界的生態環境與三年前相比,已經發生了天翻地覆的變化,下面我們通過一組組有趣的對話來看看這些變化吧。
    的頭像 發表于 03-18 09:37 ?2954次閱讀

    手機屏幕近十年來發生了哪些變化

    手機已經是我們日常必不可少的生活元素,甚至已經成為了我們生活的一部分,這十年間我們手中的手機發生了翻天覆地的變化,你還記得你十年前用著什么手
    的頭像 發表于 04-28 09:43 ?4686次閱讀

    關于云數據存儲的漏洞及避免漏洞方法

    這些年來,大量的數據被轉移到云端,包括個人檔案、照片、文件和受版權保護的內容。付費和免費云服務用戶基數繼續增長。
    發表于 06-28 16:13 ?940次閱讀

    SSD性能數據變化發生

    不難看出現實生活中的性能數據數據表中的數據有何不同。但這是什么原因?這些性能變化如何發生以及如
    的頭像 發表于 11-04 16:42 ?3016次閱讀

    中國銀聯這些年來數據技術的變革以及優化

    2007 年左右,中國銀聯開始進入到數據倉庫年代。相較于報表,數據倉庫對于用戶體驗來說是一個巨大的革新,基本上體現在數據發展以業務為驅動,主要有結構化數據集中存儲、勾兌整合、服務業務等
    的頭像 發表于 12-12 14:32 ?3387次閱讀

    側面指紋和屏下指紋以及人臉識別該怎么選擇

    隨著科技的發展,智能手機逐漸成為我們生活中不可缺少的電子產品。而這些年來手機的形態發生了巨大的變化,手機不再是以前那個用來打電話、發短信的工具了,而是越來越娛樂化、實用化,追劇、游戲、
    發表于 12-24 11:36 ?3396次閱讀

    AI熱潮-這些年被人工智能影響的七大領域

    來源:ST社區 2012年左右再次興起的人工智能——AI(Artificial Intelligence)熱潮,至今不僅沒有衰退,反而愈演愈熱。越來越多的領域被人工智能所影響。 無人駕駛 這些年來
    的頭像 發表于 11-15 11:36 ?955次閱讀

    人工智能帶動了醫療保健領域的發展

    人工智能似乎已經改變了全世界幾乎所有領域。值得一提的是,這些年來,醫療保健行業發生了巨大的變化,而生活變得如此便利的程度不能僅僅用言語表達。
    發表于 01-20 09:31 ?766次閱讀

    IEEE-1394接口在新世代下的大轉變

    我們「老產品煥新計劃」第二期,將介紹這一個具有神奇歷史的接口,IEEE-1394(火線)接口。作為當時由蘋果公司推出,并且想與USB一爭高下的傳奇接口,這些年來發生了哪些轉變,又被賦予了哪些新功能?在這一期
    發表于 08-12 10:26 ?1624次閱讀

    數據中心也能“上天入海”?探索綠色數據中心的建設方案|聯瑞網卡

    這些年來,全球計算呈指數級增長,在數據中心的建設與運行過程中,能源支出及產生的污染不斷激增,有利的建設地址和高效節能的冷卻模式,成為探索建設數據中心的主要方向。
    的頭像 發表于 01-12 17:25 ?714次閱讀
    <b class='flag-5'>數據</b>中心也能“上天入海”?探索綠色<b class='flag-5'>數據</b>中心的建設方案|聯瑞網卡

    C語言使用函數調用在內存中究竟發生了什么?

    C語言使用函數調用,我們再熟悉不過了,但是函數調用在內存中究竟發生了什么真的清楚嗎?只有搞清楚內存里的內幕,才算完全搞懂函數的調用。
    的頭像 發表于 01-13 14:09 ?1164次閱讀
    主站蜘蛛池模板: MD传媒在线观看佳片| 美女扒开尿口直播| 97国产露脸精品国产麻豆| 日本另类z0zxhd| 久久国产精品永久免费网站| 刺激一区仑乱| 2022国产麻豆剧传媒剧情| 亚洲成人免费看| 日日噜噜夜夜爽爽| 老女人与小伙子露脸对白| 国产精品免费久久久久影院| 99久久夜色精品国产亚洲AV卜| 亚洲精品AV中文字幕在线| 日日操夜夜操狠狠操| 九九久久国产精品大片| 国产AV天堂一区二区三区| 99久久99久久免费精品蜜桃 | 中文字幕日本久久2019| 少妇第一次交换| 琪琪热热色原日韩在线| 久久在精品线影院| 挤奶门事件完整照片| 国产精品久久人妻互换毛片| 超碰免费视频公开97| 99在线精品免费视频| 正在播放国产精品| 伊人草久久| 亚洲免费在线播放| 性吧 校园春色| 午夜一区二区三区| 无码国产欧美日韩精品| 色欲久久精品AV无码| 全黄h全肉细节文在线观看| 欧美成人无码视频午夜福利 | 天天国产在线精品亚洲| 日韩精品一区二区亚洲AV观看| 女人把腿张开叫男人桶免费视频| 葵司中文第一次大战黑人| 久久AV国产麻豆HD真实乱| 精品动漫国产亚洲AV在线观看| 国产一区二区波多野结衣|