在下面的教程中你可能看到一些其他的庫,比如說 Seaborn,一個基于Matplotlib的數據可視化庫.上述包是廣泛Python機器學習任務的核心,然而,讓你在下面引用時,理解這些適應更多相關的包而不會懵.
第四步 開始Python機器學習
Python. √
Machine learning fundamentals. √
Numpy. √
Pandas. √
Matplotlib. √
吉時已到,我們開始使用python標準機器學習庫–scikit-learn實現機器學習算法吧.
下面大多數教程和聯系都在IPython(Jupyter)Notebook中實現.它是Python執行的一個交互式環境.這些IPython NOtebook可以選擇在線預覽或下載,并且在你電腦本地交互.
iPython Notebook Overview?from Stanford
另外請注意,下面教程來源于許多在線資源.所有Notebooks 都歸功于作業,你發現沒有正確工作,請讓我知道,這種情況會盡快糾正.我非常想向Jake VanderPlas, Randal Olson, Donne Martin, Kevin Markham, and Colin Raffel等人致敬.因為他們神奇免費可用的資源(50字好評已給,請返現).
第一個教程從scikit-learn開始,在開始下面步驟之前,我建議先做這些.
scikit-learn庫的一般介紹,Python中最常用的機器學習庫,涵蓋了KNN算法:
An Introduction to scikit-learn?by Jake VanderPlas
更深入的介紹,包括知名數據集開始到項目完成:
Example Machine Learning Notebook?by Randal Olson
重點放在scikit-learn中不同模型的評估策略,涵蓋了訓練集/測試集拆分(后面這句話的點沒get到呢):
Model Evaluation?by Kevin Markham
第五步 python機器學習主題
有了 scikit-learn基礎后,我們可以對常見,實用的算法做進一步深入了解.我們從K-means聚類開始,一個廣為人知的機器學習算法.解決無監督學習問題一個簡單有效的方法:
k-means Clustering?by Jake VanderPlas
接下來,我們看看分類問題.了解歷史上最流行分類算法之一:
Decision Trees?via The Grimm Scientist
讓我們看看連續數值預測:
Linear Regression?by Jake VanderPlas
我們可以從過Logistic回歸解決分類問題:
Logistic Regression?by Kevin Markham
第六步 深入python機器學習主題
我們已經開始scikit-learn,現在讓我們將注意轉向高級主題.首先SVM(支持向量機).一個將復雜數據映射到高維空間的not-necessarily-linear分類
Support Vector Machines?by Jake VanderPlas
接下來,隨機森林,一個組合分類,通過考察Kaggle Titanic競賽逐步引導:
Kaggle Titanic Competition (with Random Forests)?by Donne Martin
降維是減少正在考慮問題中變量數目的方法.PCA(Principal Component Analysis,主成分分析)是一種非監督的降維方法:
Dimensionality Reduction?by Jake VanderPlas
在進入到最后一步之前,我們可以花時間考慮下,我們已經在相對較短的時間內走了很長一段路.
使用Python和它的機器學習庫,我們已經介紹一些最常見和總所周知的機器學習算法(K-means,支持向量機,KNN),考察了強大的組合技術(隨機森林),研究了支持任務的額外機器學習算法(降維,模型驗證技術).隨著這些基礎的機器學習技巧的學習,我們已經擁有了一些使用的技能.
第七步 python深度學習
深度學習無處不在.深度學習構建與神經網絡研究可以追溯到十幾年前,但是追溯到過去幾年的最新進展顯著增加.如果你不熟悉深度學習,KDnuggets有很多文教詳細介紹了眾多最新創新,成就和令人贊譽的技術.
最后一步并不對深度學習軟件分類,介紹2個引領當代Python深度學習庫的幾個簡單的網絡實現.對于有興趣挖掘更深的深度學習者,我建議你先從一下免費書開始:
*?Neural Networks and Deep Learning?by Michael Nielsen
Theano?
Theano是第一個Python深度學習庫,按作者的話來說:
Theano是一個python的庫,可以讓你高效地定義,優化,評估包含多維數據的數學表達式,下面Theano的機器學習入門教程是非常長的,但相當的棒,十分生動:?
*?Theano Deep Learning Tutorial?by Colin Raffel
Caffe?
另一個測試執行的庫,caffe.同樣的:
Caffe是一個帶有表達式,速度和模塊化的深度學習庫.由 Berkeley Vision and Learning Center (BVLC) 和社區貢獻者開發.
我們已經介紹了很多有趣的例子,這里再給出一個, 用Caffe實現Google’s #DeepDream.了解了這么多,自己動手放飛夢想吧(另外,關于深度學習的開源軟件非常多,更多的可以看的翻譯的GitHub深度學習庫,你了解多少?)。
Dreaming Deep with Caffe?via?Google’s GitHub
我沒不能保證這個過程會很快或很容易,但如果你把時間按照上面的7個步驟做,沒有任何理由,你不能達到合理水平,理解一些機器學習算法并利用Python流行的庫實現它,包括一些目前的深度學習研究前沿。
評論
查看更多