作為一切科學的基礎,數學在數據科學領域也占據著重要地位。如果你是一名數據科學愛好者,一定想過這些問題:
· 我可以在幾乎沒有數學背景的情況下,成為一名數據科學家嗎?
· 在數據科學中,哪些基本的數學技能是重要的?
有很多好用的包可以用來構建預測模型,或生成數據可視化。一些最常用的描述性分析和預測性分析包包括:Ggplot2、Matplotlib、Seaborn、Scikit-learn、Caret、TensorFlow、PyTorch、Keras等。
有了這些包,任何人都可以構建模型或者生成數據可視化。然而,想要微調模型,使之能產生具有最佳性能的可靠模型,確實需要非常扎實的數學基礎知識。
建立模型是一回事,但是解釋模型,并且總結出有意義的,且可用于數據驅動的決策制定的結論是另一回事。重要的是,在使用這些包之前,讀者必須要對每一個包的數學基礎有所了解,不僅限將這些包作為黑盒子工具來使用。
案例研究:構建多元回歸模型
假設現在要建立一個多元回歸模型。在此之前,我們需要問自己幾個問題:
· 數據集有多大?
· 我的特征變量和目標變量是什么?
· 哪些預測特征與目標變量最相關?
· 哪些功能很重要?
· 應該縮放特征嗎?
· 如何提高模型的預測能力?
· 應該使用正則回歸模型嗎?
· 回歸系數是多少?
· 什么是攔截?
· 如何將數據集劃分為訓練集和測試集?
· 什么是主成分分析(PCA)?
· 應該使用主成分分析來刪除冗余的特征嗎?
· 應不應該使用非參數回歸模型,如k鄰近回歸(或支持向量回歸)?
· 模型中有哪些超參數,如何對它們進行微調以獲得性能最優的模型?
· 如何評估模型?是用R2-score(決定系數),MSE(均方誤差),還是MAE(平均絕對誤差)?
沒有良好的數學背景,就無法回答上述問題。在數據科學和機器學習中,數學技能和編程技能同等重要。作為一名數據科學愛好者,一定要投入時間來研究數據科學和機器學習的理論和數學基礎。
能否建立可靠而有效的模型,使其應用于現實世界的問題,取決于讀者的數學技能有多好。接下來我們來討論一下在數據科學和機器學習中所需要的一些基本數學技能。
數據科學與機器學習的基本數學技能
1. 線性代數
線性代數是機器學習中最重要的數學技能。數據集表示為矩陣,線性代數用于數據預處理、數據轉換、降維和模型評估。
以下是大家需要熟悉的:向量;向量的范數;矩陣;矩陣的轉置;逆矩陣;矩陣的行列式;矩陣的跡;點積;特征值;特征向量。
2. 統計與概率
統計與概率用于特征可視化、數據預處理、特征轉換、數據插補、降維、特征工程、模型評價等。
以下是大家需要熟悉的:均值、中值、模式、標準差/方差、相關系數和協方差矩陣、概率分布(二項式、泊松分布、正態分布)、p值、貝葉斯定理(精度、召回率、正預測值、負預測值、混淆矩陣、ROC曲線)、中心極限定理,R-2 score,均方誤差(MSE),A/B檢驗,蒙特卡羅模擬。
3. 多變量微積分
大多數機器學習模型都是由一個具有多個特征或預測器的數據集建立的。因此,熟悉多變量微積分對于建立機器學習模型非常重要。
以下是大家需要熟悉的:多元函數;導數和梯度;階躍函數、S形函數、Logit效用函數、ReLU(修正線性單元)函數;成本函數;函數繪圖;函數的最小值和最大值。
4.優化方法
大多數機器學習算法是通過最小化目標函數進行預測建模,從而學習為獲得預測標簽而必須應用于測試數據的權重。
以下是大家需要熟悉的:成本函數/目標函數;似然函數;誤差函數;梯度下降算法及其變體(例如隨機梯度下降算法)。
本文討論了數據科學和機器學習所需的基本數學和理論技能。互聯網時代,你能很輕松找到學習資源。作為數據科學愛好者一定要記住,數據科學的理論基礎對于高效可靠的模型建立至關重要。你應該花足夠的時間來鉆研每種機器學習算法背后的數學理論,這對于數據科學來說是必不可少的。
-
數學建模
+關注
關注
0文章
49瀏覽量
13826 -
機器學習
+關注
關注
66文章
8421瀏覽量
132710 -
數據科學
+關注
關注
0文章
165瀏覽量
10070
發布評論請先 登錄
相關推薦
評論