作為一切科學(xué)的基礎(chǔ),數(shù)學(xué)在數(shù)據(jù)科學(xué)領(lǐng)域也占據(jù)著重要地位。如果你是一名數(shù)據(jù)科學(xué)愛好者,一定想過這些問題:
· 我可以在幾乎沒有數(shù)學(xué)背景的情況下,成為一名數(shù)據(jù)科學(xué)家嗎?
· 在數(shù)據(jù)科學(xué)中,哪些基本的數(shù)學(xué)技能是重要的?
有很多好用的包可以用來構(gòu)建預(yù)測模型,或生成數(shù)據(jù)可視化。一些最常用的描述性分析和預(yù)測性分析包包括:Ggplot2、Matplotlib、Seaborn、Scikit-learn、Caret、TensorFlow、PyTorch、Keras等。
有了這些包,任何人都可以構(gòu)建模型或者生成數(shù)據(jù)可視化。然而,想要微調(diào)模型,使之能產(chǎn)生具有最佳性能的可靠模型,確實(shí)需要非常扎實(shí)的數(shù)學(xué)基礎(chǔ)知識(shí)。
建立模型是一回事,但是解釋模型,并且總結(jié)出有意義的,且可用于數(shù)據(jù)驅(qū)動(dòng)的決策制定的結(jié)論是另一回事。重要的是,在使用這些包之前,讀者必須要對(duì)每一個(gè)包的數(shù)學(xué)基礎(chǔ)有所了解,不僅限將這些包作為黑盒子工具來使用。
案例研究:構(gòu)建多元回歸模型
假設(shè)現(xiàn)在要建立一個(gè)多元回歸模型。在此之前,我們需要問自己幾個(gè)問題:
· 數(shù)據(jù)集有多大?
· 我的特征變量和目標(biāo)變量是什么?
· 哪些預(yù)測特征與目標(biāo)變量最相關(guān)?
· 哪些功能很重要?
· 應(yīng)該縮放特征嗎?
· 如何提高模型的預(yù)測能力?
· 應(yīng)該使用正則回歸模型嗎?
· 回歸系數(shù)是多少?
· 什么是攔截?
· 如何將數(shù)據(jù)集劃分為訓(xùn)練集和測試集?
· 什么是主成分分析(PCA)?
· 應(yīng)該使用主成分分析來刪除冗余的特征嗎?
· 應(yīng)不應(yīng)該使用非參數(shù)回歸模型,如k鄰近回歸(或支持向量回歸)?
· 模型中有哪些超參數(shù),如何對(duì)它們進(jìn)行微調(diào)以獲得性能最優(yōu)的模型?
· 如何評(píng)估模型?是用R2-score(決定系數(shù)),MSE(均方誤差),還是MAE(平均絕對(duì)誤差)?
沒有良好的數(shù)學(xué)背景,就無法回答上述問題。在數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)中,數(shù)學(xué)技能和編程技能同等重要。作為一名數(shù)據(jù)科學(xué)愛好者,一定要投入時(shí)間來研究數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的理論和數(shù)學(xué)基礎(chǔ)。
能否建立可靠而有效的模型,使其應(yīng)用于現(xiàn)實(shí)世界的問題,取決于讀者的數(shù)學(xué)技能有多好。接下來我們來討論一下在數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)中所需要的一些基本數(shù)學(xué)技能。
數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)的基本數(shù)學(xué)技能
1. 線性代數(shù)
線性代數(shù)是機(jī)器學(xué)習(xí)中最重要的數(shù)學(xué)技能。數(shù)據(jù)集表示為矩陣,線性代數(shù)用于數(shù)據(jù)預(yù)處理、數(shù)據(jù)轉(zhuǎn)換、降維和模型評(píng)估。
以下是大家需要熟悉的:向量;向量的范數(shù);矩陣;矩陣的轉(zhuǎn)置;逆矩陣;矩陣的行列式;矩陣的跡;點(diǎn)積;特征值;特征向量。
2. 統(tǒng)計(jì)與概率
統(tǒng)計(jì)與概率用于特征可視化、數(shù)據(jù)預(yù)處理、特征轉(zhuǎn)換、數(shù)據(jù)插補(bǔ)、降維、特征工程、模型評(píng)價(jià)等。
以下是大家需要熟悉的:均值、中值、模式、標(biāo)準(zhǔn)差/方差、相關(guān)系數(shù)和協(xié)方差矩陣、概率分布(二項(xiàng)式、泊松分布、正態(tài)分布)、p值、貝葉斯定理(精度、召回率、正預(yù)測值、負(fù)預(yù)測值、混淆矩陣、ROC曲線)、中心極限定理,R-2 score,均方誤差(MSE),A/B檢驗(yàn),蒙特卡羅模擬。
3. 多變量微積分
大多數(shù)機(jī)器學(xué)習(xí)模型都是由一個(gè)具有多個(gè)特征或預(yù)測器的數(shù)據(jù)集建立的。因此,熟悉多變量微積分對(duì)于建立機(jī)器學(xué)習(xí)模型非常重要。
以下是大家需要熟悉的:多元函數(shù);導(dǎo)數(shù)和梯度;階躍函數(shù)、S形函數(shù)、Logit效用函數(shù)、ReLU(修正線性單元)函數(shù);成本函數(shù);函數(shù)繪圖;函數(shù)的最小值和最大值。
4.優(yōu)化方法
大多數(shù)機(jī)器學(xué)習(xí)算法是通過最小化目標(biāo)函數(shù)進(jìn)行預(yù)測建模,從而學(xué)習(xí)為獲得預(yù)測標(biāo)簽而必須應(yīng)用于測試數(shù)據(jù)的權(quán)重。
以下是大家需要熟悉的:成本函數(shù)/目標(biāo)函數(shù);似然函數(shù);誤差函數(shù);梯度下降算法及其變體(例如隨機(jī)梯度下降算法)。
本文討論了數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)所需的基本數(shù)學(xué)和理論技能。互聯(lián)網(wǎng)時(shí)代,你能很輕松找到學(xué)習(xí)資源。作為數(shù)據(jù)科學(xué)愛好者一定要記住,數(shù)據(jù)科學(xué)的理論基礎(chǔ)對(duì)于高效可靠的模型建立至關(guān)重要。你應(yīng)該花足夠的時(shí)間來鉆研每種機(jī)器學(xué)習(xí)算法背后的數(shù)學(xué)理論,這對(duì)于數(shù)據(jù)科學(xué)來說是必不可少的。
-
數(shù)學(xué)建模
+關(guān)注
關(guān)注
0文章
49瀏覽量
14011 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8499瀏覽量
134300 -
數(shù)據(jù)科學(xué)
+關(guān)注
關(guān)注
0文章
168瀏覽量
10439
發(fā)布評(píng)論請(qǐng)先 登錄
數(shù)學(xué)專業(yè)轉(zhuǎn)人工智能方向:考研/就業(yè)前景分析及大學(xué)四年學(xué)習(xí)路徑全揭秘

如何使用自然語言處理分析文本數(shù)據(jù)
自然語言處理與機(jī)器學(xué)習(xí)的關(guān)系 自然語言處理的基本概念及步驟
ADS54J69EVM輸出的樣本數(shù)據(jù)變化幅度很大的原因?怎么解決?
光電效應(yīng)的數(shù)學(xué)模型及解析
什么是機(jī)器學(xué)習(xí)?通過機(jī)器學(xué)習(xí)方法能解決哪些問題?

LLM和傳統(tǒng)機(jī)器學(xué)習(xí)的區(qū)別
《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得
《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第一章人工智能驅(qū)動(dòng)的科學(xué)創(chuàng)新學(xué)習(xí)心得
【「時(shí)間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】時(shí)間序列的信息提取
技術(shù)干貨驛站 ▏深入理解C語言:基本數(shù)據(jù)類型和變量

評(píng)論