一区人机,亚洲精品另类,天天做天天爱天天大综合

在幾年之前，我踏進(jìn)了數(shù)據(jù)科學(xué)的大門。之前還是軟件工程師的時(shí)候，我是最先開始在網(wǎng)上自學(xué)的（在開始我的碩士學(xué)位之前）。我記得當(dāng)我搜集網(wǎng)上資源的時(shí)候，我看見的只有玲瑯滿目的算法名稱—線性回歸，支持向量機(jī)（SVM），決策樹（DT），隨即森林（RF），神經(jīng)網(wǎng)絡(luò)等。對(duì)于剛剛開始學(xué)習(xí)的我來說，這些算法都是非常有難度的。但是，后來我才發(fā)現(xiàn)：要成為一名數(shù)據(jù)科學(xué)家，最重要的事情就是了解和學(xué)習(xí)整個(gè)的流程，比如，如何獲取和處理數(shù)據(jù)，如何理解數(shù)據(jù)，如何搭建模型，如何評(píng)估結(jié)果（模型和數(shù)據(jù)處理階段）和優(yōu)化。為了達(dá)到這個(gè)目的，我認(rèn)為從邏輯回歸開始入門是非常不錯(cuò)的選擇，這樣不但可以讓我們很快熟悉這個(gè)流程，而且不被那些高大上的算法所嚇倒。

因此，下面將要列出5條原因來說明為什么最開始學(xué)習(xí)邏輯回歸是入門最好的選擇。當(dāng)然，這只是我個(gè)人的看法，對(duì)于其他人可能有更快捷的學(xué)習(xí)方式。

1. 因?yàn)槟Ｐ退惴ㄖ皇钦麄€(gè)流程的一部分

像我之前提到的一樣，數(shù)據(jù)科學(xué)工作不僅僅是建模，它還包括以下的步驟：

可以看到，“建模” 只是這個(gè)重復(fù)過程的一部分而已。當(dāng)開展一個(gè)數(shù)據(jù)產(chǎn)品的時(shí)候，一個(gè)非常好的實(shí)踐就是首先建立你的整個(gè)流程，讓它越簡(jiǎn)單越好，清楚地明白你想要獲得什么，如何進(jìn)行評(píng)估測(cè)試，以及你的baseline是什么。隨后在這基礎(chǔ)上，你就可以加入一些比較炫酷的機(jī)器學(xué)習(xí)算法，并知道你的效果是否變得更好。

順便說下，邏輯回歸（或者任何ML算法）可能不只是在建模部分所使用，它們也可能在數(shù)據(jù)理解和數(shù)據(jù)準(zhǔn)備的階段使用，填補(bǔ)缺失值就是一個(gè)例子。

2. 因?yàn)槟銓⒁玫乩斫鈾C(jī)器學(xué)習(xí)

我想當(dāng)大家看到本篇的時(shí)候，第一個(gè)想要問的問題就是：為什么是邏輯回歸，而不是線性回歸。真相其實(shí)是都無所謂，理解了機(jī)器學(xué)習(xí)才是最終目的。說到這個(gè)問題，就要引出監(jiān)督學(xué)習(xí)的兩個(gè)類型了，分類（邏輯回歸）和回歸（線性回歸）。當(dāng)你使用邏輯回歸或者線性回歸建立你整個(gè)流程的時(shí)候（越簡(jiǎn)單越好），你會(huì)慢慢地熟悉機(jī)器學(xué)習(xí)里的一些概念，例如監(jiān)督學(xué)習(xí)v.s非監(jiān)督學(xué)習(xí)，分類v.s回歸，線性v.s非線性等，以及更多問題。你也會(huì)知道如何準(zhǔn)備你的數(shù)據(jù)，以及這過程中有什么挑戰(zhàn)（比如填補(bǔ)缺失值和特征選擇），如何度量評(píng)估模型，是該使用準(zhǔn)確率，還是精準(zhǔn)率和召回率，RUC AUC？又或者可能是 “均方差”和“皮爾遜相關(guān)”？所有的概念都都是數(shù)據(jù)科學(xué)學(xué)習(xí)過程中非常重要的知識(shí)點(diǎn)。等慢慢熟悉了這些概念以后，你就可以用更復(fù)雜的模型或者技巧（一旦你掌握了之后）來替代你之前的簡(jiǎn)單模型了。

3. 因?yàn)檫壿嫽貧w有的時(shí)候，已經(jīng)足夠用了

邏輯回歸是一個(gè)非常強(qiáng)大的算法，甚至對(duì)于一些非常復(fù)雜的問題，它都可以做到游刃有余。拿MNIST舉例，你可以使用邏輯回歸獲得95%的準(zhǔn)確率，這個(gè)數(shù)字可能并不是一個(gè)非常出色的結(jié)果，但是它對(duì)于保證你的整個(gè)流程工作來說已經(jīng)足夠好了。實(shí)際上，如果說能夠選擇正確且有代表性的特征，邏輯回歸完全可以做的非常好。

當(dāng)處理非線性的問題時(shí)，我們有時(shí)候會(huì)用可解釋的線性方式來處理原始數(shù)據(jù)。可以用一個(gè)簡(jiǎn)單的例子來說明這種思想：現(xiàn)在我們想要基于這種思想來做一個(gè)簡(jiǎn)單的分類任務(wù)。

X1x2|Y==================-201201-100100

如果我們將數(shù)據(jù)可視化，我們可以看到?jīng)]有一條直線可以將它們分開。

在這種情況下，如果不對(duì)數(shù)據(jù)做一些處理的話，邏輯回歸是無法幫到我們的，但是如果我們不用x2特征，而使用x12來代替，那么數(shù)據(jù)將會(huì)變成這樣：

X1x1^2|Y==================-241241-110110

現(xiàn)在，就存在一條直線可以將它們分開了。當(dāng)然，這個(gè)簡(jiǎn)單的例子只是為了說明這種思想，對(duì)于現(xiàn)實(shí)世界來講，很難發(fā)現(xiàn)或找到如何改變數(shù)據(jù)的方法以可以使用線性分類器來幫助你。但是，如果你可以在特征工程和特征選擇上多花些時(shí)間，那么很可能你的邏輯回歸是可以很好的勝任的。

4. 因?yàn)檫壿嫽貧w是統(tǒng)計(jì)中的一個(gè)重要工具

線性回歸不僅僅可以用來預(yù)測(cè)。如果你有了一個(gè)訓(xùn)練好的線性模型，你可以通過它學(xué)習(xí)到因變量和自變量之間的關(guān)系，或者用更多的ML語言來說，你可以學(xué)習(xí)到特征變量和目標(biāo)變量的關(guān)系。一個(gè)簡(jiǎn)單的例子，房?jī)r(jià)預(yù)測(cè)，我們有很多房屋特征，還有實(shí)際的房?jī)r(jià)。我們基于這些數(shù)據(jù)訓(xùn)練一個(gè)線性回歸模型，然后得到了很好的結(jié)果。通過訓(xùn)練，我們可以發(fā)現(xiàn)模型訓(xùn)練后會(huì)給每個(gè)特征分配相應(yīng)的權(quán)重。如果某個(gè)特征權(quán)重很高，我們就可以說這個(gè)特征比其它的特征更重要。比如房屋大小特征，對(duì)于房?jī)r(jià)的變化會(huì)有50%的權(quán)重，因?yàn)榉课荽笮∶吭黾右黄矫追績(jī)r(jià)就會(huì)增加10k。線性回歸是一個(gè)了解數(shù)據(jù)以及統(tǒng)計(jì)規(guī)律的非常強(qiáng)的工具，同理，邏輯回歸也可以給每個(gè)特征分配各自的權(quán)重，通過這個(gè)權(quán)重，我們就可以了解特征的重要性。

5. 因?yàn)檫壿嫽貧w是學(xué)習(xí)神經(jīng)元網(wǎng)絡(luò)很好的開始

當(dāng)學(xué)習(xí)神經(jīng)元網(wǎng)絡(luò)的時(shí)候，最開始學(xué)習(xí)的邏輯回歸對(duì)我?guī)椭艽蟆Ｄ憧梢詫⒕W(wǎng)絡(luò)中的每個(gè)神經(jīng)元當(dāng)作一個(gè)邏輯回歸：它有輸入，有權(quán)重，和閾值，并可以通過點(diǎn)乘，然后再應(yīng)用某個(gè)非線性的函數(shù)得到輸出。更多的是，一個(gè)神經(jīng)元網(wǎng)絡(luò)的最后一層大多數(shù)情況下是一個(gè)簡(jiǎn)單的線性模型，看一下最基本的神經(jīng)元網(wǎng)絡(luò)：

如果我們更深入地觀察一下output層，可以看到這是一個(gè)簡(jiǎn)單的線性（或者邏輯）回歸，有hidden layer 2作為輸入，有相應(yīng)的權(quán)重，我們可以做一個(gè)點(diǎn)乘然后加上一個(gè)非線性函數(shù)（根據(jù)任務(wù)而定）。可以說，對(duì)于神經(jīng)元網(wǎng)絡(luò)，一個(gè)非常好的思考方式是：將NN劃分為兩部分，一個(gè)是代表部分，一個(gè)是分類/回歸部分。

第一部分（左側(cè)）嘗試從數(shù)據(jù)中學(xué)習(xí)并具有很好的代表性，然后它會(huì)幫助第二個(gè)部分（右側(cè)）來完成一個(gè)線性的分類或者回歸任務(wù)。

總結(jié)

成為一個(gè)數(shù)據(jù)科學(xué)家你可能需要掌握很多知識(shí)，第一眼看上去，好像學(xué)習(xí)算法才是最重要的部分。實(shí)際的情況是：學(xué)習(xí)算法確實(shí)是所有情況中最復(fù)雜的部分，需要花費(fèi)大量的時(shí)間和努力來理解，但它也只是數(shù)據(jù)科學(xué)中的一個(gè)部分，把握整體更為關(guān)鍵。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴