Kaggle 的房價預(yù)測競賽從 2016 年 8 月開始,到 2017 年 2 月結(jié)束。這段時間內(nèi),超過 2000 多人參與比賽,選手采用高級回歸技術(shù),基于我們給出的 79 個特征,對房屋的售價進(jìn)行了準(zhǔn)確的預(yù)測。今天我們介紹的是目前得票數(shù)最高的優(yōu)勝方案:《用 Python 進(jìn)行全面數(shù)據(jù)探索》,該方案在數(shù)據(jù)探索,特征工程上都有十分出色的表現(xiàn)。
作者 Pedro Marcelino在競賽中使用的主要方法是關(guān)注數(shù)據(jù)科學(xué)處理方法,以及尋找能夠指導(dǎo)工作的有力文獻(xiàn)資料。作者主要參考《多元數(shù)據(jù)分析》(Multivariate Data Analysis, Hair et al., 2014)中的第三章 “檢查你的
數(shù)據(jù)”。作者將自己研究的方法歸為以下三步:
定義要解決的問題;
查閱相關(guān)文獻(xiàn);
對他們進(jìn)行修改以適合自己的要求。
“不過是站在巨人的肩膀上。”——Pedro Marcelino
下面我們就一起來看看作者是如何對數(shù)據(jù)進(jìn)行分析的。
了解你的數(shù)據(jù)
方法框架:
理解問題:查看每個變量并且根據(jù)他們的意義和對問題的重要性進(jìn)行哲學(xué)分析。
單因素研究:只關(guān)注因變量( SalePrice),并且進(jìn)行更深入的了解。
多因素研究:分析因變量和自變量之間的關(guān)系。
基礎(chǔ)清洗:清洗數(shù)據(jù)集并且對缺失數(shù)據(jù),異常值和分類數(shù)據(jù)進(jìn)行一些處理。
檢驗假設(shè):檢查數(shù)據(jù)是否和多元分析方法的假設(shè)達(dá)到一致。
開始之前:
importpandasaspdimportmatplotlib.pyplotaspltimportseabornassnsimportnumpyasnpfromscipy.statsimportnormfromsklearn.preprocessingimportStandardScalerfromscipyimportstatsimportwarningswarnings.filterwarnings('ignore')%matplotlibinline#bringinthesixpacksdf_train=pd.read_csv('../input/train.csv')#checkthedecorationdf_train.columnsIndex(['Id','MSSubClass','MSZoning','LotFrontage','LotArea','Street','Alley','LotShape','LandContour','Utilities','LotConfig','LandSlope','Neighborhood','Condition1','Condition2','BldgType','HouseStyle','OverallQual','OverallCond','YearBuilt','YearRemodAdd','RoofStyle','RoofMatl','Exterior1st','Exterior2nd','MasVnrType','MasVnrArea','ExterQual','ExterCond','Foundation','BsmtQual','BsmtCond','BsmtExposure','BsmtFinType1','BsmtFinSF1','BsmtFinType2','BsmtFinSF2','BsmtUnfSF','TotalBsmtSF','Heating','HeatingQC','CentralAir','Electrical','1stFlrSF','2ndFlrSF','LowQualFinSF','GrLivArea','BsmtFullBath','BsmtHalfBath','FullBath','HalfBath','BedroomAbvGr','KitchenAbvGr','KitchenQual','TotRmsAbvGrd','Functional','Fireplaces','FireplaceQu','GarageType','GarageYrBlt','GarageFinish','GarageCars','GarageArea','GarageQual','GarageCond','PavedDrive','WoodDeckSF','OpenPorchSF','EnclosedPorch','3SsnPorch','ScreenPorch','PoolArea','PoolQC','Fence','MiscFeature','MiscVal','MoSold','YrSold','SaleType','SaleCondition','SalePrice'],dtype='object')
準(zhǔn)備工作——我們可以期望什么?
為了了解我們的數(shù)據(jù),我們可以分析每個變量并且嘗試?yán)斫馑麄兊囊饬x和與該問題的相關(guān)程度。
首先建立一個 Excel 電子表格,有如下目錄:
變量–變量名。
類型– 該變量的類型。這一欄只有兩個可能值,“數(shù)據(jù)” 或 “類別”。“數(shù)據(jù)” 是指該變量的值是數(shù)字,“類別” 指該變量的值是類別標(biāo)簽。
劃分– 指示變量劃分. 我們定義了三種劃分:建筑,空間,位置。
期望– 我們希望該變量對房價的影響程度。我們使用類別標(biāo)簽 “高”,“中” 和 “低” 作為可能值。
結(jié)論– 我們得出的該變量的重要性的結(jié)論。在大概瀏覽數(shù)據(jù)之后,我們認(rèn)為這一欄和 “期望” 的值基本一致。
評論– 我們看到的所有一般性評論。
我們首先閱讀了每一個變量的描述文件,同時思考這三個問題:
我們買房子的時候會考慮這個因素嗎?
如果考慮的話,這個因素的重要程度如何?
這個因素帶來的信息在其他因素中出現(xiàn)過嗎?
我們根據(jù)以上內(nèi)容填好了電子表格,并且仔細(xì)觀察了 “高期望” 的變量。然后繪制了這些變量和房價之間的散點圖,填在了 “結(jié)論” 那一欄,也正巧就是對我們的期望值的校正。
我們總結(jié)出了四個對該問題起到至關(guān)重要的作用的變量:
OverallQual
YearBuilt.
TotalBsmtSF.
GrLivArea.
最重要的事情——分析 “房價”
描述性數(shù)據(jù)總結(jié):
df_train['SalePrice'].describe()count1460.000000mean180921.195890std79442.502883min34900.00000025%129975.00000050%163000.00000075%214000.000000max755000.000000Name:SalePrice,dtype:float64
繪制直方圖
sns.distplot(df_train['SalePrice']);
從直方圖中可以看出:
偏離正態(tài)分布
數(shù)據(jù)正偏
有峰值
數(shù)據(jù)偏度和峰度度量:
print("Skewness:%f"%df_train['SalePrice'].skew())print("Kurtosis:%f"%df_train['SalePrice'].kurt())
Skewness: 1.882876
Kurtosis: 6.536282
“房價” 的相關(guān)變量分析
與數(shù)字型變量的關(guān)系:
1. Grlivarea 與 SalePrice 散點圖
var='GrLivArea'data=pd.concat([df_train['SalePrice'],df_train[var]],axis=1)data.plot.scatter(x=var,y='SalePrice',ylim=(0,800000));
可以看出 SalePrice 和 GrLivArea 關(guān)系很密切,并且基本呈線性關(guān)系。
2. TotalBsmtSF 與 SalePrice 散點圖
var='TotalBsmtSF'data=pd.concat([df_train['SalePrice'],df_train[var]],axis=1)data.plot.scatter(x=var,y='SalePrice',ylim=(0,800000));
TotalBsmtSF 和 SalePrice 關(guān)系也很密切,從圖中可以看出基本呈指數(shù)分布,但從最左側(cè)的點可以看出特定情況下 TotalBsmtSF 對 SalePrice 沒有產(chǎn)生影響。
與類別型變量的關(guān)系
1.‘OverallQual’與‘SalePrice’箱型圖
var='OverallQual'data=pd.concat([df_train['SalePrice'],df_train[var]],axis=1)f,ax=plt.subplots(figsize=(8,6))fig=sns.boxplot(x=var,y="SalePrice",data=data)fig.axis(ymin=0,ymax=800000);
可以看出 SalePrice 與 OverallQual 分布趨勢相同。
2. YearBuilt 與 SalePrice 箱型圖
var='YearBuilt'data=pd.concat([df_train['SalePrice'],df_train[var]],axis=1)f,ax=plt.subplots(figsize=(16,8))fig=sns.boxplot(x=var,y="SalePrice",data=data)fig.axis(ymin=0,ymax=800000);plt.xticks(rotation=90);
兩個變量之間的關(guān)系沒有很強(qiáng)的趨勢性,但是可以看出建筑時間較短的房屋價格更高。
總結(jié):
GrLivArea 和 TotalBsmtSF 與 SalePrice 似乎線性相關(guān),并且都是正相關(guān)。對于 TotalBsmtSF 線性關(guān)系的斜率十分的高。
OverallQual 和 YearBuilt 與 SalePrice 也有關(guān)系。OverallQual 的相關(guān)性更強(qiáng), 箱型圖顯示了隨著整體質(zhì)量的增長,房價的增長趨勢。
我們只分析了四個變量,但是還有許多其他變量我們也應(yīng)該分析,這里的技巧在于選擇正確的特征(特征選擇)而不是定義他們之間的復(fù)雜關(guān)系(特征工程)。
客觀分析
1. 相關(guān)系數(shù)矩陣
corrmat=df_train.corr()f,ax=plt.subplots(figsize=(12,9))sns.heatmap(corrmat,vmax=.8,square=True);
首先兩個紅色的方塊吸引到了我,第一個是 TotalBsmtSF 和 1stFlrSF 變量的相關(guān)系數(shù),第二個是 GarageX 變量群。這兩個示例都顯示了這些變量之間很強(qiáng)的相關(guān)性。實際上,相關(guān)性的程度達(dá)到了一種多重共線性的情況。我們可以總結(jié)出這些變量幾乎包含相同的信息,所以確實出現(xiàn)了多重共線性。
另一個引起注意的地方是 SalePrice 的相關(guān)性。我們可以看到我們之前分析的 GrLivArea,TotalBsmtSF和 OverallQual 的相關(guān)性很強(qiáng),除此之外也有很多其他的變量應(yīng)該進(jìn)行考慮,這也是我們下一步的內(nèi)容。
2. SalePrice 相關(guān)系數(shù)矩陣
k=10#numberofvariablesforheatmapcols=corrmat.nlargest(k,'SalePrice')['SalePrice'].indexcm=np.corrcoef(df_train[cols].values.T)sns.set(font_scale=1.25)hm=sns.heatmap(cm,cbar=True,annot=True,square=True,fmt='.2f',annot_kws={'size':10},yticklabels=cols.values,xticklabels=cols.values)plt.show()
從圖中可以看出:
OverallQual,GrLivArea 以及 TotalBsmtSF 與 SalePrice 有很強(qiáng)的相關(guān)性。
GarageCars 和 GarageArea 也是相關(guān)性比較強(qiáng)的變量. 車庫中存儲的車的數(shù)量是由車庫的面積決定的,它們就像雙胞胎,所以不需要專門區(qū)分 GarageCars 和 GarageAre,所以我們只需要其中的一個變量。這里我們選擇了 GarageCars,因為它與 SalePrice 的相關(guān)性更高一些。
TotalBsmtSF 和 1stFloor 與上述情況相同,我們選擇 TotalBsmtS 。
FullBath 幾乎不需要考慮。
TotRmsAbvGrd 和 GrLivArea 也是變量中的雙胞胎。
YearBuilt 和 SalePrice 相關(guān)性似乎不強(qiáng)。
3. SalePrice 和相關(guān)變量之間的散點圖
sns.set()cols=['SalePrice','OverallQual','GrLivArea','GarageCars','TotalBsmtSF','FullBath','YearBuilt']sns.pairplot(df_train[cols],size=2.5)plt.show();
盡管我們已經(jīng)知道了一些主要特征,這一豐富的散點圖給了我們一個關(guān)于變量關(guān)系的合理想法。
其中,TotalBsmtSF 和 GrLiveArea 之間的散點圖是很有意思的。我們可以看出這幅圖中,一些點組成了線,就像邊界一樣。大部分點都分布在那條線下面,這也是可以解釋的。地下室面積和地上居住面積可以相等,但是一般情況下不會希望有一個比地上居住面積還大的地下室。
SalePrice 和 YearBuilt 之間的散點圖也值得我們思考。在 “點云” 的底部,我們可以觀察到一個幾乎呈指數(shù)函數(shù)的分布。我們也可以看到 “點云” 的上端也基本呈同樣的分布趨勢。并且可以注意到,近幾年的點有超過這個上端的趨勢。
缺失數(shù)據(jù)
關(guān)于缺失數(shù)據(jù)需要思考的重要問題:
這一缺失數(shù)據(jù)的普遍性如何?
缺失數(shù)據(jù)是隨機(jī)的還是有律可循?
這些問題的答案是很重要的,因為缺失數(shù)據(jù)意味著樣本大小的縮減,這會阻止我們的分析進(jìn)程。除此之外,以實質(zhì)性的角度來說,我們需要保證對缺失數(shù)據(jù)的處理不會出現(xiàn)偏離或隱藏任何難以忽視的真相。
total=df_train.isnull().sum().sort_values(ascending=False)percent=(df_train.isnull().sum()/df_train.isnull().count()).sort_values(ascending=False)missing_data=pd.concat([total,percent],axis=1,keys=['Total','Percent'])missing_data.head(20)
當(dāng)超過 15% 的數(shù)據(jù)都缺失的時候,我們應(yīng)該刪掉相關(guān)變量且假設(shè)該變量并不存在。
根據(jù)這一條,一系列變量都應(yīng)該刪掉,例如 PoolQC,MiscFeature,Alley 等等,這些變量都不是很重要,因為他們基本都不是我們買房子時會考慮的因素。
GarageX 變量群的缺失數(shù)據(jù)量都相同,由于關(guān)于車庫的最重要的信息都可以由 GarageCars 表達(dá),并且這些數(shù)據(jù)只占缺失數(shù)據(jù)的 5%,我們也會刪除上述的 GarageX 變量群。同樣的邏輯也適用于 BsmtX 變量群。
對于 MasVnrArea 和 MasVnrType,我們可以認(rèn)為這些因素并不重要。除此之外,他們和 YearBuilt 以及 OverallQual 都有很強(qiáng)的關(guān)聯(lián)性,而這兩個變量我們已經(jīng)考慮過了。所以刪除 MasVnrArea 和 MasVnrType 并不會丟失信息。
最后,由于 Electrical 中只有一個損失的觀察值,所以我們刪除這個觀察值,但是保留這一變量。
df_train=df_train.drop((missing_data[missing_data['Total']>1]).index,1)df_train=df_train.drop(df_train.loc[df_train['Electrical'].isnull()].index)df_train.isnull().sum().max()#justcheckingthatthere'snomissingdatamissing...
異常值
單因素分析
這里的關(guān)鍵在于如何建立閾值,定義一個觀察值為異常值。我們對數(shù)據(jù)進(jìn)行正態(tài)化,意味著把數(shù)據(jù)值轉(zhuǎn)換成均值為 0,方差為 1 的數(shù)據(jù)。
saleprice_scaled=StandardScaler().fit_transform(df_train['SalePrice'][:,np.newaxis]);low_range=saleprice_scaled[saleprice_scaled[:,0].argsort()][:10]high_range=saleprice_scaled[saleprice_scaled[:,0].argsort()][-10:]print('outerrange(low)ofthedistribution:')print(low_range)print(' outerrange(high)ofthedistribution:')print(high_range)
進(jìn)行正態(tài)化后,可以看出:
低范圍的值都比較相似并且在 0 附近分布。
高范圍的值離 0 很遠(yuǎn),并且七點幾的值遠(yuǎn)在正常范圍之外。
雙變量分析
1. GrLivArea 和 SalePrice 雙變量分析
var='GrLivArea'data=pd.concat([df_train['SalePrice'],df_train[var]],axis=1)data.plot.scatter(x=var,y='SalePrice',ylim=(0,800000));
從圖中可以看出:
有兩個離群的 GrLivArea 值很高的數(shù)據(jù),我們可以推測出現(xiàn)這種情況的原因。或許他們代表了農(nóng)業(yè)地區(qū),也就解釋了低價。這兩個點很明顯不能代表典型樣例,所以我們將它們定義為異常值并刪除。
圖中頂部的兩個點是七點幾的觀測值,他們雖然看起來像特殊情況,但是他們依然符合整體趨勢,所以我們將其保留下來。
刪除點
df_train.sort_values(by='GrLivArea',ascending=False)[:2]df_train=df_train.drop(df_train[df_train['Id']==1299].index)df_train=df_train.drop(df_train[df_train['Id']==524].index)
2. TotalBsmtSF 和 SalePrice 雙變量分析
var='TotalBsmtSF'data=pd.concat([df_train['SalePrice'],df_train[var]],axis=1)data.plot.scatter(x=var,y='SalePrice',ylim=(0,800000));
核心部分
“房價” 到底是誰?
這個問題的答案,需要我們驗證根據(jù)數(shù)據(jù)基礎(chǔ)進(jìn)行多元分析的假設(shè)。
我們已經(jīng)進(jìn)行了數(shù)據(jù)清洗,并且發(fā)現(xiàn)了 SalePrice 的很多信息,現(xiàn)在我們要更進(jìn)一步理解 SalePrice 如何遵循統(tǒng)計假設(shè),可以讓我們應(yīng)用多元技術(shù)。
應(yīng)該測量 4 個假設(shè)量:
正態(tài)性
同方差性
線性
相關(guān)錯誤缺失
正態(tài)性:
應(yīng)主要關(guān)注以下兩點:
直方圖– 峰度和偏度。
正態(tài)概率圖– 數(shù)據(jù)分布應(yīng)緊密跟隨代表正態(tài)分布的對角線。
1. SalePrice
繪制直方圖和正態(tài)概率圖:
sns.distplot(df_train['SalePrice'],fit=norm);fig=plt.figure()res=stats.probplot(df_train['SalePrice'],plot=plt)
可以看出,房價分布不是正態(tài)的,顯示了峰值,正偏度,但是并不跟隨對角線。
可以用對數(shù)變換來解決這個問題
進(jìn)行對數(shù)變換:
df_train['SalePrice']=np.log(df_train['SalePrice'])
繪制變換后的直方圖和正態(tài)概率圖:
sns.distplot(df_train['SalePrice'],fit=norm);fig=plt.figure()res=stats.probplot(df_train['SalePrice'],plot=plt)
2. GrLivArea
繪制直方圖和正態(tài)概率曲線圖:
sns.distplot(df_train['GrLivArea'],fit=norm);fig=plt.figure()res=stats.probplot(df_train['GrLivArea'],plot=plt)
進(jìn)行對數(shù)變換:
df_train['GrLivArea']=np.log(df_train['GrLivArea'])
繪制變換后的直方圖和正態(tài)概率圖:
sns.distplot(df_train['GrLivArea'],fit=norm);fig=plt.figure()res=stats.probplot(df_train['GrLivArea'],plot=plt)
3. TotalBsmtSF
繪制直方圖和正態(tài)概率曲線圖:
sns.distplot(df_train['TotalBsmtSF'],fit=norm);fig=plt.figure()res=stats.probplot(df_train['TotalBsmtSF'],plot=plt)
從圖中可以看出:
顯示出了偏度
大量為 0 的觀察值(沒有地下室的房屋)
含 0 的數(shù)據(jù)無法進(jìn)行對數(shù)變換
我們建立了一個變量,可以得到有沒有地下室的影響值(二值變量),我們選擇忽略零值,只對非零值進(jìn)行對數(shù)變換。這樣我們既可以變換數(shù)據(jù),也不會損失有沒有地下室的影響。
df_train['HasBsmt']=pd.Series(len(df_train['TotalBsmtSF']),index=df_train.index)df_train['HasBsmt']=0df_train.loc[df_train['TotalBsmtSF']>0,'HasBsmt']=1
進(jìn)行對數(shù)變換:
df_train['TotalBsmtSF']=np.log(df_train['TotalBsmtSF'])
繪制變換后的直方圖和正態(tài)概率圖:
sns.distplot(df_train['TotalBsmtSF'],fit=norm);fig=plt.figure()res=stats.probplot(df_train['TotalBsmtSF'],plot=plt)
同方差性:
最好的測量兩個變量的同方差性的方法就是圖像。
1. SalePrice 和 GrLivArea 同方差性
繪制散點圖:
plt.scatter(df_train['GrLivArea'],df_train['SalePrice']);
2. SalePrice with TotalBsmtSF 同方差性
繪制散點圖:
plt.scatter(df_train[df_train['TotalBsmtSF']>0]['TotalBsmtSF'],df_train[df_train['TotalBsmtSF']>0]['SalePrice']);
可以看出 SalePrice 在整個 TotalBsmtSF 變量范圍內(nèi)顯示出了同等級別的變化。
虛擬變量
將類別變量轉(zhuǎn)換為虛擬變量:
df_train=pd.get_dummies(df_train)
結(jié)論
整個方案中,我們使用了很多《多元數(shù)據(jù)分析》中提出的方法。我們對變量進(jìn)行了哲學(xué)分析,不僅對 SalePrice 進(jìn)行了單獨分析,還結(jié)合了相關(guān)程度最高的變量進(jìn)行分析。我們處理了缺失數(shù)據(jù)和異常值,我們驗證了一些基礎(chǔ)統(tǒng)計假設(shè),并且將類別變量轉(zhuǎn)換為虛擬變量。
但問題還沒有結(jié)束,我們還需要預(yù)測房價的變化趨勢,房價預(yù)測是否適合線性回歸正則化的方法?是否適合組合方法?或者一些其他的方法?
希望你可以進(jìn)行自己的探索發(fā)現(xiàn)。
-
變量
+關(guān)注
關(guān)注
0文章
613瀏覽量
28402 -
python
+關(guān)注
關(guān)注
56文章
4797瀏覽量
84789
原文標(biāo)題:詳解 Kaggle 房價預(yù)測競賽優(yōu)勝方案:用 Python 進(jìn)行全面數(shù)據(jù)探索
文章出處:【微信號:worldofai,微信公眾號:worldofai】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論