一、ROC曲線的含義
ROC曲線的英文名稱為Receiver Operating Characteristic Curve,中文譯為受試者工作特征曲線。
ROC曲線是基于混淆矩陣發展而來的系統識別的性能度量。如表一所示,在混淆矩陣中,若系統的TP增加,則該系統FP增加,即若開發人員欲使機器學習系統將更多的正樣本識別為正樣本(TP增加),則該系統一定會將更多的負樣本識別為正樣本(FP增加)。
預測 | |||
實際 | 正樣本 | 負樣本 | |
正樣本 | True Positive(TP) | False Negative(FN) | |
負樣本 | False Positive(FP) | True Negative(TN) |
表一,內容來源:中國慕課大學《機器學習概論》
對于支持向量機學習系統,“若系統的TP增加,則該系統FP增加”的結論可基于支持向量機的判別公式理解。
支持向量機的判別公式為: 若∑αiyiK(Xi,X)+b≥0,則y=+1(判別為正樣本); 若∑αiyiK(Xi,X)+b<0,則y=-1(判別為負樣本)。
若將上述支持向量機的判別公式的閾值從“0”更改至“-1”為: 若∑αiyiK(Xi,X)+b≥-1,則y=+1(判別為正樣本); 若∑αiyiK(Xi,X)+b<-1,則y=-1(判別為負樣本)。
則不僅正樣本被判別為正樣本的數量增加,負樣本被判別為正樣本的數量也增加,即此機器向量機系統的TP和FP均增加。
因此,雖然支持向量機可通過改變判別式閾值增加TP,但此種方法也將導致FP增加,即簡單改變判別式閾值不能有效提高系統的性能。可有效提高系統性能的方式是設計更優的算法。
基于此,人們可通過系統TP與FP之間的關系,即繪制TP與FP曲線(ROC曲線)判別系統性性能的優劣。
二、ROC曲線的繪制
圖一中的四條曲線均為ROC曲線,ROC曲線的橫坐標為FP,縱坐標為TP。
ROC曲線的繪制步驟如下:
(1)將每個測試樣本的值帶入至∑αiyiK(Xi,X)+b中計算;
(2)將第(1)步所計算出的值從小到大排序;
(3)將第(2)步完成排序的值作為判別式的閾值,并計算每個閾值下的TP和FP的值;
(4)將同一閾值下TP和FP的值作為一個點的縱坐標和橫坐標,將所有點繪制于坐標系中,所有點連接繪制的曲線即為ROC曲線。
圖一,圖片來源:中國慕課大學《機器學習概論》
三、通過ROC曲線判別系統性能的方式
如圖一所示,坐標系中包含四種算法的ROC曲線。根據圖一ROC曲線,此四種算法中,藍色ROC曲線所對應的算法最優,紫色ROC曲線所對應的算法最差,即越貼近左上角的ROC曲線性能越好。
該結論可通過以下方式理解:對于相同的FP,ROC曲線越貼近左上角,所對應的算法的TP越大,即算法性能越好。
根據ROC曲線可衍生出系統識別的性能度量包括:AUC(AREA UNDER CURVE)和EER(EQUAL ERROR RATE)
(1)AUC AUC是指ROC曲線下方的面積,該指標越大,系統性能越好。
圖片來源:中國慕課大學《機器學習概論》
(2)EER
EER的中文翻譯為等錯誤率,等錯誤率為坐標系中點(0,1)和點(1,0)的連線與ROC曲線交點的橫坐標,EER越小,系統性能越好。
圖片來源:中國慕課大學《機器學習概論》
審核編輯:劉清
-
向量機
+關注
關注
0文章
166瀏覽量
20884 -
機器學習
+關注
關注
66文章
8422瀏覽量
132714
原文標題:機器學習相關介紹(19)——支持向量機(系統識別的性能度量之ROC曲線)
文章出處:【微信號:行業學習與研究,微信公眾號:行業學習與研究】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論