導讀
基于樹的模型和神經網絡其實并沒有太多的不同。
神經網絡通常被認為是機器學習的圣杯,無所不知,解決一切問題,主要是因為它們很復雜。另一方面,基于樹的方法并沒有被同樣的敬畏和炒作,主要是因為它們看起來很簡單。雖然它們看起來如此不同,但它們只是一枚硬幣的兩面。
基于樹的方法通常比神經網絡更好。任何Kaggler都知道XGBoost是到目前為止最受歡迎的最佳競賽提交選擇。本質上,基于樹的方法和神經網絡之所以屬于同一類,是因為它們是通過逐條分解來解決問題的,而不是像支持向量機(SVM)或邏輯回歸(Logistic Regression)那樣,通過尋找一個復雜的邊界來分離整個數據集。
很明顯,基于樹的方法沿著不同的特征逐步分割特征空間以優化信息增益。不太明顯的是,神經網絡在處理這一任務時也是類似的。每個神經元監視特征空間的特定部分(有各種重疊)。如果一個輸入落到那個空間,某些神經元就會被激活。
神經網絡采用概率的觀點來進行逐塊模型擬合,而樹則采用確定性的觀點。無論如何,它們的性能都依賴于模型的深度,因為它們的組件與特征空間的部分相關。
一個包含太多組件的模型 —— 樹是節點,網絡是神經元——會過擬合,而組件太少的模型根本無法給出有意義的預測。(兩者都開始記憶數據點,而不是學習歸納。)
關于神經網絡如何分割特征空間的更多直覺,請看一般性逼近定理。
盡管決策樹有許多強大的變種,如隨機森林、梯度提升、自適應提升和深度森林,但通常基于樹的方法本質上是神經網絡的簡化版本。
基于樹的方法通過垂直和水平分割逐條處理問題,以最小化熵(優化器和損失)。神經網絡通過操縱激活函數的形狀來逐步解決這個問題。
基于樹的方法是確定性的,而不是概率性的。這導致了一些很好的簡化,比如自動特性選擇。
在決策樹中被激活的條件節點類似于被激活的神經元(信息流)。
神經網絡擬合參數對輸入進行變換,直接或間接的激活后續的神經元。決策樹顯式地擬合參數來引導信息流。(這是確定性而非概率性的結果。)
信息在這兩個模型中類似地流動,只是在樹中以更簡單的方式流動。
當然,這是一個抽象的甚至是有爭議的主張。建立這種聯系有許多心理障礙。無論如何,這對于理解基于樹的方法何時以及為什么比神經網絡更好是很重要的。
表格數據,或以表形式出現的結構化數據,對于決策樹來說是很自然的。大多數人都同意,神經網絡對于表格數據回歸和預測來說是多余的,所以我們做了一些簡化。我們選擇1和0,而不是概率,這是兩種算法差異的主要根源。因此,樹可以在不需要概率的細微差別的情況下成功,比如結構化數據。
例如,基于樹的方法在MNIST數據集上執行得很好,因為每個數字都有幾個可定義的特征。概率不是一個必要的計算。這根本不是一個非常復雜的問題,這就是為什么精心設計的集成樹可以達到相同的水平,甚至比現代卷積神經網絡更好。
通常,人們會傾向于說“樹只是記住規則”,這是正確的。這與神經網絡是一樣的,它記憶更復雜的,基于概率的規則。神經網絡不會對x》3這樣的條件顯式地給出真/假,而是將輸入放大到一個很高的值,以產生一個s型的1的值或產生一些連續的表達式。
另一方面,由于神經網絡非常復雜,有很多事情可以用它們來做。卷積層和遞歸層都是神經網絡出色的變體,它們工作得很好,因為它們處理的數據通常需要細微的概率計算。
很少有圖像可以用1和0來建模。決策樹值不能處理有許多中間值的數據集(例如0.5),這就是為什么它在像素值幾乎都是黑色或白色的MNIST上工作得很好。類似地,文本有太多的信息和太多的異常,只能用確定性術語來表示。
這也是神經網絡主要用于這些領域的原因,也是神經網絡研究在早期(21世紀初)由于無法獲得大量圖像和文本數據而停滯不前的原因。神經網絡的其他常見用途僅限于大量預測,比如YouTube的視頻推薦算法,其規模如此之大,必須涉及到概率。
去公司的任何一個數據科學團隊看看,他們很可能使用的是基于樹的模型,而不是神經網絡。除非他們是在構建一個重量級的模型,比如在Zoom中模糊視頻的背景,樹的確定性本質使得日常的分類任務變得輕量級,使用與神經網絡相同的一般方法。
在許多現實世界中,確定性建模比概率建模更自然,這也是有爭議的。例如,用樹來預測用戶是否從電子商務網站購買商品的一個很好的選擇,因為用戶自然會遵循一個基于規則的決策過程。它可能看起來是這樣的:
我以前在這個平臺上有過愉快的經歷嗎?如果是,繼續。
我現在需要這件物品嗎?冬天我應該買太陽鏡和泳褲嗎?如果是,繼續。
根據我的人口統計數據,這是一個我有興趣購買的產品嗎?如果是,繼續。
這件東西太貴了嗎?如果不是,繼續。
其他顧客對這個產品的評價是否達到了一定的臨界值,使我覺得可以放心地購買它?如果是,繼續。
一般來說,人類遵循非常基于規則和結構化的決策制定過程。在這些情況下,概率建模是不必要的。
總之,
基于樹的方法最好被認為是神經網絡的縮小版本,用更簡單的術語來接近特征分類、優化、信息流等。
基于樹的方法和神經網絡在使用上的主要區別在于數據的確定性(0/1)和概率結構。結構化(表格)數據始終用確定性模型可以更好地建模。
不要低估基于樹的方法的能力。
責編AJX
-
神經網絡
+關注
關注
42文章
4772瀏覽量
100803 -
模型
+關注
關注
1文章
3248瀏覽量
48860 -
機器學習
+關注
關注
66文章
8420瀏覽量
132681
發布評論請先 登錄
相關推薦
評論