ben-neale-193521-unsplash
 程式與統計統計模型

Gradient Boosting Machines GBM | gbm, xgboost, h2o | R語言

Gradient Boosting Machines 是一個超級受歡迎的機器學習法,在許多領域上都有非常成功的表現,也是Kaggle競賽時常勝出的主要演算法之一。有別於隨機森林集成眾多深且獨立的樹模型,GBM則是集成諸多淺且弱連續的樹模型,每個樹模型會以之前的樹模型為基礎去學習和精進,結果通常是難以擊敗的。

套件與資料準備

使用AmesHousing套件中的Ames Housing數據,並將數據切分為7:3的訓練測試比例。

tree-based演算法往往可以將未處理資料配適的很好(即不需要特別將資料進行normalize, center,scale),所以在以下筆記中將聚焦在如何使用多種不同套件執行GBMs。而雖然在這邊沒有去進行資料前處理,但我們仍可花時間透過處理變數特徵使得模型成效更佳。

Gradient Boosting Machines’ Advantage & Disadvantages

優勢

  1. 產生的預測精準度通常無人能打敗
  2. 擁有許多彈性 – 可以針對不同的Loss Function來進行優化(*Loss Function即所有需要被「最小化」的目標函式,一個最常用來尋找使目標函式最小值的資料點的方法即為gradient descent),且有hyperparameters的參數選項可以tuning,好讓目標函式配適的很好。
  3. 不需要資料前處理 – 通常可以很好的處理類別和數值型變數。
  4. 可以處理遺失值 – 不需要空值填補。

劣勢

  1. GBMs會持續優化模型來最小化誤差。這樣可能會過度擬和極端值的部分而造成過度配適。因此必須綜合使用cross validation來銷除這個情況。
  2. 計算上成本非常高 – GBMs通常會包含許多樹(>1000),會佔用許多時間和記憶體。
  3. 模型彈性度高,導致許多參數會影響grid search的流程(比如說迭代次數,樹的深度,參數正規化等等),在tuning模型的時候會需要大型的grid search過程。
  4. 可解釋程度稍稍少了一點,但有許多輔助工具如變數重要性、partial dependence plots, LIME等。

Gradient Boosting Machines (GBMs) 概念

許多監督式機器學習模型都是建立在單一預測模的基礎上(比如說linear regression, penalized models or regularized regression, naive Bayes, support vector machines)。而則有像是Bagging和Random Forests這種集成學習演算法(ensemble learning),集成眾多預測模型並單純平均每個模型的預測結果得出預測值。另外一種則是Boosting系列,是基於不一樣的建設性策略來進行集成學習。

Boosting的主要概念就是將新模型「有順序、循序漸進」的加入集成學習。在每一次迭代中,會新增一個新的(new)、弱的(weak)、base-learner模型,針對到目前為止集成學習的誤差進行訓練。

以下進一步解釋boosting models的特徵關鍵字:

  1. Base-learning models: Boosting是一個迭代改善任何弱學習模型的框架。許多Gradienet Boosting應用可允使用者任意加入眾多類型的weak learners模型。然而在實務上,boosted algorithm幾乎總是使用Decision Trees當作base-learner。也因此本學習筆記會主要討論boosting regression trees的應用。
  2. Training weak models: 所謂的「弱模型(weak model)」指的是模型的錯誤率只有稍稍比隨機猜測好一點點的模型。Boosting背後的概念就是每一個順序模型都會建立一個僅稍稍改善殘餘誤差的弱模型(weak model)。以決策樹來說,較淺的樹就是弱模型的代表。一般來說,淺的決策樹模型切割數約在1~6之間。綜合多個弱模型會有以下好處(將較於綜合多個強模型):
    • 速率: 建構弱模型在計算成本上是便宜的。
    • 精準度的改善: weak model允許演算法「慢慢學習」;即在模型表現不好的新領域進行些微調整。一般來說,慢慢學習的統計方法通常表現不錯。
    • 避免overfitting: 由於在集成學習過程中,每一次訓練模型僅稍稍貢獻一點點額外的成效改善,使得我們有辦法即時在偵測到overfitting時即停止學習(使用的cross validation)。
  3. 針對集成學習的殘餘誤差有順序性的訓練: Boosted trees是有順序性的;每一個樹模型都是依據前面的樹模型所得的資訊而訓練而成。基本的boosted regression trees演算法可被一般化為以下步驟(其中x代表features而y代表目標回應變數):
    • 依據原始資料配適一棵樹模型: \(F_{1}(x) = y\)
    • 並依據先前的殘餘誤差訓練下一棵樹模型: \(h_{1}(x) = y – F_{1}(x)\)
    • 將新的樹新增到演算法:\(F_{2}(x) = F_{1}(x) + h_{1}(x)\)
    • 再一次依據殘餘誤差訓練下一棵樹模型 = \(h_{2}(x) = y – F_{2}(x)\)
    • 將新的樹新增到演算法:\(F_{3}(x) = F_{2}(x) + h_{2}(x)\)
    • 持續這個過程直到一些機制(如cross validation)告訴演算法可以停止。

boosted regression trees的基本演算法概念可以一般化為以下,即最終模型是b個獨立的回歸樹模型階段性相加的結果:
\[ f(x) = \sum_{b=1}^B f^b(x) \]

Gradient descent

許多演算法,包括Decision trees,都聚焦在最小化殘差,也因此皆強調「MSE Loss Function」的目標函式。上面所討論到的演算法摘要了boosting法如何循序漸進地利用有順序新的弱回歸樹模型來配飾真實資料趨勢並最小化誤差。這個就是gradient boosting用來最小化Meas Squared Error (MSE) Loss Funciton的方法。雖然有時候我們會想要聚焦在其他Loss function上,如Mean Absolute Error(MAE),或是遇到分類問題時所使用的deviance。而gradient boosting machines的命名則是取自於這個方法可以擴張至除了MSE以外的Loss function。

Gradient Boosting被認為是一個gradient descent(梯度下降)的演算法。Gradient Descent是一個非常通用的最適化演算法,能夠找到解決各種問題的最佳解。Gradient Descent的概念就是迭代的微調整參數來來最小化損失函數Loss Funciton。Gradient Descent會在給定的一組參數\(\theta\)區間,衡量局部Loss(cost) function的gradient,並沿著gradient下降的方向。直到gradient為0時,則找到局部最小值。

Gradient descent可以被應用在任意可微分的loss function上,所以讓GBMs可以針對感興趣的loss function來尋找最適解。在gradient descent中一個重要的參數就是由_learning rate_s所決定的每次的變動率(size of steps)。較小的變動率會使得模型訓練過程中會迭代多次來尋找最小值,而過高的變動率則可能會讓模型錯過最小值和遠遠偏離初始值。

此外,並不是所有的loss function都是凸形的(convex)(如碗型)。可能會有局部的最小值、平坦高原或不規則地形等,使得尋找global minimum變得困難。Stochastic gradient descent(隨機梯度下降)則可處理這樣的問題,透過抽樣一部分比例的觀察值(通常不重複),並使用此子集合建立下一個模型。這使得演算法變得更快一些,但是隨機抽樣的隨機性亦造成下降的loss function gradient的隨機性。雖然這個隨機性使得演算法無法找到absolute global minimum(全域最小值),但隨機性確實能讓演算法跳脫local minimum(局部最小值)、平坦高原等局部解,並接近全域的最小值。

我們在下一個階段即能看到如何透過多種hyperparameters參數選項來調整如何處理loss function的gradient descent。

Tuning

GBMs的好處與壞處就是該演算法提供多個調整參數。好處是GBMs在執行上非常具彈性,但壞處就是在調整與尋找最適參數組合上會很耗時。以下為幾個GBMs最常見的調整hyperparameters參數:

  • 決策樹模型的數量:總共要配適的決策樹模型數量。GBMs通常會需要很多很多樹,但不像random Forests,GBMs是可以過度擬和(overfit)的,所以他演算的目標是尋找最適決策樹數量使得感興趣的loss function最小化。
  • 決策樹的深度:d,每棵樹模型的切割(split)數。用來控制boosted集成模型的複雜度。通常\(d=1\)的效果不錯,即此弱模型是由一次分割所得的樹模型所組成。而更常見的split數可能介在\(1
  • Learning rate: 決定演算法計算gradient descent的速率。較慢的learning rate速率,可以避免overfitting的機會,但同時也會增加尋找最適解的時間。learning rate也被稱作shrinkage。
  • subsampling: 控制是否要使用原始訓練資料部分比例的抽樣子集合。使用少於100%的訓練資料表示你將使用stochastic gradient descent,這將有助於避免overfitting以及陷在loss function gradient的局部最小最大值。

而在本學習筆記中,亦會介紹到專屬於特定package的調整hyperparameters參數,用來改善模型成效以及模型訓練與調整的效率。

使用R實作Gradient Boosting Machines

有很多執行GBMs和GBM變種的套件。而本學習筆記會cover到的幾個最受歡迎的套件,包括:

  • gbm: 最原始的執行GBMs的套件。
  • xgboost: 一個更快速且有效的gradient boosting架構(後端為c++)。
  • h2o: 強大的java-based的介面,提供平行分散演算法和高銷率的生產。

gbm

gbm套件是R裡面最原始執行GBM的套件。是來自於Freund & Schapire’s AdaBoost algorithm的Friedman’s gradient boosting machine延伸。由Mark Landry撰寫的GBM套件簡報可參考此連結

gbm套件幾個功能與特色包括:

  • Stochastic GBM(隨機 GBM)
  • 可支援到1024個factor levels
  • 支援「分類」和「回歸」樹
  • 包括許多loss functions
  • 提供Out-of-bag 估計法來尋找最適的迭代次數
  • 容易overfitting – 因為套件中沒有自動使用提早煞車功能來偵測overfitting
  • 如果內部使用cross-validation,這可以被平行分散到所有機器核心
  • 目前gbm套件正在進行重新建構與重寫(並已持續一段時間)。

基本的gbm實作

gbm套件中有兩個主要的訓練用函數:gbm::gbm跟gbm::fit。

  • gbm::gbm – 使用「formula介面」來設定模型。
  • gbm::fit – 使用「x & y矩陣」來設定模型。

當變數量很大的時候,使用「x & y 矩陣」會比「formula」介面來的更有效率。

gbm()函數預設的幾個參數值如下:

  • learning rate(shrinkage):0.1。學習步伐,通常越小的學習步伐會需要越多模型數(n.tree)來找到最小的MSE。而預設n.tree為100,是相當足夠的。
  • number of trees(n.tree): 100。總迭代次數(新增模型數)。
  • depth of tree(interaction.depth): 1。最淺的樹(最弱的模型)。
  • bag.fraction: 0.5。訓練資料集有多少比例會被抽樣做為下一個樹模型的基礎。用來替模型注入隨機性。
  • train.fraction: 1。模型首次使用訓練資料的比例,剩餘的觀測資料則最為OOB sample用來估計loss function用。
  • cv.folds: 0。如果使用>1的cross validation folds,除了會回傳該參數組合下的模型配適結果,也會估計cv.error。
  • verbose: 預設為FALSE。決定是否要印出程序和成效指標。
  • n.cores: 使用的CPU核心數。由於在使用cross validation的時候,loop會將不同CV folds分配到不同核心。沒特別設定的話會使用偵測機器核心數函數來處理parallele::detectCores。

以下我們來建立一個學習步伐為0.001且模型數量為10000的GBMs。並使用5 folds的交叉驗證計算cross-validated error。

GBMs模型約花80秒(約1分多鐘)。

將模型結果印出。結果包括文字資訊以及每一次迭代次數所對應的loss function(squared error loss)變化。

模型結果資訊是由list所儲存。可以使用索引的方式取出。

比如說我們來看最小的CV RMSE值。

表示平均來說模型估計值離真實Sale_Price差了約30K。

我們也可以透過以下方式將GBMs找尋最佳迭代數的過程繪出:(其中黑線的為訓練誤差(train.error),綠線為cv.error, 若method使用“test”,則會有紅線表示valid.error)

gradient boosting machines, GBM

可以發現以此小學習步伐(0.001),會需要很多模型來接近最小的loss function(使cv.error最小化),最佳迭代數為10000。

Tuning

「手動tuning」

假設我們將學習步伐加大為0.1,迭代模型數降低為5000,且模型複雜度增加到3 splits。

調大步伐後(0.1),花的時間變多為151秒(2.5分鐘),GBMs模型最小cv.error變得更低(23K)。
(v.s.小步伐(0.001)的cv.error: 29K)

將模型結果印出。最佳迭代數(所需模型數)為1260。

gradient boosting machines, GBM

「grid search自動化tuning」

因為手動調整參數是沒效率的,我們來建立hyperparameters grid並自動套用grid search。

我們一一測試以上81種超參數排列組合的效果,並指定使用5000個樹模型。
另外,為了降低執行的時間,有別於使用cross validation,我們改使用75%的訓練資料,使用剩下的25%的資料來進行OOB評估效果。需要特別注意的是,當使用train.fraction參數時,模型會直接使用前XX %的資料來使用,因此需要確保說資料是隨機排列的。

先將資料進行隨機排列處理。

開始執行grid search

將每種參數組合的結果,依照RMSE由小到大排列,並取出排名前10的模型,查看參數組合細節。

我們可以看到以下幾點:

  1. 最佳模型的最小RMSE(17K),較先前的RMSE(23K)降低了有6K左右。
  2. 前十的模型的學習步伐都小於0.3,表示較小的學習步伐在尋找最小誤差的模型效果是不錯的。
  3. 前十的模型都選用>1切割數的樹模型,。
  4. 十個模型有8個模型都使用bag.fraction < 1的隨機梯度下降(即使用<100%的訓練資料集進行每個模型的訓練),這將有助於避免overfitting以及陷在loss function gradient的局部最小最大值。
  5. 前十的模型中,也沒有使用採用節點觀測數大於等於15者。因為較小觀測數的節點較能捕捉到更多特徵。
  6. 部分參數組合所使用的最佳迭代數(總樹模型數)都很接近5000個。下次執行grid search時或許可以考慮增大樹模型數。

根據以上測試,我們已更接近最適的參數組合區間,我們此時在此聚焦範圍內再一次執行81種超參數組合的最佳模型搜尋。

我們再一次的用for loop迴圈執行以上81種超參數組合的模型,找出每一次最適的模型與對應的最小誤差。

檢視結果

本次結果與上一次結果十分類似。最佳模型和上一次選出的最佳模型是一樣的(相同的參數排列組合),RMSE約是17K。

一旦找到最佳模型,我們則可使用該參數組合來train一個模型。也因為最佳模型約收斂在僅1634個樹模型,我們可以 訓練一個由1634個樹模型所組成的cross validation模型(使用CV來提供更穩健的誤差估計值)。

最佳模型的cv誤差如下(22K)。

視覺化

variable importance

執行完最後的最佳模型後(gbm.fit.final),我們會想要看對目標變數sale price來說最有影響力的解釋變數有哪些,以捕捉模型的「可解釋性」。我們可以使用summary()函數來回傳gmb模型中最具影響力的解釋變數清單(data frame & plot)。並可以使用gbm模型summary函式中的cBars參數來指定要顯示的解釋變數清單數(根據影響力排名)。預設使用相對影響力來計算變數重要性。以下說明計算變數重要性的兩個方法:

  1. method = relative.influence: 每棵樹在進行節點分割時,gbm會計算每個變數作為切點,切割後對模型誤差所帶來的改善(回歸模型的話就是MSE)。gbm於是會平均每個變數在不同樹模型的誤差改善值,當作變數影響力。具有越高平均誤差降低值得變數即被視作最具影響力的變數。
  2. method = permutation.test.gbm: 模型會隨機置換(一次一個)不同預測變數,來計算個別變數的對預測性能的改善(使用所有training data),並平均每個變數在不同樹模型對正確率造成的改變量。具有越高正確率改變量的預測變數越具重要性。

gradient boosting machines, GBM

另外一個方式,就是使用vip套件(variable importance plot)的vip函式,會回傳ggplot形式的重要變數圖表。 為兩個解釋集成樹的兩大重要解釋指標),是許多機器學習模型常用的變數重要性繪圖框架。

gradient boosting machines, GBM
Partial dependence plots

一旦識別出最重要的幾個變數後,下一步就是去了解當解釋變數變動時,目標變數是如何變動的(即marginal effects,邊際效果,每變動一單位解釋變數時,對目標變數的影響)。我們可以使用partial dependence plots(PDPs)和individual conditional expectation(ICE)曲線。

  • PDPs: 繪製特定變數邊際變動造成的平均目標預測值的變動。比如說,下圖繪製了預測變數Gr_Liv_Area邊際變動(控制其他變數不變的情況下)對平均目標預測銷售金額(avg. sale price_的影響。下圖PDPs描述隨著房屋基底的面積邊際增加,平均銷售價格增加的變化。

gradient boosting machines, GBM

拆解步驟1: 先檢視沒有繪圖(plot = FALSE)的所回傳的data.frame。在一些例子中,使用partial根據object來擷取training data是困難的,此時便會出現錯誤訊息要求使用者透過train參數提供訓練資料集。但絕大部分的時候,partial會預設擷取當下環境下訓練object所使用的訓練資料集,所以很重要的事,在執行partial之前不行改變到訓練資料集的變數內容,而此問題可透過明確指定train參數所對應的訓練資料集而解決。

亦可使用plot = TRUE將以上結果繪出。(不是ggplot2)
但其實比較推薦保留plot = FALSE,將partial回傳結果先儲存。這樣的好處在於繪圖上會更有彈性,當預設繪圖結果不足夠時,不需要重新執行partial()。

gradient boosting machines, GBM

  • ICE curves: 是PDPs圖的延伸。與PDPs圖不同的地方在於,PDPs是繪製每個解釋變數邊際變動所造成的「平均」目標數值的變化(平均所有觀測值),而ICE curves則是繪製「每個」解釋變數邊際變動對所有觀測值的目標數值的變動。下面分別呈現了regular ICE曲線圖(左)和centered ICE曲線圖(右)。當曲線有很寬廣的截距且彼此疊在一起,很難辨別感興趣的預測變數邊際變動所造成的回應變數變動量的異質性。而centered ICE曲線,則能強調結果中的異質性。以下regular ICE圖顯示,當Gr_Liv_Area增加時,大部分的觀測值的目標變數變化具有共通趨勢,而centered ICE圖則凸顯部分與共通趨勢不一致的觀察值變化圖。

gradient boosting machines, GBM

LIME

LIME是一種新程序幫助我們了解,單一觀察值的預測目標值是如何產生的。對gbm物件使用lime套件,我們需要定義模型類型model type和預測方法prediction methods。

以下我們便挑選兩個觀測值來檢視其預測目標值是如何產生的。
結果包括預測目標值(分別為case1: 127K case2: 159K)、局部模型配適(兩者的局部配飾都太好)、以及對不同觀測值來說,對目標變數最具影響力的特徵變數。

gradient boosting machines, GBM

Predicting

一旦決定好最佳的模型後,便使用模型來預測新的資料集(ames_test)。跟大部分模型一樣,我們可以使用predict()函數,只不過我們需要指定所需要的樹模型個數(可參考?predict.gbm之說明)。我們可以觀察到,測試資料集所得到的RMSE跟我們得到的最佳gbm模型的RMSE(22K)是差不多的。

xgboost

xgboost套件提供一個Extreme Gradient Boosting的R API,可以具效率地去執行gradient boosting framework(約比gbm套件快上10倍)。xgboost文件的知識庫有豐富的資訊。亦可參考非常完整的參數tuning教學文章。xgboost套件一直以來在kaggle data mining競賽上是滿受歡迎且成功的演算法套件。

xgboost幾個特色包括:

  • 提供內建的k-fold cross validation
  • 隨機GBM,兼具column和row的抽樣(per split and per tree),以達到更好的一般性(避免過度擬合)。
  • 包括高效的線性模型求解器和樹學習演算法。
  • 單一機器上的平行運算。
  • 支援多個目標函數,包括回歸regression,分類classification,和排序ranking。
  • 該套件被設計為有延展性的(extensible),因此使用者可以自己定義自己的目標函式(objectives)。
  • Apache 2.0 License

基本的xgboost實作

xgboost 只能在都是「數值變數的矩陣」下運作(由於在空間中表示點的位置,所有特徵值須為數值)。因此,我們必須先將數據進行編碼轉換。

一般來說編碼類別變數有兩種方式,分別為Label Encoding和one-hot encoding,通常前者會衍伸出編碼後的數值變成有順序意義在的問題,以及在空間維度中代表不同距離的意義之問題,故通常最常使用one-hot encoding法是最適合的,來使類別變數中三個屬性在空間中距離原點的距離是相同的(*但必須注意的是,one-hot encoding只適用在類別種類少的情況,如果種類過多,過多展開的維度會衍伸出其他問題)。

在R中有幾個執行one-hot encoding的方式,包括Matrix::sparse.model.matrix, caret::dummyVars,但我們這邊會使用vtreat套件。vtreat是一個強大的資料前處理套件,且有助於處理因遺失值、或新資料中才新冒出的類別資料級別(原本不為訓練資料類別變數中的選項)等因素而造成的問題。然而vtreat在使用上不是很直覺。本篇學習筆記在此不會說明太多vtreat的功能,如需要了解可先參考連結1連結2連結3

以下使用vtreat將training & testing資料即重新one-hot encoding編碼。

編碼後的維度個數

xgboost提供不同的訓練函數(像是xgb.train,xgb.cv)。而我們這邊會使用能夠進行cross-validation的xgb.cv。以下我們訓練一個使用5-fold cv且使用1000棵樹的xgb模型。xgb.cv中有許多可調整的參數(基本的參數都跟xgb.train是一樣的),幾個比較常出現的參數(與其預設值)分別為以下:

  • data: 只允許數值型矩陣,如xgb.DMatrix, matrix, dgCMartirx類型。
  • nrounds: 模型所使用的樹個數(迭代數)。
  • nfold: 將投入的data參數值(在此處為訓練資料集),隨機切割(partition)為n等分的子樣本。
  • params: list(),參數list。常用的參數包括:
    • objective : 目標函數(亦可使用params = list()進行參數指定)。常用的目標函數包括:
    • reg:linear : 線性迴歸
    • binary:logistic : 分類用的羅吉斯迴歸
    • eta: learning rate,學習步伐(default為0.3)
    • max_depth: tree depth, 樹模型的深度(default為6)
    • min_child_weight: minimum node size,最小節點個數值(default為1)
    • subsample: percentage of training data to sample for each tree (就如同gbm套件中的bag.fraction參數),每棵樹模型將抽樣使用多少比例的訓練資料集(default: 100% -> 沒有OOB sample),用來避免overfitting,亦可加快運算(分析較少的資料)。

其中cross-validation會執行nrounds次,每次迭代中,nfold個子樣本都會輪流作為驗證資料集,來驗證nfold-1子集合所訓練出的模型。

檢視每次迭代的cross-validation的結果。分別會有訓練資料集的平均RMSE,和測試資料集的平均RMSE,希望兩者越接近越好。

檢視回傳xbg.fit1物件的屬性(attributes)。

回傳的xgb.fit1物件包含很多重要資訊。特別像是我們可以擷取xgb.fit1$evaluation_log來觀察發生在訓練資料集和測試資料集的最小的RMSE和最適的樹數量(跟print(xgb.fit1)效果一樣),以及cross-validation error。

我們找出使得訓練和測試誤差最小的迭代數(模型所使用的樹個數),以及所對應的RMSE。由下表所示,訓練誤差持續下降,並約在924棵樹時逼近為零(0.048)。然而,交叉驗證誤差約在60棵樹左右達到最小RMSE(約27K)。

將詳細xgboost模型迭代資訊繪出如下,紅色線代表訓練誤差,藍色線表示交叉驗證誤差。

gradient boosting machines, GBM

一個xbm.cv滿不錯的功能就是early stopping。該功能讓我們可在cross validation error在連續第n棵樹不再下降的情況下,告訴函式該停止。以上面的例子來說,我們可以設定當cv error在連續10個樹模型(迭代)沒有下降時停止迭代(early_stopping_rounds = 10)。該功能有助於加速下一個tuning校正過程。

將迭代的過程細節繪出:

gradient boosting machines, GBM

Tuning

要tune XGBoost模型,我們會傳入一個parameters的list物件給params參數。幾個最常見的參數如下:

  • eta : 控制學習步伐
  • max_depth: 樹的深度
  • min_child_weight: 末梢節點的最小觀測值個數
  • subsample: 每棵樹模型所抽樣訓練資料集的比例
  • colsample_bytrees: 每棵樹模型所抽樣的欄位數目

舉例來說,如果想要指定特定參數值,我們可以將上面的模型設定重新編輯如下:

想要執行更大型的search grid,我們可以使用和gbm相同的程序。先產生一個超參數hyperparameter search grid和儲存結果的欄位(最適樹模型個數與最小RMSE)。

以下我們創立一個4*4*4*3*3 = 576個參數排列組合的hyper grid。

接著,我們使用迴圈一一去執行XGBoost模型套用不同參數組合的結果,並將結果指標儲存。(*這段程序耗時,約6小時以上)

經過評估後,可能還會繼續測是幾個不同的參數組合,去找到最能影響模型成效的參數。這邊有一篇很棒的文章在討論tuning XGBoost的策略法。但為了簡短,在此我們即假設上述結果為globally最適的模型,並使用xgb.train()來配飾最終模型。(*xgboost)

Visualization

Variable importance

xgboost提供內建的變數重要性繪圖功能。首先,可以使用xgb.importance()函數建立一個重要矩陣(importance matrix)的data.table,然後再將這個重要矩陣(importance matrix)投入xgb.plot.importance()函數進行繪圖。

在重要性矩陣中,Gain, Cover, Frequency欄位分別代表三種不同的變數重要性衡量的方法(此為tree model的衡量指標,如果是linear mode,衡量指標則會是Weight(模型中的線性係數)和Class):

  1. Gain(貢獻度): 相應特徵對模型的相對貢獻度,計算特徵在模型中每棵樹的貢獻。其與gbm套件中的relative.influence是同意的。
  2. Cover(觀測值個數涵蓋率): 與該特徵相關的相對觀察值個數(%)。比如說,你有100個觀察值,4個特徵變數3棵樹,並假設feature 1是用來區分葉節點並在樹tree1, tree2, tree3有各有10,5,2個觀察值;於是feature 1的cover會被計算為10+5+2=17個觀察值。feature2 ~ feature4亦會計算各自的cover,並以該特徵涵蓋變數個數相對於所有特徵總涵蓋變數個數計算百分比。
  3. Frequency(出現在模型所有樹的相對次數):代表某特徵出現在模型中樹的相對次數百分比(%)。就上面的範例來說,假設feature 1分別在tree1, tree2,tree3的分割樹(splits)分別是2, 1, 3,那麼feature 1的權重將是2+1+3 = 6。feature 1的frequency則是計算該特徵的權重相對於其他features的權重加總。

將剛剛得到的data.table放入xgb.plot.importance(),繪製指定的”Gain”變數重要性圖表。

gradient boosting machines, GBM

改使用’Cover’當作變數重要衡量法的結果與上面差很多。

gradient boosting machines, GBM

Partial dependence plots

PDPs和ICE的運作與之前gbm套件是相似的。唯一差別在於你必須在partial()函數中加入訓練資料(train = features_train)(因為在此case中,partial無法自動擷取object所使用的training data)。我們以Garage_Cars為範例。

gradient boosting machines, GBM

LIME

LIME內建提供給xgboost物件的功能(可以使用?model.type)。然而需要注意的是,要分析的局部觀察值需要採用與train, test相同的編碼處理程序(one-hot encoded)。並且當將資料投入lime::lime函式時,必須將其從matrix轉換成dataframe。

gradient boosting machines, GBM

Predicting

最後,我們使用predict()函數來對新資料集進行預測。然而,不像gbm,我們並不需要提供樹模型的個數。
由下的結果可知,我們測試資料集的RMSE與先前gbm模型的RMSE(22K)是較低的(只差了$600左右,差距很小)。

h2o

R的h2O套件是一個強大高效能的java-based介面,允許基於local和cluster-based的佈署。該套件有相當完整的線上資源,包括方法、code文件與教學。

h2o的幾個特色包括:

  • 在單一節點或多節點群集上進行分散式或平行式運算。
  • 根據用戶指定的指標和使用者指定的相對容忍度收斂時,自動提前停止。
  • 隨機GBM同時對欄位跟資料列進行抽樣(每次分割與每棵樹)以利得到廣義的解。
  • 除了二項式binomial(Bernoulli)、高斯和多項式分佈函式外,亦支援指數型系列(Poisson, Gamma, Tweedie)和損失函數。
  • Grid Search超參數優化和模型挑選。
  • 數據分散(data-distributed) – 代表整個資料集不必侷限在單一節點的記憶體,能夠擴展到任意大小的訓練資料集。
  • 使用直方圖(histogram)來近似連續變數來加速。
  • 使用動態分箱法(dynamic binning),分箱的標準會依照每一顆樹模型切割時的最大最小值來動態調整。
  • 使用平方誤差(squared error)來決定最適的切割點。
  • factor levels沒有限制。

基本的h2o實作

gbm.h2o函數可允許我們透過H2O套件來執行GBM。然而,在我們開始執行初始模型時,我們需要將訓練資料轉換成h2o物件。h2o.gbm預設會採用以下參數來建立GBM模型:

  • number of tree (ntrees): 50
  • learning rate (learning_rate): 0.1
  • tree depth(max_depth): 5
  • 末梢節點的最小觀測值個數 (min_rows): 10
  • 對資料列和資料欄位沒有抽樣

跟XGBoost類似,我們可以使用自動停止功能,這樣就可以提高樹模型的個數,直到模型改善幅度減少或停止在終止訓練程序。亦可設定當執行時間超過一定水準後停止程序(參考max_runtime_secs)。

舉例來說,我們使用5000棵樹訓練一個預設參數的模型,但是設定當連續十棵樹模型在交叉驗證誤差上沒有進步就停止的指令。而在此例可以看到,模型在約使用3743棵樹模型後停止訓練過程,對應的交叉驗證誤差RMSE為$24,684。

Tuning

H2O套件提供需多可調整的參數。這部分值得你花時間閱讀相關的文件H2O.ai。在本筆記中,只會先專注在幾個較長使用的超參數組合。包括:

  • 樹的複雜度
    • ntrees: 使用樹模型個數
    • max_depth: 每棵樹的深度
    • min_rows: 末梢節點中所允許的最少觀測值個數
  • 學習步伐
    • learn_rate: 損失函數梯度下降的步伐
    • learn_rate_annealing: 允許使用高的學習步伐當作初始值,但隨著樹個數的增加而降低。
  • 加入隨機的特性
    • sample_rate: 建置每棵數所抽樣的訓練資料列數。
    • col_sample_rate: 建置每棵樹所抽樣的欄位數(跟xgboost套件中的colsample_bytree是一樣的)。

值得注意的是,還有能夠控制類別變數和連續變數如何編碼、分箱、切割的參數。預設的參數可以得到相當不錯的結果,但在特定情境中仍能透過調整這些小地方來微提高模型的效果。

執行h2o模型的grid search tuning有兩種選擇:full 或 random discrete grid search。

Full grid search

在full cartesian grid search法中,會完整依序執行grid中指定的所有超參數組合。這就是我們先前在gbm和xgboost手動撰寫for迴圈執行的參數校正過程。然而為了加快H2O訓練的過程,可以使用驗證資料集(validation set)來取代k-fold cross validation。

以下我們製造一個參數的grid,包含468(=3*3*3*2*3*3)種超參數排列組合。我們使用h2o.grid()來執行full grid search並同時設定停止參數來節省訓練的時間。

full grid search所花的時間約為31分鐘。

由以上資訊可知,模型切割數超過1次的深度、慢的學習步伐和隨機觀測值抽樣是表現的最不錯的組合類型。
我們亦可查看更多有關最佳模型的詳細資訊。最佳模型可達到的驗證誤差RMSE為$21,554。

Random discrete grid search

當想要測試的超參數排列組合非常多時,每增加一個參數都對grid search所需完成的時間有巨大的影響。因此,h2o亦有提供Random discrete的grid search path法,採取隨機挑選超參數組合來執行,直到指定程度的改善幅度被達成或超過一定的執行時間或只執行過一定的模型數量時(或以上條件的組合)則停止。雖然說Random discrete path不一定會找到最適的模型,但在一定程度上可以找到相當不錯的模型。

以下便採用Random Discrete Path法來執行和剛剛一模一樣的hyperparameter grid。不過,在此我們會加入新的search條件:當連續有10個模型效果都無法超越目前最佳的模型獲得0.5%的MSE改善時,則停止。如果持續有在獲得改善,但超過360秒(60分鐘)時,也停止程序。

在此例子中,Random Grid Search花了約60分鐘(=3600/60),評估了154/486個模型(32%)。

透過Random Grid Search所得到的最佳模型的交叉驗證RMSE為$21,792。雖然沒有full grid search找到的好($21,554),但通常兩者所找到模型的效果已是差不多的。

一旦我們找到了最佳模型後,就可以用所有的訓練資料再重新訓練一個模型。我們使用從full grid search所得到的最佳模型的參數組合並使用5-fold cross validation來估計穩健的誤差。

Visualization

Variable importance

h2o套件有提供內建的變數重要性繪圖功能。該函式只有一個衡量變數重要性的方法-relative importance,一種衡量每一個變數在每一個模型中,平均能對loss function造成多少影響。能對損失函數帶來最大平均影響者的變數被當作最重要的變數,且其他變數的重要性也是相對於最重要變數所計算而得的數值。另外,vip套件亦可繪製h2o物件的變數重要性圖。

gradient boosting machines, GBM

Partial dependence plots

我們亦可像之前一樣使用vip套件繪製PDP和ICE圖型來了解不同解釋變數邊際變動下對目標變數造成的影響。我們只需要透過一段專用函數,將投入的資料(newdata)轉換成h2o物件(as.h2o),並將預測的結果在轉換為data frame型態,在當成pred.fun的參數投入。

gradient boosting machines, GBM

h2o並沒有提供內建的ICE曲線繪圖功能,但是他可以繪製平均邊際效益(標準的PDP圖)外加衡量不確定性的一個標準誤差的PDP圖。

gradient boosting machines, GBM

但不幸的事,h2o的函數會把類別變數的levels以字母排序的方式繪出,而pdp()函式則是以他們所指定的level順序繪出,使推理更加直觀。

gradient boosting machines, GBM

LIME

LIME套件亦有提供內建的函數來處理h2o物件。

gradient boosting machines, GBM

Predicting

最後,我們可以使用h2o.predict()或predict()兩種方式來進行模型對新資料的預測,並使用h2o.performance()來衡量模型模型套用在測試資料集的成效。驗證結果的RMSE為$20,198,跟gbm和xgboost是類似的($21~22K)。

小結

  • Gradient Boosting Machines (GBM)是一個強大的集成學習演算法,通常具有一流的預測能力。雖然相較於其他演算法它比較不直覺且需要大型運算,但絕對是機器學習工具箱的必備款!

參考連結:

  1. Gradient Boosting Machines (GBM)
  2. 類別資料的處理(有序、無序):one-hot encoding
  3. Choosing the right Encoding method-Label vs OneHot Encoder

更多Decision Tree相關的統計學習筆記:

Random Forests 隨機森林 | randomForest, ranger, h2o | R語言

Decision Tree 決策樹 | CART, Conditional Inference Tree, RandomForest

Regression Tree | 迴歸樹, Bagging, Bootstrap Aggregation | R語言

Tree Surrogate | Tree Surrogate Variables in CART | R 統計

更多Regression相關統計學習筆記:

Linear Regression | 線性迴歸模型 | using AirQuality Dataset

Logistic Regression 羅吉斯迴歸 | part1 – 資料探勘與處理 | 統計 R語言

Logistic Regression 羅吉斯迴歸 | part2 – 模型建置、診斷與比較 | R語言

Regularized Regression | 正規化迴歸 – Ridge, Lasso, Elastic Net | R語言

更多Clustering集群分析統計學習筆記:

Partitional Clustering 切割式分群 | Kmeans, Kmedoid | Clustering 資料分群

Hierarchical Clustering 階層式分群 | Clustering 資料分群 | R 統計

其他統計學習筆記:

Principal Components Analysis (PCA) | 主成份分析 | R 統計