統計模型彙整

Gradient Boosting Machines GBM | gbm, xgboost, h2o | R語言

Gradient Boosting Machines 是一個超級受歡迎的機器學習法，在許多領域上都有非常成功的表現，也是Kaggle競賽時常勝出的主要演算法之一 […]

Bagging法綜合多個樹模型結果，可以降低單一樹模型的高變異性並提升預測正確率。但Bagging法中樹與樹之間的相關性會降低模型整體的表現。隨機森林 Rand […]

在線性回歸模型中，為了最佳化目標函式(最小化誤差平方和)，資料需符合許多假設，才能得到不偏回歸係數，使得模型變異量最低。可現實中數據非常可能有多個特徵變數，使得 […]

有別於「分類」樹(classification tree)是用來找尋「最能區分標籤資料類別」的一系列變數，「迴歸」樹(regression tree)則是用來找 […]

在進行多元線性回歸分時，會遇到多變數彼此單位標準不一致的情況，如果想要比較回歸方程式不同解釋變數的估計參數彼此間的大小關係時，若沒有進行-資料標準化-之處理，是 […]

主成份分析(principal components analysis, PCA)的應用非常廣泛，可以簡化資料維度資訊，用最精簡的主成份特徵來解釋目標變數的最大 […]

Partitional Clustering, 切割式分群，屬於資料分群屬的一種方法。資料分群屬於非監督式學習，所處理的資料是沒有正確答案/標籤/目標變數可參考 […]

Hierarchical Clustering, 屬於資料分群的一種方法。資料分群屬於非監督式學習，處理的資料是沒有正確答案/標籤/目標變數可參考的。常見的分群 […]

Tree Surrogate 樹替代是決策樹CART演算法裡面內建的處理遺失值的一個很棒的演算法。只要資料列有目標變數搭配只少一個未遺失的特徵值，即可進行遺失值 […]