Gradient Boosting Machines GBM | gbm, xgboost, h2o | R語言
Gradient Boosting Machines 是一個超級受歡迎的機器學習法,在許多領域上都有非常成功的表現,也是Kaggle競賽時常勝出的主要演算法之一 […]
Gradient Boosting Machines 是一個超級受歡迎的機器學習法,在許多領域上都有非常成功的表現,也是Kaggle競賽時常勝出的主要演算法之一 […]
Bagging法綜合多個樹模型結果,可以降低單一樹模型的高變異性並提升預測正確率。但Bagging法中樹與樹之間的相關性會降低模型整體的表現。隨機森林 Rand […]
本篇筆記想要介紹,在使用google analytics分析網站流量狀況時,常見的兩個指標: bounce rate (跳出率)與 exit rate (離開率 […]
本篇學習筆記將要示範如何使用 Python 來執行 網路爬蟲 web crawler 與 basic text mining ,並以爬取Google News […]
本篇學習筆記將要示範如何使用 Python 來執行 網路爬蟲 web crawler,並以爬取雅虎奇摩電影的「每週新片」頁面資訊為例。筆記包含以下部分:(1)解 […]
在線性回歸模型中,為了最佳化目標函式(最小化誤差平方和),資料需符合許多假設,才能得到不偏回歸係數,使得模型變異量最低。可現實中數據非常可能有多個特徵變數,使得 […]
有別於「分類」樹(classification tree)是用來找尋「最能區分標籤資料類別」的一系列變數,「迴歸」樹(regression tree)則是用來找 […]
介紹 tidyr 套件中四款基本資料整理函數,包括gather(), spread(), separate(), unite()。其中gather()和spre […]
RFM Model 是個簡易客戶分群的模型,依據消費者的Recency, Frequency, Monetary維度資訊來快速檢視客群組成,並能幫助行銷者快速評 […]