glenn-carstens-peters-203007-unsplash
 程式與統計資料視覺化

Summarize Categorical Variables | 類別變數摘要 | 統計 R語言

本篇筆記主要介紹簡單基礎 Summarize categorical variables 摘要類別變數的方法。包括類別次數或百分比交叉表/聯列表,以及將結果視覺化的長條圖(bar chart)。有效熟悉類別變數資料探索方法並熟悉基本的R繪圖函數。

「 Summarize Categorical Variables 類別變數摘要」學習筆記重點

  • 目標變數(Dependent Variable) : Categorical (本範例將Survived設定為欲探討的目標變數)
  • 預測變數(Independent Variable) : Categorical
  • 使用資料集:1912年4月14日鐵達尼號沈船資料。我們使用titanic_train資料中共891筆乘客資料來示範如何摘要類別變數。

學習重點包括:

  1. 類別變數摘要table(表格、交叉表、列聯表)
  2. 類別變數資訊基礎視覺化
  3. 類別變數資訊進階視覺化(ggplot2)

資料集載入與檢視

檢視資料結構

為了後續類別變數間分析,我們將以下變數進行型態轉換:

(1) Survived(是否生還)將原本整數(0,1)轉換為factor的levels(“Died”, “Survived”)

(2)Pclass(座艙等級)將原本整數(1,2,3)轉換為factor的levels(‘First’,’Second’,’Third’)

1. 類別變數摘要table(表格、交叉表、列聯表)

類別變數次數分佈: table()

如果要加上加總項: addmargins()

如果要計算table裡面的比例: prop.table()

如果要調整小數位數: 可以使用round()

如果要進一步將Survival生存依據Class座艙等級區分,我們會需要交叉表(Cross Table)列聯表(Contingency Table)

亦可使用addmargins(),替表格加上列和行的加總項

並可以透過addmargins()中的參數margin=1,2來調整是否計算加總列/行。

如果要產生列聯表的機率數值,使用prop.table()。

當我們想知道不同座艙等級(Pclass)乘客的生存比例(Survived)是否有差異時,可以計算以下列聯表機率:

2. 類別變數資訊進階視覺化

如果希望進一步將這個列聯表機率資訊視覺化: 使用barplot()

Summarize Categorical Variables

但只有frequencoes資訊是比較難比較出個座艙等級的survival比例變化。這時會用percentage來觀察,只需將cross改就prop.table(cross)。只是barplot()無法標上百分比資訊於圖上。

Summarize Categorical Variables

如果想將stacked bar改變成並排的clustered bar,則須將參數設定為beside = True。

Summarize Categorical Variables




3. 類別變數資訊進階視覺化(ggplot2)

為了解決label的問題,我們改使用ggplot2套件來繪製。先將df中factor生成。

Frequencies次數圖

Summarize Categorical Variables

Percentage百分比圖

Summarize Categorical Variables





更多資料視覺化筆記連結:

簡易資料視覺化 Data Visualization – part1