Kaggle資料科學學習歷程(二) @ 晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

承襲筆者前陣子寫的文章，資料科學學習歷程(一)，筆者最近整理了一些網路資源，關於拿到一筆資料時，該進行那些基本的處理，讓資料之後能用於建置模型或更進一步的分析。這次的內容主要先以初步的數據探勘(步驟1-3)為主，筆者也整理了一些Python的實作語法供讀者參考，之後的文章也會進一步介紹如何利用Python進行初步的數據清洗。

Steps of Data Exploration and Preparation

1.Variable Identification (定義資料變數的特性)

Type of variable: Predictor (解釋變數---X)、Target (結果變數---Y)

Data type: Character(文字型)、Numeric(數字型)

Variable category: Categorical(類別型)、Continuous(連續型)

2.Univariate Analysis

連續型變數

集中趨勢	離散趨勢	視覺化工具	Python 語法
平均數	全距(最大值-最小值)	直方圖	視覺化工具: https://www.twblogs.net/a/5b7b028d2b7177539c24afeb 統計函數的使用 https://www.itread01.com/content/1552194130.html
中位數	四分位數	盒型圖(Box-plot)
眾數	四分位差(第75四分位數-第25四分位數)
最小值	變異數
最大值	標準差
	偏態: > 0(資料呈現右偏，代表少數幾筆資料很大); < 0(資料呈現左偏，代表少數幾筆資料很小); = 0(資料呈現對稱)
	峰度: > 0(為高狹峰，較常態分配來得高瘦); < 0(為低闊峰，較常態分配來得低寬); = 0，為常態峰

Bi-variate Analysis

變數定義	視覺化工具	分析方法	Python 語法
連續型 vs 連續型	散佈圖	相關分析(Pearson correlation)	相關分析: http://benalexkeen.com/correlation-in-python/ 類別資料分析: https://www.twblogs.net/a/5b7b028d2b7177539c24afeb https://pythonfordatascience.org/chi-square-test-of-independence-python/ T-test: https://blog.csdn.net/m0_37777649/article/details/74938120 ANOVA: https://pythonfordatascience.org/anova-python/
類別型 vs 類別型	堆疊長條圖	交叉表(卡方檢定)
類別型 vs 連續型	盒型圖(Box-plot)	T-test (兩組)/ ANOVA (三組以上)