承襲筆者前陣子寫的文章,資料科學學習歷程(一),筆者最近整理了一些網路資源,關於拿到一筆資料時,該進行那些基本的處理,讓資料之後能用於建置模型或更進一步的分析。這次的內容主要先以初步的數據探勘(步驟1-3)為主,筆者也整理了一些Python的實作語法供讀者參考,之後的文章也會進一步介紹如何利用Python進行初步的數據清洗。
Steps of Data Exploration and Preparation
1.Variable Identification (定義資料變數的特性)
Type of variable: Predictor (解釋變數---X)、Target (結果變數---Y)
Data type: Character(文字型)、Numeric(數字型)
Variable category: Categorical(類別型)、Continuous(連續型)
2.Univariate Analysis
連續型變數
集中趨勢 |
離散趨勢 |
視覺化工具 |
Python 語法 |
平均數 |
全距(最大值-最小值) |
直方圖 |
視覺化工具: https://www.twblogs.net/a/5b7b028d2b7177539c24afeb 統計函數的使用 https://www.itread01.com/content/1552194130.html
|
中位數 |
四分位數 |
盒型圖(Box-plot) |
|
眾數 |
四分位差(第75四分位數-第25四分位數) |
|
|
最小值 |
變異數 |
|
|
最大值 |
標準差 |
|
|
|
偏態: > 0(資料呈現右偏,代表少數幾筆資料很大); < 0(資料呈現左偏,代表少數幾筆資料很小); = 0(資料呈現對稱) |
|
|
|
峰度: > 0(為高狹峰,較常態分配來得高瘦); < 0(為低闊峰,較常態分配來得低寬); = 0,為常態峰 |
|
Bi-variate Analysis
變數定義 |
視覺化工具 |
分析方法 |
Python 語法 |
連續型 vs 連續型 |
散佈圖 |
相關分析(Pearson correlation) |
相關分析: http://benalexkeen.com/correlation-in-python/ 類別資料分析: https://www.twblogs.net/a/5b7b028d2b7177539c24afeb https://pythonfordatascience.org/chi-square-test-of-independence-python/ T-test: https://blog.csdn.net/m0_37777649/article/details/74938120 ANOVA: |
類別型 vs 類別型 |
堆疊長條圖 |
交叉表(卡方檢定) |
|
類別型 vs 連續型 |
盒型圖(Box-plot) |
T-test (兩組)/ ANOVA (三組以上) |