承襲筆者前陣子寫的文章,資料科學學習歷程(),筆者最近整理了一些網路資源,關於拿到一筆資料時,該進行那些基本的處理,讓資料之後能用於建置模型或更進一步的分析。這次的內容主要先以初步的數據探勘(步驟1-3)為主,筆者也整理了一些Python的實作語法供讀者參考,之後的文章也會進一步介紹如何利用Python進行初步的數據清洗。

 

Steps of Data Exploration and Preparation

 

1.Variable Identification (定義資料變數的特性)

 

Type of variable: Predictor (解釋變數---X)Target (結果變數---Y)

Data type: Character(文字型)Numeric(數字型)

Variable category: Categorical(類別型)Continuous(連續型)

 

2.Univariate Analysis

連續型變數

集中趨勢

離散趨勢

視覺化工具

Python 語法

平均數

全距(最大值-最小值)

直方圖

視覺化工具:

https://www.twblogs.net/a/5b7b028d2b7177539c24afeb

統計函數的使用

https://www.itread01.com/content/1552194130.html

 

中位數

四分位數

盒型圖(Box-plot)

眾數

四分位差(75四分位數-25四分位數)

 

最小值

變異數

 

最大值

標準差

 

 

偏態:

> 0(資料呈現右偏,代表少數幾筆資料很大);

< 0(資料呈現左偏,代表少數幾筆資料很小);

= 0(資料呈現對稱)

 

 

峰度:

> 0(為高狹峰,較常態分配來得高瘦);

< 0(為低闊峰,較常態分配來得低寬);

= 0,為常態峰

 

 

 

Bi-variate Analysis

變數定義

視覺化工具

分析方法

Python 語法

連續型 vs 連續型

散佈圖

相關分析(Pearson correlation)

相關分析:

http://benalexkeen.com/correlation-in-python/

類別資料分析:

https://www.twblogs.net/a/5b7b028d2b7177539c24afeb https://pythonfordatascience.org/chi-square-test-of-independence-python/

T-test:

https://blog.csdn.net/m0_37777649/article/details/74938120

ANOVA:

https://pythonfordatascience.org/anova-python/

類別型 vs 類別型

堆疊長條圖

交叉表(卡方檢定)

類別型 vs 連續型

盒型圖(Box-plot)

T-test (兩組)/ ANOVA (三組以上)

 

arrow
arrow
    全站熱搜

    晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()