公告版位
晨晰統計顧問有限公司在新北市板橋\服務市話:02-29602817\手機:0918-276-622\信箱:raising.statistic@gmail.com\網址:http://www.rai-stat.com.tw

目前分類:Excel與統計軟體 (71)

瀏覽方式: 標題列表 簡短摘要

操作方法一(交叉表)

1)點選「分析」→「敘述統計」→「交叉表」。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

在進行連續變項的前後測比較或配對比較時,我們會用到一個熟悉的統計方法-成對樣本t檢定(Paired sample t test),不過當變項屬於二分類的類別變項時,我們就必須改用一個比較陌生的檢定方式-麥內瑪關聯樣本檢定(McNemar test)。先來介紹這次的例子,針對100名受訪者,詢問他們在政見發表會前後,對於候選人的支持情況,資料的建立通常有兩種方式,左邊的方式,直接記錄每一位受訪者在政見發表會前後所支持的候選人,因此樣本數會有100筆;右邊的方式,則是將四種反應組合列出後,在第三個欄位中填上該組合下的人數。

 

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

筆者之前有寫一篇關於Tidyverse的介紹,” R 資料的魔法師-Tidyverse (1)”,已經介紹了Tidyverse裡常用的package,包含readrtidyrTibbledplyr的使用,接下來筆者會針對剩下常用的package作介紹(如下圖所示)

 

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

在資料科學的領域中,資料的處理大致是下圖的流程,從匯入資料、資料前處理(TidyTransform)、資料的探勘(視覺化:visualise、建模:model)、數據呈現。

 

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

複選題分析

36)開始進入分析,利用SPSS讀取已整理好的複選題資料

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

資料處理方法二

不同於上一種方法,此種方式是透過函數來判斷,雖然比較困難,但如果能熟悉此作法,就算選項不多,一樣好用。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

複選題的設計,常出現問卷設計中,收集受訪者同時出現兩個以上的答案,在資料的鍵檔上,將每個選項分開,是比較好分析的格式設計,但資料輸入時,有些研究為了提高輸入效率,選擇把複選題的答案輸入在同一欄位,並用指定符號隔開選答,以下圖為例,是在收集個案的慢性病情形,以三種慢性病為例(欄B至欄D),若個案有該慢性病,以輸入數值1來表示,反之則輸入0,雖然1/0的輸入方式並非絕對,但為了日後使用方便,1/0的輸入方式還是存在相對優勢,包含資料處理及分析上。欄E則是把所有複選題的選項鍵入在同一欄位中,為了能夠分析,本文章來教學如何拆解,以下將提供兩種資料處理方式,最後說明分析方式。

 

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

 

11.接著將第二個變項「年齡」按照同樣步驟操作一次

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

筆者過去介紹了幾種介紹虛擬變項建立的文章,直到最近想找一篇教學文章給客戶時,才發現少了一種也是相當簡單的操作方式,正是SPSS 22.0版後才內建的「建立虛擬變數」,因此若您目前所使用的版本較舊或是找不到此功能,那還是得參考過去的文章才行。本篇文章所使用的資料是拿過去的示範資料,三個變項包含性別年齡教育程度,變項的分布情形如下。

 

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

甚麼是K-nearest Neighbors Algorithm (KNN)分析呢,白話來說,就是物以類聚的概念。假設你的朋友十個有八個成績都很好,合理來說近朱者赤,你成績好的機會應該蠻大的, KNN除了可以用於解決分類的問題(離散型資料),也適用於解決回歸的問題(連續型資料),用途相當的廣泛。為了要在R上面執行K-nearest Neighbors Algorithm (KNN)的分析,首先必須先安裝並載入以下的package

 

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

13)從「受試者間效應項的檢定」中,下方註解處顯示模式的R平方及調整後R平方,對應右邊用線性迴歸分析的結果,有相同的模式摘要。

14)「校正後的模式」的F值與顯著性,對應右邊用線性迴歸分析的結果,可以得到迴歸模式的整體檢定結果,F值同樣是3.523。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

在多數的關聯性研究中,都是以迴歸分析作為最終的統計方法,因此在進行樣本數規劃時,迴歸分析也是最常被拿來計算的設定選項,當研究有先收個3050筆來做個小型先趨pilot研究時,研究者通常會以自己資料來去進行迴歸效果量的計算,並回推所需樣本數,總比又再度使用中度效果量來得嚴謹。

假如收案過程中,不斷地重覆分析迴歸時,可能會遇到一件惱人的問題,就是自變項中有類別變項,做幾次迴歸分析,就得做幾次的虛擬變項編碼,而且只要類別變項一多,就會越做越無力。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

筆者最近在研究機器學習分析時,經常會遇到一個困惱的問題,就是不同演算法經常是散落在各種不同的套件,有在使用R作統計分析的讀者應該會了解這種困擾,為了跑不同機器學習的分析筆者必須去搜尋各種模型所需要的套件,但R的套件實在是非常的多,同一個演算法可能都能找到許多不同的套件可供使用,因此筆者就需要再進一步深入研究這些套件的差異以符合筆者的需求。

就當筆者深陷需要花很多時間搜尋需要功能套件時,筆者意外地在網路上搜尋到”caret”這個強大的套件,此套件的全名是” Classification And REgression Training”,從字面上就可以知道這個套件的功能在於解決機器學習模型訓練(迴歸 or 分類問題)的一個綜合性套件,此套件整合了絕大多數機器學習常用的演算法,例如:隨機森林、KNN、Adaboost等演算法,筆者接下來將針對caret常用的幾個功能做介紹。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

為了在R上面執行決策樹,我們首先要在R studio上先下載rpart-package rpart.plot-package,並利用library()載入,再x利用read_csv將原始資料載入到R studio做分析。

 

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

貳、前移函數Lead

(15)介紹本例的資料結構,資料仍是同一筆

晨晰部落格新站 發表在 痞客邦 留言(1) 人氣()

    前陣子在處理客戶諮詢問題時,剛好用到一個比較罕見的資料處理技巧-位移函數(Lag & Lead),所以這篇文章以這個題目做個教學,順便記錄下來。客戶的資料屬於縱貫型資料,是多家公司在多個年度的營運狀況,這時有個研究問題,想用去年的進貨成本來預測今年的營利淨所得,所以我們必須這兩個年度的不同變項拉在同一筆資料上,才有辦法分析我們想要的結果,這時就得用到位移函數(Lag & Lead)。

壹、遞延函數Lag

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

前一篇文章介紹Power BI有一個Google AnalyticsApp(即GA模板),可以讓你快速建立GA的視覺化報表。本篇繼續介紹後半段。

第三頁Map Analytics地圖分析,這一頁用來找出你的網站瀏覽者,來自那些國家/地區較多,人數愈多圓餅愈大。更酷的是遊標移到某個國家/地區時,還會秀出該地點人群的瀏覽量時段分布,週間那一時段最多人。不過,我覺得它用顏色來代表語言別是一個敗筆,因為語言數太多了,顏色實在難以區別。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

 

一、Phi相關係數(φ)是甚麼:

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

貳、用重新編碼(recode)處理分組問題

操作步驟(年齡分三組à年齡分兩組)

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

貳、用重新編碼(recode)處理分組問題

     最常出現的兩種情況,原本的欄位屬於開放題,譬如說年齡,因應研究需要而分成N組年齡層,如畫面中的age,依照15歲以下、16-20歲、21歲以上分成三組,形成變項『年齡分三組』;另一種情況,原本已經分組的變項,可能某一組樣本數較少,而併入其他組別中,如畫面中的年齡分三組,試圖將15歲以下、16-20歲合併成一組,成變項『年齡分兩組』,分別為20歲以下與21歲以上。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

Close

您尚未登入,將以訪客身份留言。亦可以上方服務帳號登入留言

請輸入暱稱 ( 最多顯示 6 個中文字元 )

請輸入標題 ( 最多顯示 9 個中文字元 )

請輸入內容 ( 最多 140 個中文字元 )

reload

請輸入左方認證碼:

看不懂,換張圖

請輸入驗證碼