晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

Aug 23 Mon 2021 09:12
量表分數應用：計算總分or平均（二）

下圖是計算出來的結果，分別得到了總和、平均、相加

（4）採用函數加總時最大的問題是不能有遺漏值，否則計算出來的得分會有偏差問題，以6號受訪者來說，五個題項的回答皆為滿意（4分），總分得到20分，7號受訪者前四題皆回答非常滿意（5分），但由於第五題遺漏，被當成0分來計算，使得這兩名受訪者算出來的滿意程度相等，這樣似乎就不合理了，所以有遺漏值的資料就得特別注意；另外還存在一個問題，若今天研究者想要進行構面之間的分數比較或排序時，以加總分數比較就會出現一個明顯的問題，題數越多分數通常會越高，因此當構面的題數不相同時，就無法在同一個基礎點上做比較。為了解決這兩項問題，個人最推薦採用函數平均進行計算

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：其他類統計知識

▲top

Aug 09 Mon 2021 08:54
量表分數應用：計算總分or平均（一）

這篇文章想要探討一個容易受到老師挑戰的議題，在問卷調查的研究中，若有使用量表工具來收集受訪者的心理特質時，勢必需要針對每位受訪者的回答項目，幫他們計算一個分數來代表個別的反應程度，那麼計分規則是什麼，通常會在介紹研究工具時一併交代，如下圖所示。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：其他類統計知識

▲top

Jul 26 Mon 2021 09:05
線性判別分析(linear discriminant analysis, LDA)介紹

<源起>

LDA最早是1936年由RA. Fisher(現代統計學之父)發展，可用於解決二元分類的問題，之後也拓展成解決多分類的問題。在機器學習的領域，LDA可做為資料降維的工具，至於為什麼要降維，可參考筆者之前寫過的文章(https://reurl.cc/7y1zON)，裡面有完整的介紹，降維的目的主要是為了避免機器學習的模型的分類或迴歸能力會開始隨維度的增加而下降(如圖一所示)。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：統計分析新趨勢

▲top

Jul 19 Mon 2021 08:57
R軟件包-caret介紹

筆者最近在研究機器學習分析時，經常會遇到一個困惱的問題，就是不同演算法經常是散落在各種不同的套件，有在使用R作統計分析的讀者應該會了解這種困擾，為了跑不同機器學習的分析筆者必須去搜尋各種模型所需要的套件，但R的套件實在是非常的多，同一個演算法可能都能找到許多不同的套件可供使用，因此筆者就需要再進一步深入研究這些套件的差異以符合筆者的需求。

就當筆者深陷需要花很多時間搜尋需要功能套件時，筆者意外地在網路上搜尋到”caret”這個強大的套件，此套件的全名是” Classification And REgression Training”，從字面上就可以知道這個套件的功能在於解決機器學習模型訓練(迴歸 or 分類問題)的一個綜合性套件，此套件整合了絕大多數機器學習常用的演算法，例如:隨機森林、KNN、Adaboost等演算法，筆者接下來將針對caret常用的幾個功能做介紹。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：Excel與統計軟體

▲top

Jul 06 Tue 2021 08:59
以 R 軟體進行 Cox 比例危險假設的檢定~~晨晰統計林星帆顧問整理

在之前的文章中，筆者介紹了Cox proportional hazard model（Cox 比例危險模式，接下來簡稱 Cox model）關於比例危險假設（proportional hazard assumption; 以下簡稱 PH assumption）的兩種檢定方式。第一種為檢視個別解釋變項的 Schoenfeld residual 與遞增排序後的事件存活時間的相關性。第二種為在 Cox model 中，增加解釋變項與存活時間的交互作用項，通常存活時間會先經過自然對數的轉換，亦即取 ln (survival time)。解釋變項與存活時間的交互作用項的作法很簡單，只要在資料中先創造好解釋變項與存活時間（自然對數轉換過後）的交互作用變項。或甚至是不需要在資料中另外創造變項，而是直接在統計軟體的語法中增加交互作用變項，通常是用「*」這個符號來將兩個變項作交乘的動作。因此，筆者預計在此篇文章示範如何以 R 統計軟體進行 Schoenfeld residual 檢定方式的操作與解讀。首先，會需要使用到兩個套件，分別為「survival」跟「survminer」。

安裝套件後，先呼叫，然後將資料匯入。示範資料為第四期頭頸癌病人的數據，一共 159 名病人。變項說明如下表：

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：生物醫學統計

▲top

Jun 28 Mon 2021 08:59
如何正確解讀臨床試驗的次群體分析~~晨晰統計林星帆顧問整理

在臨床試驗中，次群體分析（subgroup analysis；或稱為子群體分析）扮演了相當重要的角色。現今的臨床試驗會有主要療效指標（primary efficacy endpoint），有些則是會另外設定次要療效指標（secondary efficacy endpoint），當然有些是針對副作用設定為主要指標，那麼就變成是主要及次要安全性指標（primary and secondary safety outcomes）。

臨床試驗針對主要療效/安全性指標一定都會作次群體分析，次要療效/安全性指標則有時候也會提供，結果也許放在本文，也有可能放在附錄。因為在整體的試驗結果只提供了一個答案：「整個實驗組（例如用藥組）對上整個對照組（例如安慰劑組）的結果是否具有差異」。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：生物醫學統計

▲top

Jun 21 Mon 2021 09:07
Power BI也有AI預測能力????

在Power BI的儀表板報表中，大家看到各種令人驚艷的視覺效果（即數據圖表），其反應的內容，一般為資料庫載入後，經處理、運算，再將精美圖形呈現出來。但無論如何變化，其反應的結果都是既定事實，已經發生的。這也就是資料視覺化的範疇。但大數據還有一個面向是「預測」(forecast)，只是精準的預測模型並不是Power BI的專長。所以有許多達人開發出很厲害的「預測視覺效果」(forecast visual)，讓使用者可以輕鬆使用。以下介紹六個可使用的效果，它們都需要去AppSource中新增。在搜尋欄中打「forecast」，出現的前六個即是。它們有個共同特點，都是使用R的套件來進行預測，這使得Power BI的使用，從單純彙總，進步到建模，而且我們不用去寫R語言，只要先安裝好R，再安裝這些visual即可，真是太棒了。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：power BI

▲top

Jun 07 Mon 2021 08:57
使用R實行決策樹

為了在R上面執行決策樹，我們首先要在R studio上先下載”rpart-package”、 ”rpart.plot-package”，並利用library()載入，再x利用read_csv將原始資料載入到R studio做分析。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：Excel與統計軟體

▲top

May 31 Mon 2021 08:48
繪圖實例示範：使用生命表法 (Life table method)之存活分析繪圖(下)

Part 2適用檔案類型：具有加權權重之資料類型，如Inverse probability treatment weighting (IPTW)（兩組加權資料）或generalized boosted modeling (GBM)- IPTW（三組或三組以上加權資料），SAS 的語法整理如下

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：生物醫學統計

▲top

May 24 Mon 2021 09:21
繪圖實例示範：使用生命表法 (Life table method)之存活分析繪圖(上)

研究者在進行存活分析時，應該都會想要繪製圖形以清楚呈現有興趣的健康事件隨著時間的發生情形，本系列的實例範例將依序介紹不同檔案類型下所使用的統計模型及EXCEL圖表繪製技巧。Part 1適用檔案類型：未配對之原始資料、使用傾向性評分匹配 (Propensity Score Matching, PSM)配對的檔案，此類資料較為單純，沒有加權權重或校正變項的考量，SAS 的語法整理如下