晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

Oct 03 Mon 2022 08:56
R 繪製violin plot (小提琴圖)

一般針對連續變項的分布情形，通常會使用盒形圖來做視覺化的呈現，盒形圖的組成會包含下左圖所提到的，中位數(median)、上四分位數(25^th quantile)、下四分位數(75^th quantile)、上邊緣(最大值，maximum)、下邊緣(最小值，minimum)以及可能的異常值(outlier)，我們可以透過盒形圖的對稱與否觀察資料的離散程度，也可以檢視資料當中有無不合理的異常值。除此之外，盒形圖也可以用來比較不同組別資料的分布差異，如下右圖所示，一號實驗對象的光速平均而言(中位數約930)比起其他實驗組別要來得快，但資料的分布也比較分散。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：Excel與統計軟體

▲top

Sep 26 Mon 2022 13:40
R語言繪製cluster error bar plot

筆者最近在幫客戶分析案子的時候遇到了一個畫圖的問題，後來測試了許多做法，最後找到用R來解決此畫圖問題。筆者手上的資料如下圖所示，包含了五個欄位，其中Mean, Lower, Higher是事先計算好的統計結果，Mean是點估計值，Lower跟Higher分別是95%信賴區間跟Mean之間的距離，因為是假設常態分佈的情況，因此Lower跟Higher會剛好一樣。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：Excel與統計軟體

▲top

Sep 19 Mon 2022 09:03
機器學習的好夥伴-WEKA介紹(1)

在機器學習的領域當中，有著各式各樣的演算法，但往往為了要使用這些演算法，會需要透過寫程式的方式來去使用這些方法，雖然現在統計軟體(例如: R、Python)在呼叫這些演算法所下的指令不是說非常的長，有些時候甚至相當簡單的指令就能使用需要的演算法，但對於沒有寫程式經驗的機器學習初學者來說，還是有一定的進入障礙。所幸還是有一些不需要寫程式的機器學習工具可以使用，例如Weka，筆者第一次接觸Weka是在大學上資料探勘課程的時候，筆者大學的時候機器學習還沒有像現在那麼多課程跟工具可用(應該距今至少十年吧)，因此Weka這個工具可以發展那麼久都還沒有停止更新，想必有其過人之處，因此筆者想介紹Weka給機器學習的初學者們。

Weka是紐西蘭懷卡托大學機器學習實驗室專為「學習資料探勘」所開發的Java軟體，Weka是懷卡托智慧分析系統的縮寫。Weka限制在GNU通用官方證書的條件下發佈(開源工具)，幾乎可以運行在所有作業系統平台上，包括Linux、Windows、Mac OS等。Weka包含完整的資料探勘處理流程，包含(1)資料前處理工具、(2)機器學習演算法、(3)成效評估方法、(4)資訊視覺化報表摘要，最大的優點在於兼具圖像化的使用介面以及寫指令的介面，因此不管是不懂寫程式的初學者以及老手都可以充分做使用，此外，Weka也可以持續擴充新的演算法，因此不用擔心不支援主流的演算法。目前下載最新版本的Weka是3.8.6版，以下的操作就已最新版本做示範。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：統計分析新趨勢

▲top

Sep 12 Mon 2022 08:57
Impact factor 查詢外掛推薦

有在進行學術研究的人應該都不陌生影響因子(Impact factor)這個指標，在搜尋論文的時候除了尋找與自己研究主題有關的外，有時候也會參考論文刊登的期刊在那個研究領域的重要性與排名，筆者之前有寫一篇關於推薦查詢網站的介紹(https://reurl.cc/zZNlNa)，雖然這個網站整理了SCI與SSCI期刊的影響因子以及相關的資訊，並透過一些簡單的視覺化呈現，讓讀者可以很快的了解不同期刊在其研究領域的重要性，以及歷年影響力的變化情形等，可給予研究者在搜尋文獻以及之後的投稿有很大的幫助。但畢竟實際上研究者在搜尋論文的方式，一般是透過搜尋引擎(例如：Google 學術搜尋、PubMed)藉由關鍵字來去搜尋論文，因此如果可以在搜尋論文的時候就可以馬上知道這篇文章impact factor是多少，並且可以針對impact factor做排序或篩選，這樣比事後才去查詢應該會更方便，因為一般使用者可能只需要知道impact factor幾分就好，至於一些額外的資訊不一定是使用者查詢文獻當下想知道的。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(1) 人氣()

個人分類：研究方法

▲top

Sep 05 Mon 2022 08:55
SPSS操作卡方檢定（Chi-square test）-（三）

（13）先看卡方檢定下方的第一個註解，此處即是去計算在交叉表中，有幾格的預期人數不到5，以及佔比有多高，結果顯示，有兩個的預期人數不到5，在12個細格裡的佔比為16.7%。

（14）假如第13步驟的百分比超過20%，則放棄使用卡方檢定的結果，直接用費雪精確性檢定的精確顯著性(雙尾)來結論，不過由於本例預期人數低於5的細格數僅佔16.7%，因此可以繼續進行卡方檢定。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：Excel與統計軟體

▲top

Aug 29 Mon 2022 08:47
SPSS操作卡方檢定（Chi-square test）-（二）

操作：

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：Excel與統計軟體

▲top

Aug 23 Tue 2022 09:04
SPSS操作卡方檢定（Chi-square test）-（一）

當研究問題在檢驗兩個類別變項間的關聯性或差異性時，卡方檢定是我們挑選統計方法的首要選擇，透過交叉表呈現兩個變項的分布狀況，再利用卡方檢定來檢驗關聯性或差異性的結果，本篇文章將一步一步的帶著大家學會卡方檢定。

首先，我們必須瞭解「預期個數」或稱「期望個數」，這是當我們只知道每個變項的分布狀況，但還不知兩者聯合分布時的預期假設，我們會假設兩個變項應相互獨立，間接的計算出兩者變項聯合時的分布情形。舉例來說，在100位的病患中，男女人數各佔半數，各有50人，有無慢性病的人數也各佔半數=50人時，兩個變項的交叉分布如表（1），此時兩個變項完全獨立。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：Excel與統計軟體

▲top

Aug 08 Mon 2022 08:59
臨床研究報告指引TRIPOD statement介紹（4，共4篇） ~~晨晰統計林星帆顧問整理

四、Results（Item no. 13-17）

第 13 點分成三個小點，「13a」建議以流程圖示意研究對象的收案人數變化，需提供有發生結果事件與沒有發生結果事件的樣本數，倘若結果變項是「time to event outcome」，則需提供平均或中位數追蹤時間。「13b」需提供研究對象的基本資料，其中如果預測變項或結果變項若有遺漏值，需報告每個變項的遺漏個數。「13c」僅適用於驗證型研究，需列出並比較訓練資料集與用於驗證的資料集在基本資料、預測變項與結果變項的分布。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：生物醫學統計

▲top

Aug 01 Mon 2022 08:59
SPSS進行類別變項的成對檢定-McNemar test(麥內瑪關聯樣本檢定)（三）

精確顯著性 VS. 漸進顯著性

在進行交叉分析時，一直都有細格人數不得過少的考量，所以您可能聽過當有過多比例的儲存格當人數過小時，就必須捨棄卡方檢定，而改用其他檢定（如費雪精確性檢定），當儲存格B+C人數在26人以上，下圖左方為操作交叉表所得到的結果，所得到的結果為精確顯著性的結果，而下圖右方則為操作無母數檢定所得到的結果，所得到的結果為漸進顯著性的結果，這兩個結果跟上方的例子完全相同。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()