公告版位
晨晰統計顧問有限公司在新北市板橋\服務市話:02-29602817\手機:0918-276-622\信箱:raising.statistic@gmail.com\網址:http://www.rai-stat.com.tw

一般針對連續變項的分布情形,通常會使用盒形圖來做視覺化的呈現,盒形圖的組成會包含下左圖所提到的,中位數(median)、上四分位數(25th quantile)、下四分位數(75th quantile)、上邊緣(最大值,maximum)、下邊緣(最小值,minimum)以及可能的異常值(outlier),我們可以透過盒形圖的對稱與否觀察資料的離散程度,也可以檢視資料當中有無不合理的異常值。除此之外,盒形圖也可以用來比較不同組別資料的分布差異,如下右圖所示,一號實驗對象的光速平均而言(中位數約930)比起其他實驗組別要來得快,但資料的分布也比較分散。

 

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

筆者最近在幫客戶分析案子的時候遇到了一個畫圖的問題,後來測試了許多做法,最後找到用R來解決此畫圖問題。筆者手上的資料如下圖所示,包含了五個欄位,其中Mean, Lower, Higher是事先計算好的統計結果,Mean是點估計值,Lower跟Higher分別是95%信賴區間跟Mean之間的距離,因為是假設常態分佈的情況,因此Lower跟Higher會剛好一樣。

 

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

在機器學習的領域當中,有著各式各樣的演算法,但往往為了要使用這些演算法,會需要透過寫程式的方式來去使用這些方法,雖然現在統計軟體(例如: R、Python)在呼叫這些演算法所下的指令不是說非常的長,有些時候甚至相當簡單的指令就能使用需要的演算法,但對於沒有寫程式經驗的機器學習初學者來說,還是有一定的進入障礙。所幸還是有一些不需要寫程式的機器學習工具可以使用,例如Weka,筆者第一次接觸Weka是在大學上資料探勘課程的時候,筆者大學的時候機器學習還沒有像現在那麼多課程跟工具可用(應該距今至少十年吧),因此Weka這個工具可以發展那麼久都還沒有停止更新,想必有其過人之處,因此筆者想介紹Weka給機器學習的初學者們。

Weka是紐西蘭懷卡托大學機器學習實驗室專為「學習資料探勘」所開發的Java軟體,Weka是懷卡托智慧分析系統的縮寫。Weka限制在GNU通用官方證書的條件下發佈(開源工具),幾乎可以運行在所有作業系統平台上,包括Linux、Windows、Mac OS等。Weka包含完整的資料探勘處理流程,包含(1)資料前處理工具、(2)機器學習演算法、(3)成效評估方法、(4)資訊視覺化報表摘要,最大的優點在於兼具圖像化的使用介面以及寫指令的介面,因此不管是不懂寫程式的初學者以及老手都可以充分做使用,此外,Weka也可以持續擴充新的演算法,因此不用擔心不支援主流的演算法。目前下載最新版本的Weka是3.8.6版,以下的操作就已最新版本做示範。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

有在進行學術研究的人應該都不陌生影響因子(Impact factor)這個指標,在搜尋論文的時候除了尋找與自己研究主題有關的外,有時候也會參考論文刊登的期刊在那個研究領域的重要性與排名,筆者之前有寫一篇關於推薦查詢網站的介紹(https://reurl.cc/zZNlNa),雖然這個網站整理了SCISSCI期刊的影響因子以及相關的資訊,並透過一些簡單的視覺化呈現,讓讀者可以很快的了解不同期刊在其研究領域的重要性,以及歷年影響力的變化情形等,可給予研究者在搜尋文獻以及之後的投稿有很大的幫助。但畢竟實際上研究者在搜尋論文的方式,一般是透過搜尋引擎(例如:Google 學術搜尋、PubMed)藉由關鍵字來去搜尋論文,因此如果可以在搜尋論文的時候就可以馬上知道這篇文章impact factor是多少,並且可以針對impact factor做排序或篩選,這樣比事後才去查詢應該會更方便,因為一般使用者可能只需要知道impact factor幾分就好,至於一些額外的資訊不一定是使用者查詢文獻當下想知道的。
 

晨晰部落格新站 發表在 痞客邦 留言(1) 人氣()

13)先看卡方檢定下方的第一個註解,此處即是去計算在交叉表中,有幾格的預期人數不到5,以及佔比有多高,結果顯示,有兩個的預期人數不到5,在12個細格裡的佔比為16.7%

14)假如第13步驟的百分比超過20%,則放棄使用卡方檢定的結果,直接用費雪精確性檢定的精確顯著性(雙尾)來結論,不過由於本例預期人數低於5的細格數僅佔16.7%,因此可以繼續進行卡方檢定。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

 

操作:

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

     當研究問題在檢驗兩個類別變項間的關聯性或差異性時,卡方檢定是我們挑選統計方法的首要選擇,透過交叉表呈現兩個變項的分布狀況,再利用卡方檢定來檢驗關聯性或差異性的結果,本篇文章將一步一步的帶著大家學會卡方檢定。

首先,我們必須瞭解「預期個數」或稱「期望個數」,這是當我們只知道每個變項的分布狀況,但還不知兩者聯合分布時的預期假設,我們會假設兩個變項應相互獨立,間接的計算出兩者變項聯合時的分布情形。舉例來說,在100位的病患中,男女人數各佔半數,各有50人,有無慢性病的人數也各佔半數=50人時,兩個變項的交叉分布如表(1),此時兩個變項完全獨立。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

四、ResultsItem no. 13-17

13 點分成三個小點,「13a」建議以流程圖示意研究對象的收案人數變化,需提供有發生結果事件與沒有發生結果事件的樣本數,倘若結果變項是「time to event outcome」,則需提供平均或中位數追蹤時間。「13b」需提供研究對象的基本資料,其中如果預測變項或結果變項若有遺漏值,需報告每個變項的遺漏個數。「13c」僅適用於驗證型研究,需列出並比較訓練資料集與用於驗證的資料集在基本資料、預測變項與結果變項的分布。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

精確顯著性 VS. 漸進顯著性

在進行交叉分析時,一直都有細格人數不得過少的考量,所以您可能聽過當有過多比例的儲存格當人數過小時,就必須捨棄卡方檢定,而改用其他檢定(如費雪精確性檢定),當儲存格B+C人數在26人以上,下圖左方為操作交叉表所得到的結果,所得到的結果為精確顯著性的結果,而下圖右方則為操作無母數檢定所得到的結果,所得到的結果為漸進顯著性的結果,這兩個結果跟上方的例子完全相同。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

操作方法一(交叉表)

1)點選「分析」→「敘述統計」→「交叉表」。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

Close

您尚未登入,將以訪客身份留言。亦可以上方服務帳號登入留言

請輸入暱稱 ( 最多顯示 6 個中文字元 )

請輸入標題 ( 最多顯示 9 個中文字元 )

請輸入內容 ( 最多 140 個中文字元 )

reload

請輸入左方認證碼:

看不懂,換張圖

請輸入驗證碼