Joinpoint Trend Analysis Software 的操作 @ 晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

筆者這次將利用Joinpoint軟體官方提供的資料，來介紹Joinpoint軟體的操作與需要注意的細節(主要針對筆者在學習過程中所遇到的狀況)，Joinpint軟體的操作可分為四個區塊:

操作步驟	小提醒
Creating an Input Data File for Joinpoint	可匯入excel, txt, csv等ASCII text file。資料在匯入Joinpoint軟體前，須根據分組變項(例如:性別)、年代變項做排序(由小到大)，但變項在工作表的順序沒有一定。資料中不能有遺漏值，會無法執行分析。變項名稱可支援中文或英文(但筆者建議是英文，比較不會在操作上出現額外的問題)。
Setting Parameters in the Joinpoint Program	可分為三塊: 匯入資料的處理(Input File)、方法和參數的設定(Method and Parameters)、進階方法的分析工具(Advanced Analysis Tools)
Executing the Joinpoint Regression Program	執行選項可分為黃色的閃電在執行過程中，如果遇到狀況，軟體會跳出可能的錯誤訊息來提供使用者做修正；綠色的閃電則為強制執行，不管中間有無設定錯誤。
Viewing the Joinpoint Results	可以直接透過Joinpoint 軟體將分析的報表以及圖形直接輸出(Graph、Data、Model Estimates、Trends、Model Selection)

官方範例(一) Sample Crude Rate Calculation and Regression Analysis₍₁₎

如何利用Join-point計算粗盛行率以及Joinpoint regression的分析

匯入資料的處理(Input File):

1)File contains column headers (匯入資料有無包含變項名稱), Delimiter (匯入資料的分隔方式), Missing Characters (遺漏值在匯入資料的符號)這三部分設定會根據使用者匯入的資料自動做設定。

***匯入資料的格式可以參考上圖的範例，一年一筆資料，不會有重複年度的資料，變項名稱的部分可參考上圖的範例(特別是發生個數、人口總數的命名)，因為這樣在做之後Dependent variable的設定時，可與Joinpoint軟體當中的命名一致，較不會有選取錯誤的發生。

2)Dependent variable(依變項)的設定:

Run type可分為Calculated From Data File、Provided in Data File，兩者的差別在於匯入資料的不同，但都可以執行Joinpoint regression的分析，詳細內容可參考官網所整理的Variables的介紹₍₁₎，讓使用者可以根據不同的情境來去設定要匯入的資料，筆者將針對Calculated From Data File的部分做以下設定的介紹

Type of Variable讓使用者可以去計算Age-Adjusted Rate, Crude Rate, Percent, Proportion; Rates per可分為每100、1000、10000、100000(一般流行病學在罕見疾病常用每十萬人口表示)、1000000

Count Variable，事件的發生數(例如:癌症發生數、死亡人數等)，Joinpoint軟體可以容許發生數不為整數

Population Variable，人口總數(例如:當年度的總人口數)

Log Transformation，主要分為對數模型以及線性模型，使用者可以根據檢定事件發生數的分布(可利用殘差分析去檢定)，一般來說，在探討疾病發生率(或盛行率)的資料時，通常會採取對數線性模型Yes {ln(y) = xb}，因為疾病的發生率(或盛行率)，通常是假設每年會以一個固定百分比上升或下降，然而如果用線性模型No {y = xb}則是假設疾病的發生率(或盛行率)每年以一個固定的人數上升或下降，但這樣變化方式不太合理，因此實務上在研究疾病發生率(或盛行率)的資料時，通常會利用對數線性模型來去描述資料。

3)Independent Variable(自變項)的設定:通常會設定發生年度為自變項，因為我們想要研究的問題是不同年度發生率(或盛行率)的改變

Shift Data Points by，這個選項可用於改變發生率(或盛行率)圖形X軸(發生年度)的座標，例如筆者原本資料是從2000年到2010年，但因為筆者想呈現年中人數的概念，因此可在這個設定輸入0.5，這樣之後出來的圖形就會以2000.5、2001.5…的樣子呈現，但這個操作不會影響之後數值的計算，只是單純改變座標軸呈現的內容而已。

Heteroscedastic Errors Option，可選擇Standard Error、Constant Variance、Poisson Variance，因為筆者之後會需要求得疾病的發生率(或盛行率)的95%信賴區間，因此這步會選擇讓Joinpoint軟體根據匯入的資料去計算Standard Error，之後可以透過Excel代入公式去計算95%信賴區間。

By Variables，如果資料中有分組變項(例如:性別)，則可加入這個選項，之後分析的時候，軟體可以根據分組的變項產生分組的個別分析。

Method and Parameters

1)Grid Search，如筆者之前在Joinpoint Trend Analysis Software 介紹一文有介紹Joinpoint軟體可以讓使用者藉由提供最小和最大轉折點個數(Number of Jointpoints)，但經過筆者實際操作發現其實Joinpoint軟體可以根據使用者的資料筆數自動判斷最多可能會產生幾個轉折點，雖然使用者仍可自己設定，但筆者建議除非對資料有特別的假設(例如瞭解資料在哪幾年可能有特別的趨勢變化)，此步驟可根據預設的設定就好，官方也有提供轉折點個數是如何根據匯入資料做設定的說明₍₂₎，有興趣的讀者可去上面看看。

2)Model Selection Method，Joinpoint有提供以下方法，用來做之後模型篩選的依據(Joinpoint 軟體會根據不同方法的指標，來決定哪一個轉折點模型以統計的角度是最好的)

***Data Driven BIC Methods方法官方表示還在驗證階段，因此不適合使用者直接拿來做論文發表或相關正式用途的使用，這些方法在之後Joinpoint的版本也有可能被移除。

在這個範例中筆者最後選擇Bayesian Information Criterion (BIC)作為模型篩選的依據，其他方法的說明可參考https://surveillance.cancer.gov/help/joinpoint/setting-parameters/method-and-parameters-tab/model-selection-method的說明。

3)Autocorrelated Errors Option，此步驟的功能在於能指定迴歸模式的殘差項是不是有相關性(簡單來說，不同年度間的變化彼此是否會互相影響)，如果彼此是獨立的，則選擇Fit an uncorrelated errors model，否則則選擇Fit an autocorrelated errors model based on the data(軟體會根據資料去估計不同年度可能的相關係數，放進模型做之後的分析)，但如果使用者想去嘗試不同相關係數的大小對於結果的影響，則可選擇Fit an autocorrelated errors model based on the data with parameter = ，使用者可以自行填入相關係數值。