筆者這次將利用Joinpoint軟體官方提供的資料,來介紹Joinpoint軟體的操作與需要注意的細節(主要針對筆者在學習過程中所遇到的狀況),Joinpint軟體的操作可分為四個區塊:
操作步驟 |
筆者這次將利用Joinpoint軟體官方提供的資料,來介紹Joinpoint軟體的操作與需要注意的細節(主要針對筆者在學習過程中所遇到的狀況),Joinpint軟體的操作可分為四個區塊:
操作步驟 |
本篇文章介紹美國衛生研究院(National Institutes of Health (NIH))提供的Joint Trend Analysis software,這個軟體主要運用在長期趨勢資料分析(例如:想研究癌症的發生率在各個年代的變化),透過此軟體使用者可以很容易地根據資料產生不同的Joint regression model,此迴歸模型主要用來找出癌症發生率趨勢變化的轉折點(Jointpoint),可以回答哪一個時間點開始出現趨勢的變化(例如:發生率的下降或上升)。
在使用上,一開始使用者能藉由提供最小和最大轉折點個數。軟體將以最小轉折點個數(例如0個轉折點,此時圖形為一條直線)開始計算,並測試增加轉折點是否相較於前一個模型更具有統計顯著性,最後軟體能幫使用者找到一個最佳的模型(轉折的趨勢都有達到統計上的顯著),使用者能夠測試趨勢的明顯變化是否具有統計意義。此外軟體還提供查看每一個模型的圖形,從具有最小轉折點數量的模型到具有最大轉折點數量的模型,讓使用者可以用於結果的呈現。如附圖所示:
筆者在多年前(2010年)曾經推薦過一本關於生物統計的好書「簡明生物統計學」(已絕版,目錄可於以下網址取得:goo.gl/uN8TNZ)。筆者最近幾年走了幾次重慶南路書街(書街倒到已經剩下不到10家了…),發現最近10年內出版了許多生物統計學的專書,逐本翻閱之後,發現絕大多數都是寫給注重原理計算的大學生成級的著作,應用性較低,皆不適合臨床研究者在實務上的使用。
在翻閱了多本生物統計學教科書後,偶然間翻到「實用生物統計方法及R-Web」這本書(http://www.books.com.tw/products/0010693962),讓我驚艷不已,竟有寫得如此深入淺出的生物統計教本。本書作者群皆為生物統計的教授,包括台北醫學大學的鄭光甫、陳錦華、陳弘家以及臺灣大學農藝學系蔡政安四位統計博士。四位除了是在統計方法的研究上成就斐然之外,實務上協助臨床研究者發表的諮詢經驗也非常豐富。
近來流行將數據視覺化,方便觀眾對數據結果可以快速掌握,尤其現代資訊充斥,各方都在搶觀眾眼球,誰能抓住觀眾目光,又能在第一時間讓人一目瞭然,才是成功的promote。
而滿意度調查報告也不例外,千言萬語不如一張圖表,比起大堆頭的厚厚表格、數字,不如一、二張精彩、生動、又讓人無限瑕想的統計圖,來得豐富、自然又蘊藏許多想像空間。
多重插補法(multiple imputation)可以說是以模型基礎法來插補的延伸,是屬於利用迴歸模式進行插補的一種方法,由於該方式是從預測值的合理分配中隨機抽取數個數值進行插補,因此稱之為多重插補,此一方法可適用於縱貫性資料或單一觀察資料,也可處理多變量資料結構。
目前多重插補法主要的演算法分為(1)最大期望值法(expectation maximization, EM)與(2)馬可夫鏈蒙地卡羅法(Markov Chain Monte Carlo, MCMC),而SPSS軟體中所提供的演算法即為後者,是透過貝氏定理的方法,以先驗機率分析資料,再以條件後驗分配進行重覆抽樣,直至近似分配收歛至目標分配為止。
筆者曾在2015年9月9日分享一篇『SPSS資料處理-置換遺漏值(Replace Missing Value)』,但這種尋找單一數值作為替代的方式,較無法反映受訪者的變異性,進而造成變異量的低估。
資料的遺漏型態,可以分成完全隨機遺漏(Missing Completely at Random, MCAR)、隨機性遺漏(Missing at Random, MAR)與非隨機性遺漏(not missing at Random, NMAR),當資料屬於隨機性遺漏(Missing at Random, MAR)與非隨機性遺漏(not missing at Random, NMAR)時,資料插補的方法將對於結果產生較大的影響。此時若可以採用以模式為基礎的方法來進行插補(本篇將介紹EM插補法,expectation maximization),即使遺漏值的分布並非完全隨機遺漏(MCAR),也可透過最大概似法(Maximum likelihood method)求得具有一致性(consist)及有效率(efficient)的估計值進行插補。
最近因政府帶頭召開,年金改革的議題炒得很熱。由於歷史因素,各人身處職業不同、年資不同,經歷年代也不一樣,所以每個人注意的點都不一樣。只是,各種退休基金愈來愈不夠用是事實,無論開源或節流,總是要改變,大家不接受也不行了。
筆者年逾45,工作已超過20年,累積相當的年資;但離法律退休年齡65,卻還有20年。在這個工作生涯的中點,不禁開始思考退休準備。個人目前除了國家法定的勞保、勞退外,平常從事定期定額的基金投資,自己的第一棟房子頭款就是這樣來的。
在2015年時筆者曾經寫過「寫好Meta-analysis文章的第一堂課:PRISMA檢核表」(網址:http://goo.gl/my89kO),接著這篇文章來介紹在執行Meta-analysis時有哪些必要的程序,以及簡略地介紹這些程序。補充說明,以下程序是筆者從事多篇meta-analysis後的個人經驗分享,並沒有特別的文獻佐證。
筆者將Meta-analysis的執行按照順序分成五大區塊,分別為一、文獻搜尋(Literature search)、二、研究品質評估(Quality of study)、三、資料萃取(Data extraction)、四、統計分析(Statistical analysis)以及五、出版偏差(Publication bias),以下分別介紹每個區塊的內容。
前次筆者已用SNA來展示台灣健保資料庫研究發表文章數目熱絡狀況(註),其實NodeXL的社會網絡分析中除了圖形展示外,它也有量化的部分,依照頂點(Vertices)的屬性,可以計算出一些指標metrics。這裏仍沿用上一例子介紹Degree及Betweenness Centrality二種指標。
筆者前一陣子寫了一篇文章(社會網絡分析工具—從群眾募資案的分析談起),大力推薦NodeXL,可以收集FB、Twitter、Flickr、Youtobe等社群網路的朋友、網友或跟隨者的行為資料。
上述只是該模版的特殊應用,已經令人驚艷,但還有更炫的,它還可以分析你的email來往狀況。選擇Analyze all emails全部下載,它會自動從你的outlook載入所有的email。
前一陣子接觸到一個研究很有趣~~群眾募資專案的成功因素。該研究者所參考一篇文獻(How can social enterprises develop successful crowdfunding campaigns? An empirical analysis on Italian context),作者Bernardo Balboni等三人提及,義大利的群募非常盛行,在2013年十月時,有15個活躍的募資平台(CrowdFunding platforms;CF),平台上所進行的群募專案,分為三大類:獎勵為主(Reward-based,完成時會獲得獎勵,如產品、服務)、捐贈為主(Donation-based,完成時會獲得股權)、社會貸款(Social Lending,完成時會收到本息)。各類群募案的個數、成功率及金額如下表。
筆者曾在另一篇文章示範利用PowerMap及開放資料畫出「臺北市登記工廠分佈圖」,使用的是點狀圖與熱圖。如果我們想在這圖上再放進人口分佈,來看看工廠是否分佈在人口密集地區的話,那麼就要利用到圖層套疊的技術,這在傳統地理空間統計是常用的技術,但在PowerMap上同樣可以作到,而且更簡單。
圖層套疊在一般地圖軟體上,最怕碰到一個問題,就是座標系統不同。筆者曾經從台北市與新北市的開放資料平台分別下載各里圖層,結果一套疊,台北市會整個向左平移一點,以致二市有部分里是重疊的,造成筆者很大困擾。
最近有一個關於Google併購了Skybox這家公司的新聞,Skybox是專做衛星影像業務的公司,其過人之處在於製造與發射全球最小的高分辨率成像衛星,可提供次米級(sub-meter)精準度的圖像,以及來自衛星網路的90秒影片。
(4)勾選「主觀察值的指標(I)」,並選擇下方的「以各群組中的第一個觀察值為主(H)」,名稱改為「第一筆資料」,之後資料即將新增一個欄位名叫「第一筆資料」,且若該筆資料為受訪對象的第一筆資料時,該欄位的數值為「1」,其他則皆為「0」;反之,若選擇上方的「以各群組中的最後觀察值為主(L)」,名稱改為「最後一筆資料」之後資料即將新增一個欄位名叫「最後一筆資料」,且若該筆資料為受訪對象的最後一筆資料時,該欄位的數值為「1」,其他則皆為「0」。
(5)勾選「各群組中的相符觀察值循序個數」,名稱改為「次數」,之後資料即將新增一個欄位名叫「次數」,該欄位的數值即呈現該受試者的第幾次資料。
由於最近常在處理有關於資料處理的問題,小編這邊學到兩個還蠻好用的功能分享給大家:(1)為每一列的資料增加辨識碼,相當於流水號;(2)針對相同流水號(同一個人)的資料,再增加一欄辨識碼,相當於該列資料為該研究對象的第幾次資料。
一、增加流水號