晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

May 03 Mon 2021 09:16
SPSS資料處理：位移函數使用Lag & Lead(上)

前陣子在處理客戶諮詢問題時，剛好用到一個比較罕見的資料處理技巧－位移函數（Lag & Lead），所以這篇文章以這個題目做個教學，順便記錄下來。客戶的資料屬於縱貫型資料，是多家公司在多個年度的營運狀況，這時有個研究問題，想用去年的進貨成本來預測今年的營利淨所得，所以我們必須這兩個年度的不同變項拉在同一筆資料上，才有辦法分析我們想要的結果，這時就得用到位移函數（Lag & Lead）。

壹、遞延函數Lag

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：Excel與統計軟體

▲top

Apr 26 Mon 2021 09:09
使用R實行Adaboost

為了在R上面執行Adaboost的方法，我們首先要在R studio上先下載”adabag-package”，並載入

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：統計分析新趨勢

▲top

Apr 19 Mon 2021 08:55
淺談非線性關係－Restricted cubic spline（2/2） ~~晨晰統計林星帆顧問整理

四、當代主流的非線性關係

目前被認為具有彈性且經常被採用的非線性關係有三種方法，一種是本次要介紹的 RCS，另一種則是Fractional polynomials，最後則是 Generalized additive model（GAM）。三種方法的表現都很好，但 RCS 由於有強大 R 軟體套件「rms」作者 Frank Harrell 教授的大力推廣（https://www.fharrell.com/），以及「rms」套件的強大功能與易用性，因此 RCS 目前在醫學領域的應用比較常見。RCS 的概念其實也很簡單，首先要知道什麼是「Spline」，可先看以下圖片，即在一條直線中，插入幾個節點（稱為 Knot），並使其平滑。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：生物醫學統計

▲top

Apr 12 Mon 2021 09:15
淺談非線性關係－Restricted cubic spline（1/2） ~~晨晰統計林星帆顧問整理

筆者的同事在不久之前分享了如何以 R 軟體進行「Restricted cubic spline」（RCS），來處理變項之間的非線性關係（Non-linear relationship），有興趣的讀者可至 https://reurl.cc/R6OEqG 以及 https://reurl.cc/2b8yjm 查看全文。本篇文章筆者由概念原理出發，說明 RCS 的數學公式、優勢、劣勢與使用的注意事項。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：生物醫學統計

▲top

Apr 06 Tue 2021 09:37
Cox 比例危險假設的檢定~~晨晰統計林星帆顧問整理

Cox proportional hazard model（Cox 比例危險模式，接下來簡稱 Cox model）是目前非常廣泛使用的存活分析的方法，下圖灰色長條對應左邊的 Y 軸，至 2018 年為止，每年已有超過 1 萬個文件可在 PubMed 搜尋到。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：生物醫學統計

▲top

Mar 29 Mon 2021 09:04
跟我這樣作，你的SurveyCake問卷回覆就會自動跑到Power BI

我在2018年6月寫過一篇文章，「只要作這二件事，你的google表單就會自動跑到Power BI」，獲得得大迴響，可見很多人都有遇到這類問題。今天我再進階，介紹SurveyCake問卷回覆，怎樣導入Power BI。

關於SurveyCake，我是近二年才大量使用，因為他的功能實在太強了，說他是國內最強的網路問卷平台，一點也不為過。雖然SurveyCake有提供統計圖表，也可以公開。但他是逐題方式呈現，向下滾動查看，且統計圖選擇性少，對於想即時看到互動分析的人，還是不夠。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：power BI

▲top

Mar 22 Mon 2021 09:06
SPSS操作探索性因素分析EFA（二）：有預設因素

上篇介紹完關於無預設因素的EFA，不過實務上研究者在設計量表題目時，大多數都是根據文獻並設定好所有題項的因素歸類（如下圖），因此會希望因素分析的分類結果能夠與自己設定的因素一樣，但這樣的結果可遇不可求，因為根據筆者過去的經驗，結果好一點的話刪除個2~4題，還能維持原有的預設因素及分類狀況；若狀況不理想，那結果整個大走鐘（台語），再來就得看是否堅持一定要維持原來的因素結構，而採取較不正規的作法，或是改用無預設因素的方式繼續往下進行。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：迴歸與SEM

▲top

Mar 15 Mon 2021 09:42
解密Adaboost

在認識Adaboost演算法之前，我們必須了解機器學習的眾多演算法中，有一個分支是集成式學習(或稱作整體學習)，但這裡有一個重要的觀念提醒，集成學習雖然歸屬於機器學習，他是一種「訓練思路」，並不是某種具體的方法或者算法。當我們使用一種分類器無法達到很良好的預測結果時，除了改使用其他類型的分類器，可以將數個分類器的預測結果綜合考慮，藉此達到分類的效果，這即是集成式學習，用白話來說就是「三個臭皮匠勝過一個諸葛亮」的概念。

我們以答一題是非題來舉例，假如我們使用一枚硬幣來決定答案要答O是還是X，此時答對的機率是50%(答錯機率為50%)，但如果這時候我們使用兩枚硬幣來決定答案，此時答對的機率是 1-(50%*50%)=75%(答錯機率變為25%)，以此類推，當我們硬幣的數目來到 5 枚，答對的機率是 1-(50%)5=96.875%(答錯的機率為3.125%)。隨著硬幣的個數增加，答對這一題是非題的機率也隨之增加(答錯機率也會隨之下降，50%à25%à3.125%)，這時候硬幣就是所謂的分類器，把多個分類器的結果作為分類的依據就是集成式學習。集成式學習可分為三個部分，(1) Bagging、(2) Boosting、(3) Stacking。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：其他類統計知識

▲top

Mar 08 Mon 2021 08:51
經驗分享－該怎麼做好迴歸分析

只要論文提到影響或預測，就會讓人直覺聯想到要進行迴歸分析，去年年底有發表過一篇文章『該選什麼迴歸分析』，現在想想覺得不夠深入，因此這篇將分享個人的習慣作法，給有需要的人參考，就如同之前說的，線性迴歸的比例仍佔大多數，因此這篇就以線性迴歸為例來跟大家討論（不過好像沒差XDDDD）。

當拿到客戶的第三章研究方法，就會知道有沒有需要做迴歸，不過除非客戶在統計方法的章節交代很清楚，否則我們只能知道要做迴歸或不用做迴歸，那我們要做怎樣的迴歸呢?站在客戶的立場，結果一定是越顯著越好，所以就會有幾種的組合來做嘗試，分為兩個面向（1）自變項全部放入 or 挑選單變量有顯著（或p<某個標準值，如0.2）的變項；（2）要選全部進入法（Enter） or 逐步法（Stepwise），形成以下交叉表

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()

個人分類：迴歸與SEM

▲top

Mar 02 Tue 2021 08:59
比較型的診斷型統合分析－R套件介紹 ~晨晰統計林星帆顧問整理

筆者在之前簡單介紹了診斷型統合分析（Diagnostic meta-analysis; DMA）的傳統方法（https://reurl.cc/Ldg5jx）以及現今的主流方法（https://reurl.cc/XkgZDM）的概念及原理。本篇文章旨在介紹以免費且功能強大的 R 套件，然而 R 套件支援 DMA 的數量眾多，本篇文章主要介紹具有比較型（Comparative）功能的套件，例如可以比較不同次群體或組別。

根據筆者的搜尋，目前 R 支援 DMA 的套件至少有：mada, metatron, metadisc, meta4diag, HSROC, bamdit, NMADiagT, CopulaDTA 等。其中筆者經實際測試後，確定具有比較型功能的 R 套件有：mada、meta4diagnosis 以及 CopulaDTA，以下就進行各套件主要功能的比較與說明。

(繼續閱讀...)

晨晰部落格新站發表在痞客邦留言(0) 人氣()