公告版位
晨晰統計顧問有限公司在新北市板橋\服務市話:02-29602817\手機:0918-276-622\信箱:raising.statistic@gmail.com\網址:http://www.rai-stat.com.tw

貳、前移函數Lead

(15)介紹本例的資料結構,資料仍是同一筆

晨晰部落格新站 發表在 痞客邦 留言(1) 人氣()

    前陣子在處理客戶諮詢問題時,剛好用到一個比較罕見的資料處理技巧-位移函數(Lag & Lead),所以這篇文章以這個題目做個教學,順便記錄下來。客戶的資料屬於縱貫型資料,是多家公司在多個年度的營運狀況,這時有個研究問題,想用去年的進貨成本來預測今年的營利淨所得,所以我們必須這兩個年度的不同變項拉在同一筆資料上,才有辦法分析我們想要的結果,這時就得用到位移函數(Lag & Lead)。

壹、遞延函數Lag

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

 

為了在R上面執行Adaboost的方法,我們首先要在R studio上先下載”adabag-package”,並載入

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

四、當代主流的非線性關係

目前被認為具有彈性且經常被採用的非線性關係有三種方法,一種是本次要介紹的 RCS,另一種則是Fractional polynomials,最後則是 Generalized additive modelGAM)。三種方法的表現都很好,但 RCS 由於有強大 R 軟體套件「rms」作者 Frank Harrell 教授的大力推廣(https://www.fharrell.com/),以及「rms」套件的強大功能與易用性,因此 RCS 目前在醫學領域的應用比較常見。RCS 的概念其實也很簡單,首先要知道什麼是「Spline」,可先看以下圖片,即在一條直線中,插入幾個節點(稱為 Knot),並使其平滑。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

筆者的同事在不久之前分享了如何以 R 軟體進行「Restricted cubic spline」(RCS),來處理變項之間的非線性關係(Non-linear relationship),有興趣的讀者可至 https://reurl.cc/R6OEqG 以及 https://reurl.cc/2b8yjm 查看全文。本篇文章筆者由概念原理出發,說明 RCS 的數學公式、優勢、劣勢與使用的注意事項。

 

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

Cox proportional hazard modelCox 比例危險模式,接下來簡稱 Cox model)是目前非常廣泛使用的存活分析的方法,下圖灰色長條對應左邊的 Y 軸,至 2018 年為止,每年已有超過 1 萬個文件可在 PubMed 搜尋到。

 

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

我在2018年6月寫過一篇文章,只要作這二件事,你的google表單就會自動跑到Power BI,獲得得大迴響,可見很多人都有遇到這類問題。今天我再進階,介紹SurveyCake問卷回覆,怎樣導入Power BI。

關於SurveyCake,我是近二年才大量使用,因為他的功能實在太強了,說他是國內最強的網路問卷平台,一點也不為過。雖然SurveyCake有提供統計圖表,也可以公開。但他是逐題方式呈現,向下滾動查看,且統計圖選擇性少,對於想即時看到互動分析的人,還是不夠。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

    上篇介紹完關於無預設因素的EFA,不過實務上研究者在設計量表題目時,大多數都是根據文獻並設定好所有題項的因素歸類(如下圖),因此會希望因素分析的分類結果能夠與自己設定的因素一樣,但這樣的結果可遇不可求,因為根據筆者過去的經驗,結果好一點的話刪除個2~4題,還能維持原有的預設因素及分類狀況;若狀況不理想,那結果整個大走鐘(台語),再來就得看是否堅持一定要維持原來的因素結構,而採取較不正規的作法,或是改用無預設因素的方式繼續往下進行。

 

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

在認識Adaboost演算法之前,我們必須了解機器學習的眾多演算法中,有一個分支是集成式學習(或稱作整體學習),但這裡有一個重要的觀念提醒,集成學習雖然歸屬於機器學習,他是一種「訓練思路」,並不是某種具體的方法或者算法。當我們使用一種分類器無法達到很良好的預測結果時,除了改使用其他類型的分類器,可以將數個分類器的預測結果綜合考慮,藉此達到分類的效果,這即是集成式學習,用白話來說就是「三個臭皮匠勝過一個諸葛亮」的概念。

我們以答一題是非題來舉例,假如我們使用一枚硬幣來決定答案要答O是還是X,此時答對的機率是50%(答錯機率為50%),但如果這時候我們使用兩枚硬幣來決定答案,此時答對的機率是 1-(50%*50%)=75%(答錯機率變為25%),以此類推,當我們硬幣的數目來到 5 枚,答對的機率是 1-(50%)5=96.875%(答錯的機率為3.125%)。隨著硬幣的個數增加,答對這一題是非題的機率也隨之增加(答錯機率也會隨之下降,50%à25%à3.125%),這時候硬幣就是所謂的分類器,把多個分類器的結果作為分類的依據就是集成式學習。集成式學習可分為三個部分,(1) Bagging(2) Boosting(3) Stacking

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

只要論文提到影響或預測,就會讓人直覺聯想到要進行迴歸分析,去年年底有發表過一篇文章『該選什麼迴歸分析』,現在想想覺得不夠深入,因此這篇將分享個人的習慣作法,給有需要的人參考,就如同之前說的,線性迴歸的比例仍佔大多數,因此這篇就以線性迴歸為例來跟大家討論(不過好像沒差XDDDD)。

當拿到客戶的第三章研究方法,就會知道有沒有需要做迴歸,不過除非客戶在統計方法的章節交代很清楚,否則我們只能知道要做迴歸或不用做迴歸,那我們要做怎樣的迴歸呢?站在客戶的立場,結果一定是越顯著越好,所以就會有幾種的組合來做嘗試,分為兩個面向(1)自變項全部放入 or 挑選單變量有顯著(或p<某個標準值,如0.2)的變項;(2)要選全部進入法(Enter or 逐步法(Stepwise),形成以下交叉表

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

Close

您尚未登入,將以訪客身份留言。亦可以上方服務帳號登入留言

請輸入暱稱 ( 最多顯示 6 個中文字元 )

請輸入標題 ( 最多顯示 9 個中文字元 )

請輸入內容 ( 最多 140 個中文字元 )

reload

請輸入左方認證碼:

看不懂,換張圖

請輸入驗證碼