公告版位
晨晰統計顧問有限公司在新北市板橋\服務市話:02-29602817\手機:0918-276-622\信箱:raising.statistic@gmail.com\網址:http://www.rai-stat.com.tw

接著我們使用一個真實的眼科資料作為示範,此資料集一共 1000 筆整,來自於 500 名接受兩種不同近視雷射手術的收案對象,每位患者都同時接受左右眼的手術。「ID」為患者編號,「Eyeball」為左右眼的編號(1 為左眼、2 為右眼),「Group」為雷射方法(1 LASEK0 FSBK)。結果變項為「Outcome」,1 為兩年內發生近視度數回歸(myopia regression),可視為手術失敗,0 則為手術成功。

 

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

在筆者之前的文章中,曾經介紹線性混合模式(Linear mixed model, LMM)的概念與應用場景(請見:https://reurl.cc/8GdGr4https://reurl.cc/pdOdqxhttps://reurl.cc/20p0xE或是https://reurl.cc/WdlL3y),在本系列文章中,將介紹以 SPSS 25 版進行實際的操作示範與結果解釋。

LMM 可被應用於分析多層次資料(Multilevel data),因此也稱為多層次模型/迴歸(Multilevel model / regression)。所謂多層次的定義,只要資料結構為至少「2 層」以上即可稱為多層次的資料。下圖示範一個「4 層」的資料結構,第四層為醫院,第三層為每家醫院的醫生、第二層為每位醫生治療的病人,第一層為每位病人的多筆資料(例如同一位個案的左右眼、多個不同病灶、重複測量等)。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

    筆者最近在學習機器學習的資料降維方法時,有看到一個針對資料做降維的方法,在實務上也非常多人在使用,t-SNE(t-distributed stochastic neighbor embedding,t-隨機鄰近嵌入法),這個方法主要是將高維度的資料進行低維度的轉換,此種降維方式主要是採用非線性的轉換方式,相較於傳統PCA(主成分分析)的降維方式,可以在變數關聯為非線性的關係時能有更好的處理,因為當資料間變項之間的關聯性為非線性時,當使用PCA(主成分分析)這種把資料當成線性關係去處理的時候,就容易產生模型underfitting的情況(白話來說,就是這個模型不適合用來解釋手上的資料,容易產生錯誤的結果)。那t-SNE是如何解釋資料非線性的關係呢,筆者這邊稍微帶一點數學公式,讓讀者可以簡單了解這個方法的理論,如下有A跟B兩個公式,A公式是一個常態分佈的公式,t-SNE將原始資料(高維度的資料)利用常態分佈來去解釋;B公式則是一個自由度為1的t分佈公式,t-SNE將降維後的資料(低維度的資料)利用t分佈來去解釋,利用t分佈去解釋,當原始資料裡面有異常值時,降維後的資料不容易受影響,t分佈在樣本數小的時候,也比較好用來描繪母體的資料,而且因為t分佈的雙尾較寬,因此也可以避免低維度的資料全部擠在一起,無法有效的被分群。因為如果用傳統PCA的方式,容易產生數據的集群混在一起,無法有效的區隔,這樣的狀況其實也代表降維後的資料無法有效的表現原始資料的樣子跟分佈情形。

 

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

過去我們都是介紹MicrosoftPower BI,這次淺酌一下googleBI

googleBI產品叫作Google Data Studio,它是線上服務,整合在google帳號中,也就是當你有帳號時,就可以使用,就像使用google文件、表單、Gmail、雲端硬碟等一樣,使用它的BI功能。只不過,不是從那九個黑點中進去,要另外搜尋,如下圖所示。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

    筆者在學習機器學習以及統計學的相關知識的過程中,有在網路搜尋了許多相關學習資源,想跟各位讀者分享一個我在Youtube平台上面找到值得大家多去看看的頻道,這個頻道叫做「StatQuest with Josh Starmer」,這個頻道的

 

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

狀況一(題項負荷量都未達0.5

20)一般最常遇到的狀況,部分題目在任一因素的負荷量都未達所設定標準(此處設為0.5),如第10題與第19題。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

這篇承接『諮詢最常遇到的問題(五):要怎麼做好探索性因素分析(EFA)』,進行無預設因素的操作說明。此篇文章著重於題項刪題的過程,至於部分選項的設定,可依照研究者的喜好(應該說是指導教授的喜好進行調整),無預設的因素分析相對有預設的單純許多,大致上只要能透過因素負荷量進行題項的成功歸類即可,也就是說題項在任一個因素的負荷量只要能超過設定的標準就好。

(1)點選「分析」à「維度縮減」à「因子」。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

近期受託處理客戶申請的臺灣人體生物資料庫全基因體定型資料(Whole-genome genotyping),此資料庫研究個案計27000人;欲納入檢驗之情感性精神疾患相關基因序列亦有近13000組。我們在不斷試誤此研究個案甚多、檢驗變項也甚多的資料後,深感精煉精確的建置統計語法的重要性,在此分享我們的分析經驗,提供大家後續面對大筆資料時可以使用有效率且節省系統資源的處理方式。

 

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

        在機器學習領域中,經常會需要針對高維度的資料進行降維,首先,我們先來簡單了解一下,為什麼資料需要做降維,降維是指在某些限定條件下,降低隨機變量(資料的變項)個數,得到一組「不相關」主變量的過程(根據維基百科的說明),基本上降維可分為兩個目的,變數選擇以及特徵提取,因為研究者的資料通常包含了許多多餘或不重要的資訊(這些東西又可被稱為雜訊,如果不特別處理的話可能會對之後分析資料產生不良的影響)變數選擇的概念其實簡單來說就是從資料當中得到哪些是對於研究標的是重要的變項,特徵提取是指透過某些方法把資料當中有用的變項做一個組合,但其實兩者的目的都是想針對資料做一個純化的動作(白話來說就是找資料裡面的重點),讓之後的統計分析可以更加的準確。降維除了是想避免雜訊外,其實還有一個更重要的目的,那就是為了避免「維度災難,curse of dimensionality」這件事,維度災難最早是用於描述當(數學)空間維度增加時,分析和組織高維空間(通常有成百上千維),因體積指數增加而遇到各種問題場景。如果將此情境套用在統計學是指當維數提高時,空間的體積提高太快,可用數據因此變得很稀疏(樣本數不足的意思)。稀疏性對於任何要求有統計學意義的方法而言都是一個問題,那為了滿足統計學方法以得到可靠的結果,我們只能去增加資料的數量來去避免維度災難的問題,但當我們的資料無法持續增加時,就只能透過替資料降維的方式來避免稀疏性。

下圖是指維度增加到一個程度時,分類模型的分類能力會開始隨維度的增加而下降的過程。

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

一般來說機器學習大致可以分為以下幾種類型:監督式學習(Supervised learning)、非監督式學習(Un-supervised learning)、半監督式學習(Semi-supervised learning)及強化學習(Reinforcement learning)。

本次筆者先從監督式學習(概念就是產生一個預測模式)開始介紹監督式學習(Supervised learningà目的在於預測(基於使用者手上已經有每一個人目標變數的答案)

晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()

Close

您尚未登入,將以訪客身份留言。亦可以上方服務帳號登入留言

請輸入暱稱 ( 最多顯示 6 個中文字元 )

請輸入標題 ( 最多顯示 9 個中文字元 )

請輸入內容 ( 最多 140 個中文字元 )

reload

請輸入左方認證碼:

看不懂,換張圖

請輸入驗證碼