這篇文章要來教大家實用的資料處理-合併資料,過去在接收客戶的資料時,常常遇到客戶將資料建檔在不同的資料集中,有些是按照不同的測驗階段分別建立,有些則按照問卷不同部分分別建立,但無論如果建立檔案,最後都必須整併在同一個檔案之下才方便進行分析,此時就需要用到合併資料的功能。此次示範的兩個檔案(如下圖),一個為國語成績,共7名樣本,編號為ID1至ID7,另一個為數學成績,共7名樣本,編號為ID4至ID10,因此兩個檔案的交集樣本為ID4至ID7,共4名樣本,在操作選項中,有4種不一樣的設定,下面將一一說明。
晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()
在數據科學和人工智慧迅速發展的今天,機器學習和統計學已成為各行各業中的重要技能。不過,這些領域的學習資源繁多且分散,對於初學者而言,選擇適合的學習平台和內容至關重要。本文將推薦兩個極具價值的學習資源:吳恩達教授的機器學習課程和YouTube頻道「StatQuest with Josh Starmer」,這些資源將幫助讀者更系統地掌握機器學習和統計學的基礎知識和實踐技能。
一、吳恩達教授的機器學習課程
晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()
集成學習是一種通過結合多個模型來提升機器學習預測性能的方法。相較於單一模型,集成學習能產生更準確且穩定的結果,其核心理念是訓練一組分類器(或專家),並通過集體投票來決策。Bagging 和 Boosting 是集成學習中常見的兩種技術,這兩者都能減少單一模型的方差,從而提升模型的穩定性。Bagging跟Boosting 同為同質弱學習器模型,但其工作方式不同,我們將深入探討這兩者之間的差異。
晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()
一般我們看到的t檢定,通常指的是獨立樣本t檢定(Independent sample t test),用來比較兩組獨立群體在連續變項上的差異,因此適用條件有兩個重點,(1)要比較的變項為連續尺度的變項(若要更嚴格的定義,則必須符合常態性的假設),(2)兩組數據來自兩個相互獨立的群體,不受彼此的影響。
晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()
XGBoost,全名為 Extreme Gradient Boosting,是一種先進的機器學習算法,特別適合於分類和回歸任務。自 2016 年由陳天奇推出以來,XGBoost 以其卓越的性能和靈活性迅速成為數據科學領域的熱門工具,被廣泛應用於許多實際問題中,特別是在Kaggle的競賽中經常會見到。
晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()
不久之前有提到可以用次數分配來檢查我們的原始資料,今天將做個延伸,分享一些次數分配可以搭配的分析工作,以及一些功能的說明,本篇將內容分成(1)提供組別合併資訊;(2)分組規劃;(3)豐富的描述性統計量;(4)提供統計圖。
晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()
不久之前有提到可以用次數分配來檢查我們的原始資料,今天將做個延伸,分享一些次數分配可以搭配的分析工作,以及一些功能的說明,本篇將內容分成(1)提供組別合併資訊;(2)分組規劃;(3)豐富的描述性統計量;(4)提供統計圖。
提供組別合併資訊:
晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()
晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()
晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()
晨晰部落格新站 發表在 痞客邦 留言(0) 人氣()