我是英雄聯盟長期的忠實玩家,這個遊戲是五打五的推塔遊戲,需要彼此高度的默契配合,並且由於遊戲中有100多個角色,各有不同的技能組合,所以非常耐玩,可以和好朋友們度過許多愉快的假日與夜晚(對遊戲不熟的人可以先看一下這個影片的簡單介紹https://www.youtube.com/watch?v=gIuU75aPTus)。
我是英雄聯盟長期的忠實玩家,這個遊戲是五打五的推塔遊戲,需要彼此高度的默契配合,並且由於遊戲中有100多個角色,各有不同的技能組合,所以非常耐玩,可以和好朋友們度過許多愉快的假日與夜晚(對遊戲不熟的人可以先看一下這個影片的簡單介紹https://www.youtube.com/watch?v=gIuU75aPTus)。
筆者過去曾經以「地圖空間的敘述統計」為題,發表了二篇文章,文中係以ArcGIS軟體來示範。其實,以入門者來講,這套商業軟體太龐大太貴,即使試用版也嫌安裝複雜又難學。所幸,在GIS研究領域,還有許多免費且簡易的軟體可用,且對大多數研究者綽綽有餘。這其中首推美國國科會1998 年贊助成立的「空間社會科學整合研究中心」(Center for Spatially integrated Social Sciences, CSISS),所研發推廣的免費軟體Geoda。
該軟體最早的測試版本GeoDa™ 0.9.5-i是在2003年2月發布,它是由ESRI公司(即ArcGIS的開發者)旗下產品延伸而來。2005年為了開放來源碼及在linux、Mac等平台上使用,發布了OpenGeoda版本。經過了一段時間,Geoda終於在2011/10/10發布1.0正式版,至2013/3已發布至1.4版,且可跨多個平台,全球已成立超過9萬個社群(註1)。依據2005年簡報,台灣是使用人數排名第八的國家,了不起哦!!
一直以來,大家對於關聯規則分析(Association)的入門介紹,都僅止於尿布與啤酒一起購買的例子,但實際情況是,老闆對客戶下次買什麼,可能更有興趣。因為普通關聯規則是建基於客戶已經上門,再送上最常見的商品組合,加速成交;但如果客戶根本還沒來,把尿布與啤酒綁在一起,有什麼用呢?
(11)為了讓Q為正值,建議將等級平均數叫大的那組擺前面,並算出兩兩事後比較的Q值
(12)開始查表,由於本例子的組別數為三組,因此並需看K=3那一列,如果算出來的Q值有大於2.394,則代表差值已達.05的顯著水準,若Q還有超過2.936,則代表差值已達.01的顯著水準。因此以本例所算出來的結果,得知第3組「教師兼行政」的教師素養顯著高於第1組「專任教師」與第2組「教師兼導師」,而「專任教師」與「教師兼導師」的教師素養則無明顯地差異存在。
之前在SAS教學文章中有提到當組別數在三組以上所做的差異檢定為Kruskal-Wallis one-way ANOVA,當分析達顯著時,我們必須進一步做事後比較,而且所採用的事後比較為Dunn法,因為此方法同時適用在組別人數相同與不同的時候,因此為較多人使用。
在舊版的SPSS中,Kruskal-Wallis分析並沒有提供事後比較,不過到了新一點的版本(應該是在19版之後)則有鑲在分析程式中,當然在讀這篇的您有可能仍是使用比較舊版的SPSS,因此本篇還是會介紹一下公式的計算。
(2)成對樣本t檢定(Paired sample t test)
我們可以利用成對樣本t檢定去探討實驗組的研究對象在前後測上有無明顯地改善,另外再去檢定對照組的研究對象在前後測上有無明顯地改變,如果實驗組有明顯地改善,而對照組的前後測無明顯地變化,或有退步,則代表介入是有效果的;或實驗組無明顯地改善,而對照組有明顯地退步,亦是代表有介入效果的(顯然這種介入是想讓實驗組的狀況維持在一個穩定程度)。此檢定方法常配合獨立樣本t檢定一起呈現來說明介入效果。
近年來在協助統計分析時,在醫護及教育領域蠻常遇到介入性研究(interventional study),每個研究者當然都會希望自己的介入是有明顯地效果,老實說若沒有介入效果,那整篇的貢獻度相對來說就會變得非常低,因此本篇將分享自己處理的經驗,希望能提供研究者更多的選擇。
介入性的研究又以2×2的型態最常出現,所謂2×2是指兩組前後測的實驗設計,其中一組實驗組有接受介入,另外一組對照組則不接入任何介入,在介入之前讓兩組先進行測驗(前測),接著在實驗組接受介入後,再對兩組測驗一次。
雖然可以用N + (p*10) 的原則或者是根據正式公式樣本數計算的公式來大略預估需要多少人數,但是如果自變項數目太多時,這個原則可能還是失效的。
例如我們有10個自變項,若按照N + (p*30) 的原則(N設100),那麼所需要的是400名樣本;反之,舉一個極端的例子,如果我們有100個自變項,則需要3100名樣本,但按照經驗法則,如果一個迴歸模型中真的包括了100個自變項,那麼儘管樣本數高達3100名但結果可能還是很難有顯著的發現,這100個自變項可能達顯著水準的只會有少數幾個。一般我們在許多期刊論文上面看到迴歸模型的自變項很少超過10個,可能的話也盡量不要超過20個(儘管樣本數可能很大)。
無論是各種領域,只要使用到量化研究,最重要的也讓人最感興趣的就是「尋找預測因子」或「尋找關聯性」,或是大膽地說想要探討「因果關係」。例如醫學研究中,胸腔科的醫師可能想知道與肺腺癌病人的存活率有關聯性的變項有哪些;政治學的研究中,可能想要探討什麼特質的選民會投票給某種屬性的候選人或政黨,這也需要用到「預測」的技術,而在現代的統計學中,目前最主流作預測分析的統計方法就是迴歸分析(Regression analysis)。
迴歸分析會因為依變項尺度(Scale)的不同而採用不同的模型,例如連續型依變項是線性迴歸(Linear regression)、二元型依變項是Logistic regression等等各種不同的模型,不過大致上皆可歸類到廣義線性模式(之前的簡介,不過今天這篇文章不是在介紹統計分析方法,而是要淺談「迴歸模型建立的策略」,簡稱「建模」,說的白話一點就是我們如何決定一組迴歸模型中最後要保留哪些自變項。
前次提到支持度(support)、信賴度(confidence)、增益(lift)作為找尋速配行銷組合的標準。相關應用的軟體很多,大家只要去找資料探勘(Data Mining)的軟體,大都有關聯規則分析(Association)的功能。這個分析有多個演算法,最常用的一種叫Apriori演算法,詳細內容在網路上隨手可得,但通常難以理解。以下以圖示方式簡單介紹:
假設有四筆交易,各購買下列物品: