試題反應理論介紹 @ 晨晰統計部落格新站（統計、SPSS、BIG DATA討論園地）

政大教育系教授　余民寧　著

　　考試制度的創設雖然源自中國，綿延數千年後，世界各國爭相採用，以作為建立文官制度的選拔依據但是中國卻一直沒有針對「考試」這門學問進行比較科學化的量化分析，致使近代的心理計量學(psychometrics)卻發展且發揚於外國，西風東漸後，才傳入中國。

　　心理計量學是一門研究心理測驗(psychological testing)與評斷(assessment)的科學(Cohen, Montague, Nathanson, & Swerdlik, 1988, P.26)，是一門包括量化心理學(quantitative psychology)、個別差異(individual differences)、和心理測驗理論(mental test theories)等研究範圍的學問。比奈－賽門(Binet-Simon)的智力測驗，可說是人類有史以來第一個心理測驗，測驗理論便是起源於此，並由此繼續往前發揚光大，成為心理計量學的主要架構。
　　測驗理論(test theory)（或全稱叫「心理測驗理論」）是一種解釋測驗資料間實證關係(empirical relationships)的有系統的理論學說，它的發展，迄今已邁入不同的新紀元，測驗理論學者通常把它劃分成二大學派：一為古典測驗理論(classical test theory)——主要是以真實分數模式(true score model) (Gullikson, 1987; Lord & Novick, 1968)為骨幹；另一為當代測驗理論(modern test theory) ——主要是以試題反應理論(item response theory) (Hambleton & Swaminathan, 1985; Hambleton, Swaminathan, & Rogers, 1991; Hulin, Drasgow, & Parsons, 1983; Lord, 1980)為架構。這兩派理論目前並行流通於測驗學界，但試題反應理論卻有後來居上，逐漸凌駕古典測驗理論之上，甚至進而取而代之之勢。
　　本文作者擬撰寫一系列文章，介紹試題反應理論的主要理論內涵及其應用，在此之前，我們有必要從歷史的觀點，來回顧與展望測驗理論的發展趨勢，以明瞭測驗理論發展的來龍去脈，這也正是本文的主要目的。

兩派測驗理論之比較

　　比奈－賽門的第一個心理測驗問世後，正是心理計量學誕生之始，後經諸多學者（如：Cronbach, 1951; Guilford, 1954; Gullikson, 1987; Guttman, 1944; Lord & Novick, 1968; Richardson, 1936; Terman, 1916; Thurstone, 1929; Tucker, 1946）的研究與闡述，終於歸納形成古典測驗理論等學說。
　　古典測驗理論的內涵，主要是以真實分數模式（亦即，觀察分數等於真實分數與誤差分數之和）為理論架構，依據弱勢假設(weak assumption)而來，其理論模式的發展已為時甚久，且發展得相當規模，所採用的計算公式簡單明瞭、淺顯易懂，適用於大多數的教育與心理測驗資料，以及社會科學資料的分析，為目前測驗學界使用與流通最廣的理論依據。
　　然而，除上述各項優點外，古典測驗理論卻有下列諸項先天的缺失(Guion & Ironson, 1983; Wright, 1977)：

古典測驗理論所採用的指標，諸如：難度(difficulty)、鑑別度(discrimination)、和信度(reliability)等，都是一種樣本依賴(sample dependent)的指標；也就是說，這些指標的獲得會因接受測驗的受試者樣本的不同而不同，因此，同一份試卷很難獲得一致的難度、鑑別度、或信度。
古典測驗理論以一個相同的測量標準誤(standard error of measurement)，作為每位受試者的測量誤差指標，這種作法並沒有考慮受試者能力的個別差異，對高、低能力兩極端組的受試者而言，這種指標極為不合理且不準確，致使理論假設的適當性受到懷疑。
古典測驗理論對於非複本(nonparallel)但功能相同的測驗所測得的分數間，無法提供有意義的比較，有意義的比較僅侷限於相同測驗的前後測分數或複本測驗分數之間。
古典測驗理論對信度的假設，是建立在複本(parallel forms)測量的概念假設上，但是這種假設往往不存在於實際測驗情境裡。道理很簡單，因為不可能要求每位受試者接受同一份測驗無數次，而仍然假設每次測量間都彼此獨立不相關，況且，每一種測驗並不一定同時都有製作複本，因此複本測量的理論假設是行不通的，從方法學邏輯觀點而言，它的假設也是不合理的、矛盾的。
古典測驗理論忽視受試者的試題反應組型(item response pattern)，認為原始得分相同的受試者，其能力必定一樣；其實不然，即使原始得分相同的受試者，其反應組型亦不見得會完全一致，因此，其能力估計值應該會有所不同。

　　一般說來，為了克服古典測驗理論的缺失，才有當代測驗理論的誕生。當代測驗理論的內涵，主要是以試題反應理論為理論架構，依據強勢假設(strong assumptions)而來，其理論的發展為時稍晚，理論模式也不斷的在發展當中，所採用的計算公式複雜深奧、艱澀難懂，為一立論與假設均合理與嚴謹的學說，所適用的測驗資料種類雖屬有限，但深受測驗學者的青睞，已有逐漸凌駕古典測驗理論之上，甚至進而取而代之之勢。
　　當代測驗理論是為改進古典測驗理論的缺失而來，它具有下列幾項特點，這些特點正是古典測驗理論所無法具備的(Hambleton, 1989; Hambleton & Cook, 1977; Hambleton & Swaminathan, 1985; Hambleton, Swaminathan, & Rogers, 1991; Lord, 1980)：

當代測驗理論所採用的試題參數(item parameters)（如：難度、鑑別度、猜測度等），是一種不受樣本影響(sample-free)的指標；也就是說，這些參數的獲得，不會因為所選出接受測驗的受試者樣本的不同而不同。
當代測驗理論能夠針對每位受試者，提供個別差異的測量誤差指標，而非單一相同的測量標準誤，因此能夠精確推估受試者的能力估計值。
當代測驗理論可經由適用的同質性試題組成的分測驗，測量估計出受試者個人的能力，不受測驗的影響(test-free)，並且對於不同受試者間的分數，亦可進行有意義的比較。
當代測驗理論提出以試題訊息量(item information)及試卷訊息量(test information)的概念，來作為評定某個試題或整份試卷的測量準確性，倒有取代古典測驗理論的「信度」，作為評定試卷內部一致性指標之勢。
當代測驗理論同時考慮受試者的反應組型與試題參數等特性，因此在估計個人能力時，除了能夠提供一個較精確的估計值外，對於原始得分相同的受試者，也往往給予不同的能力估計值。
當代測驗理論所採用的適合度考驗值(statistic of goodness-of-fit)，可以提供考驗模式與資料間之適合度、受試者的反應是否為非尋常(unusual)等參考指標。

　　綜合上述，當代測驗理論似乎是絕對優於古典測驗理論，但是事實上，當代測驗理論被採用於解決真實測驗資料者，比起古典測驗理論廣泛地被應用的情形而言，尚屬少數，微不足道。其主要原因有下列諸點：

當代測驗理論係建立在理論假設嚴謹的數理統計學機率模式上，是一種複雜深奧、艱澀難懂的測驗理論，這對於在數學方面訓練有限的教育與心理學界學者而言，無非是一大挑戰。閱讀有關此理論之數學方面的研究報告與專書，已頗感困難，實在更難以深入將之發揚光大。
多數當代測驗理論學者都是出身自數學界或曾是數學主修者，或至少在數理統計學上訓練有素者，他們偏愛對理論模式的探討，遠勝於對實際應用的推廣工作。
過去，電腦科技的進步有限，沒有電腦套裝軟體程式的即時配合，當代測驗理論中對模式參數的估計，難以用手算或小型計算機順利進行，因此，在應用上更受限制。
有些古典測驗理論的擁護者，對當代測驗理論的研究與發展，所能獲致之成效與應用性深表懷疑。為了證明與解釋疑惑，當代測驗理論學派的支持者，便更朝理論模式的量化技術方面探討，致使當代測驗理論的發展愈趨數學化、數量化、與電腦化。
礙於嚴苛的基本假設，當代測驗理論所能適用的教育與心理測驗資料有限，並且需要大樣本的配合，因此使得它的應用性大打折扣，未獲一般測驗使用者的全力擁護。

　　由上述兩派測驗理論的比較可知，古典測驗理論雖然不夠嚴謹，但理論淺顯易懂，便於在實際測驗情境（尤其是小規模資料）實施；當代測驗理論雖然嚴謹，但理論艱深難懂，僅適用於大樣本測驗資料的分析。所以，這兩派測驗理論各有所長，在應用上也各有其限制，我們僅能靜觀測驗理論的發展，逐步歸納出其未來的發展趨勢。

Facebook Plurk YAHOO!