您現(xiàn)在的位置是:首頁 >生活 > 2024-11-01 03:28:44 來源:
信度和效度的區(qū)別(信度和效度)
大家好,我是小夏,我來為大家解答以上問題。信度和效度的區(qū)別,信度和效度很多人還不知道,現(xiàn)在讓我們一起來看看吧!
http://baike.baidu.com/view/698675.htm
測試信度(test reliability)也叫測試的可靠性,指的是測試結(jié)果是否穩(wěn)定可靠。也就是說,測試的成績是不是反映了受試者的實(shí)際語言水平。例如,如果同一套測試在對同一測試對象(即受試者本身沒有變化)進(jìn)行的數(shù)次測試中,受試者的分?jǐn)?shù)忽高忽低的話,則說明該測試缺乏信度。測試的信度與測試的效度有著密切的關(guān)系。一般說來,只有信度較高的測試才能有較高的效度,但效度較高不能保證信度也一定較高。測試的信度主要涉及到試題本身的可靠性和評分的可靠性這兩個(gè)方面。試題本身是否可靠主要取決于試題的范圍、數(shù)量、試題的區(qū)分度等因素;評分是否可靠則要看評分標(biāo)準(zhǔn)是否客觀和準(zhǔn)確。
測試的信度通常用一種相關(guān)系數(shù)(即兩個(gè)數(shù)之間的比例關(guān)系)來表示,相關(guān)系數(shù)越大,信度則越高。當(dāng)系數(shù)為1.00時(shí),說明測試的可靠性達(dá)到最高程度;而系數(shù)是0.00時(shí),則測試的可靠性降到最低程度。在一般情況下,系數(shù)不會高到1.00,也不會降到0.00,而是在兩者之間。對信度指數(shù)的要求因測試類別的不同而不同,人們通常對標(biāo)準(zhǔn)化測試的信度系數(shù)要求在0.90以上,例如“托?!钡男哦却笾聻?.95,而課堂測試的信度系數(shù)則以0.70-0.80之間為可接受性系數(shù)。測試信度的計(jì)算方法有很多種,以下僅介紹三種易于操作的方法:
1)重測法(the retesting method)。用同一套試卷在兩個(gè)不同時(shí)間內(nèi)來測試同一批受試者,這樣便獲得兩組分?jǐn)?shù),然后計(jì)算出兩組分?jǐn)?shù)的相關(guān)系數(shù)。當(dāng)然,在兩次測試中,學(xué)生第二次的測試成績理應(yīng)比第一次的要高,因?yàn)樵诘诙螠y試時(shí)學(xué)生已經(jīng)有了進(jìn)步而且臨場經(jīng)驗(yàn)也更豐富了。但是若該試題是比較可靠的,每個(gè)學(xué)生在兩次測試中的排名次序應(yīng)該是基本不變的。
2)交替形式法(the alternative method)。對同一批受試者使用試題類型完全相同,難易程度相當(dāng),但具體題目不同的兩套對等試卷先后進(jìn)行兩次測試,然后計(jì)算出兩次得分的相關(guān)系數(shù)。
3)對半法(the split-h(huán)alf method)。測試只進(jìn)行一次,但將整份試卷的題目按單、雙數(shù)分成兩組來分別計(jì)分,算出兩組分?jǐn)?shù)的相關(guān)系數(shù),然后再用Spearman-Brown的公式計(jì)算整份試卷的信度系數(shù)。具體計(jì)算步驟是:將兩組分?jǐn)?shù)的相關(guān)系數(shù)乘以2,再除以1加兩組分?jǐn)?shù)的相關(guān)系數(shù)。
http://baike.baidu.com/view/698674.htm
測試效度(test validity)亦稱測試的有效性,指一套測試對應(yīng)該測試的內(nèi)容所測的程度。也就是說,一套測試是否達(dá)到了它預(yù)定的目的以及是否測量了它要測量的內(nèi)容。例如:“Is photography an art orscience?Discuss.”這種題目以攝影的知識為前提和主要內(nèi)容,用來考語言能力,就不具有效性。又如用聽寫來測量學(xué)生的聽覺能力,其效度也是不理想的,因?yàn)闀嬗涗浻新曊Z言不僅涉及學(xué)生的聽覺能力,而且還與他們的書寫速度、拼寫能力、語法知識、記憶能力和對全文的理解能力等有關(guān)。
測試的效度一般可分為以下幾類:
1)表面效度(face validity)。指測試應(yīng)達(dá)到的卷面標(biāo)準(zhǔn),即一套測試題從表面看來是否是合適的。例如,若一次閱讀理解力的測試包括許多受試者沒有學(xué)過的方言詞匯,則可認(rèn)為這次測試缺乏表面效度。表面效度是測試出受試者正常水平的一種保證因素。
2)內(nèi)容效度(content validity)。指一套測試題是否測試了應(yīng)該測試的內(nèi)容或者說所測試的內(nèi)容是否反映了測試的要求,即測試的代表性和覆蓋面的程度。例如,如果某一套發(fā)音技能測試題僅僅考查發(fā)音所必須具備的某些技能,如只考單一音素的發(fā)音,而不考查重讀、語調(diào)或音素在詞語中的發(fā)音,那么,該測試的內(nèi)容效度就很低。
3)編制效度(construct validity)。指一套測試題的諸項(xiàng)目對編制該測試所依據(jù)的理論的各個(gè)基本方面的反映程度。例如,以結(jié)構(gòu)主義語言理論為基礎(chǔ),認(rèn)為系統(tǒng)的語言習(xí)慣是通過句型而獲得的,那么,強(qiáng)調(diào)詞匯和語法環(huán)境的測試題目就失去了編制效度。
4)經(jīng)驗(yàn)效度(empirical validity)。經(jīng)驗(yàn)效度是一種衡量測試有效性的量度,通過把一次測試與一個(gè)或多個(gè)標(biāo)準(zhǔn)尺度相對照而得出。經(jīng)驗(yàn)效度可分為兩種:一是共時(shí)效度(concurrent validity),即將一次測試的結(jié)果同另一次時(shí)間相近的有效測試的結(jié)果相比較,或同教師的鑒定相比較而得出的系數(shù);二是預(yù)測效度(predictive validity),即將一次測試的結(jié)果同后來的語言能力相比較,或是同教師后來對學(xué)生的鑒定相比較而得出的系數(shù)。
一般來說,對某次測試的效度進(jìn)行檢驗(yàn)時(shí),除了要根據(jù)教學(xué)大綱的要求和觀念有效性的理論對試卷的內(nèi)容進(jìn)行考查以外,還須采用計(jì)算相關(guān)系數(shù)的定量方法,即計(jì)算出本次試卷與另一份已被確定能正確反映受試者水平的試卷之間的相關(guān)系數(shù)。系數(shù)高則有效性大。課堂測試的效度應(yīng)在0.4-0.7之間,規(guī)模較大的測試其效度應(yīng)在0.7以上。
本文到此講解完畢了,希望對大家有幫助。