關(guān)于我們
書單推薦
新書推薦
|
漢語口語測試評分員評價研究
口語測試是一種常見的考試類型,評分涉及的因素比較復(fù)雜,需要通過評分員評分。本文以漢語口語測試的評分員為研究對象,提出了評分員評價指標(biāo),構(gòu)建了評價評分員的理論體系,并進(jìn)行了實證研究,對評價體系及評價方法的有效性進(jìn)行檢驗。此項研究對于口語測試的理論和實踐都有重要意義,特別是對于評分員的研究和管理具有現(xiàn)實意義。
評分員的質(zhì)量直接關(guān)系到口語測試的信度和效度,是測驗開發(fā)者的設(shè)計初衷能否實現(xiàn)的關(guān)鍵。很多研究顯示,不同評分員的評分過程差異很大。我們應(yīng)該如何評價一個口語測試的評分員,是口語測試研究需要解決的問題。本書指出了評分員評價的根本目的在于提高評分員的評分質(zhì)量,以保證口語測試的信度、效度,在評價評分員時要貫徹科學(xué)性、操作性、導(dǎo)向性、激勵性和人本性等原則。
黃霆瑋,女,博士,北京華文學(xué)院講師。2011年畢業(yè)于中國社會科學(xué)院語言所,獲得博士學(xué)位,主要研究領(lǐng)域為語言測試、華文教育與測試。先后在《世界漢語教學(xué)》《中國考試》等刊物發(fā)表論文數(shù)篇,編寫專著《華文測試與教學(xué)評估研究》一部,并參與了《語言測試概論》《普通話水平測試概論》等教材的編寫。
目錄
第1章緒論……………………………………………001
1.1研究緣起………………………………………………001
1.1.1口語測試的發(fā)展……………………………………001
1.1.2評分員評價體系研究現(xiàn)狀…………………………002
1.2研究思路………………………………………………004
1.2.1研究目的和內(nèi)容……………………………………004
1.2.2研究方法……………………………………………005
1.3研究意義………………………………………………007
1.3.1理論意義……………………………………………007
1.3.2實踐意義……………………………………………008
第2章口語測試及其評分員…………………………011
2.1引言……………………………………………………011
2.2口語和口語測試………………………………………011
2.2.1口語的定義…………………………………………011
2.2.2口語測試……………………………………………014
2.2.3語言能力……………………………………………016
2.3口語測試實踐…………………………………………026
2.3.1國外口語測試發(fā)展概況……………………………026
2.3.2國內(nèi)口語測試發(fā)展概況……………………………030
2.4漢語口語測試評分員…………………………………037
2.4.1評分員的分類………………………………………037
2.4.2評分員的特點………………………………………041
2.5評分員培訓(xùn)和評價……………………………………044
2.5.1評分員培訓(xùn)…………………………………………044
2.5.2評分員評價…………………………………………050
2.6本章小結(jié)………………………………………………058
第3章理論基礎(chǔ)………………………………………061
3.1引言……………………………………………………061
3.2構(gòu)建評分員評價體系的目的…………………………061
3.3構(gòu)建評分員評價體系的原則…………………………063
3.3.1人本性原則…………………………………………063
3.3.2科學(xué)性原則…………………………………………063
3.3.3系統(tǒng)性原則…………………………………………064
3.3.4操作性原則…………………………………………064
3.3.5激勵性原則…………………………………………065
3.3.6導(dǎo)向性原則…………………………………………065
3.4構(gòu)建評分員評價體系的作用…………………………066
3.4.1選拔…………………………………………………066
3.4.2診斷…………………………………………………067
3.4.3分?jǐn)?shù)調(diào)整……………………………………………068
3.4.4研究…………………………………………………069
3.5理論來源………………………………………………070
3.5.1人力資源管理理論…………………………………070
3.5.2系統(tǒng)論………………………………………………072
3.5.3人才測評理論………………………………………074
3.5.4語言測試?yán)碚摗?76
3.6本章小結(jié)………………………………………………078
第4章研究假設(shè)………………………………………081
4.1引言……………………………………………………081
4.2評價體系研究的前提…………………………………081
4.2.1評分員的價值可量化………………………………081
4.2.2評分員價值是穩(wěn)定的………………………………082
4.2.3評分員價值可正常發(fā)揮……………………………082
4.3評分員評價體系的構(gòu)建………………………………082
4.3.1現(xiàn)有評分員評價體系述評…………………………082
4.3.2評分員評價體系框架………………………………086
4.4評分員“績效”評價體系的構(gòu)建……………………090
4.4.1現(xiàn)有評分員“績效”評價方式述評………………091
4.4.2確定評分員“績效”評價指標(biāo)……………………095
4.4.3“績效”評價指標(biāo)的權(quán)重問題……………………098
4.5本章小結(jié)………………………………………………099
第5章評分員嚴(yán)厲度研究……………………………101
5.1引言……………………………………………………101
5.2嚴(yán)厲度定義……………………………………………101
5.3關(guān)于嚴(yán)厲度的研究……………………………………103
5.3.1國外相關(guān)研究………………………………………103
5.3.2國內(nèi)相關(guān)研究………………………………………104
5.4多面Rasch模型…………………………………………109
5.4.1模型介紹……………………………………………109
5.4.2常用軟件……………………………………………112
5.4.3模型應(yīng)用領(lǐng)域………………………………………112
5.5實證研究………………………………………………116
5.5.1研究假設(shè)……………………………………………116
5.5.2研究對象……………………………………………117
5.5.3研究方法……………………………………………118
5.5.4研究步驟……………………………………………118
5.5.5結(jié)果分析……………………………………………120
5.5.6結(jié)論…………………………………………………124
5.6嚴(yán)厲度評價效度檢驗…………………………………126
5.6.1偏離趨勢檢驗………………………………………126
5.6.2偏離量檢驗…………………………………………128
5.7本章小結(jié)………………………………………………135
第6章評分員一致性研究……………………………137
6.1引言……………………………………………………137
6.2一致性定義……………………………………………137
6.3一致性和信度…………………………………………138
6.3.1信度概念的演變……………………………………138
6.3.2信度的重要性………………………………………147
6.3.3一致性和信度的比較………………………………149
6.4實證研究………………………………………………151
6.4.1研究假設(shè)……………………………………………151
6.4.2統(tǒng)計結(jié)果分析………………………………………151
6.4.3結(jié)論…………………………………………………154
6.5一致性評價的效度檢驗………………………………155
6.5.1對區(qū)間上限的檢驗…………………………………155
6.5.2對區(qū)間下限的檢驗…………………………………159
6.6本章小結(jié)………………………………………………160
第7章評分員內(nèi)化評分標(biāo)準(zhǔn)研究……………………163
7.1引言……………………………………………………163
7.2內(nèi)化評分標(biāo)準(zhǔn)的內(nèi)涵及鑒別…………………………163
7.2.1定義…………………………………………………163
7.2.2研究方法述評………………………………………164
7.3漢語口語測試的相關(guān)研究……………………………168
7.3.1普通話水平測試的相關(guān)研究………………………168
7.3.2漢語水平考試(高等)口試的相關(guān)研究…………171
7.4實證研究………………………………………………173
7.4.1研究假設(shè)……………………………………………174
7.4.2研究對象……………………………………………174
7.4.3研究方法……………………………………………175
7.4.4研究步驟……………………………………………176
7.4.5統(tǒng)計結(jié)果分析………………………………………177
7.4.6結(jié)論…………………………………………………181
7.5本章小結(jié)………………………………………………181
第8章結(jié)論……………………………………………183
8.1評分員評價體系的確立………………………………183
8.2評分員評價體系的應(yīng)用………………………………186
8.3創(chuàng)新之處………………………………………………188
8.3.1理論創(chuàng)新……………………………………………188
8.3.2方法創(chuàng)新……………………………………………189
8.4研究展望………………………………………………190
參考文獻(xiàn)……………………………………………………191
附錄………………………………………………………201
致謝………………………………………………………217
圖表目錄
表2.1技能——成分說的語言能力…………………………………………………017
表2.2普通話水平測試國測員培訓(xùn)班培訓(xùn)內(nèi)容……………………………………046
表4.1漢語口語測試評分員“素質(zhì)”評價指標(biāo)……………………………………088
表4.2漢語口語測試評分員“能力”評價指標(biāo)……………………………………089
表5.112名應(yīng)試人背景信息表………………………………………………………117
表5.2評分員信息數(shù)據(jù)庫(選段)……………………………………………………119
表5.3評分員信息數(shù)據(jù)庫(選段)……………………………………………………119
表5.4HSK(高等)口試等級分?jǐn)?shù)轉(zhuǎn)化表…………………………………………120
表5.5應(yīng)試人實測成績名次和能力值名次比較……………………………………121
表5.6評分員評分結(jié)果總表(選段)…………………………………………………127
表5.76名評分員評分結(jié)果復(fù)評情況表………………………………………………130
表6.1異常評分員嚴(yán)厲度、一致性值………………………………………………156
表6.2異常評分員評分情況表………………………………………………………157
表6.312位應(yīng)試人分組情況表………………………………………………………158
表7.1評分員類型結(jié)果(異質(zhì)程度15)………………………………………………179
表7.2評分員類型結(jié)果(異質(zhì)程度10)………………………………………………180
表7.3內(nèi)化評分標(biāo)準(zhǔn)異常評分員的評分質(zhì)量………………………………………180
表8.1漢語口語測試評分員評價指標(biāo)………………………………………………184
圖2.1“語言能力一元化”模型………………………………………………………019
圖2.2Bachman的語言能力交際模型………………………………………………021
圖2.3Bachman的語言能力結(jié)構(gòu)……………………………………………………022
圖4.1人事評價體系框架的改進(jìn)……………………………………………………085
圖4.2漢語口語測試評分員評價體系框架…………………………………………087
圖5.15位評分員評分結(jié)果折線圖……………………………………………………128
第1章?緒論
1.1… 研究緣起
1.1.1 口語測試的發(fā)展
在語言測試中,口語測試是一種常見的考試類型,是測量應(yīng)試人口語能力最直接的一種手段。20世紀(jì)末期,Bachmam提出了著名的“語言交際能力說”。這種語言能力觀認(rèn)為語言能力不僅包括對語言系統(tǒng)知識的掌握,還包括對句子之外語言交際環(huán)境的掌握;凇罢Z言交際能力說”的語言測試體系強調(diào)測試的“真實性”和“交際性”。在這種背景下,口語測試因其符合真實性和交際性的特點,日益受到重視。
口語測試是一種主觀測試。與客觀測試相比較,口語測試命題簡單,評分卻比較困難。口語測試在真實的交際環(huán)境中進(jìn)行,評分誤差的來源比較多。
如何控制口語評分的誤差,保證口語考試的信度是主觀性考試中的一個重要課題。
主觀考試評分中的誤差主要來源于測試任務(wù)、評分標(biāo)準(zhǔn)、評分量表和評分員等方面。測試任務(wù)、評分標(biāo)準(zhǔn)和評分量表等都是測驗的開發(fā)者制訂的,處于測驗開發(fā)者可控制范圍之內(nèi),測驗開發(fā)者可以不斷修改、逐步完善。而評分員是測驗開發(fā)者無法把握的一個誤差來源,評分員的表現(xiàn)可能受到各種因素的影響,是動態(tài)的、不斷變化的。評分員評分是一個根據(jù)既定的評分標(biāo)準(zhǔn)和評分量表,給應(yīng)試人口語能力賦值的過程。評分標(biāo)準(zhǔn)和評分量表要通過評分員才能作用于應(yīng)試人。評分標(biāo)準(zhǔn)和評分量表被評分員理解、內(nèi)化,最后才應(yīng)用于被試。所以,評分員如何評分直接關(guān)系到口語測試的信度和效度,評分員的評分質(zhì)量是測驗開發(fā)者的設(shè)計思路能否實現(xiàn)的關(guān)鍵。很多研究顯示,不同評分員評分的過程差異很大。評分員在理解、內(nèi)化評分標(biāo)準(zhǔn)時發(fā)生了什么?產(chǎn)生了哪些差異?如何描寫這種差異?不同的評分員差異反映的本質(zhì)是什么?
進(jìn)而我們要討論:這些評分員差異對評分質(zhì)量有哪些影響?什么樣的評分員的評分質(zhì)量較高?什么樣的評分員評分質(zhì)量較差?我們應(yīng)該如何評價一個口語測試的評分員?這就是本書要討論的問題。
1.1.2 評分員評價體系研究現(xiàn)狀
在主觀測試領(lǐng)域中,對評分員的研究一直是一個熱點。這些研究的角度不同,有關(guān)于評分員的評分方法的,有關(guān)于評分員的評分信度的,還有關(guān)于如何培養(yǎng)評分員的,但其中有關(guān)漢語口語測試評分員評價的研究不多。在我們搜集到的文獻(xiàn)中,僅有三篇是專門研究普通話評分員考核的,與我們要探討的評分員評價體系研究比較接近。
毛立群(2003)主要探討了普通話水平測試員考核體系的建立。文章首先從以下三個方面歸納了測試員隊伍的現(xiàn)狀:業(yè)務(wù)素質(zhì)、職業(yè)道德和科研進(jìn)修。在此基礎(chǔ)上結(jié)合浙江省普通話水平測試員管理的經(jīng)驗,提出了建立普通話水平測試員考核體系的設(shè)想,包括以下四點:規(guī)范選拔程序,保證選送人員的質(zhì)量;點面結(jié)合,使業(yè)務(wù)素質(zhì)的考核盡量做到量化;工作量考核能客觀反映出測試員的熱情和態(tài)度;強調(diào)科研進(jìn)修,確立后續(xù)培訓(xùn)制度。這篇文章從普通話水平測試實踐管理出發(fā),較全面地論述了普通話水平測試員考核體系的內(nèi)涵。美中不足的是,這篇文章比較宏觀,沒有往深處挖掘考核評分員的具體指標(biāo)以及考核評價對評分員的反饋效果。
錢華(2004)的研究,是迄今為止有關(guān)普通話水平測試員考核體系的研究中較為全面的一篇。文章首先從測試實踐出發(fā),總結(jié)歸納了測試員考核中存在的問題,在此基礎(chǔ)上提出構(gòu)建測試員考核體系的意義和原則,其次提出了測試員綜合指標(biāo)體系的內(nèi)容與基本框架,最后論述了考核工作的組織實施以及考核結(jié)果的運用。這篇文章的考核指標(biāo)體系涉及四大方面:思想素質(zhì)結(jié)構(gòu)、業(yè)務(wù)素質(zhì)結(jié)構(gòu)、身心素質(zhì)結(jié)構(gòu)和績效結(jié)構(gòu)。這四個方面作為考核體系的一級指標(biāo),每個一級指標(biāo)又具體細(xì)化為若干二級指標(biāo),最后呈現(xiàn)為26個三級指標(biāo)。這些指標(biāo)設(shè)定得非常全面,包含了《國家語言文字工作委員會關(guān)于普通話水平測試管理工作的若干規(guī)定(試行)》第十一條規(guī)定的普通話水平測試評分員的考核內(nèi)容:工作態(tài)度、測試能力、測試工作量、遵守工作紀(jì)律情況等。同時,此研究還提出了考核的具體實施步驟。這篇研究從普通話水平測試員的測試實踐出發(fā),具有很強的參考價值,但是理論的部分還有待加強。
在漢語水平考試(HSK)高等口語測試的相關(guān)研究中,專門對口語測試評分員展開的研究不多。有些研究的成果可供參考,例如:關(guān)于評分誤差控制、評分員培訓(xùn)的研究,但還沒有見到專門關(guān)于口語測試評分員評價的研究。
1.2… 研究思路
1.2.1 研究目的和內(nèi)容
本文以語言測試學(xué)、人力資源評價理論為指導(dǎo),采取理論與實證相結(jié)合的方法,通過研究旨在揭示評分員評價的本質(zhì),提出構(gòu)建漢語口語測試評分員評價體系的理論依據(jù),確立漢語口語測試評分員評價體系的指標(biāo),設(shè)計評價方案,從理論與實踐兩個層面提出解決漢語口語測試評分員評價的理論體系和實施方法。
從選題視角引出口語測試、語言能力、評分員、評分員評價等基本概念,對這些口語測試中的基本概念及它們的特征做詳細(xì)論述,在此基礎(chǔ)上完成構(gòu)建包括“素質(zhì)、能力、績效”為一級評價指標(biāo)的評分員評價體系。對“素質(zhì)”、“能力”和“績效”的評價分別通過“考核”、“考試”和“考績”的方式進(jìn)行。三種評價體系中,對“績效”的評價是最重要的,其他兩種處于輔助地位。本文的主要研究內(nèi)容包括:
(1)構(gòu)建漢語口語測試評分員評價模式。闡述了建立漢語口語測試評分員評價體系的理論基礎(chǔ),包括建立評價體系的目的、作用、原則等。一個完整的漢語口語測試評分員評價體系包含三個部分:“素質(zhì)”評價體系、“績效”評價體系和“能力”評價體系。在這三個方面中,“素質(zhì)”和“能力”主要是用來衡量評分員的內(nèi)在價值,“績效”主要是衡量評分員的外在價值,也就是評分員創(chuàng)造的價值。內(nèi)在價值能夠轉(zhuǎn)化為外在價值,所以在三個一級指標(biāo)中,“績效”指標(biāo)是最直接和最主要的。我們認(rèn)為,這三個方面較全面地代表了評分員的日常工作表現(xiàn),是一個具有實際應(yīng)用價值的理論框架。
(2)構(gòu)建評分員“績效”評價模式。對評分員“績效”的評價主要反映在對評分員評分質(zhì)量的評價上。評分員的任務(wù)很多,特別是普通話水平測試(PSC)的評分員還有推廣普通話等其他任務(wù)。不同口語測試中,評分員承擔(dān)的任務(wù)不同,但其主要任務(wù)是為應(yīng)試人評分。評分質(zhì)量的高低關(guān)系著口語測試的信度和效度。本文為了量化評分員的評分質(zhì)量,構(gòu)建了以嚴(yán)厲度、一致性為指標(biāo)的“績效”評價體系。這個體系在理論上能夠反映評分員評分結(jié)果和應(yīng)試人能力的差別,可以用來評價評分員的評分質(zhì)量。
(3)應(yīng)用評分員“績效”評價模式進(jìn)行實證研究。本部分將使用現(xiàn)代測量理論嘗試量化評分員的評分質(zhì)量,為評價評分員提供測量學(xué)方面的理論支持。本部分的另一個貢獻(xiàn)是對量化結(jié)果進(jìn)行了有效性檢驗,檢驗結(jié)果顯示嚴(yán)厲度和一致性作為評價指標(biāo)可以反映評分員的評分質(zhì)量。
1.2.2 研究方法
理論與實證研究相結(jié)合的研究方法是本文研究最基本的研究方法。具體來講,本文使用的主要研究方法有:
(1)文獻(xiàn)法。為完成本項研究,我們搜集了數(shù)百篇有關(guān)漢語口語測試、評價體系的學(xué)術(shù)論文,窮盡性地收集了關(guān)于普通話水平測試(PSC)和漢語水平考試(HSK)的學(xué)術(shù)論文,其中包括數(shù)十篇碩博士論文。除此之外,筆者還認(rèn)真研讀了語言測試方面的中外文專著。通過閱讀文獻(xiàn),掌握了進(jìn)行評分員評價的理論和方法,為完成論文打下了良好的基礎(chǔ)。
(2)分析法。在占有大量文獻(xiàn)資料的基礎(chǔ)上,“去粗取精、去偽存真、由此及彼、由表及里”,對文獻(xiàn)資料的內(nèi)部邏輯關(guān)系進(jìn)行深入分析。
A.對比總結(jié)。對比分析是本研究中使用的重要方法之一。口語測試的種類很多,我們選擇了幾種有代表性的測試,有的是外語口語測試,有的是漢語口語測試。在和其他口語測試對比的基礎(chǔ)上,我們得出了漢語口語測試的特點,即對評分員的要求是全面的。在分析評分員的特點時,我們也使用了這種方法。通過和科研人員、高校管理人員等的對比,發(fā)現(xiàn)了漢語口語測試評分員具有“雙重性”特點。
B.歸納演繹。歸納由個別走向一般,演繹由一般走向個別。本文運用歸納與演繹相結(jié)合的方法,提出了漢語口語測試評分員評分質(zhì)量的指標(biāo),對漢語口語測試評分員評分質(zhì)量指標(biāo)的有效性進(jìn)行了檢驗。
(3)問卷調(diào)查。本研究在研究口語測試中評分員內(nèi)化評分標(biāo)準(zhǔn)類型時,使用了問卷調(diào)查的方式,共向90位評分員發(fā)放了調(diào)查問卷,回收82份。問卷調(diào)查是現(xiàn)代社會科學(xué)研究中最常用的資料收集方法,使用問卷可以了解人的態(tài)度。問卷調(diào)查結(jié)果為解釋評分員評分差異提供了寶貴信息。
(4)實驗法。在當(dāng)今時代,實驗方法已經(jīng)不再是自然科學(xué)的專屬方法了。對某種行為或現(xiàn)象進(jìn)行研究,對其做出解釋、預(yù)測和控制,只能通過實驗。本研究中設(shè)計了評分員為共同應(yīng)試人評分的實驗,收集到了寶貴的一手?jǐn)?shù)據(jù),這些數(shù)據(jù)是完成此次研究的基礎(chǔ)保障。
(5)聚類分析等多元統(tǒng)計方法。本項研究對數(shù)據(jù)進(jìn)行分析時,我們使用了聚類分析(cluster analysis)這種多元變量統(tǒng)計方法,對評分員的內(nèi)化評分標(biāo)準(zhǔn)進(jìn)行歸類研究。聚類分析實質(zhì)上是一種分類技術(shù),而分類是人類認(rèn)識事物的最基本方法之一。聚類分析和以往分類技術(shù)不同的是依靠科學(xué)的定量方法進(jìn)行分類,是一種精確可靠的方法。除此而外,本項研究還應(yīng)用了相關(guān)分析等其他統(tǒng)計方法。
(6)多面Rasch模型。多面Rasch模型是一個功能強大的項目反應(yīng)理論模型,它可以將觀測試中來自應(yīng)試人、評分員、口語測試任務(wù)等多個方面的變異分解,是目前主觀評分研究中使用最多的模型。本研究應(yīng)用此模型量化了評分員的嚴(yán)厲度和一致性,評價了應(yīng)試人的口語能力。這是本研究使用的最重要的研究方法之一。
你還可能感興趣
我要評論
|