国产综合色在线播放,亚洲人成网线在线播放午夜,亚洲国产无在线观看,久久国产免费热播

  • <rt id="ewy44"></rt>
  • 對話 | 劍橋?qū)<覟槟阋绘I解鎖計算機自適應(yīng)考試

    點擊領(lǐng)取>>>KET/PET官方真題匯總、官網(wǎng)樣卷試題、聽力閱讀答題卡、高頻必備單詞表



    “人工智能賦能英語學(xué)習(xí)”在線系列講座是2020劍橋英語節(jié)的重要主題之一,由劍橋大學(xué)英語考評部首席研究經(jīng)理徐兢博士作為主講嘉賓,為大家深度解讀英語測評的基本概念和人工智能在英語測評領(lǐng)域中的應(yīng)用。


    本期文章將回顧該系列講座的第三講:“自適應(yīng)測試:讓定制化測試成為現(xiàn)實”(Building personalised assessment via Computer Adaptive Testing )。


    本文包括:第三講的講座回放、要點總結(jié)、專家問答和知識小測。文末我們將公布上期三道小測驗的答案及幸運讀者名單,趕緊閱讀文章看看你有做對嗎?


    視頻回顧


    錯過了直播或者想要溫故知新的觀眾們,以下是徐兢博士第三講的精彩內(nèi)容!同樣,看完視頻,記得完成文末的三道小測驗。我們將隨機抽選答對的幸運讀者,送上Write&Improve專屬福利!上期沒有被選中的讀者請繼續(xù)加油,我們期待你的答案!




    要點總結(jié)



    本講主要包括五部分:


    • 計算機自適應(yīng)考試(CAT)是什么

    • 自適應(yīng)英語測試的優(yōu)勢

    • 計算機自適應(yīng)考試如何衡量考生的英語水平

    • 解析劍橋領(lǐng)思的閱讀與聽力試題

    • 劍橋領(lǐng)思的試題總覽(見視頻)




    計算機自適應(yīng)考試(CAT)是什么?



    計算機自適應(yīng)考試(CAT, Computer Adaptive Test)的特點在于“自適應(yīng)”,意為“自動調(diào)整試題難度來適應(yīng)考生在做題過程中的實時表現(xiàn)”。傳統(tǒng)考試中的試題題目是提前設(shè)置的,是靜態(tài)的,而計算機自適應(yīng)考試可以根據(jù)考生在考場中的實時答題情況,在試題庫中抽取測試題目難度值與考生能力水平相對應(yīng)的下一道測試題目,直到最終得到反映考生真實能力水平的結(jié)果,其出題和評分過程是動態(tài)的。因此,計算機自適應(yīng)測試可以實現(xiàn)為每位考生實時“量身定制”試卷。


    劍橋領(lǐng)思考試中的考生test journey樣本



    自適應(yīng)英語測試的優(yōu)勢?



    “自適應(yīng)”是劍橋領(lǐng)思考試的一大特點,其具有以下優(yōu)勢:


    • 高效精準(zhǔn):水平高的考生無需回答過多簡單試題,水平有限的考生也不會遇到太多難題,從而可以確保在短時間內(nèi)獲得較為精確的測評結(jié)果。

    • 安全便捷:由人工智能加持,通過遠(yuǎn)程監(jiān)考,并配合計算機自動評分,可以實現(xiàn)隨時隨地進(jìn)行考試。

    • 降低考生焦慮情緒:每位考生遇到的題目難度不會超出其承受水平,這可以有效降低考生的焦慮情緒,讓考生在考試中充分發(fā)揮其語言水平。



    計算機自適應(yīng)考試如何預(yù)測考生水平?



    語言能力是大腦的隱性特征,無法通過物理方法進(jìn)行測量,因此我們需要通過合理的試題設(shè)計引導(dǎo)學(xué)生展現(xiàn)相應(yīng)的語言能力,再通過計算機算法量化預(yù)測其語言水平。劍橋領(lǐng)思的測評算法是基于項目反應(yīng)理論(Item Response Theory, 簡稱 IRT),又稱為隱性特征理論。該理論構(gòu)建了一整套數(shù)學(xué)模型來描述考生能力(test taker ability) 、題目特性 (task difficulty) 與考生答對率 (probability of correct answer)之間的關(guān)系。


    其中,作為項目反應(yīng)理論模型中的一種 - Rasch模型規(guī)定,當(dāng)某個題目的難度和考生的能力相當(dāng),那么考生能夠答對該題的概率為50%。這個數(shù)值也可以通過以下公式推導(dǎo)得出:


    Rasch模型基本公式


    在Rasch模型中,當(dāng)一道題目難度中等,我們將該題賦值為0;當(dāng)某位考生水平中等,則該考生水平也賦值為0,那通過以上公式可推導(dǎo)出該考生答對該題概率為50%。計算過程見下圖。



    該結(jié)果若通過指數(shù)函數(shù)表現(xiàn)出來則更為直觀(如下圖),中間的實線曲線b即為以上公式體現(xiàn)的函數(shù)曲線??梢钥吹?黃線標(biāo)明處),當(dāng)題目難度適中、考生水平適中時(橫坐標(biāo)為0),該考生答對該題的概率為50%(縱坐標(biāo)數(shù)值0)。



    依此類推,當(dāng)同位考生遇到題目a時(下圖中的虛線曲線a),由于a題目更為簡單,所以該考生的答對率在87%左右(縱坐標(biāo)0.87)。



    由此可見,以上公式可以通過題目難度和考生能力,計算出考生答對題目的概率。但在計算機自適應(yīng)考試中,計算機能夠?qū)崟r獲取考生的答題結(jié)果。因此通過將該公式反向推導(dǎo),計算機可以根據(jù)每位考生對一系列考題的答題對錯與否和相應(yīng)考題的難易程度,反向估算出考生最有可能的語言能力水平??忌痤}越多,能力估算就越精確??荚囋谶_(dá)到預(yù)設(shè)的精確度后就會自動停止,給出最終結(jié)果。

     

    在經(jīng)典測試?yán)碚?Classic Testing Theory)中,對于一整份考卷,每個考生的答題表現(xiàn)可以總結(jié)到一個表格中(如下圖)。其中,頂部橫項為題目,左側(cè)縱向為考生名字(化名),數(shù)字1代表考生答對該題,數(shù)字0代表考生答錯該題。經(jīng)典測試?yán)碚撏ㄟ^累計考生答對題目的總數(shù)量來計算考生的水平。但這樣做有一個缺點,因為答對一道簡易題和答對一道難題所獲得的分值是一樣的,這樣不利于有效區(qū)分考生之間的水平差異。例如:在此表中題目11的難度系數(shù)一定會比題目3要大,因為答對題目11的考生人數(shù)要比答對題目3的考生人數(shù)少得多。理所當(dāng)然,答對題目11的考生更有可能是高水平考生。相比之下,由項目反應(yīng)理論加持的計算機自適應(yīng)考試會把試題難度作為預(yù)估考生能力的一個變量,從而能夠通過更少的試題來精確衡量一個考生的能力水平,因此考試也會變得更高效。


    Ockey, G. J. (2012). Item response theory. In G. Fulcher & F. Davidson (Eds.), The Routledge handbook of language testing (pp. 336-349). London: Routledge.



    解析劍橋領(lǐng)思考試的閱讀與聽力試題



    劍橋領(lǐng)思考試中的所有閱讀和聽力試題的研發(fā)均以歐洲共同語言參考框架(CEFR)中的能力描述為基礎(chǔ),這使我們可以對通過計算機算出的考生分?jǐn)?shù)解讀和預(yù)測考生的英語語言能力。


    下面為劍橋領(lǐng)思聽力B1級別的一個例題,聽力對話中兩個人在討論決定旅游出行的酒店地點。選項有三個,酒店分別在山間度假村、港口旁和海邊沙灘上。


    劍橋領(lǐng)思B1級別聽力例題


    這個題目旨在測試考生能夠聽懂有關(guān)旅游和住宿的基本對話的能力(can understand basic dialogues about accommodation and travel),符合CEFR中的B1級別。若考生答對該題,則計算機在下一題很有可能會分配一個B2級別的題目給考生,通過多次測試,以最終確定考生的聽力水平。

     

    根據(jù)徐兢博士在2016年的試測研究(Pretesting),在劍橋領(lǐng)思考試中,考生完成閱讀測試的平均時長為26分鐘,聽力部分為22分鐘,閱讀評分的人機信度達(dá)到0.94,聽力為0.92??梢?,劍橋領(lǐng)思考試在保證評分準(zhǔn)確性的同時,有效地縮短了傳統(tǒng)線性考試所需的時長。


    專家問答



    徐博士有哪些關(guān)于項目反應(yīng)理論(IRT)的參考資料推薦?


    如果你對項目反應(yīng)理論感興趣,可以參考以下文獻(xiàn)。


    章節(jié)(對項目反應(yīng)理論的簡要介紹)

    · Ellis, D. P., & Ross, S. J. (2014). Item response theory in language testing. In A. J. Kunnan (Ed.), The companion to language assessment (Vol. III, pp. 1262-1281). Chichester, West Sussex: John Wiley & Sons.

    · Ockey, G. J. (2012). Item response theory. In G. Fulcher & F. Davidson (Eds.), The Routledge handbook of language testing (pp. 336-349). London: Routledge.


    教科書(對項目反應(yīng)理論的系統(tǒng)介紹)

    ·de Ayala, R. J. (2009). The theory and practice of item response theory. New York, NY: Guilford.

    ·Embretson, S. E., & Reise, S. P. (2000). Item response theory for psychologist. Mahwah, NJ: Lawrence Erlbaum Associates.

    ·Hambleton, R. K., & Swaminathan, H. (1985). Item response theory: Principles and applications. Norwell, MA: Kluwer Academic Publishers.

    ·Lord, F. M. (1980). Applications of item response theory to practical testing problems. Hillsdale, NJ: Erlbaum.





    IRT可以運用到Speaking嗎?


    到目前為止,基于項目反應(yīng)理論的自適應(yīng)考試還沒有被應(yīng)用到口語測試上。那是因為口語測試的評分并不是非對即錯和有標(biāo)準(zhǔn)答案,而是由考官依據(jù)一個詳細(xì)的打分標(biāo)準(zhǔn)(rating scale)對語言表現(xiàn)進(jìn)行主觀評分。


    但是項目反應(yīng)理論中的單一參數(shù)模型(One-Parameter Model)也叫Rasch模型,自上世紀(jì)九十年代開始已經(jīng)被應(yīng)用于口語測試的效度和信度的研究上。這些研究包括對考官打分嚴(yán)厲程度的比較,考題難度的比較,以及考試環(huán)境對考分的影響等等。大家有興趣的話可以閱讀以下參考文獻(xiàn)。


    McNamara, T. F. (1990). Item response theory and the validation of an ESP test for health professionals. Language Testing, 7(1), 52-75.

    McNamara, T. F. (1996). Measuring second language performance. London: Longman.

    McNamara, T. F., & Knoch, U. (2012). The Rasch wars: The emergence of Rasch measurement in language testing. Language Testing, 29(4), 555-576.

    Yan, X. (2014). An examination of rater performance on a local oral English proficiency test: A mixed-methods approach. Language Testing, 31(4), 501-527.






    劍橋領(lǐng)思考試適合K12學(xué)生嗎?會取代MSE系列考試嗎?


    劍橋領(lǐng)思考試是針對16歲及以上的青年和成年考生設(shè)計的,并不適合年幼的少年英語學(xué)習(xí)者。劍橋領(lǐng)思的考題內(nèi)容(比如閱讀理解)涵蓋超出年幼考生認(rèn)知范圍和語言使用范圍的話題,因此并不適合這個人群。同時少年考生對計算機的使用(比如在計算機上快速寫作)還沒有駕輕就熟,所以他們或許并不能在計算機化考試中發(fā)揮出自己應(yīng)有的水平。對于少年英語學(xué)習(xí)者,劍橋大學(xué)英語考評部有推出量身定做的考試,叫做Young Learners English Tests (YLE),即劍橋少兒英語。同時,青少年學(xué)習(xí)者還可以根據(jù)自身實際情況選擇參加劍橋通用英語五級系列考試。


    https://img.jzlt100.com/uploads/files_user49/question/5ec64705177d8154134.png


    掃碼添加“家長論壇”微信好友(微信號 16619908263

    獲取KET/PET官方真題匯總、官網(wǎng)樣卷試題、聽力閱讀答題卡、高頻必備單詞表

    咨詢北京KET PET相關(guān)課程請撥打電話 16619908263 (同微信號)


    已邀請:

    要回復(fù)問題請先登錄注冊