國際測評為教育科學評價帶來什麼啓示

去年10月13日，黨中央國務院發佈新時代改革教育評價的總體方案。《總體方案》明確了教育評價改革的指導思想和改革的原則要求。完善立德樹人體制機制，扭轉不科學的教育評價導向，堅決克服唯分數、唯升學、唯文憑、唯論文、唯帽子的頑疾，提高教育治理能力和水平，加快推進教育現代化、建設教育強國、辦好人民滿意的教育。

如何建立科學的評價體系，這一直是學界關注的話題。上海自從首次參加經濟合作與發展組織（OECD）的PISA測試至今，已經多次參加包括PISA、TALIS、TALIS Vi deo St udy等在內的多種教育國際測評。

這些測評讓我們看到了中國上海基礎教育的發展成就、上海教師的貢獻和教育體制的優勢，增強了我們的自信。也吸引了世界的目光，許多發達國家派出大批教育行政官員、專家和教師來上海學習探秘，還邀請上海教師到英國去示範教學、合作交流。

然而，從國際測評中我們獲得的啓示更加豐富。我們不僅看到了上海教育的長板和短板，還學會如何科學設計測評方案，並且通過測評大數據的使用，來為教育發展的施策提供更多參考依據。

國際測評讓我們意識到教育中的不足，包括教育評價的落後

上海已經參加過多次PISA測試，這些測評讓我們看到，我們的學生在閲讀、數學和科學等基礎素養（literacy）方面非常優秀，甚至達到全球第一。但是，測評也顯示出我們的學生在“可遷移的跨學科素養（勝任力）”方面成績不夠好，折射出我們對這一素養既不善教，也不會評。

從2003年起，經合組織在PISA測試中，增設了“21世紀可遷移的跨學科素養（勝任力）”測試。首先設立了“問題解決能力”測評；2012年增設 “在計算機上解決問題”的測試和“財經素養”測試；2015年測評學生的“協作性問題解決”的能力；2018年測評學生的“全球勝任力”；2021年還將測評學生的創新能力。這都對我們的教學和評價提出巨大的挑戰。

比如，眾所周知“解決問題”的能力重要，但是測評反映出我們的老師會教語文、數學、外語，卻不會教學生解決問題，也很少有人學習和研究“解決問題”的過程、結構、技能、態度要素。

那什麼是解決問題的能力？如何測評解決問題的能力？

專家發現：問題解決能力就是在沒有明確的解決辦法的前提下，個人有意願投入認知過程，以認識、理解和解決問題情境和解決問題的能力。這種能力包含了人的意願和認知的過程。

研究團隊還發現，問題種類很多，但至少可分為“靜態問題”和“動態問題”。所謂“靜態問題”就是紙筆測試中，應有條件、必要條件都已具備，並且沒有虛假條件的問題，只要學生選擇正確有用的方法、並作某些計算和選擇，就可以解答。

但 “動態問題”或者説 “互動問題”，則需要人與外界或者與計算機互動，通過學生收集充分信息、剔除無關、虛假信息，創造必要條件後，再加以思考、計算、處置才能夠解決的問題。考試中的問題多半是 “靜態問題”,而真實世界的問題往往是動態、互動的問題。如果不關注動態問題，不培養學生解決動態問題的能力，學生就容易變得“高分低能”。

瞭解了問題的分類，還要教學生認識解決問題的一般過程和要素。PISA將解決問題的過程分為四個階段：探究與理解、表徵與構思、計劃與執行和監測與反思。每個階段，都需要有不同的認知和製作技能要素的參與。

問題解決的過程還要有堅持性、開放性。比如治理河水污染，未必通過生物、化學的辦法解決，也可以通過經濟槓桿比如高額處罰來阻斷污染源，這就是開放性，即很多問題並非單一學科來解決的。

我們對 “問題解決”這一跨學科、可遷移素養的研究不足，也導致我們教學中這一素養的欠缺以及評價的缺失。

在2012年的PISA測試中，我們同樣發現很多國家學生的數學、閲讀、科學的成績與解決問題的能力成正比，但是我們卻恰恰相反，而且差距還比較大。

國際測評也讓我們發現，雖然我們的學生成績很好，但是學生的學業負擔也很重。2012年上海15歲學生平均每週的作業時間是15個小時。作業效果的最佳臨界點卻是10小時，超過以後，再多的時間對成績提升的作用也很有限，反而佔據了學生髮展個性、鍛鍊身體的時間和空間，甚至還會造成學生厭學。

技術+大數據，為教育評價提供更多可參考的維度

信息技術、大數據和人工智能的發展，為我們的教育測評增加了更多的維度。以PISA測試為例，80個國家60萬名左右15歲的孩子參加測評後形成的大數據，包括了學科、學校、教師、國家以及學生家庭的情況，這些為我們提供了很多分析的資源。

分析這些大數據，我們可以發現教學中的短板。比如，我們的老師不善於使用信息技術讓學生自主學習。調查發現，44個國家中有52.7%左右的老師每週都用信息技術讓學生完成作業，而我們的這一比例只有24.3%。

同時，TALIS的視頻研究，讓8個國家的近千名數學教師 “同課異構”，來分析教學中的長短。同一節“一元二次方程”課，同樣用“課堂管理” “社會情感支持”和“教學質量”三大維度去評價。我們可以看到，成績較優秀的國家，老師都關注 “課堂管理”，其中上海教師做得最好，按四級評分，90%以上的教師都集中於3-4區間。但我們在課堂教學中給予學生的“社會情感支持”方面僅處中等水平，同時教師個體間的差異也很大。而日本教師不僅課堂管理出色，對學生的情感支持也比我們高很多。另外，我們在學生認知參與度和師生課堂互動對話等方面也還有巨大的改進空間。

國際測評還告訴我們，我們中小學教師的學位低、男教師少、學習的自主性積極性低。經合組織成員國初中教師碩士學位比例已經高達44.6%。芬蘭更是達到92%，而上海只有12.6%。同時，發達國家的男教師佔33%，我們只有27%。

再看教師的專業化要素，這主要包括教師的知識技能、教師同儕互助協作和專業自主性，以及社會給予教師的專業發展機會和社會地位與尊重。我們教師的專業自主性、特別是教師自主學習的積極性比較低。

在四分等級的國際比較框架中，芬蘭教師的平均值為2.9，上海教師的平均值僅為1.1。這提示我們，原因可能與當下的教師培訓組織有關，我們的培訓進修幾乎都是由行政部門和學校規定。久而久之，教師就不再考慮自己應該學習什麼，怎麼學習了。而教師自主學習積極性低，還會影響教師對學生自主學習精神和習慣的培養。

通過教育的綜合評價和過程評價，消解“黑箱”效應

各類國際測評的數據讓我們深刻認識到，教育是一個複雜的系統，要通過綜合評價和過程評價，改變教育過程的“黑箱”效應。

現在的教育彷彿“黑箱”，大家只看到一個個小孩進去再出來。但是在這個過程中究竟發生了什麼？我們往往過於關注教育的輸入，也關注這個“黑箱”中出來的結果，但是“黑箱”中究竟哪些因素、究竟如何影響教育，卻缺乏研究。

一些國際測評也給了我們啓示。比如，PISA測評中的閲讀、數學和科學測試也許能夠表現一個國家或者地區的教育發展和學生學業的水平，而學生和校長的問卷卻能解釋其原因與路徑。問卷涵蓋了學生個人學習投入的時間與方法、學校之間的差異與學校內部的要素、家庭經濟社會教育的影響與家庭遷徙的影響以及政府財政的投入程度與投入方式等。

世界銀行組織的 “SABER” （教育成就係統評估研究）給我們提供了一個有益的框架。

這個框架告訴我們，對學生、學校和教育的質量的評價不僅要看學生的成績，還要考慮教育過程“黑箱”中的要素，如政策層面的教育制度、教育財政、學校職權、教師政策，教育機構層面的學校經費、學校課程、教師發展等，督導問責層面的政府職責、學校條件、教師效能和學生評價等。

對中小學來説，尤其要關注均衡投入以及單位投入產出的測評，同時進行分層分類的評估。只有這樣才能提升所有校長和教師的積極性。

我們在2012年PISA測試中發現，芬蘭的學校校間的差異（方差）僅為8%，我們的初中學校有29%，高中（包括職業學校）達到了58%，初高中平均為47%。這就提醒我們，不解決學校之間的投入不平衡，家長就會想盡一切辦法去擇校。相反，在均衡的情況下，校長和教師的努力程度就會大幅度提高，而擇校壓力則會下降。

評優性評價需要減少，更應倡導政策改進性評價

更科學的測評應該是減少評優性、終結性的評估，增加過程性評估。

根據測評結果對“黑箱”中的因素分析，我們可以發現，對學校頻繁的評優性評估並不能提高教育質量，反而會導致學校的生源競爭，鼓勵學校加強標準化測試和外部測試的管控。

芬蘭也曾遭遇過頻繁的評優性評估帶來的教育不均衡以及教育質量下降的問題，但是從1990年代起，他們樹立了“少考試、多學習”的理念，加強校內老師的隨堂檢測，並且增加學生的反饋，來提升教育質量。同時，學生評價的重點也不再是考試與分數，而是描述性的學習過程的評價，包括學習行為和學習參與度。政府對教育質量的把控也不再是頻繁的高利害考試和對學校教師的不斷評優，而是通過抽樣性外部評價來實現。芬蘭政府每學期都抽樣10%的學校和學生對各個方面進行評估，這既減輕學生負擔，又能把控學校質量。

同時，分析“黑箱”中的因素，我們也發現，學校質量與投入有關，也與校長教師的努力創新有關。政府應根據測評結果，不斷提高教育條件基準與均衡，託高底部、水漲船高，優秀者自然更優秀。

教育是一個特殊的過程，最需要的是對過程進行評價。但是，目前的評優和選拔性評價多為結果性、終結性評價。過程性評價缺失帶來的是各類措施的嚴重滯後，因為終結性評價往往是滯後的。這會造成學生流失的時間和生命無法重複，並且浪費公共資源和私人資金。

因此，要大力倡導科學的過程監測，通過計算機、大數據和人工智能的幫助，我們可以通過教育過程監測，及時記錄教育政策、教育方法、教師教學和學生學習的實施成效、特性與問題，調整政策、資源、方法，幫助教師因材施教，為學生精準投送學習資源。讓基礎教育更加公平優質發展、讓學生全面而有個性發展。

相關鏈接國際測評的變遷

作為教育評價一類方法，國際教育測評始於1960年代。

1961年，國際教育成就評價協會（IEA）就着手組織開展了第一次“國際數學測評研究” （FIMS），有12個國家參加。1964年，又開始了六個學科教育國際測評研究。1977年，實施第二次數學測試（SIMS）。

1995年國際教育成就評價學會組織實施了第三次數學與科學測試（TIMSS），並改稱為“國際數學與科學趨勢研究” （TIMSS）。2000年，經合組織舉辦PISA，每三年測試一次，測評的對象為義務教育末端的15歲在校學生。測試的學習領域為：閲讀、數學和科學。以後又增加了其他學習領域的測試。如問題解決、協作解決問題、財經素養、全球勝任力，等等。目前已經有79個國家/地區的60多萬名學生參與測評和問卷調查。

經合組織在PISA測試中發現，教師是除了家庭以外，對15歲學生學業影響最大的單一因素。於是，經合組織又於2008年開始組織“教師教學國際調查” （TALIS)，每五年一輪，對教師進行問卷調查，44個國家/地區的26萬名教師參加。

2014年，世界銀行設立了SABER（教育成就的系統評價研究）。

2018年又實施了TALIS Video Study（視頻研究），開展八國教師課堂教學行為進行評價研究。

　　作者：張民選（作者為教育部國際教育研究與諮詢中心主任、上海師範大學國際與比較教育研究院院長、聯合國教科文組織教師教育中心負責人）

　　編輯：顧軍

責任編輯：姜澎唐聞佳

圖片來源：視覺中國