國際高校素質教育“打分”機制錄取模式追求多元且公平

【世界教育之窗】

對學生進行全面的評價並在此基礎上進行人才選拔，是國際上諸多高校招生錄取的共同趨勢。綜合評價是一個經常被提及的概念，實際上就是對學生能否滿足大學學習來進行全面考查。既然要對學生進行綜合評價，就必然涉及不同的測評方式、測評主體和測評結果之間的差異。

近年來大量研究表明，這些綜合性的測評結果比單一的考試成績更能夠預測學生的未來成就。因而，很多世界知名高校在進行人才選拔中，都非常注重這些多元化的測評結果，包括學生特長、標準化考試成績、平時表現、興趣愛好、情感、價值觀、課外活動等。

但是，如何讓這些不同維度的特質在科學、公平的基礎上可用、可比，則是一個極其複雜的難題。一些國家的高校結合辦學定位和人才培養模式進行了一些探索，形成了各有特色並具有重要借鑑意義的經驗。

1.測評是個技術活

目前，國際上考試測評行業發展的一個重要趨勢就是為測評者提供各種人性化的服務，以滿足學習者學習和終身發展的需要。例如，在全球化時代，受教育者和各類人才的國際流動更加頻繁。他們在不同時間、不同地區參加測評，然後帶着這些測評結果在不同國家或地區、不同時間點來替代使用成為一種當下的迫切需要。國際上的一些大規模教育測評項目，如經濟合作與發展組織推出的國際學生評估項目(PISA)，每三年就要針對全球近80個國家和地區的15歲學生進行閲讀、數學、科學等方面的測試。PISA所用的試題有很多套而且並不完全相同，但是其公佈的測評結果可以直接進行比較，這對測評技術而言無疑是一個巨大的挑戰。

在高校人才選拔所依據的大規模標準化考試中，同樣也存在類似情況，如美國的學術能力測試(簡稱SAT)和大學入學考試(簡稱ACT)，兩者都是美國很多大學人才選拔所要求的重要測試。SAT由美國大學理事會委託教育考試服務中心舉辦，SAT主要考查學生在大學學習所需的閲讀、寫作、數理等方面的技能，尤其是批判性思維能力。該考試每年提供7次考試機會，學生可以依據自己的情況，報名參加其中任何一次或者幾次考試，並且自行決定用哪次考試的成績去申請大學。ACT由專業化的考試公司主辦，每年舉行6次，與SAT一樣，主要作為大學新生選拔和獎學金髮放的依據。ACT考試包括五個部分：英語、數學、閲讀、科學以及作文(選考)。與SAT不同的是，ACT關注學生對中學課程知識的掌握情況，更加突出對學科能力的考查，這些基於學科的能力和大學學習所需的能力緊密地結合在一起，受到了公立大學的歡迎。

SAT、ACT均實施一年多次考試，這給學生提供了多次考試機會，在一定程度上緩解了複習備考的壓力，但卻對考試質量提出了非常高的要求。其中最關鍵的是，各次考試的難度需要儘可能保持一致。否則，試卷難度時高時低，就會帶來考試的科學性、公平性方面的一系列問題。然而，在考試之前就命製出難度完全一樣的多套試卷是幾乎不可能的。對此，SAT和ACT的開發者設計了一整套測量與評價技術來對考試成績進行一定的處理，以消除不同次考試試題難度的影響，從而使得各次考試難度能夠保持一致性和基本穩定。在這個過程中，等值就是一項常用的考試技術，廣泛應用於一些國際性的大型教育考試與評價項目中。

在SAT和ACT之間還面臨一個至關重要的問題，那就是兩者成績之間如何建立聯繫。原因很簡單，美國很多高校在招生時會要求學生提交這兩個考試的任何一個成績。從選拔的結果來看，同一所大學所錄取的新生中，提交SAT和ACT考試成績的考生各佔一定比例。而如前文所述，SAT和ACT在知識與能力考查目標上存在較大差異，可以説，它們作為兩個不同的測評工具，天然就不具備考試技術上的可比性。那又如何保證這兩個性質不同的考試可以相互比較甚至替代呢？這同樣涉及科學性和公平性的問題。對此，這兩個考試的主辦方美國大學理事會和ACT公司通力合作，通過對同時參加這兩個考試學生的追蹤和對比研究，從成績使用的角度來公佈出一份SAT與ACT的分數轉換表，以明確這兩個考試結果之間的對應關係。例如，在滿分1600的SAT中得1490-1520分，就相當於在滿分36的ACT中得34分。這樣一份轉換表，實現了不同測評在結果使用上的等效，為高校的人才選拔和測試者都提供了極大的便利。

2.及時修正的統計模型

很多歐美國家的高校在進行人才選拔時，一般會要求學生提供綜合性的申請材料，包含一系列能夠證明自己學習能力的測評結果。其中一些是過程性評價的結果，比如學生在學習過程中的班級排名、階段測驗成績、GPA、校本評價結果等。在澳大利亞、新西蘭等國家，則還包括日常教學過程中任課教師對學生的學業表現進行的綜合判斷，涉及專題學習、實驗技能、日常課程學習狀況。這些方面的測評結果是學生在校期間學習狀況最直接的表現，不但反映了學生在校期間各學科的學習狀況，更可以反映出學生在不同學習階段間的成長變化情況。

教育領域的研究表明：在整個學習過程中，相比較而言，最瞭解學生的是任課教師，最能體現學生水平的是能夠反映長期表現的學校評價結果，相比之下，任何一次性的終結性考試都必然存在測量誤差。因此，在學習過程中的各種評價，理應在高校的人才選拔中佔有一席之地。但是，不同學校的學校評價結果之間缺少可比性，因為校本評價在對象、測評工具、羣體上均存在極大差異，倘若盲目使用，則會造成不公平的現象。

為了解決上述難題，英聯邦的一些國家和地區引入了一種新的機制來對校本評價結果進行校正。這種機制的核心是一種“統計模型”——基於學生的平時成績、老師對學生各方面的評價，以統一考試的結果為基準，建立相應的統計模型來調整校本評價的結果，並把它統一到同一把量尺上，最後再納入學生的綜合評價中。這樣做則能在根本上確保不同教師、學校、地區所做出的評價結果之間具有可比性。

這種統計方法調整的基本思路是：測評的組織機構通過建立相應的統計模型，用終結性評價結果來校驗過程性的評價。參照各學生在統一測評中的成績來對校內評價進行修正，以達到消除校際之間評分差異的目的。在這個過程中，如果某學校的校內表現低於與其在終結性評價中水平相當學校的表現，該校的評價結果就會被適當調高，相反則會被調低。需要強調的是，儘管調整後學生的評價結果會發生變化，但其在學校中的排位不會變。這種統計分析方法的優點是多方面的：維持了評價結果在學校之間的可比性，以確保評價的公平；促使評價結果在年與年之間的穩定性，提升了測評的信度、效度和精度；蒐集數據回饋學校，進一步優化校本評價的開展，提升學校和老師的評價素養。

3.多元錄取的新趨勢

不同國家的高校在使命、類型、辦學層次、人才培養目標上呈現多元化的特點，這對高校的人才選拔產生了深遠的影響。不同類別高校的選拔標準也各具特色。在高等教育多樣化的美國，至今仍有數百所高校在人才選拔時不強制要求學生提供標準化考試成績。除此之外，美國的其他高校一般都要求學生在申請時提供多種材料，以表明自己能夠勝任大學階段的學習。一般而言，美國高校的招生委員會會對學生的申請材料進行詳細審核。總體來看，影響錄取與否的因素較多，重要性也不一樣，按重要程度排序的話則分別為：在中學開設的大學預備課程(AP)成績、高中課程的強度(選課的數量和難度)、SAT或ACT成績、中學全部課程的成績(GPA)、入學申請書的寫作。其他因素還包括中學年級排名、中學升學指導老師的推薦信、學生展示的興趣、教師推薦信、面試、課外活動等。可以看出，以上這些因素中很多都是綜合評價的結果，涉及對考生全方位的考查。因此，高校在具體的選拔過程中，通常會將上述綜合評價的結果進行加總並按照一定的方法折算為學業指數。

學業指數的核心在於將學生學習中的表現進行量化處理，形成可以用以客觀比較的數值。在具體操作上，年級排名通常轉化為對應的分數，計算方法是：把學生排名乘以2減去1，然後除以當年年級總人數的2倍，這樣會得到一個小於1的數值，最後依據這個值在提前制定的表上即可查到對應的分值，這個分值就可以與其他標準化考試的成績相加，得到總的學業指數值。在選拔過程中，不同高校會對學業指數設置一定的等級要求。如達特茅斯學院和賓夕法尼亞大學把學業指數分為9等，第9等表示最好，分值為230分以上，第1等表示最差，分值在180分以下。

另外，美國其他一些高校也存在類似的情況，艾奧瓦州的部分高校也會採用計算“錄取指數”的方法來對申請者進行評價。“錄取指數”由標準化考試成績、GPA、排名以及所修的核心課程等幾部分組成。在計算過程中，高中排名和GPA這兩個過程性評價的結果分別乘以相應的係數來進行加總，高中排名一般取其百分位再乘以1，GPA通常是乘以20。總體來説，美國大學的招生做到了對學生的綜合評價，一方面是標準的多元，包含了學習成績、興趣、面試表現、課外活動等多方面的因素。另一方面，即使在同一個成績維度下，也通過把校本成績、統一考試成績、標準化考試成績進行綜合的方式來實現。

韓國的大學十分重視學生的綜合表現，具體包括高中學習成績、是否擔任過幹部以及參加社團活動、競賽、科學作品展覽等情況。從2002年起，韓國大學入學考試不再計算總分，而是把各科考試成績按照一定比例轉換為9個等級，高校錄取時參考其高考成績分數等級和日常的綜合成績進行綜合評定。韓國高校的選拔標準也因此呈現出多樣化的特點。高校在擬定錄取標準時，至少有4種方案：僅根據高中在校的成績和綜合表現、高中在校成績加上“大學修學能力考試”成績、高中在校成績加上高校考查成績、前3項均考慮。除此之外，高校還可根據學校與專業的特點確定不同標準的權重。韓國教育與人力資源部規定，各高校均可對綜合生活記錄簿、大學修學能力考試、大學自備考核、面試、非教學科目資料、微機科目等六類資料進行自由選擇和組合來選拔學生。其中，綜合生活記錄簿是以韓國教育與人力資源部訓令為依據而制定的表格，要求儘可能地把應該記錄的學習活動全部記錄在其中，包括獲獎經歷、資格證書獲得情況、特別活動情況、社會服務活動等。

英國政府一直積極倡導各種證書考試在高校選拔中的作用，但最近一段時間以來，很多高校的錄取政策體現出了從主要依據學生證書考試成績向注重對學生進行綜合評定的變化趨勢，逐步形成“證書綜合評價”的高校錄取選拔制度。具體而言，英國高校在選拔時強調學生的A-levels證書或同等證書的成績，同時，通過學校的推薦意見、個人陳述、學習過程中的測評結果、單獨舉行的考試或者聯考(一般只有選拔性高校特定專業才需要)、面試等手段對申請人進行綜合測評，然後再決定是否錄取，是無條件錄取還是有條件錄取。這一模式為不同測評結果的使用提供了根本性的制度保障。

(作者：章建石，系教育部考試中心副研究員，本文為國家教育考試科研規劃2017年度課題的研究成果，批准號：GJK2017035)