第K6期：思維能力的成長評估

謝小慶

按：本文刊登於《考試研究》雜誌2020年第1期。

在快速變化的21世紀，學校最重要的任務是發展學生的思維能力。思維能力主要包含三項內容：第一，交流溝通能力；第二，邏輯推理能力；第三，審辯式思維。對體現在認知技能方面的思維能力，可以進行客觀化測試。在思維能力評估中，不僅需要進行“達標評估”，還需要重視“成長評估”。

一、思維能力

在快速變化的21世紀，在科技和社會發展速度令人瞠目結舌的今天，伴隨着計算機和網絡的發展，知識在快速更新換代，一些已有知識在快速變得陳舊。一些工種在消失，一個個行業正在被顛覆。年輕人將來可能從事的行業今天或許還未出現，而今天的一些熱門職業未來可能會消失。掌握再多的知識，也不如一部聯網智能手機的萬分之一。怎樣保證我們的學生在未來的職業競爭中不會敗於一部智能手機或一台機器人？這是教育需要思考的問題。

在互聯網時代，人們獲取特定知識變得越來越容易。以往，需要在圖書館中尋找多日的研究資料，今天藉助互聯網，藉助“百度”、“谷歌”這樣一些搜索工具，可以隨時隨地信手拈來。因此，重要的已經不再是掌握特定知識，而是具備較高的思維水平，對信息的重要性做出判斷，並在各種可能的候選方案中快速做出自己的抉擇。越來越多的人認識到，以往，“知識就是力量”；未來，“思維才是力量”。以往，在職場中穩操勝券的是“有知識的人”；未來，在職場中獨領風騷的將是“會思考的人”，將是“有智慧的人”。

從20世紀90年代初，筆者就開始關心核心職業勝任力問題，並關注到英、美等國的核心能力研究。根據多年的閲讀和思考，筆者認為，21世紀最重要的核心職業勝任力是思維能力。思維能力包含三項內容：第一，交流溝通能力，主要是口頭和書面表達能力；第二，邏輯推理能力；第三，審辯式思維。

最重要的思維能力是交流溝通能力，主要是母語的口頭和書面表達能力。世界各國絕大部分關於核心能力的研究結果都將交流溝通能力列為首位。對於至少80%以上的中國人來説，使他們獲得職業成功和愛情成功的主要因素並不是外語，而是漢語。例如，以往在對醫務人員的資格要求中，語言能力並不是很重要。但是，近20年來，多家國際醫學教育機構所頒佈的對醫生的最低能力要求中，都將“交流溝通能力”放到了重要位置。

第二重要的思維能力是邏輯推理能力。數學是高考的必考科目，從小學開始，學生大量的時間用於學習數學。對很多人來説，曾經學習的數學知識在以後的職業生涯中很少會用到，那麼為什麼還要花費時間學習數學呢？那是因為學習數學是在發展和訓練邏輯推理能力。

正是因其重要性，在今天的公務員錄用考試、事業單位錄用考試和教師資格考試中，都將對交流溝通和邏輯推理能力的考查放在非常重要的地位。為了在高度信息化的時代具有職業競爭力，必須從小注意發展學生的交流溝通能力和邏輯推理能力，幫助他們形成必要的口頭和書面表達能力，並養成按照形式邏輯進行思考的習慣。

交流溝通能力和邏輯推理能力固然重要，但這二者並非萬能，還需要具有審辯式思維。

在學校中被同學打後怎麼辦？還手？告老師？忍了？

要不要讓學生背誦課文和名篇？

在高考必考科目中是否應包含外語？

是否擴大高校的招生自主權？

是否鼓勵種植轉基因農作物？

要否徵收房產税？

……

所有這些問題，都不存在唯一正確的標準答案，都不存在合理的標準答案，都僅僅有每個人的普樂好選擇。許多重要問題，包括一些關係到人生道路和個人前途、個人幸福的問題，甚至一些關係到國計民生的問題，都不能僅僅靠交流溝通和邏輯推理做出選擇，都需要審辯式思維。

實際上，僅僅訴諸邏輯推理就可以解決的問題是非常有限的，往往是一些並不重要的小事情，例如，一個廣西沙田柚的價格是5元錢，買3個柚子需要多少錢。絕大多數真正重要的問題都不是僅靠交流溝通和邏輯推理能夠解決的，都需要在審辯式論證的基礎之上做出普樂好的選擇。

如果走出課堂，走進實際生活，即使是買柚子這樣的“小事情”也不能僅僅靠形式邏輯予以解決。不論超市還是街邊，實際的情況是：

賣家：1個5元，3個13元。

買家：3個12元賣不賣？

這時，賣家面對一個12元賣或不賣的選擇。如果賣家的選擇是12元不賣，那麼，買家將面臨選擇：13元買不買？對於賣家和買家，都沒有唯一正確的標準答案，也沒有邏輯合理的答案。這個問題不能僅僅靠形式邏輯做出選擇，還需要藉助審辯式思維來做出選擇。

因此，第三重要的思維能力是審辯式思維。所謂審辯式思維，最簡單的概括是12個字：不懈質疑，包容異見，力行擔責。具有審辯式思維的人不輕易相信家長、老師、領導、專家和權威的説法。他們會用自己的頭腦獨立地進行思考，做出自己的判斷，決定接受或者拒絕他人的看法。具有審辯式思維的人，不是僅僅質疑他人，他會“雙向質疑”，既質疑他人，也質疑自己。正是由於質疑自己，他才會包容異見。他會想到，別人可能是錯的，我自己也可能是錯的。具有審辯式思維的人不是坐而論道，而是行動者，力行擔責。面對複雜、艱難的選擇，他會勇敢地、果斷地做出自己的選擇並付諸行動，並坦然地面對自己行動的後果，承擔自己的責任。

具有審辯式思維的人理解，對於複雜的科學問題和社會問題，常常並不存在唯一正確的標準答案。對於一個理論、一個觀點、一個命題的論證，不是一個可能立即得到答案的實驗室研究。許多問題並不存在唯一正確的標準答案，關於這些問題的爭論會長期存在。

審辯式思維不僅是創新型人才最重要的心理特徵，是持續鑽研的動力，更是建設理性和民主社會的基礎。

二、思維能力可以進行客觀化測試

在思維能力中，對於交流溝通和邏輯推理能力的測試已經探索出一些有效、可靠的測試方法。例如，用於公務員錄用考試的《行政職業能力測驗》，全部採用客觀化選擇題，所考查的就主要是交流溝通能力和邏輯推理能力。在這方面，《行測》30年的考試實踐已經積累了較豐富的經驗。那麼，能否對審辯式思維水平進行客觀化測量？

審辯式思維包含認知技能和精神氣質兩個維度。對於精神氣質，很難進行客觀化測試。但是，對於認知技能，可以進行客觀化測試。測試認知技能的題型主要有三種：事實判斷、假設辨認和論證評價。

例題1：事實判斷題

在2008年北京奧運會上，中國體育代表團獲得了51塊金牌，位於金牌榜首位。據此，有人認為，中國的體育運動水平已經處於國際領先水平，通過開展體育運動，成功地增強了中國人的體質。

對於這一推論，反駁最有力的一項是：

A 雖然中國獲得的金牌數位於首位，但獲得的獎牌總數卻比美國少。

B 主辦國在獎牌的競爭中往往處於有利地位。

C 中國足球隊在2008奧運會中一場未贏。

D 按人均計算，中國獲得的金牌數低於世界的平均數。

答案：D

例題2：假設辨認題

因為太行、王屋兩座大山擋路，愚公決定率領全家將山移走。他的一個鄰居老人不贊成他的做法，説：“兩座山方圓七百里，高几千米，你怎能移走？”愚公回答説：“我子子孫孫一代一代地堅持移山，山不會增高，怎麼移不走呢？”

愚公的主張能夠成立的前提是：

A．由於地球的地殼運動，山的高度和範圍都可能增加

B．他的後代不會因無婚姻或無生育的原因而中斷延續

C．最終上帝會被他的精神所感動，會幫他把山移走

D．自己的鄰居們會幫助自己一道移山

答案：B

例題3：論證評價題題

司馬遷在《史記》中詳細記述了項羽人生的最後場景：項羽拒絕了駕船的烏江亭長載他東渡烏江捲土重來的建議，自殺以謝江東父老。對此，張強並不贊成。張強認為項羽完全不必自殺，應該東渡之後重整軍馬再戰。

張強對自己的觀點進行了論證，他的論證中最有説服力的一項是：

A 勝敗乃兵家常事

B 士可殺而不可辱

C 《史記》的相關記錄未必真實

D 生當為人傑，死亦作鬼雄

答案：A

從上面3道例題可以看出，對於所討論的問題：中國人的體育運動水平是否世界領先、愚公應該移山還是搬家、項羽應該渡江還是自殺，並沒有唯一正確的標準答案，但是對於論證，卻可以評價和測量，包括：

1. 論證是否基於證據？

2. 所給出事實的可信度如何？

3. 事實與主張相關程度如何？

4. 論證是否合理？

5. 論者對論證中所包含的假設是否清楚？是否清醒？

6. 論證是否有效？是否有力？是否具有説服力？

從上面的3道例題可以看出，論題並沒有標準答案，但論證的水平卻有高下之分。這種論證水平的高下，不僅可以測量，而且可以通過客觀性選擇題的方式進行測量。

三、“審辯式思維”試題與“閲讀理解”試題、“邏輯推理”試題的不同

“審辯式思維”試題、“閲讀理解”試題、“邏輯推理”試題的考查方式均有所不同。

閲讀理解題主要考查對文本內容的把握，包括字詞知識、信息提取、內容歸納、主題概括、對語氣態度的準確判斷等等，即主要考查歸納能力。

例題4：閲讀理解題

在一隻小雞破殼而出的時候，剛好有隻烏龜經過，從此以後這隻小雞就揹着蛋殼過了一生。

這段文字想告訴我們：

A 不要輕易模仿他人

B 有些人生不逢時

C 蛋殼沒有龜殼堅固

D 出門旅行應儘量輕裝簡行

答案：A

邏輯判斷題主要考查根據文本進行合理推斷的能力，包括能否根據已知的文本合理地推斷出文本中並未直接給出的信息，即主要考查演繹能力。

例題5：邏輯推理題

據世界衞生組織估計，目前全球患抑鬱症的人口多達1.2億，幾乎每4人中便有1人在一生中某個階段出現精神或行為問題。到2020年，抑鬱症將位居全球疾病發病率排行榜第二位，僅次於心臟病。在中國，目前約有2600萬人患有不同程度的抑鬱症，不過，90％的抑鬱症患者並沒有意識到自己患有抑鬱症。也未能及時就醫。

根據這段文字，可以知道：

A 全球患抑鬱症的人多達總人口的四分之一

B 中國抑鬱症患者中及時就醫者不超過300萬人

C 在各種疾病中，每年死於心臟病的人數最多

D 及時就醫可以降低抑鬱症的發病率

答案：B

從上面的試題可以發現，邏輯推理能力與交流溝通能力既有區別，也有聯繫，不具備一定的交流溝通能力，談不到進行邏輯推理。與此相仿，審辯式思維與邏輯推理能力之間的關係也是既有區別，又有聯繫，審辯式思維基於邏輯推理之上，二者之間沒有絕對的界線。就像在測試邏輯推理能力的題目中往往也包含着對交流溝通能力的考查一樣，在測試審辯式思維的題目中也會包含對邏輯推理能力的考查，二者不可能完全切割和分離。然而，在審辯式思維試題中雖然包含對交流溝通能力和邏輯推理能力的考查，但所考查的並不僅僅是交流溝通能力和邏輯推理能力，“審辯式思維”試題與“邏輯推理”試題的區別至少體現在以下四個方面：

1. 審辯式思維試題包含對非形式邏輯的考查。具有審辯式思維的人理解，符合形式邏輯是不可突破的“底線”。任何論證，必須符合形式邏輯。但是，形式邏輯存在侷限性，許多時候存在多種符合形式邏輯的不同的、互相沖突的命題，這時，就需要在綜合形式邏輯和非形式邏輯的基礎之上做出選擇，做出決策。

斯特芬·圖爾敏將這種超出形式邏輯的論證邏輯稱為“工作邏輯”、“實踐邏輯”和“實質邏輯”。他指出，在科學、法律、經濟和醫學等許多專業領域，基於傳統形式邏輯的論證意義很有限，實際上真正大量使用的是“實質論證”；在傳統的論證研究領域人們常常將注意力聚焦於“怎樣論證才合乎邏輯”，卻常常忽視“人們實際上如何論證”；在論證中，人們常常採用靜態的“解剖學”方法，而不是採用動態的“生理學”方法。

“邏輯推理”試題可以通過嚴格的形式邏輯導出正確的、可以確證的答案；“審辯式思維”試題卻得不到這樣可以按照形式邏輯嚴格確證的答案，只能得到若干命題人具有共識的普樂好答案。

2. 審辯式思維試題有條件地接受“歸納”。邏輯推理試題不接受歸納，即使我們觀察到一萬隻天鵝是白的，也不能從形式邏輯上確證“天鵝是白的”這一命題。審辯式思維試題則有條件地接受歸納。根據“實質論證”的邏輯，特定條件下，與不能提供案例支持或僅僅能夠提供一兩個案例支持的主張相比，那些可以提供一萬個案例支持的主張，更容易成為我們的普樂好選擇。

3. 審辯式思維試題有條件地接受“類比”和“比喻”。邏輯推理試題不接受類比和比喻的論證方式，類比和比喻在形式邏輯上不成立。我們可以用“發動機與剎車”的關係來比喻“革新與保守”的互補關係，但這種論證在形式邏輯上是不成立的。審辯式思維試題則有條件地接受類比和比喻的論證方式，特定條件下，類比和比喻可能增加某個主張的説服力。

4. 審辯式思維試題有條件地採用“引證權威”的論證方式。邏輯推理試題拒絕“引證權威”的論證方式。根據形式邏輯，“引證權威”的論證方式屬於“訴諸權威謬誤”。審辯式思維試題則有條件地接受“引證權威”的論證方式。在實際生活中，從化妝品的選擇到疾病的治療方案選擇，“引證權威”是經常被採用的論證方法，也常常成為進行選擇的重要依據之一。特定條件下，“引證權威”可能增加某個主張的説服力。

四、從“達標評估”到“成長評估”模型

對於思維能力的測量有不同的教育評估模型。作為21世紀最重要的核心職業勝任力，相對於達標評估，我們更應關注學生的成長評估。達標評估到成長評估是美國學校教育應對州政府問責的重要改革舉措。2015年，經過美國參眾兩院長期討論和兩黨溝通，兩院最終通過了新的教育改革法案《每一個學生成功法案》。其後，奧巴馬總統正式簽署了ESSA法案。這意味着，美國的教育改革進入一個新階段。ESSA於2018年正式開始實行。ESSA取代了小布什總統主持通過的《2001年一個都不能少法案》。與NCLB相比，ESSA的突出特點體現在用“達標成長”的概念完善了NCLB的“達標”概念。在ESSA的貫徹執行過程中，“成長模型”已成為美國各州對學生、教師、學校和學區進行教育評估和問責的主要方法之一。

所謂成長評估模型，是指一組定義、計算方法和規則，可以根據學生兩個或多個時間點的表現，做出與學生、班級、教師和學校有關的解釋。進行成長評估，不僅可以更準確地瞭解學生實際的學習成效，同時可以更準確、更清晰地瞭解教師、學校對學生成績提高所產生的實際影響。

新的“達標成長”的教育評估模型體現了一種新的教育理念。學習，不僅追求“達標”，更要追求“成長”。對於一些基礎好的學生，實現“達標”並不一定能夠實現“成長”；對於一些基礎薄弱的學生，即使暫時“達標”有困難，仍然可以通過學習獲得“成長”。這是一種正視“個別差異”的教育理念。統一的標準很難適用於所有人，成長評估模型體現了人工智能時代一種個性化學習的思路。

美國強調“成長”，主要的着眼點是那些可能掉隊的學生，是力圖幫助那些“達標”有困難的學生獲得“成長”，鼓勵那些幫助學生獲得一定程度成長的教師和學校。中國與美國的國情不同，我們強調“成長”，主要的着眼點應是那些基礎較好的學生，力爭幫助他們不僅“達標”而且獲得實際的“成長”，鼓勵那些幫助學生獲得進一步成長的教師和學校。

成長模型中包含基於數學和統計學的數據處理方法，但成長模型所處理的不僅僅是數學和統計學問題。在成長評估過程中需要考慮複雜的、常常互相沖突的教育目標，需要考慮學生、教師、地方政策、聯邦政策等一系列複雜的政策要求和分數解釋。因此，成長評估的效果還有待於進一步論證。

五、成長評估的主要方法

今天，在美國各州應用的成長測量模型主要有7種。

1. 增分模型：又稱為自我相對成長、原始增益、簡單增益、斜率、平均增益、增益/斜率-成效等。

2. 軌道模型：也被稱為成長達到標準模型、增益分數模型等。

3. 分類模型：也被稱為轉換模型、轉換矩陣模型、價值表等。

4. 殘差模型：也被稱為殘差差異模型、協方差調節模型、殘差百分等級排列等。

5. 投射模型：也被稱為迴歸模型、預測模型。

6. 學生成長百分等級模型：也被稱為科羅拉多模型、百分等級漸進達標成長、條件狀態百分等級。

7. 增值模型：也被稱為桑德斯模型、教育增值評估系統、田納西增值評估系統、田納西模型分層模型、變量保持模型、交叉分類模型。

7種模型各有長處和不足。對於不同的模型，可以對評估結果做出不同的解釋。選擇哪種模型，要考慮自身分數解釋的不同需要。今天，7種模型在美國的各個州中都有應用，使用最多的是學生成長百分比模型，至少有20個州在使用。

六、成長評估的關鍵技術環節——等值

為了對學生的成長進行評估，需要在特定時段的開始時和結束時進行兩次測試。兩次測試不能用同一張試卷。兩張不同的試卷之間需要具有可比性。具有可比性的前提是具有同質性。

所謂同質性，就是兩個測試考查相同的構念。用於成長評估的兩次測試或多次測試，需要具有同質性，但具有同質性並不一定具有可比性。儘管測試的編制者在命題過程中總是儘量保持難度的穩定性，但不同試卷之間在難度、分數分佈方面的差別很難完全避免。兩次測試的難度不同，分數的增長可能歸因於學生的成長，也可能歸因於試卷偏容易。如果第二次測試的分數提高明顯，我們無法知道分數提高是由於學生獲得了“成長”，還是第二次測試的試卷比較容易。只有兩次測試的成績可以進行合理的轉換，可以排除掉試卷難度變化的影響，兩次測試才具有可比性。

這樣，就需要將具有不同難度、分數分佈的試卷的分數轉換到一個統一的量尺之上，採用統一的量尺對應考者進行測量。這種將一個測驗的不同版本的分數統一在一個量表上的過程即等值。等值是成長評估的關鍵技術環節。

近幾十年來，心理測量學家們對測驗等值問題給予越來越多的關注，不僅提出了許多等值方法，而且圍繞等值問題展開了多方面的研究。在等值數據資料的收集方面，即可以採用以“人”為媒介的共同被試組設計，也可以採用以“題”為媒介的“錨測驗”設計。在等值數據資料處理的理論模型方面，可以依據基於真分數假設之上的經典測驗理論，也可以依據基於潛在特質假設之上的項目反應理論。在兩種理論模型的框架內，由於數據收集的方式及所採用的計算方法不同等，又存在着多種不同的等值方法。

圖1是一個包含30題的測試在經過等值之後得到的新試卷與標準卷之間的分數轉換表。從表中可以看出，與標準卷相比，新試卷偏難一些，在新試卷上獲得18分，相當於在標準捲上獲得了20分。

圖1 兩份試卷的等值分數轉換表

七、用於成長評估的縱向量表化

美國教育協會和美國國家教育測量學會共同組織編寫的《教育測量》一書被人們稱為“教育測量領域的《聖經》” 。在2006年《教育測量》第4版出版之前，教育測量領域曾廣泛使用“縱向等值”概念。縱向等值的意思是，對於一些伴隨年齡和學習過程持續發展的能力，如閲讀能力、寫作能力、語言能力、數學能力等，需要編制開發從低到高不同水平的測試量表。考慮到不同級別的考試難度並不相等，從2006年以後，人們不再將這種在不同水平的考試之間建立可比性的過程稱為“縱向等值”，而是稱為“縱向量表化”，將這種由多個不同水平的測試組成的量表稱為“縱向量表”。

在《教育測量》第4版中，使用了一個上位概念，將在不同的測試之間建立可比性的過程統稱為“連接”。將“連接”劃分為三種：等值、預測和量表化。在所測量構念相同、水平相同的不同測驗版本的分數之間建立連接的過程，被稱為“等值”。在所測量構念相同、但水平不同的不同測驗分數之間建立連接的過程，被稱為“量表化”。在所測量構念不同的測驗分數和效度標準變量之間建立聯繫的過程，被稱為“預測”。

在美國各州的成長評估中，採用較多的評估工具是縱向量表《智者平衡評估聯盟測試系統》和《大學學習和就業準備聯合測試》。SBAC和PARCC都將《共同核心國家標準》作為成長評估的依據。CCSS是美國從學前班到高中教育的國家標準。

八、思維能力成長評估在未來選拔性考試中的應用展望

中考、高考、研究生考試等屬於選拔性考試。選拔性考試關注的焦點是“預測”，預測考生在高中和大學中的未來學習表現。

任何預測，都是一種發展趨勢預測。為了進行預測，至少需要有不同時間的兩個觀測點。

圖2 預測模型

從圖2中可以看出，過一點可以做無數條直線，僅僅根據一次觀測的成績無法推斷一個人的發展趨勢。就是説，一次性測驗分數不具有預測意義。

至少在時間 t0、t1 兩次觀察取得A、B兩項成績時，才能過兩點做一條直線，從而預測 t2 時的能力狀況為 C。

兩次觀察是進行預測的最低限度條件，但遠非充分條件。t0、t1兩次觀測的誤差，可能使對 t2時狀態的預測存在較大誤差。如果有多個觀測值，就可以根據多次觀測值計算一條迴歸線，從而提高預測的準確性。

不難理解，根據“達標評估”推斷不出“潛力”，只有“成長評估”才能成為推斷和預測“潛力”的依據。

在未來的選拔性考試中，為了實現“預測”的目的，將會更多參考多次“形成性評價”的結果，而不僅僅是一次“總結性考試”的成績。

九、小結

在快速變化的21世紀，學校教育最重要的任務是發展學生的思維能力。思維能力主要包含三項內容：第一，交流溝通能力，主要是口頭和書面表達能力；第二，邏輯推理能力；第三，審辯式思維。對體現在認知技能方面的思維能力，可以進行客觀化測試。在思維能力評估中，不僅需要進行“達標評估”，還需要重視“成長評估”。

參考文獻：

謝小慶.僅僅依靠形式邏輯所能解決的問題很少，武漢：決策與信息，201762-66.

謝小慶.審辯式思維，上海：學林出版社，2016,42-44.

謝小慶.創新學習新思維，北京：清華大學出版社，2017,91-105.

謝小慶.審辯式思維與理性社會建設，瀋陽：人力資源，2015，69

謝小慶等.行政職業能力傾向測驗，北京：中國鐵道出版社，2001.

謝小慶.關於審辯式思維教學與測試的共識，武漢：湖北招生考試，201551-55.

王曉平、齊森、謝小慶.從“達標”到“成長”——美國教育改革的經驗和教訓，北京：教學管理與教育研究，20187-10.

王曉平，齊森，謝小慶.美國學校“成長測量”的7種主要方法，北京：中國考試，201821-27.

王曉平、謝小慶、劉淅萍.美國7種常用成長評估方式的比較，長沙：新課程評論，2018120-128.

謝小慶.對15種測驗等值方法的比較研究，北京：心理學報，2000217-223.

謝小慶.HSK和MHK的等值，天津：考試研究，200533-46.

謝小慶.考試分數等值的新框架，天津：考試研究，20084-17.

Linn, R. L., ed. :Educational measurement ， Washington, DC：American Council on Education /ORYX Press，1993.

Brennan,R. L., ed. : Educational measurement , Washington, DC: AmericanCouncil on Education/Praeger ，2006.

維基百科SBAC詞條：

https://en.wikipedia.org/wiki/Smarter_Balanced_Assessment_Consortium

維基百科PARCC詞條：https://en.wikipedia.org/wiki/PARCC