兒童分級閲讀文本難度測評系統亮相,可自動測評童書難度
資料圖 北晚新視覺供圖
中文分級閲讀有了科學評定的依據——由人民教育出版社和北京大學合作開發的“兒童分級閲讀文本難度測評系統”日前正式亮相,該系統可廣泛運用於考試閲讀試題文本難度、少兒閲讀童書難度的自動測評。
北京大學計算機學院副教授、項目課題組組長吳雲芳介紹,兒童在不同的成長時期,閲讀性質和閲讀能力是完全不同的,分級閲讀的研究目標就是讓每個人都讀到適合自己的書。為此,項目組吸收了網頁、童書、教材三類語料,關注不同閲讀對象、不同內容主題在語言使用、詞彙運用上的差異,構建出目前國內最大的漢語分級閲讀語料庫。項目組還基於深度神經網絡模型對漢語文本閲讀難度進行了探索。
基於大規模、多來源的語料,項目組對詞語使用狀況進行了詳細的統計分析,確定了義務教育階段分級詞表,共收錄了14459個詞語,並將其分為7級;其中,1至6級對應小學1至6個年級,7級對應初中階段。在義務教育階段分級詞表研製基礎上,人教社還啓動了兒童分級閲讀書系的編寫,目前已完成了前3級圖書的編寫。