AI如何把你“扒光光”:從學術能力開始,社交網絡帖子暴露你的一切

AI如何把你“扒光光”:從學術能力開始,社交網絡帖子暴露你的一切

HSE大學教育研究所計算社會科學實驗室科學家創建了一個計算機模型,只需要看看你在社交媒體上發佈的內容,就能判斷你學術能力的高低。

每個詞都有不同的權重。科學和文化主題、英語單詞以及長單詞、長帖子的權重很高,可以作為良好學習成績的指標。大量的表情符號、大寫字母的單詞或完整短語,以及與星座、駕駛和兵役相關的詞彙都表明學校的成績較低。

研究使用了來自HSE大學縱向隊列小組研究“教育和職業軌跡”(TrEC)的代表性數據樣本。這項研究追蹤了俄羅斯42個地區4400名參加PISA(國際學生評估項目)的學生的職業道路,以及部分學生VK賬户的數據(3483名學生參與者同意提供此信息)。

VK平台的帖子被用作培訓樣本,其中包括2012年2468名PISA測試受試者的130575個帖子。這項測試使研究人員能夠評估學生的學術能力以及他們將知識應用於實踐的能力。

在開發和測試PISA測試的模型時,學生總共要接受3個測試:閲讀、數學和科學,但只有學生的閲讀成績被用作學術能力的指標。PISA將閲讀素養定義為“理解、使用、反思和參與書面文本,以實現個人目標,發展自己的知識和潛力,並參與社會。”

該考試有6個水平。得2分的學生被認為只符合基本的最低水平,而那些5分或6分的學生被認為是優秀的學生。

本研究在VK後語料庫(共計19億個單詞,250萬個唯一單詞)上進行了基於詞向量表示的無監督機器學習。它與一個更簡單的有監督的機器學習模型相結合,該模型在各個位置進行訓練,最終目標是預測PISA分數。

這個“預測”並不是指對未來的預測,而是指計算結果與學生在PISA考試中獲得的真實分數之間的相關性。在初步階段,模型學習瞭如何預測PISA數據。在最後的模型中,計算結果與高中畢業生和大學新生的使用結果進行了對比。

當然,結果也需要驗證。因此該模型隨後被應用於914所俄羅斯高中(位於聖彼得堡、薩馬拉和託木斯克;這套系統包括近3.9萬名用户,共創建了110萬個帖子)和100所俄羅斯最大的大學(11.58萬人,共發帖650萬)來衡量這些機構學生的學習成績。

結果顯示,模型的預測結果和現實結果相似,二者之間的相關性在0.49-0.6。如果是對高中案例,其中的相關性高達0.83。

這種模型能否應用於其他社交媒體網站?研究人員表示,應用在推特上時,模型的質量並沒有顯著下降,但由於只有大學相關內容有足夠的數量,因此分析僅在這一組上進行。重要的是,該模型成功地應用於不同社交媒體網站的數據集,從而證明了其在不同環境下的有效性。

研究人員表示,該模型可以用在很多截然不同的方面,比學習成績、收入乃至抑鬱情況。

譯/前瞻經濟學人APP資訊組

參考資料:

[1]https://techxplore.com/news/2020-10-artificial-intelligence-students-outcomes-based.html

[2]https://epjdatascience.springeropen.com/articles/10.1140/epjds/s13688-020-00245-8

版權聲明:本文源自 網絡, 於,由 楠木軒 整理發佈,共 1309 字。

轉載請註明: AI如何把你“扒光光”:從學術能力開始,社交網絡帖子暴露你的一切 - 楠木軒