楠木轩

AI如何把你“扒光光”:从学术能力开始,社交网络帖子暴露你的一切

由 劳新忠 发布于 经典

HSE大学教育研究所计算社会科学实验室科学家创建了一个计算机模型,只需要看看你在社交媒体上发布的内容,就能判断你学术能力的高低。

每个词都有不同的权重。科学和文化主题、英语单词以及长单词、长帖子的权重很高,可以作为良好学习成绩的指标。大量的表情符号、大写字母的单词或完整短语,以及与星座、驾驶和兵役相关的词汇都表明学校的成绩较低。

研究使用了来自HSE大学纵向队列小组研究“教育和职业轨迹”(TrEC)的代表性数据样本。这项研究追踪了俄罗斯42个地区4400名参加PISA(国际学生评估项目)的学生的职业道路,以及部分学生VK账户的数据(3483名学生参与者同意提供此信息)。

VK平台的帖子被用作培训样本,其中包括2012年2468名PISA测试受试者的130575个帖子。这项测试使研究人员能够评估学生的学术能力以及他们将知识应用于实践的能力。

在开发和测试PISA测试的模型时,学生总共要接受3个测试:阅读、数学和科学,但只有学生的阅读成绩被用作学术能力的指标。PISA将阅读素养定义为“理解、使用、反思和参与书面文本,以实现个人目标,发展自己的知识和潜力,并参与社会。”

该考试有6个水平。得2分的学生被认为只符合基本的最低水平,而那些5分或6分的学生被认为是优秀的学生。

本研究在VK后语料库(共计19亿个单词,250万个唯一单词)上进行了基于词向量表示的无监督机器学习。它与一个更简单的有监督的机器学习模型相结合,该模型在各个位置进行训练,最终目标是预测PISA分数。

这个“预测”并不是指对未来的预测,而是指计算结果与学生在PISA考试中获得的真实分数之间的相关性。在初步阶段,模型学习了如何预测PISA数据。在最后的模型中,计算结果与高中毕业生和大学新生的使用结果进行了对比。

当然,结果也需要验证。因此该模型随后被应用于914所俄罗斯高中(位于圣彼得堡、萨马拉和托木斯克;这套系统包括近3.9万名用户,共创建了110万个帖子)和100所俄罗斯最大的大学(11.58万人,共发帖650万)来衡量这些机构学生的学习成绩。

结果显示,模型的预测结果和现实结果相似,二者之间的相关性在0.49-0.6。如果是对高中案例,其中的相关性高达0.83。

这种模型能否应用于其他社交媒体网站?研究人员表示,应用在推特上时,模型的质量并没有显著下降,但由于只有大学相关内容有足够的数量,因此分析仅在这一组上进行。重要的是,该模型成功地应用于不同社交媒体网站的数据集,从而证明了其在不同环境下的有效性。

研究人员表示,该模型可以用在很多截然不同的方面,比学习成绩、收入乃至抑郁情况。

译/前瞻经济学人APP资讯组

参考资料:

[1]https://techxplore.com/news/2020-10-artificial-intelligence-students-outcomes-based.html

[2]https://epjdatascience.springeropen.com/articles/10.1140/epjds/s13688-020-00245-8