战“疫” 大数据立大功

非药物干预（NPI）随时间代际间隔的效果。

中国大陆COVID-19病例代际间隔的演变。

许小可团队相关研究被《科学》期刊在线发表。

[核心提示]

用大数据揭示，从武汉离开的人流对全国新冠肺炎疫情的影响；通过对大规模流行病学数据的分析，证明非药物干预在传染病控制领域的重要性；“流调”大数据提醒，疫情漩涡中家庭成员谁更需要格外“警惕”……新冠肺炎疫情暴发以来，在防止疫情蔓延的过程中，大数据成为重要的技术工具。大连民族大学信息与通信工程学院教授许小可带领团队成员围绕疫情信息科普传播、疫情传播风险预测、媒体干预疫情等领域开展研究，为抗击疫情提供了理论支撑。

许小可教授带领团队成员开展的相关研究，其阶段性成果已发表于国际国内多个权威期刊。其中，与香港大学、剑桥大学、北京师范大学等高校学者合作的研究成果“快速识别和隔离有症状的COVID-19患者可缩短平均序列间隔”，对于改进传播动力学评估、预测未来发病率等具有重大意义，被国际权威期刊《科学》在线优先发表。

/ 大连新闻传媒集团记者谢小芳 /

证明：疫情控制依赖于什么？

在没有疫苗甚至没有药物治疗患者的情况下，中国开始采取隔离和戴口罩的措施阻止这种病毒的传播。像新冠肺炎这样的传染病，系列间隔被定义为从一个感染者出现症状到另一个人被该感染者感染并开始出现症状的时间段。比如说，A感染了B，B发现自己有症状的时间减去A发现自己有症状的时间为系列间隔。许小可与多所高校的学者合作，研究了系列间隔对这种疾病传播的影响。7月22日，《科学》期刊在线发表了该成果。

许小可介绍说，课题组开发了一系列线性多变量回归模型，以预测感染者出现症状的代际间隔。在这次疫情大流行的早期阶段，人们认为新冠肺炎患者的平均系列间隔大约为8天。但随着数据的获得，人们发现新冠肺炎的平均系列间隔并不是一个单一的数字，而是会随着情况的变化而变化。

课题组整理和分析了1月9日至1月22日期间677个感染对的数据，发现平均系列间隔为7.8天。但1月30日至2月13日的数据显示它为2.2天。“我们认为，平均系列间隔的缩短是由于实施了隔离措施。这说明，更快速地识别感染者并将其隔离，可以减少平均系列间隔，减少这种疾病的传播。”

“在没有抗病毒药物或疫苗的情况下，疫情控制依赖于对确诊病例的迅速发现和隔离。新冠肺炎疫情发生以来，各级政府及时采取了隔离病例、追踪密切接触者、严格限制人群流动、保持良好卫生习惯、保持社交距离等一系列防控措施，有效抑制了新冠肺炎病毒在社区的传播，为防止疫情本地扩散作出了重要贡献，这也是为世界疫情防控提供的中国经验。”

分析：11699条病例大数据提供决策参考

截至8月8日，许小可带领团队收集和整理了27个省市的11699条病例，占总病例数15572条（不包括湖北省）的75.1%。

“这1万多条个体数据全部来自于各级政府公开数据，我们团队成员一条一条地抓取，然后统一和规范化数据，让数据能用、可用。用大数据进行研究需要经过数据抓取、数据预处理、数据编码、数据标准化、数据分析、数据可视化、建模、结果分析等一系列复杂的过程。”许小可回忆说。

他表示，根据确诊病例公开数据，辅以人口流动、交通工具等数据，可预测全国369个主要城市新冠肺炎病毒从武汉输入的风险，为包括少数民族地区在内的全国各地疫情防控提供决策参考。

针对我国目前主要为聚集性疫情且发生中家庭占83%以上这一情况，团队构建了大规模病例的个体描述数据库来分析新冠肺炎病毒如何进入和流出家庭的社交链特征。通过网络分析筛选出满足家庭聚集性特征的大样本病例传染序列，最终构建出家庭内部成员之间的传播网络。

许小可表示，湖北省以外的中国其他地区的社区传播非常有限，大部分为家庭聚集性疫情。“流调”大数据显示，家庭聚集性疫情事件中的传播链上，大部分传染源来自中年，年龄区间为18~49岁，且性别多为男性，他们是将新冠肺炎病毒传播给其他家庭成员的主要源头。这一研究结果提示公众：家庭成员中，中年、男性更应该格外注重个人社交距离的保持，格外注意良好卫生习惯的坚持，要格外警惕，避免成为“传染源”。

■参与者说

数据编码统一

是疫情大数据分析的前提

/ 大连新闻传媒集团记者谢小芳 /

数据编码统一是大数据分析的前提。但在疫情期间，由于各地公开的数据内容不统一、不规范，对于专业的数据分析人士来说，这些数据不便于被开发应用，也无法用来进行有效的数据分析。许小可团队有很多成员从今年2月就开始负责最基础的数据编码工作，他们所做的工作是对相关疫情数据进行归纳、整理、总结、批注，对数据加注标签，为数据分析提供能够满足需求的可读数据编码。

吴双是大连民族大学计算机技术系研究生。疫情发生时，他正在黑龙江大庆市的家里过寒假。“我们团队的大规模编码工作从2月9日开始，断断续续一直持续到8月份才基本结束。”

吴双说，对收集好的数据进行编码，就是根据后续研究的需求，从某一个病例信息中提取出需要的特征信息，包括性别、年龄、职业、感染地、被感染方式、发病时间、去医院时间、就诊医院、病情程度、行动轨迹、传染链（谁传染谁、谁又传染谁）等将近30类信息。这一过程不能用算法去处理数据，都需要根据老师制定的编码规则手动去分析完成，每个信息都要自己从病例数据中提取。

“编码规则是很缜密的，提取后的数据老师会进行检查，同时因为可能存在个人主观因素的不同而导致差异。我们每两个人会对同一数据（同城市）进行编码，然后检测出编码不同的地方，再进行更严密的分析更正。我们这部分编码工作是最基本的工作，但却是最耗费精力和时间的。”

“使用大数据搞科研，我觉得就是一个与数据‘战斗’的过程。在擂台竞技中，要战胜就首先要了解敌人。大数据科研也这个道理，首先你要了解你的数据，而了解的过程就是采用数据预处理、数据分析等方法，发现大量数据中所隐藏的规律和特点。”吴双说。

杨晨：缜密交互查验，确保每份数据都准确有效

杨晨也是许小可的研究生，她研究的主要是新冠肺炎疫情对我国交通流的影响。“我们和北京师范大学吴晔老师团队进行了合作，组成了一个18人的编码团队。首先，为保证数据完整，我们对第一阶段整理的各省每日病例进行了整理和补充，并对疫情数据采集网站进行记录，对每日新增和各市累积数据数量进行比对，保证了时间和数据的准确性和完整性。接着，两个团队各派出一人组成一组，根据统一的编码规则按照省份各自独自编码。我们还进行了试编码，两人的一致率在90%以上才可以开始编码。并且，每300条数据进行核验和日检查，通过代码计算出准确率，对准确率不够的要安排第三人进行重新编码，保证数据的独立性和准确性。”

杨晨说，用大数据可以实现疫情的可追溯、可预测、可量化。一是可以利用大数据实现疫情预警，能够帮助公共卫生部门预警潜在疫情，避免疫情更大范围地传播。二是根据患者之间的接触关系，可以发现潜在传染源，尽快采取措施。最后，可以根据患者的病情程度划分出重症和轻症患者，将有限的医疗资源优先配置给危重症和重症患者，提高就诊效率。

■建议

大连民族大学信息与通信工程学院教授许小可：

新冠肺炎及重大传染病信息公开应该标准化、规范化

/ 大连新闻传媒集团记者谢小芳 /

新冠肺炎疫情发生后，国家卫生健康委员会和各级政府按照《政府信息公开条例》要求，纷纷启动了疫情数据的信息公开工作。我国的政府数据开放和应用也在此过程中取得了实质性的突破。疫情数据特别是病例信息的公开，对于满足公众知情权、加强公众自我防护意识和抗击新冠肺炎疫情起到了重要作用。

针对这些公开病例数据，社会上的专业组织和个人也迅速行动，努力把政府数据用好用活，为公众提供解读分析。这些举措有利于公众提高防护意识，同时大大压缩谣言传播空间，提升政府公信力。

“我们在使用数据的过程中，最大的困难是各地公开数据的内容不统一、不规范。有的仅公布群体的粗略信息，有的公布详细个体信息；有的仅公布确诊患者数据，有的还公布疑似感染者、密切接触者数据；有的仅公布个人籍贯、居住地等静态信息，有的还公布其乘坐交通工具的轨迹信息等。形式上没有统一标准，内容上缺乏统一规范，使得各地的疫情信息很难进行横向对比和分析。我们前期规范数据需要花费大量时间，将每一个确诊病例的数据进行格式规范，对每一条信息进行编码。”

许小可说，当前公开数据的形式缺少用户视角和数据利用思维。绝大部分地方都是以在文字中夹杂数字的形式发布疫情数据信息，部分城市存在每天用词差异等。这种数据属于非结构化数据，对于普通公众来说，这种方式不够清晰直观，不便于阅读和直观理解。对于数据分析人士来说，这种数据形式也不便于被开发应用，应用前需要先将数据从这些文字中提取出来，整理成结构化的数据。数据加工的难度很大、费时费力，不同的数据分析者要重复进行此项工作。

此外，病例公开数据的精细度在社会上也有一些争议。有些地区政府部门在发布疫情数据时，公布了患者的姓氏、性别、年龄、居住地、就诊医院、车牌号等个人信息，这对于减少社会恐慌情绪、助力精准防控、确定重点区域与人群具有重要作用。但是个人数据的过度披露有可能对患者或相关人员造成伤害，因此公开数据的精细度存在争议。目前，发布数据还无法做到既有利于公众做好自我防护、降低恐惧情绪，又能严格保护患者的隐私，即把握好两者之间的平衡。

许小可建议：第一，组建跨专业的专家咨询委员会，制定统一的、规范的传染病病例信息收集流程和公开数据格式。建议以国家卫生健康委员会牵头，适度借助外部力量，邀请国内知名公共卫生专家、大数据领域专家、伦理学专家和卫生法学专家参与，在法律法规约束下广泛征求社会意见，最终形成科学合理的新冠肺炎和其他传染性疾病的标准化信息采集流程和数据格式。

第二，实施传染病疫情数据的分级公开和使用政策。关心新冠肺炎和其他传染病疫情数据的主要有两类人群：普通公众和专业人士。对于普通用户，邀请可视化专家或联合商业公司进行设计，侧重于公众快速高效理解疫情信息。针对专业人士，在保证病例隐私不外泄的前提下授权他们使用丰富、全面的疫情结构化数据，搞好数据架构的顶层设计，提供多种数据导出功能。

第三，构建统一的传染病疫情公开和数据分享平台。目前，各级政府进行新冠肺炎病例信息公开的途径多种多样，包括省市卫健委网站、省市公开数据目录、政府公众号等，给公众获取信息带来不便，不利于完整的数据收集。建议以国家疾控中心公共卫生科学数据为基础，构建统一的新冠肺炎疫情公开和数据分享平台。

第四，创造条件吸引市场、社会和公众等各方来使用数据，实现经济和社会收益最大化。政府部门可以利用此次疫情数据公开为契机，调动市场和社会上的各种力量，让他们运用自己的专业能力对数据进行开发利用，从而让政府和市场以数据为纽带形成一种合作伙伴关系。各方之间实现一种合作众创、协同治理的模式，最终打通从新冠肺炎疫情数据开放、数据利用到价值创造的闭环。

本版图片由受访者提供

来源:大连日报