CAS-TWAS可持续发展网络 欢迎您

微生物所等构建基于人工智能的新冠病毒虚拟变异评估和预警系统

发稿时间:2021-10-15      

随着全球新冠疫控的持续,新型冠状病毒基因组在流行过程中持续发生变异。迄今,在全球科学技术人员的共同努力下,已经对超过400万例病毒基因组进行了测序,并构建了多个病毒基因组数据库。这些数据库(如GISAID)在收集、展示数据的基础上,包含了病毒分型、溯源分析等功能,为全球疫情的监测追踪提供了重要的信息。然而,随着对变异研究的深入,对变异造成的功能影响日渐成为关注的焦点。

目前,在全球多个国家和地区均发现了包括Alpha、Beta和Delta在内的多种感染力增强的变异毒株,尤其是关键位点积累的氨基酸变异,极大地改变了病毒的免疫学特征,增加了病毒免疫逃逸的风险,可能会降低现有疫苗、抗体、药物等疫情控制方法的保护性,影响核酸诊断试剂的适用性,对疫情的防控构成了严峻挑战。

因此,现有的以收集、展示数据为主的基本数据库已经难以满足未来疫情防控的需求,亟需一个基于大数据的病毒变异风险评估及预警系统,对现有及未来可能出现的各种变异造成的影响进行系统性评估和解读,从而实施更加精准有效的疫情防控策略。

近日,中国科学院微生物研究所马俊才/胡松年团队与北京大学、中国科学院计算机网络信息中心等团队合作,在国际学术期刊Nucleic Acids Research上发布了“新型冠状病毒变异评估和预警系统”(SARS-CoV-2 Variations Evaluation and Prewaning System),简称VarEPS数据库。

VarEPS是全球首个对SARS-CoV-2基因组已知变异及虚拟变异进行多维度风险评估和预警的系统。该数据库从基因组学和结构生物学角度入手,在基于变异位点频率评估的基础上,从核苷酸变异发生难易程度、氨基酸替换难度、变异对蛋白质二级结构的影响、单个氨基酸突变引起的ACE2及中和抗体结合自由能变化等参数对变异进行多维度的评估,全面对已知变异和潜在的虚拟变异对病毒的功能造成的影响进行综合分析。

在此基础上,该系统采用人工智能分类器算法,将变异株从传播性和对中和抗体亲和力两方面进行有效分组,实现了基于病毒序列的风险评估和预警。

该系统不仅可以作为全球病毒变异监测和追踪的工具,同时还可以基于虚拟变异和风险评估模型,为针对新型变异毒株的精准防控和抗体疫苗设计提供有效的参考信息。目前基于该系统的分析结果为精准高效应对SARS-CoV-2突发疫情提供了重要决策依据,同时也为应对其他突发传染性公共卫生事件提供了技术储备。

上述研究成果已于10月11日在Nucleic Acids Research上在线发表,中科院微生物所微生物资源与大数据中心孙清岚、舒畅高级工程师为该论文的并列第一作者。中科院微生物所微生物资源前期开发国家重点实验室胡松年研究员、高胜寒特别研究助理、国家微生物科学数据中心马俊才研究员、吴林寰正高级工程师为该论文的共同通讯作者。该研究得到了国家重点研发计划、中科院A类战略性先导科技专项、中科院重点部署项目、国家自然科学基金金砖国家国际合作项目的经费支持。

该数据库通过国家微生物科学数据中心NMDC对全球用户公开免费开放,可在www.nmdc.cn/ncovn上自由访问。 VarEPS 系统的功能界面由五个主要部分组成:“病毒和变异”、“结合能力评估”、“引物功效评估”、“统计”和“分析工具”。

其中,“病毒和变异”以表格形式显示包括谱系、单核苷酸多态性 (SNP) 数以及核苷酸和氨基酸的变异信息,并对每个病毒序列提供了所有相关突变和引物评估结果的单独页面。“结合能力评估”部分允许用户通过变异所在基因、谱系和抗体结合位点上的位置进行查询,结果以表格的形式展示每个已知变异及所有虚拟变异的多维度风险评估结果,计算并显示抗体亲和力、与ACE2的结合稳定性、氨基酸替代的风险以及第一次和最后一次检出的时间等数据。“引物功效评估”部分可评估每个突变株对RT-PCR引物效力的影响,并给出受影响的相应毒株信息。

论文链接:

https://academic.oup.com/nar/advance-article-abstract/doi/10.1093/nar/gkab921/6389500

W020211015471946979150.png

图 1. 变异评估和预警系统 (VarEPS) 门户特征。研究人员展示了基因组序列在时间框架和地理位置上的全球分布,列出了每个谱系特征变异的风险级别和频率,用户可以直接在主页上提交序列进行变异分析

W020211015471947216762.png

图 2. S-RBD区关键突变的 ACE2 结合稳定性和抗体亲和力风险水平。研究人员计算了变异对15 种中和抗体的亲和力降低风险水平,抗体亲和力降低和 ACE2 结合稳定性增加的风险水平从 0 到 2 排列。此外还提供了这些变体随时间变化的频率

  • 关键词: