病毒是世界上最神秘的微生物,与人类健康息息相关。全球病毒种类繁多且高度分化,在生态系统中扮演着至关重要的角色。
近年来,随着宏转录组学的迅猛发展,为全球RNA病毒多样性的评估提供了强有力的支撑,RNA病毒研究从最初以人类和动物为主,逐渐扩展到被忽视的无脊椎动物及各地不同生境中的环境样本。尽管通过不断扩大采样范围和优化测序技术在丰富全球RNA病毒多样性方面取得了显著进展,但目前学术界对RNA病毒的鉴定仍然十分依赖于已知病毒序列同源性,这使得我们对这些不具备序列同源性的高度分化病毒“暗物质”知之甚少。
2024年10月9日,中山大学医学院施莽教授团队和阿里云李兆融团队合作,在国际顶尖学术期刊 Cell 上发表了题为:Using artificial intelligence to document the hidden RNA virosphere 的研究论文。
研究团队利用人工智能(AI)技术发现了180个病毒超群和16万余种全新RNA病毒,将已知病毒种类扩充了近30倍。其中包括传统研究方法未能发现的病毒“暗物质”,极大扩展了全球RNA病毒的多样性。这一突破标志着深度学习算法在病毒发现领域取得了里程碑式的进展,为病毒学研究开创了一种全新的范式。
得益于深度学习在病毒发现领域及整个生物学背景下的广泛应用,并取得了初步进展,本研究前所未有地整合了序列信息与结构信息,运用深度学习方法对全球各地10487份宏转录组进行病毒挖掘,成功发现了513134条病毒基因组,代表161979个潜在病毒种类及180个RNA病毒超群(相当于门或纲的分类级别),使RNA病毒超群数量扩容约9倍。其中23个超群无法通过序列同源性方法识别,被称为病毒“暗物质”。这些神秘的病毒存在于地球上每一种生境中,如空气、南极底泥、深海热泉、活性污泥和盐碱滩等。值得注意的是,该研究揭示了有史以来最大的RNA病毒,其基因组长达47250个核苷酸,全方位刷新了人们对RNA“病毒圈”的认知。
使用AI对全球病毒圈的深度挖掘
总之,该研究基于深度学习在病毒发现领域取得了显著成功,标志着病毒发现新纪元的开启。它不仅拓宽了我们对全球RNA病毒多样性的理解,为解析这些微生物在生态系统中的作用提供新视角。同时,这也为公共卫生、生物安全及疫苗研发等领域带来了启示,有助于提升人类应对未来疫情风险的能力。随着更高效的序列识别技术和快速蛋白质结构预测模型的问世,我们期待,病毒学界将能更高效地运用这些深度学习模型,实现更大规模的病毒发现,并进一步提高识别精确性。