近日,我院林章凛教授团队和华南理工大学生物科学与工程学院杨晓锋副教授团队在Cell知名子刊《iScience》上发表了题为《An Iterative Deep Learning-Guided Algorithm for Directed Protein Evolution》的研究论文,介绍了一种可迭代深度学习指导的蛋白质定向进化方法(DeepDE)。该方法集成了无监督学习、弱阳性学习与有监督学习策略;仅用中等数据集 1,000(单或者双突变株)进行有监督的训练;用三突变株作为搜寻半径,该半径既有巨大的技术挑战性(搜索空间:百亿级别),但是又允许作者实验上采用有限筛选策略(每步只使用1,000突变株)进行蛋白人工进化。作为概念验证,研究工作使用了来自Aequorea victoria的绿色荧光蛋白(avGFP)为模式蛋白,开展了4轮迭代进化实验,成功获得活性提高73倍的突变体,是现有的经过各国科学家多年联合努力得到的benchmark金标准(sfGFP)活性的将近二倍,而且似乎达到了其活性的极限。它标志着AI在蛋白质化学和生物技术领域应用的又一个重要突破。
蛋白质(酶)是工业、医学和农业等关键领域生物技术应用的“芯片”技术之一。然而,蛋白质的序列空间极其庞大,一个普通蛋白质仅三个位点的突变组合就达到10¹⁰ 级别。这种巨大的复杂性给蛋白质功能改造带来了严峻的挑战。经典的蛋白质工程方法“定向进化”(2018年诺贝尔化学奖)虽然比传统设计更有用,但迭代过程往往费力耗时、效率低下。近年来,人工智能(尤其是深度学习)迅速崛起成为蛋白质工程的重要工具。然而,迄今为止,深度学习指导的蛋白质工程的成功案例仍然有限。这主要是因为许多算法主要依赖已有实验数据的“内测”(in-distribution testing),缺乏外推能力(out-of-distribution testing)的验证,导致面对实际复杂蛋白质工程案例时,往往失败。而DeepDE的成功恰是重点关注了算法的外推能力及实验验证。比如,在四轮的进化中,该方法通过仅仅4,000突变株的有限筛选,有效搜索了1035 级别的空间,展现出了卓越的外推能力,未来有望广泛应用于蛋白(酶)工程、药物开发等多个领域。当然,研究团队也指出,目前DeepDE的算法依然有多处可以改进的地方;并且尚需更多的实际蛋白(酶)工程的验证。研究团队已经在积极研发DeepDE 2.0。
本研究由华南理工大学生物科学与工程学院2019级博士生李晓繁为第一作者,广东工业大学林章凛教授和华南理工大学杨晓锋副教授为共同通讯作者。本研究得到国家重点研发计划等的支持。
论文链接:https://www.cell.com/iscience/fulltext/S2589-0042(25)01585-8#sec-8
下一条:我校汤亚东团队在《Nano Energy》期刊发表可穿戴智能医疗传感研究成果