谷歌DeepMind团队研发的阿尔法折叠2(AlphaFold2)使用最新的人工智能算法对蛋白质结构实现了接近实验精度的精准预测。复旦大学复杂体系多尺度研究院教授马剑鹏团队与上海人工智能实验室合作,近日在国际知名刊物《生物信息学简报》上发表论文,显示其蛋白质侧链预测算法(OPUS-Rota4算法)精度显著超越了谷歌团队的阿尔法折叠算法。
在目前阿尔法折叠算法开源的情况下,复旦团队的算法可以为任何蛋白质结构预测工作提供比阿尔法折叠更准确的侧链模型,从而为蛋白质结构研究,尤其是基于蛋白质结构的新药设计工作提供了助力。
蛋白质三维结构由主链和侧链共同搭建而成,人工智能系统预测蛋白质结构的通常步骤,是先为蛋白质主链建模,再根据主链的构象为侧链建模。自然界中的蛋白质含有20种氨基酸,它们的主链几乎完全相同,而侧链差异很大。由于药物分子与人体蛋白质结合的位点绝大多数在氨基酸侧链上,因此人工智能系统对侧链的精准预测对新药研发具有重要价值。这种精准预测能力还可用于解释基因点突变、基因小片段突变的机制,为遗传性疾病研究和治疗提供宝贵思路。
近年来的研究中,研究人员开发的侧链建模算法大多基于抽样,如SCWRL4、OPUS-Rota3等。其从离散的侧链二面角转子库中进行抽样,随后根据一系列能量函数进行优化,找到能够让能量最低的二面角转子即为最终结果。基于抽样的侧链建模算法的优点是速度较快,但由于使用离散的转子并受限于能量函数的准确性,其整体侧链预测精度仍然有待提高。
OPUS-Rota4引入深度学习算法,使得蛋白质侧链建模精度得到了大幅提升。研究人员首先使用OPUS-RotaNN2结合多种不同的提取特征得到初始的侧链二面角预测结果,之后使用OPUS-RotaCM得到侧链原子接触图,最后使用其自主研发的建模框架OPUS-Fold2根据接触图对初始侧链二面角预测结果进行优化并输出最终结果。
团队研究人员表示,将会对蛋白质侧链建模进行进一步研究,以期继续提升准确率,并将对侧链建模在实际问题中的应用进行探索。