近日,智药元创医学技术有限公司联合创始人陈海峰教授开发了一种原创而高效的全新蛋白序列设计方法GPD,该方法与当前的SOTA方法proteinMPNN相比,序列多样性显著更高,生成速度快2.2倍,能够显著提升工业酶及蛋白质药物的从头设计能力。研究结果发表于中科院Top期刊《Briefings in Bioinformatics》。
蛋白质设计是几乎所有蛋白质工程问题的核心,因为它可以实现具有全新生物学功能的蛋白质的创造,并能够提高酶的催化效率等。蛋白质设计的一个关键问题是固定骨架的蛋白质序列设计,它旨在设计新的序列以符合预定的蛋白质骨架结构。然而,现有的序列设计方法存在多种局限性,如序列多样性低和设计的功能性蛋白质的实验验证不足,严重阻碍了功能性蛋白质设计。
在此研究中为改进上述限制,团队基于Graphormer的蛋白质设计(GPD)模型。该模型利用Transformer进行基于图的3D蛋白质结构表示,结合高斯噪声和序列随机掩码融入节点特征,从而增强了序列设计质量。
此后,团队在研究过程中评估了GPD的序列设计质量,发现其能够设计生成更合理的蛋白序列,并且保有较高的序列多样性,同时多数设计的序列都能够在结构预测模型中折叠为所需的结构。GPD在序列可折叠性、序列同源性,以及序列多样性方面总体优于现有模型。
此外,智药元创携手上海交通大学, 将GPD应用到南极假丝酵母酯水解酶(CALB)的重设计上,生成并筛选了9条人工设计的蛋白序列。与野生型CalB相比,其中一条设计序列的催化酶活提高了1.7倍。实验的结果进一步说明GPD的设计具有合理性,同时效率高于之前的理性设计或定向进化方法。
同时,对于多个底物的酶活测试发现GPD设计的序列均具有很高的底物特异性,在不同碳链长度(C2-C16)的p-硝基苯酚醋酸酯上表现出强烈的底物选择性,这对于CALB酶的工业应用也具有一定的意义。
智药元创开发的原创蛋白质序列设计方法GPD,可用于工业酶和蛋白质药物的人工智能全新设计,为新质生产力的快速发展奠定方法学基础。公司将先进计算方法引入生物制药领域,致力于打造AI赋能的蛋白酶改造与创新药物设计平台。