CN
EN CN

首页 技术平台 自主技术 GPD
GPD
固定骨架序列设计是蛋白质工程的"最后一公里"。ProteinMPNN 是当前工业界最常用的方法,但它有一个隐性短板:序列多样性不足。高多样性意味着更大的功能搜索空间,也意味着更高的湿实验命中概率。

GPD(Graphormer-based Protein Design)基于 Graphormer 图神经网络架构,将三维蛋白质结构表征为图,利用 Transformer 对节点特征进行注意力计算。训练过程中引入高斯噪声与随机掩码,增强序列恢复能力与多样性。输入目标骨架,即可输出高活性、高多样性的氨基酸序列。

GPD.jpg


数据层面,GPD 在 103 条单链蛋白质测试集上,序列复现率达 27.9%,多样性保持 28%。设计 10,000 条 261 残基序列,GPD 仅需 0.97 小时,ProteinMPNN 需要 3.11 小时,ESM-IF1 需要 55 小时。相比 ProteinMPNN,多样性提升 2.2 倍,速度提升 1.6 倍。
湿实验是最终的裁判。课题组采用 GPD 设计的蛋白质药物,体外验证成功率超过 50%。在南极酵母脂肪酶(CalB)改造中,所得变体催化活性较野生型提升 1.7 倍,并对 C2–C16 不同碳链底物表现出强选择性。

工业酶改造、抗体人源化序列优化、合成生物学酶元件开发——任何需要"给骨架配序列"的场景,GPD 都提供了比现有 SOTA 更宽的设计空间与更快的迭代速度。

该成果发表于 Briefings in Bioinformatics(2024),代码已开源。

论文:https://doi.org/10.1093/bib/bbae135
GitHub:https://github.com/decodermu/GPD

在线留言

  • 留言内容