关于合成生物学的探讨中,有个问题一直处于模糊状态:人工智能的切入点到底在哪?
在传统工业端,人工智能可以依托现有的工业路径循序渐进:AI+技术可以将生产流程优化到*,AI+平台则致力于将企业管理效率推到*。
然而合成生物学本身就是一门前沿学科,商业路径仍在早期探索,市场上仍缺乏一套可复制的工业化模板,没有作业可以抄。
合成生物学实在是一块大蛋糕。根据nova one advisor最新数据,2023 年全球合成生物学市场规模为 140.9 亿美元,预计到 2033 年将达到约 801.7 亿美元,在 2024 年至 2033 年的预测期内以 18.99% 的复合年增长率增长。
机遇在前,人工智能的利剑握在手中,却找不到合适的切入点,这种疑问把AI在合成生物领域应用技术创新困在了原地。
从概念上说,合成生物学的研究,本质上是把生物学和工程学相结合来设计和创建具有新颖功能的生物系统。
这套生物系统,我们运用工程学的概念推导,必须经由功能各异、形式多样并且能够良好实现预期功能的生物元件组成。
常见的生物元件包括催化酶、转录因子、转运蛋白、蛋白支架等,看似迥异却有一个共性。
这些功能元件都是蛋白质。
01 蛋白质三维结构 一道世纪难题
细胞里中的DNA和RNA记录了我们的遗传信息,但真正在细胞里面执行功能的是蛋白质。
如何执行功能?蛋白质在细胞里会折叠成固定的三维构型,这个三维结构决定了它的功能。
研究蛋白质的三维结构的这个过程,被称为“蛋白质结构预测”。
解构蛋白质就像玩折纸游戏,虽然科学界对蛋白质的分子式已经很了解,但预测这些组成蛋白质的原子最后会形成怎么样的构型仍是个很困难的问题。
在过去 60 多年的历史中,科学界最开始主要利用名为“合理设计”的方法来解析蛋白质。
这种方法需要先根据蛋白质实际3D结构对蛋白质进行建模,再识别出可能影响蛋白质功能的氨基酸,解析水平严重受限于相对稀缺而难于得到的可分辨3D蛋白质结构。
为了获得更多可分辨的3D蛋白质结构,蛋白质结构生物学应运而生。
1959 年,佩鲁茨和肯德鲁对血红蛋白和肌红蛋白进行结构分析,解决了三维空间结构,并因此获得 1962 年诺贝尔化学奖。
之后豪普特曼和卡尔勒建立起应用 X 射线分析的以直接法测定晶体结构的纯数学理论,凭借在晶体研究中划时代的意义,获得1985年的诺贝尔化学奖。
下一程技术创新足足等到了2017 年,亨德森、雅克和约阿希姆三位科学家发明了冷冻电镜技术,并被授予诺贝尔化学奖。
在这长达半个多世纪的时间里,传统方法之下的蛋白质合成领域进展非常缓慢,仅解析出约15万个蛋白质,只覆盖了人类蛋白质序列中17%的氨基酸残基。
并且传统方法下的科研人员需要使用实验仪器亲自测量蛋白质的三维结构,耗费了大量的时间和成本,甚至还不一定准确。
02 后AlphaFold2时代 颠覆了什么?
课题没有变,那么以AlphaFold2为代表的人工智能方法,是如何通过计算技术把蛋白质的三维结构给算出来的?
2016年,被誉为“AI预测蛋白质结构*人”的许锦波博士在CASP12(“蛋白质结构预测奥运会”)首次展示了*代人工智能方法RaptorX。
成功将残差网络应用于蛋白质残基接触图的预测中,人类对蛋白质结构的预测精度被大幅提升。
后来领导DeepMind团队,设计了AlphaFold人工智能系统的John Jumper博士当时就坐在台下,这位芝加哥大学生物物理系的博士后,在听完许锦波的报告后,全力转向深度学习方法,并在两个月后加入Deepmind。
而2018年,Deepmind带着AlphaFold首次参赛CASP13,并在 98 名参赛者中名列榜首,准确地从 43 种蛋白质中预测出了 25 种蛋白质的结构。
“这是人工智能对科学领域*的一次贡献,也是人类在 21 世纪取得的最重要的科学突破之一”生物物理学家、西湖大学校长施一公对AlphaFold给予了高度评价。
蛋白质预测真正火出圈在2020年,Deepmind升级了AlphaFold2,并在CASP14(“蛋白质结构预测奥运会”)中遥遥*。
AlphaFold2团队颠覆性地提出使用注意力机制对目标蛋白进行预测,对人类蛋白质组58%的氨基酸的结构位置实现了可信预测。
这一成功让物理的trRosetta结构预测模型时代成为历史。
AlphaFold2能直接由AI幻觉(AI Hallucinations)产生骨架和相应的序列,随后使用蛋白质设计工具(如ProteinMPNN),就能很快地重新设计产生幻觉的骨干序列。
目前AlphaFold2已经预测出了约20000种人类基因组蛋白质,覆盖几乎整个人类蛋白质组(98.5%的人类蛋白)。
一石激起千层浪,后AlphaFold2时代浪潮席卷而来,蛋白质结构领域多样化的AI探索如泉水般涌现。
同年Bruno E. Correia团队基于并行约束逻辑,编程出蛋白质拓扑预测模型TopoBuilder,能够从二级结构分配和拓扑折叠规则中预测蛋白质的α/β-片层和β-片层拓扑
另一方面在商业市场,全球*批AI+蛋白质企业登上历史舞台。
包括推出蛋白质预测和发现的大语言模型ESM-2的meta AI公司、推出蛋白质预测机器学习模型UniRep的Nabla Bio 公司等。
AI帮助人类破译了“蛋白质密码”,解答困扰生物学界的世纪难题被解开,下一步,人类想以自己的智慧设计出大自然中不曾存在,具有特殊功能的蛋白质。
并期待它具有诊断、治疗、乃至治愈疾病的潜力。
03 从头设计蛋白质 向造物主发出挑战
这一梦想并非后AlphaFold2时代的专属,在没有计算函数工具之前,最早在20世纪80年代的科学家就开始了从头设计蛋白质的探索。
2003年,全球*由科学家从头开始设计的全新蛋白质Top7诞生。
当时该团队自行开发的Rosetta算法,首先分析蛋白质的生物物理特性,模拟出一个大致的形状,生成一个新的蛋白质骨架,然后开始迭代循环。
再根据固定的骨架设计序列,随后根据固定的序列调整骨架,只留下自由能更低的结果。
但Top7是惰性的,没有执行任何有意义的生物功能。
1997年,全球*由科学家从头开始设计的全新蛋白质序列FSD-1诞生。
研究团队利用自然界中存在的骨架结构(Figure 2A) 进行了完整的计算重新设计,算法基于物理化学势函数和立体化学约束,筛选了一个组合库中的1.9 x 10^27种可能的氨基酸序列,设计出的序列名为FSD-1。
该序列与任何已知蛋白质序列的相似度非常低,但设计效率太低。
颠覆性变革发生在2021年,AI蛋白质领域的传奇科学家DavidBaker受到AlphaFold2的启发,带领团队推出基于深度学习的从头设计蛋白质设计工具RoseTTAFold。
RoseTTAFold系统结构简介
RoseTTAFold是一个 “三轨” 神经网络,这意味着它同时考虑一维蛋白质中的氨基酸序列、二维蛋白质的氨基酸如何相互作用以及蛋白质可能的三维结构。
不仅能如AlphaFold2般计算数百种新的蛋白质结构,还能生成与人类健康直接相关的蛋白质结构,包括与非正常脂质代谢、炎症障碍和癌细胞生长相关的蛋白质结构。
2022年,该团队还推出基于深度学习的从头设计蛋白质序列新工具ProteinMPNN。
该工具能够在几秒内设计出原创蛋白质分子,并在自然蛋白质骨架上实现52.4%的序列恢复率,而传统的 Rosetta方法仅为32%。
ProteinMPNN设计的纳米环形结构
这些成果都表明,人工智能技术加持下的蛋白质设计工具,可以用从前所需时间的很小一部分,构建出复杂生物组件的模型。
其技术飞跃背后,与后AlphaFold2时代涌现出的相关大语言模型(Large Language Model)紧密相关。
比较有代表性的包括Noelia Ferruz团队的ProtGPT2,这是一套用于蛋白质设计的深度无监督语言模型。
以及Salesforce AI Research 公司的蛋白质语言模型ProGen,可以一次性生成百万序列,而且对酶家族有独特优势。
到如今,风头无二的生成式AI让人类从头设计蛋白质的水平再上新阶梯,基于扩散模型的深度学习模型出现。
DavidBaker团队发布的深度学习模型RF Diffusion能够突破既往诸多蛋白质设计限制,可根据需要“定制化”设计出包含高阶对称结构等以往无法通过AI设计的蛋白质。
图神经网络(Graph Neural Networks)的应用也极大提升了模型的设计精确度。
AI蛋白质领域明星企业GenerateBiomedicines开源的生成式人工智能模型Chroma,就建立在扩散模型和图神经网络的框架上,能够从头生成高质量、多样化和创新的蛋白质结构。
在相关论文中研究团队使用Chroma生成了310个自然界中不存在的蛋白质,并通过实验验证了这些蛋白质可以表达、折叠,并具有良好的生物物理特性。
利用人工智能从头设计蛋白质模型的工具诞生,让工业界按需设计生物分子成为可能,为人类带来变革性疫苗和药物开发的新时代。
04 蛋白分子机器 回归合成生物
了解到AI+合成生物学的切入点“蛋白质工具”的历史变迁与技术前沿,我们将视野收归合成生物学。
近年来,以 AI 为核心的蛋白质设计已经从技术概念过渡到价值验证阶段。
在实际的生物学和工程学相结合的生物系统中,我们最主要的目标在于,能不能通过AI+蛋白质结构学工具,按需优化现有的蛋白质或者定制设计蛋白质。
比如对特定抗体进行优化,使得它能够跟抗原结合更好;或者说能不能设计一个自然界不存在的蛋白,用它来制药或用于其他目的;或者能不能把某一个生物酶优化得更好?
未来的合成生物学方向,必然走向对工程原理的模块化管理,需要能设计具有任意形状的复杂结构,从而实现即插即用,类似于工业流水线。
这意味着其中的必要元件——设计出的蛋白质,能根据需要调整其生化参数,响应内外刺激,并且能够与其他功能模块组合,形成复杂的“蛋白分子机器”。
无论是抗体药物研发还是合成生物学的酶工程方向,蛋白分子机器的构建是合成生物学从实验室走向工厂,实现规模化生产的必然要求,其中人工智能是必不可少的助推力。
毕竟,蛋白质是人类合成万物,重塑物质世界的基石。
相信不久的将来,我们就能见证人类创造出具有可调性、可控性和模块化的蛋白质,并勇敢驶向合成生物学的星辰大海。
参考文献:
Kortemme T. De novo protein design—From new structures to programmable functions[J]. Cell, 2024, 187(3): 526-544.
卞佳豪, 杨广宇.人工智能辅助的蛋白质工程[J]. 合成生物学, 2022, 3(3): 429-444.