AI设计出有功能的蛋白质科学家利用AI对话细胞
通过自然语言设计蛋白质,还能和细胞“对话”破解内部机制?
听起来有点像科幻小说,但现在的蛋白质语言模型(PLM),已经能让科学家能相对轻松地设计酶和抗体等分子。
《Nature》的最新文章,为我们介绍了发生在蛋白质设计和结构生物学领域令人激动的进展:
- 西湖大学最新文本转蛋白质模型
上个月,中国西湖大学的原发杰团队推出Pinal模型,这是少数能用自然语言指导设计的AI之一。【图2】
要让生物AI理解自然语言,通常需要让它们学习生物数据的文本描述。
原发杰团队用17亿条蛋白质的结构、功能等文本描述训练Pinal,最终模型能根据指令生成数百种序列设计。
研究证明,Pinal能成功设计出功能原创的蛋白质,包括经实验室验证的酶和荧光蛋白。
例如,当输入“请设计一种酒精脱氢酶”时,模型生成的8种设计中,有2种成功催化了酒精分解,尽管效率远低于天然酶。【图3】
- 其他模型
初创公司310.ai开发的MP4模型也能通过文本设计蛋白质。
他们的副总裁Timothy Riley透露,他们正用该模型设计类似减肥神药GLP-1的蛋白质。
不过公司联合创始人Kathy Wei指出,如何用恰当的文字指令引导AI仍是挑战,就像早期图像生成AI常把人类的手画得畸形一样,MP4有时会生成重复序列的蛋白质。
- 药物设计
蛋白质设计并非唯一受益于AI的领域。
去年Gitter团队发布的模型能根据文本提示设计小分子药物,该模型成功设计出针对已知蛋白质靶点的类药物抑制剂。
- 与细胞“对话”
单细胞RNA全分子测序技术已成为细胞生物学的基石性手段。
维也纳医科大学的Christoph Bock团队开发的CellWhisperer聊天机器人,能根据“详细描述这些细胞”等指令生成文本报告。
用户还可通过“套索”工具圈选感兴趣的细胞群,对可视化图谱进行交互式查询。
耶鲁大学David van Dijk团队则将单细胞测序数据转化为细胞所表达基因的长列表,用大语言模型Cell2Sentence直接以英语描述细胞特性,甚至能够预测抗癌药物对基因表达的影响。