深度学习模型与物理知识结合的蛋白质设计

微调蛋白质大语言模型

蛋白质语言模型(pLM)通过学习氨基酸序列的共进化信息,可以预测序列的下一个氨基酸。我们使用核酸酶序列的blast结果对蛋白质语言模型使用LORA微调得到可以生成多样核酸酶的模型,生成的序列融合了多个物种的核酸酶特征

蛋白质结构预测

自从Alphafold以来,多种蛋白质结构预测模型可以精确地从序列预测蛋白质原子结构。Alphafold需要MSA(多重序列比对)信息,尽管Alphafold也有单序列模式,但是ESMfold更加方便好用。我们在服务器上批量预测蛋白结构辅助设计。

机器学习核酸-蛋白力场

深度学习模型十分强大,但是设计的蛋白结构的稳定性和功能缺乏解释性。物理知识的引入可以为蛋白的结构稳定性和功能提供计算依据和解释。我们使用MD(分子动力学)模拟蛋白在水环境的结构变化。对于核酸酶,需要建模核酸与蛋白复合结构,这时核酸力场与蛋白力场的组合十分重要。我们使用机器学习算法学习PDB数据库中的核酸-蛋白复合结构,提出一个核酸与蛋白力场参数共同训练的机器学习力场。