本文构建了一个新的预测化合物–蛋白质关联关系的端到端的模型,可直接输入样本序列后直接输出预测结果,命名为“CT-CPI”。在此方法中,模型主要由嵌入模块、CNN模块、transformer模块、合并模块以及多层感知机模块组成。本文对嵌入方法、transformer模型进行了改进,主要表现为优化了嵌入样本信息的语义可解释性以及在模型中将样本信息充分利用。该模型在基于不同的数据集进行实验时结果显示:基于Davis数据库提供的数据集作为实验数据下,模型预测的AUC值达到了95.6%,模型以DrugBank数据库为数据集时,模型预测效果达到了95.8%。结果表明:与传统模型相比,我们的模型具有更好的预测结果。
在新药物的发掘中, 识别化合物–蛋白质的关联关系(CPI)是一项十分重要的工作。
在生物信息学中, 如果可以准确的识别化合物与蛋白质关联关系,将可以大大的降低成本而且可以缩短时间。如果我们想要精准的预测化合物与蛋白质关联关系,我们就需要更全面的蛋白质信息,例如三维结构的蛋白质的信息。但是由于现有的方法无法将获取三维结构的蛋白质的信息以三维的形式嵌入到CPI 方法中,所以开发者需要只能使用蛋白质二维信息或一维序列信息来预测化合物与蛋白质关联关系。而化合物最常见的嵌入方法是通过smile 方法进行的一维嵌入方式,所以我们也需要使用蛋白质的一维序列信息进行实验。
因为化合物与蛋白质的结构都不同,所以化合物与蛋白质的序列长短不一。然而之前的方法中,由于不合理的嵌入方法,以及过少的特征信息,这都会导致最终的预测结果性能不佳。
2. 模型研究现状 药物发掘与再利用是当前生物医学中十分重要的一项工作。其中识别化合物–蛋白质的关联关系(CPI)是这项工作中的关键一环。传统的识别CPI 方法主要有两种,一种是通过湿式实验室识别CPI,但是这种处理方法的成本昂贵,并且耗时;另一种方法是虚拟筛选(vs) [1],即通过计算机计算CPI。虚拟筛选可以分为两类,一类方法是从靶蛋白的三维结构出发的基于受体的虚拟筛选方法,另一类方法一般是利用已知活性的小分子化合物的基于配体的虚拟筛选方法。在过去的研究中,基于配体的虚拟筛选的方法在药物发掘方面获得了较好的研究成果[2]。对于基于受体的虚拟筛选的方法,如果蛋白质的3D 结构未知, 那么这些方法的预测能力就非常有限了。
Bredel 和Jacoby 提出了一种称为化学基因组学的学科, 其中对化合物与蛋白质的嵌入方法做出了很多研究[3]。对于蛋白质的嵌入方法,Bredel 等人提出蛋白质使用一维序列信息进行嵌入也可以获得化合物与蛋白质关联关系的预测结果。所以自此以后,很多研究者提出了各种基于嵌入蛋白质的一维序列信息的算法用于预测药物信息与蛋白质的关联关系。其中,基于深度学习的算法能够让机器具有分析学习能力,能够识别文字、图像和声音等数据,在数据挖掘、机