蛋白质是机体功能的重要执行者。特定的一些蛋白质对生物的生存、繁殖和生理调节尤为关键,它们往往成为疾病发生、发展中的重要参与者,这类蛋白质被称为关键蛋白质。因此,在疾病预防和治疗过程中快速找到蛋白质关键靶点是尤为重要的。本文提出了一种借助多头注意力机制来解决这一难题的方法。该方法将蛋白质相互作用(PPI)网络的拓扑特征、基因表达谱特征以及同源特融合,从而构建一个融合PPI网络。进而,我们采用图注意力神经网络(GAT)模型,学习融合PPI网络中节点的特征表示,为了更好的地捕获蛋白质之间的关联关系,我们引入多头注意力机制增强模型的学习效果。最终,通过在DIP酵母蛋白数据集上的训练和测试,实验结果证明了我们的方法相较于传统的基于拓扑的策略具有更高的识别精度。
蛋白质是基因表达的产物,参与几乎所有生物活动,是生物体中不可缺少的物质[1]。其中,某些蛋白质对生物的生命维持、繁衍及生理调控有着至关重要的影响,并在疾病的形成和进展中扮演着核心角色,我们通常将这些蛋白质称为关键蛋白质[2]。因此,在疾病的预防和治疗中,准确而迅速地定位这些关键蛋白质靶点变得格外关键。
传统的识别关键蛋白质的方法主要依靠生物学实验,例如RNA 干扰[3],单基因敲除[4]、条件性基因剔除[3]等,这些方法虽然准确性较高,但实验过程复杂、成本昂贵、实验周期长,而且适用于有限的物种。近年来,高通量蛋白质技术的发展为积累了大量的蛋白质相互作用(PPI)数据提供了条件,如蛋白质相互作用数据库(Databaseof Interacting Protein, DIP),美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI)等。这些数据库的建立为研究人员设计计算方法识别关键蛋白质奠定了数据基础。随着蛋白质数据的累积,PPI 网络的构建为理解蛋白质复杂性、生物通路和细胞组织功能提供了新的视角[5] [6]。一系列基于PPI 拓扑结构的中心性方法被提出,例如,Degree Centrality (DC [7])方法采用度中心性,Subgraph Centrality (SC [8])采用子图中心性,Eigenvector Centrality (EC [9])采用特征向量中心性,Information Centrality (IC [10])引入信息中心性,Neighborhood Centrality (NC [11])引入邻居中心性,Local Average Connectivity (LAC [12])引入局部特征中心性。基于PPI 网络拓扑特性提出的一系列方法虽然有效地提高了关键蛋白质识别率,但是蛋白质相互作用数据本身具有很高的假阳性,使得基于拓扑结构的方法存在局限性。为了解决上述问题,更多的研究者提出将蛋白质相互作用网络的拓扑特