蛋白质复合物由一组具有特定生物功能的蛋白质组成。使用计算方法从生物网络中预测蛋白质复合物对于理解生物活动的机制和疾病的发病机理具有重要的现实意义。传统的复合物识别算法通常仅基于网络拓扑结构,忽略生物特征和噪声数据对复合物识别性能的影响。针对该问题,本文提出一种基因本体和核-附属结构的蛋白质复合物识别算法,首先通过语义相似性融合蛋白质相互作用网络和基因本体信息构建有权图模型;其次,设计以局部子图直径和密度为聚类条件的核-附属结构的复合物识别算法GCA。最后,GCA和三个经典的方法在两个复合物数据集中进行比较和分析。实验结果表明,GCA在召回率、f度量和功能富集分析方面的表现均显著优于CFinder,MCode和MCL。
蛋白质复合物是由一组具有功能相似的蛋白质组成, 它是细胞组织形成和功能实现的关键细胞实体。
因此,预测蛋白质复合物可以从系统水平上更好地理解细胞的基本组成和组织机制。通过实验方法检测蛋白质复合物通常比较昂贵并耗费大量时间。而且,有些复合物只能在特定的条件下才能被检测。近年来,高通量实验技术和机器学习的方法产生了大量的蛋白质相互作用数据(PPI)。基于复杂网络的聚类技术、机器学习理论和群智能算法[1]的应用为蛋白质复合物识别奠定了理论基础和技术指导。因此,设计有效的聚类方法识别相互作用网络中的复合物是生物网络分析的一个关键问题。
复合物主要特征:1) 复合物内蛋白质具有结构和功能一致性;2) 在拓扑方面复合物具有相对较高的密度。复合物识别任务转化为利用聚类算法从图中识别蛋白质节点集合。整个PPI 网络可以转化为一个图[2]。根据网络的性质,将其分为有权网络和无权网络,在有权PPI 网络中,两个节点之间边的权值由这两个节点之间存在的相互作用关系的可能性大小表示。在无权的PPI 网络中,所有边权值相同,一般使用二进制的邻接矩阵表示蛋白质节点之间的关系,如果两个蛋白质节点之间没有相互作用关系则用0表示,否则用1 表示。研究发现,在有权网络上进行实验更容易识别出蛋白质复合物。
近年来,复合物识别算法通常基于图的算法聚类PPI 网络。这些方法主要基于PPI 中拓扑属性识别复合物,包括:MCODE [3]、CFinder [4]、MCL [5]、FLCD [6]和CDRWR [7]。MCODE 将PPI 网络中具有相对高密度的区域定位为蛋白质复合物。
CFinder 基于团渗透方法在PPI 网络中识别重叠蛋白质复合物。
文献[5]引入马尔可夫聚类算法识别PPI 网络中高度联通的蛋白质复合物。文献[8]引入随机游走马尔科夫聚类实现在有权或无权图图中识别蛋白质复合物。FLCD 将PPI 网络转化为有向无环图,确定子图的搜索空间,能够在加权/无权PPI 网络挖掘网络中高连通子图。CDRWR 使用相似性计算PPI 中边的权值, 并扩展重要种子节点以确保复合物的完整性,然后通过密度选择外部节点,通过合并策略形成最终的复