在本文中,讨论了基于卷积神经网络(CNN)对87位女性子宫内膜基因表达样本的分类问题。首先,删除掉缺失数据对应的基因,计算信噪比来过滤不相关的基因。然后,将每个指标相应的数据放入CNN中求出分类准确率。之后对每个指标进行归一化处理,同样通过CNN得到4个指标组合的分类准确率。最后,应用下三角矩阵和上三角零元素处理来改进初始化卷积核。后者有效地提高了训练集以及测试集的分类准确率。
肿瘤是当今威胁我们人类健康和生命的主要疾病原因之一,预防和处理肿瘤问题也是所有科学家和研究者密切关心的问题[1]。现如今,合理地利用计算机技术,对癌症进行准确的早期预测变得越来越有意义。在1999 年,首次提出基因表达方法,用于急性髓系白血病和急性淋巴细胞白血病的癌症分类问题[2]。从那时起,基于基因表达的癌症分类开始越来越受到研究者的关注[3] [4] [5]。
Peterson 和Ringner 讨论了各种监督和非监督数据挖掘方法来分析产生的高维数据, 重点是肿瘤基因表达谱的分类和预测[6]。基因选择方法有很多,如K-split lasso,针对肿瘤基因表达数据,是一种有效的特征选择方法,数据冗余得以减少,样本的分类准确率得以提高[7]。将粒子群算法与灰狼优化算法相结合,对Elman 循环神经网络的参数进行优化[8]。在肿瘤分类和预测领域,神经网络的应用取得了良好的效果,作者讨论了利用基因表达和人工神经网络对前列腺癌的分类和诊断预测[9]。
严重威胁妇女健康的疾病之一的子宫内膜癌,是子宫癌的一种,对这种妇科最常见的恶性肿瘤的流行病学、病理生理学和管理策略的全面了解,会使得产科医生或妇科医生能够识别风险较高的妇女,这是有助于减少风险并促进早期诊断[10]。
卷积神经网络作为一种新的网络模型,已逐渐被引入癌症预测中。作者综述了近年来利用卷积神经网络的深度学习方法进行基因表达数据分析的研究工作[11]。该系统旨在提高三维MRI 图像中不同类型肿瘤的分类精度[12]。该算法由一个具有改进的softmax 损失函数和正则化的卷积神经网络组成。
本文选取了小样本、高维的子宫内膜基因数据,类似于简单的图片信息。将数据输入到卷积神经网络并进行正则化处理。
最后, 将遗传数据中包含的4 个指标进行合并, 再次放入卷积神经网络中。
并且, 对初始化卷积核进行改进,发现癌症的分类准确率得以提高。
本文的其余部分组织如下:第二部分介绍了卷积神经网络的基本理论和归一化方法。第三部分介绍数据预处理。第四部分介绍了整个基因数据的实验过程。第五部分给出结束语。
2. 基本理论 2.1. 卷积神经网络 上世纪的八九十年代,卷积神经网络的研究刚刚兴起。最早的卷积神经网络有时延网络和Lenet-5等。
Lecun 总结了卷积神经网络的特点并将其命名为卷积神经网络, 这使他成为了卷积神经网络之父[13]。
近年来,深度学习理论的逐步发展和数值计算设备的相应改进,卷积神经网络得到了快速的发展。它已成功地应用于计算机视觉、自然语言处理等诸多领域。卷积神经网络也可以用于时间序列分类[14] [15]。