目前,治疗乳腺癌的候选药物是能够抗结ERα活性的化合物合成的,但由于化合物定量结构复杂、药代动力学性质(ADMET)不稳定,导致药物研发成本较高。本文通过相关性分析得出对ERα活性影响较高的20个分子描述符,并基于数据挖掘技术和机器学习算法,建立了相关化合物定量结构-ERα活性以及定量结构-ADMET性质的定量预测模型,对药物研发具有一定帮助。
乳腺癌是目前女性常见三大癌症之一,据统计2018 国内乳腺癌确诊人数占女性癌症确诊总人数的19.2%且乳腺癌确诊率呈现逐年上升趋势[1] [2]。根据癌细胞内蛋白分子的不同,乳腺癌可以分为雌激素受体、孕激素受体、人表皮生长因子-2 三类,其中,约70%的乳腺癌患者表现为雌激素受体α (Estrogen Receptorα, ERα)阳性[3] [4]。
雌激素受体α 是一种转录因子核受体, 其活性主要通过与雌激素结合来调控, 该受体的活性受到雌激素的影响,研究发现该受体长期与雌激素结合是乳腺癌产生的因素之一[5]。
目前,对于ERα 表达的乳腺癌患者的常规治疗是采用抗激素疗法,主要是通过限制雌激素受体的活性,从而达到控制体内激素水平的目的。抑制ERα 成为了治疗乳腺癌的重要手段,因此在选择治疗乳腺癌的临床药物上,能够拮抗ERα 活性的化合物成为了首选。当下,在药物研发过程中,建立化合物预测模型成为了筛选化合物活性的主要方法。另外,化合物具备良好的药代动力学性质和安全性,合称为ADMET 性质,只有具备良好生物活性和ADMET 性质的化合物,才能成为候选药物。
本文旨在根据提供的ERα 拮抗剂信息,通过机器学习方法构建化合物生物活性的定量预测模型和ADMET 性质的分类预测模型,从而达到为优化ERα 拮抗剂的生物活性定量预测和ADMET 性质分类预测提供服务的目的。
2. 化合物对ERα 生物活性的定量预测模型 2.1. 分子描述符筛选 本文采用了斯皮尔曼相关系数法评价化合物各分子描述符对生物活性的相关程度,以找出要求的前20 个影响最为显著的分子描述符;同时使用基于BP 神经网络的MIV 平均影响值算法,将729 个分子描述符数据作为输入,pIC50 预测值作为输出,计算得到各分子描述符所代表的相关系数,找出前20 个影响最为显著的分子描述符。
Spearman 相关系数能够确切的表明两个变量之间相关的程度,所以化合物的分子描述符对其生物活性的显著影响可由相关系数表征。本文中化合物的分子描述符属于等级数据,独立变量X 和依赖变量Y之间无明显的正态分布和线性关系,故Spearman 相关系数方法是用来求解该问题的有效方法。
针对化合物的分子描述符,Spearman 相关系数可简化为: ()22611idn nρ = −−∑ (1) 其中, id 为变量之间的等级差,一个数的等级,就是将其所在的一列数按照从小到大排序后这个数所在的位置,可以证明: