乳腺癌已经成为危害全球女性健康的主要癌症之一。拮抗ERα活性的化合物可能是治疗乳腺癌的候选药物,本文通过对1974个与ERα的生物活性有关的化合物进行研究,对分子描述符进行斯皮尔曼等级相关性分析,为了降低变量之间相关性对结果的影响,还需进行系统聚类分析,提取其中20个对ERα的生物活性影响最大的分子描述符。采用遗传算法优化的BP神经网络建立出ERα生物活性定量预测模型,再利用支持向量机SVM算法构建化合物ADMET性质分类预测模型,最后利用多目标优化思想结合遗传算法寻优,得出了使抗乳腺癌药物具有最优效果的分子描述符及其取值。
乳腺癌是威胁着全世界女性健康的一种常见恶性肿瘤。它已经成为目前世界上致死率较高的癌症之一[1]。全球每年有52.2 万人死于乳腺癌疾病,其中发达国家的发病率高于欠发达国家[2]。雌激素受体活性α (Estrogen receptors alpha, Erα)是治疗乳腺癌的重要指标[3],对于能够抑制其活性的化合物都有可能成为治愈乳腺癌的候选药物。药物不仅要有一定的活性,而且其药代动力学性质和安全性(简称ADMET)也必须得到一定的保障。
新药物的产生不可避免地需要兼顾建立化合物结构和生物活性模型和药代动力学性质的分类预测模型。这两个模型的建立也为后续优化药物生物活性和药代动力学性质打下了基础,使得研发人员在药物研发过程中具有更加灵活的自主性[4]。
本文根据Erα 拮抗药物的相关数据信息,利用基于遗传算法优化的神经网络建立化合物生物活性的定量预测模型, 利用支持向量机SVM 建立ADMET 性质的分类预测模型, 以此可作为优化Erα 拮抗剂的生物活性和ADMET 性质的预测的手段。本文数据来自2021 年华为杯中国研究生数学建模竞赛D 题, 数据集为含有1974 个化合物对Erα 的生物活性数据、1974 个化合物的729 个分子描述符信息、1974 个化合物的5 种ADMET 性质的数据。
2. ERα 生物活性的定量预测模型 为了从1974 个化合物中找到能够显著影响药物活性的化合物,首先对数据集进行预处理,将各个化合物的ERα 生物活性绘制散点图,通过绘制散点图,可剔除与ERα 生物活性无关,或影响极小的分子描述符,其部分分子描述散点分布图如图1 所示,可以看出nAcid、ALogp2、nB 等含量对化合物ER