基于BP神经网络的抗乳腺癌药物的选择与寻优

发布日期:2022年7月18日
基于BP神经网络的抗乳腺癌药物的选择与寻优 基于BP神经网络的抗乳腺癌药物的选择与寻优

本内容试读结束

下载后可阅读完整内容,立即下载

研究表明,雌激素受体α亚型(Estrogen receptors alpha, ERα)在乳腺发育过程中至关重要,ERα被认为是治疗乳腺癌的重要靶标。本文基于1974个与ERα的生物活性有关的化合物,采用机器学习,构建化合物生物活性的定量预测模型和ADMET性质的分类预测模型。随后选用基于样本相关系数的检验对729个分子描述符对生物活性影响的重要性进行排序,最终得到了前20个最具影响的分子描述符。采用具有非线性映射能力的BP神经网络来建立生物活性预测模型。同时从线性模型与非线性模型两个角度出发来构建模型,计算得出两种模型寻找的20个主要分子描述符及获得的生物活性和ADMET性质。

乳腺癌是发生于乳腺上皮或导管上皮的恶性肿瘤,病因尚不完全清楚,其在全球女性癌症中的发病率为24.2%, 位居首位, 其中52.9%发生在发展中国家。

研究表明, 雌激素受体α 亚型[1] (Estrogen receptor alpha, ERα)在乳腺发育过程中至关重要。现阶段,抗激素治疗方法经常被用来帮助ERa 表达的患者,它可以调节雌激素的受体活性从而达到控制体内雌激素水平的目的。

ERα 被认为是治疗乳腺癌的重要靶标, 能够拮抗ERα 活性的化合物可能是治疗乳腺癌的候选药物。

在药物研发中,通常采用建立化合物活性预测模型的方法来筛选潜在活性化合物。现收集一系列作用于ERa 靶标的化合物及其生物活性数据,然后以一系列分子结构描述符作为自变量,化合物的生物活性值作为因变量,构建化合物的定量结构–活性关系(Quantitative Structure-Activity Relationship, QSAR)模型,然后使用该模型预测具有更好生物活性的新化合物分子,或者指导已有活性化合物的结构优化。

一个化合物想要成为候选药物,需具备的性质合称为ADMET (Absorption 吸收、Distribution 分布、Metabolism 代谢、Excretion 排泄、Toxicity 毒性)性质。为方便建模,本文仅考虑化合物的5 种ADMET性质,分别是:1) 小肠上皮细胞渗透性(Caco-2);2) 细胞色素P450 酶(Cytochrome P450, CYP) 3A4 亚型(CYP3A4);3) 化合物心脏安全性评价(human Ether-a-go-go Related Gene, hERG);4) 人体口服生物利用度(Human Oral Bioavailability, HOB);5) 微核试验(Micronucleus, MN)。

本文基于2021 年华为杯中国研究生数学建模竞赛D 题提供的数据集,数据集内含1974 个化合物数据、1974 个化合物的729 个分子描述符信息、1974 个化合物的5 种ADMET 性质,构建化合物生物活性的定量预测模型和ADMET 性质的分类预测模型, 从而为同时优化ERα 拮抗剂的生物活性和ADMET 性质提供预测服务。

2. ERα 生物活性数据的选择 要求变量对生物活性影响的重要性对729 个分子描述符进行变量选择,可以认为是特征选择问题。

因此本文选用基于样本相关系数的检验对729 个分子描述符对生物活性影响的重要性进行打分,为防止分子描述符之间存在耦合关系,使用皮尔森相关性检验对按照重要度排序的分子描述符进行线性相关检验,最终选取前20 个最具影响的分子描述符,其流程图如图1 所示:



相关标签