近年来,乳腺癌已经成为全世界范围内女性患病率和死亡率非常高的恶性肿瘤,研究与制作抗乳腺癌药物已经迫在眉睫。在此背景下,本文主要研究了能够拮抗ERα活性的抗乳腺癌候选药物的ADMET (吸收Absorption、分布Distribution、代谢Metabolism、排泄Excretion和毒性Toxicity)性质的预测模型,对临床试验得到的1974个化合物的ADMET数据进行预处理和相关分析。运用BP神经网络和XGBoost回归两种方法建立并研究了两种对化合物ADMET性质的定量预测模型。实验研究结果表示,对比于BP神经网络方法,XGBoost分类预测模型对于该任务误差最低、效果最好。
21 世纪以来,乳腺癌已经成为全世界范围内女性患病率和死亡率比较高的恶性肿瘤。乳腺癌是乳腺上皮细胞在多种致癌因子的作用下,发生增殖失控的现象。乳腺癌的发生发展与雌激素水平密切相关。
约70%的乳腺癌是雌激素受体α (Estrogen receptors alpha, ERα)阳性乳腺癌[1]。ERα 的异常表达会促使乳腺癌的发生及进展。目前,治疗乳腺癌的方法有很多,比如手术治疗、物理治疗以及药物治疗等。针对ERα 表达的乳腺癌患者的治疗,抗激素药物往往能够起到一定的效果,也是对于ERα 表达的乳腺癌患者治疗的一种常用的手段。所以,那些可以拮抗ERα 活性的药物就有可能用来治疗乳腺癌。
在抗乳腺癌药物[2]的研究中,抗乳腺癌候选药物应该具有很好的生物活性才能够更好地抑制ERα。
而一个化合物想要成为候选药物, 不仅需要具备良好的生物活性(此处指抗乳腺癌活性), 还需要在人体内具备良好的药代动力学性质和安全性,也就是本文研究的ADMET。具体来说,不良的药物吸收(Absorption)、分布(Distribution)、代谢(Metabolism)、排泄(Excretion)性质和毒性(ADMET)是导致药物开发失败的主要原因之一[3] [4]。
一个化合物的活性再好, 如果其ADMET 性质不佳, 比如很难被人体吸收, 或者体内代谢速度太快,或者具有某种毒性,那么其仍然难以成为药物。所以,良好的ADMET 特性是一个化合物能够成为乳腺癌候选药物的必要条件之一。基于此,我们对抗乳腺癌候选药物筛选过程中的ADMET 性质的分类预测模型进行了研究,希望通过数据挖掘的处理技术来解决药物筛选建模的问题, 并且可以通过数学建模的过程之中实现对候选模型的筛选过程中预测模型[5]的优化,这对于寻找更合适的抗乳腺癌药物、治疗ERα 表达的乳腺癌患者具有重要意义。
本文利用临床试验所提供的1974 个化合物的ADMET 数据,分别构建化合物的Caco-2、CYP3A4、hERG、HOB、MN 的分类预测模型。利用“1”和“0”来分别表示ADMET 性质的好坏。用小肠上皮细胞渗透性(Caco-2)为例,‘1’代表该化合物的小肠上皮细胞渗透性比较好,‘0’代表该化合物的小肠上皮细胞渗透性比较差。其余的四组ADMET 性质的分类方法类似。本文分别运用BP 神经网络[6]和XGBoost 回归[7] [8]两种方法建立并研究了对化合物ADMET 性质的定量预测模型。结果表示,对比于BP 神经网络方法,XGBoost 分类预测模型对于该任务误差最低、效果最好。
2. 模型设计 2.1. 双隐藏层神经网络模型 本文采用含有一个隐藏层两层的多输入单输出结构BP 神经网络模型来进行分类预测。采用该模型