乳腺癌在全球范围内已取代肺癌成为最常见的癌症,并且其死亡率居高不下。因此,利用机器学习和智能优化算法等技术筛选乳腺癌药物对于推动乳腺癌治疗药物的发展至关重要。本文提出了一种基于改进的随机森林算法构建ERa活性预测模型的方法,并筛选出对生物活性最具影响力的前20个分子描述符。然后,使用该模型对50个化合物的IC50值和对应的pIC50值进行预测。同时,借助支持向量机(SVM)和Adaboost二分类模型,对化合物Caco-2、CYP3A4、hERG、HOB、MN的5种成分进行分别预测,并建立ADMET分类预测模型。最后,利用秃鹰搜索算法构建化合物筛选模型,使用黑鹰搜索算法融合前两个模型,解决各类复杂数值优化问题,以找到可行性药物操作变量范围。实验结果表明,所提出的预测模型具有很高的准确性,可应用于抗乳腺癌药物的研发。
乳腺癌目前发病率在2~3/万之间,高居全球第一,而且还在呈上升趋势,年龄也越来越年轻化。在研究ERα 基因缺失小鼠的实验结果中,发现ERα 是治疗乳腺癌的重要靶标,因此能够拮抗ERα 活性的化合物可能是治疗乳腺癌的候选药物[1]。但是想要成为候选药物,除了需要具备良好的生物活性外,还需要在人体内具备良好的药代动力学性质和安全性, 合称为ADMET (Absorption 吸收、Distribution 分布、Metabolism 代谢、Excretion 排泄、Toxicity 毒性)性质[2]。但一个化合物的活性再好,如果其ADMET 性质不佳,比如很难被人体吸收,或者体内代谢速度太快,或者具有某种毒性,那么其仍然难以成为药物, 因而还需要进行ADMET 性质优化。
传统药物研发渠道的平均成本为26 亿美元,大概耗时12 年,因此如何在降低成本和时间的同时确保药物的有效性成为药物公司的重大难题,基于机器学习、深度学习辅助药物各个阶段的研发越来越成为各大公司的首选。基于图注意力网络,构造分子图作为分子结构特征的药物ADMET 分类预测模型进行药物研发的虚拟筛选,据有良好的精准性[3]。采用Chemoffice 2004 中的MOPAC-PM3 算法筛选量化吡喃酮类化合物的量子化学结构,利用人工神经网络中的径向基网络建立分子结构描述符与生物活性间的相关模型,有效的提高了对吡喃酮类化合物结构的预测精度[4]。基于RegNet-1d 模型和积分梯度法的ERα 拮抗剂的生物活性预测方法,通过搭建RegNet-1d 深度学习模型,并以积分梯度法为理论基础进行数据结构优化,变量对生物活性影响的相关性分布,以此筛选合适的分子描述符变量,时优化后的模型预测准确率略有下降但所需测量的数据量大大减少,节约了药物研发的时间和成本[5]。采用分子描述、支持向量机、遗传算法三种机器学习建立ADMET 的QSAR 预测模型,验证结果得出可推广应用至药物代谢、毒性评估等方面[6]。