基于RFR模型的抗乳腺癌候选药物优化

发布日期:2023年3月29日
基于RFR模型的抗乳腺癌候选药物优化 基于RFR模型的抗乳腺癌候选药物优化

本内容试读结束

下载后可阅读完整内容,立即下载

在抗乳腺癌药物研发中,为了节省时间成本,建立化合物预测模型来筛选活性化合物是一种有效的方法。本文根据提供的乳腺癌治疗靶标雌激素受体α亚型(Estrogen receptors alpha, ERα)拮抗剂信息,利用Lasso回归与随机森林相结合的方法,对数据降维并筛选出影响生物活性的主要变量,明确了模型建立的方向;在此基础上,建立了关于生物活性的随机森林回归模型并进行了预测。

根据世界卫生组织国际癌症研究署发布的《2020 年全球癌症负担报告》显示:全球乳腺癌新发病例高达226 万例,已经超过肺癌(221 万例)成为全球第一大癌,占全球新发癌症病例的11.7%。乳腺癌是目前世界上最常见、致死率较高的癌症之一[1]。而我国乳腺癌病症情况更加严峻。据统计,2020 年我国乳腺癌新发病例约42 万,乳腺癌发病数高居全球第一,死亡人数约11.7 万,居女性癌症死亡首位[2]。乳腺癌发病率之高,给我国女性带来了沉重的疾病负担。

因此,我国对乳腺癌药物的研发进程优化势在必行。研究发现,乳腺癌的发展与雌激素受体密切相关,雌激素受体α 亚型(Estrogen receptors alpha, ERα)在小于等于10%的正常乳腺上皮细胞中表达,但大约在50%~80%的乳腺肿瘤细胞中表达;利用ERα 基因缺失小鼠进行实验验证,发现ERα 确实在乳腺发育过程中扮演了十分重要的角色。目前,抗激素治疗常用于ERα 表达的乳腺癌患者,其通过调节雌激素受体活性来控制体内雌激素水平。因此,ERα 被认为是治疗乳腺癌的重要靶标,能够拮抗ERα 活性的化合物可能是治疗乳腺癌的候选药物。当前,在药物研发中,通过建立化合物活性预测模型的方法来筛选有效活性化合物可以加快研发进展和降低研发成本。此处对乳腺癌的具体做法是:针对相关靶标(ERα), 收集一系列作用于靶标的化合物及其生物活性数据,然后以一系列分子结构描述符作为自变量,化合物的生物活性值作为因变量,构建化合物的定量结构–活性关系模型,然后使用该模型预测具有更好生物活性的新化合物分子,或者指导已有活性化合物的结构优化。

2. 模型建立 本文首先对1974 个化合物的729 个分子描述符(即变量)进行变量选择,根据变量对生物活性影响的重要性进行排序。通过观察处理后的数据发现,变量数大于测量次数,也就说明当用所有的变量去表示目标值的时候,数据矩阵无法做到列满秩,某些变量可以通过其他变量进行表示,即变量与变量之间存在着多重共线性。Lasso 回归在解决多重共线性的问题上具有优势。应用Lasso 回归筛选出的变量能够很好地对模型进行表达,且各变量之间相互独立,因此选用Lasso 回归方法进行主要变量的筛选。随机森林(RF)是利用bootstrap 重抽样方法从原始样本中抽取多个样本,对每个bootstrap 样本进行决策树建模, 然后组合多棵决策树的预测,通过投票得出最终预测结果。它具有很高的预测准确率,并可以根据变量的重要性进行排序。具体流程如图1 所示,其中xn 为样本个数, 1,2, ,729n =;xm 为Lasso 初步降维筛选所得自变量, 1,2, ,157m =;xr 为随机森林回归二次降维筛选所得自变量, 1,2, ,20r =。

2.1. Lasso 回归初步降维 根据经验规则,如果方差膨胀因子VIF > 10,则认为该回归方程存在严重的多重共线性。经检验, 数据材料所提供初始样本VIF = 1.55e+06,存在高度多重非线性问题。如果多个解释变量之间高度相关,



相关标签