You are on page 1of 10

中国研究生创新实践系列大赛

“华为杯”第十八届中国研究生
数学建模竞赛

学 校 贵州大学

参赛队号
1.
队员姓名 2.
3.

中国研究生创新实践系列大赛
0
“华为杯”第十八届中国研究生
数学建模竞赛

题 目 抗乳腺癌候选药物的优化建模

摘 要:
乳腺癌作为当今威胁人类健康的杀手之一,至今还不能有很好的医疗手段解决。因此,寻找到一

种能抗乳腺癌的药物,就很重要。而在寻找药物中,建立化合物活性预测模型的方法来筛选潜在活性

化合物,就是一种省时省成本的好办法。

对于问题 1,针对 1974 个化合物的 729 个分子描述符进行变量选择,给出前 20 个对生物活性最具

有显著影响的分子描述符(即变量):就是求对各个化合物特征与 PCI50 的关系紧密程度,可以采用

求取皮尔逊相关系数或秩相关系数等判别相关性的系数排序,也可以用灰色关联等算法,还可以选出

20 个能很好让算法拟合的特征。之后,综合分析,选出最好的。

对于问题 2,选择问题 1 的 20 个分子描述符变量,构建化合物对 ERα 生物活性的定量预测模型,

然后对 50 个化合物进行 IC50 值和对应的 pIC50 值预测:将 20 个分子描述符变量作为自变量,将 PCI50

作为因变量,建立回归模型。可选用的算法有拟合类算法,神经网络类算法,决策树类算法等。跑好

算法,便可预测 test 中的值。

对于问题 3,利用 729 个分子描述符,针对 1974 个化合物的 ADMET 数据,分别构建化合物的

Caco-2、CYP3A4、hERG、HOB、MN 的分类预测模型:这是需要五个二分类模型,需要对数据预处理,

特征选择(降维),再选择分类算法有:神经网络,随机森林,svm 等。之后用训练好的模型对 test

中数据进行预测。

对于问题 4,寻找一些分子描述符的取值范围,能够使化合物对抑制 ERα 具有更好的生物活性,

同时具有更好的 ADMET 性质:就是先筛选出 ADMET 各性质和大于等于 3 的分子描述符,然后对剩下各

个分子描述符与 PCI50 的关系紧密程度排序,选出相关系数最大的 10 个分子描述符取其最大最小值即

为其范围。

关键词:分子描述符;相关性;回归模型;分类模型;预测

1
一、问题背景

2
二、第 1 问分析与解决

1. 问题 1 分析
需要得到前 20 个对化合物活性影响最大的分子描述符,即使求每个分子描述符与 PIC50 或 IC50
的关系(通过求方差可知 PIC50 更加离散,所以我们选取 IC50)。而这种关系,可以以很多种数学或
算法求出。求之前,可以对数据进行归一化(第二问也得用归一化后的数据),也可以不做。求出后
不考虑正负关系,进行排序,选取前 20 大的既是所需 20 个分子描述符。当然也可以结合第二问,通
过观察各个描述符对预测准确性来选取前 20 个描述符。
处理流程图:

2.问题的解决
我们分别使用了皮尔逊相关系数,kendall 相关系数,灰色关联,selectKbest,F-regression 等
6 种求取相关性方法,得到七组 20 个不同的描述符。因为,对数据归一化,第二问也需要对数据进行
同样的处理,故不进行处理,仅对数据进行缺值填补,且保留异常数据,以保证选出的是影响最大的
描述符。
方法 描述符列号
皮尔逊 MDEC-22 nAtomLAC gmin maxssssNp minssssNp nB nT5Ring n5Ring minaaN
BCUTp-1l C1SP2 gmax ALogp2 SHBa maxaaN MDEC-14 SP-4 SdsCH VP-7
maxHBint10

3
KENDALL C2SP1 MDEC-22 nAtomLAC gmin nT5Ring nB maxssssNp n5Ring VP-7 minaaN C1SP2
ATSp4 maxaaN ATSp3 SP-4 ATSp1 ATSp5 ALogp2 minssssNp ATSm5

F-REGRESSION nF11Ring WTPT-1 minaasC nF9Ring nT9Ring maxaasC nHBint7 SHBint7 SssCH2
minssCH2 maxssCH2 nHBint8 nHsssNHp nssCH2 SHsssNHp minHsssNHp
maxHsssNHp nHBint4 SaasC nO

SPEARMAN MDEC-22 nAtomLAC gmin C2SP1 nB VP-7 maxssssNp ALogp2 ATSp4 ATSm2 ATSp3
ATSp1 ATSm5 C1SP2 SP-4 AMR minaaN nT5Ring SdsCH FMF

SELECTKBEST BCUTc-1l BCUTc-1h SHBd SHsOH SaaCH SsOH SssO minHBa minwHBa minHsOH
minaasC minsOH maxHBa maxHsOH maxsOH maxssO MDEC-23 MLFER_A WTPT-3
WTPT-5

灰色关联 AMR nC BCUTp-1h C2SP2 SP-5 CrippenLogP SwHBa SaaCH minsssN minsOH maxHsOH
maxsssN maxsOH hmin LipoaffinityIndex MLogP MDEC-22 MDEC-23 n6Ring nT6Ring

MIC nC BCUTc-1l BCUTc-1h SHsOH 'SsOH minHsOH minsOH maxHBa maxHsOH maxsOH
gmax LipoaffinityIndex MLogP McGowan_Volume MDEC-22 MDEC-23 MLFER_A
TopoPSA VABC WTPT-5

对 6 组数据我们需要在第二问中使用,从而真正选出最好的那 20 个描述符。

4
三、第 2 问分析与解决
1.问题 2 分析
需要根据第一问的描述符来去预测新分子的活性,显然这是一个回归的问题。已有的条件是 20 个
特征向量(分子描述符),还有对应的 PIC50 的值。所以我们的思路是,先对数据进行预处理,填补
缺失,同时标准化输入数据。然后将数据集按 8:2 分成训练集和测试集,最后选择一些算法,分别进
行回归,后测试得到 rsme 值。最后取值最小的算法,去预测 test 中的 50 个分子。同时我们需要将第
一道题中的 6 组数据都在一个选得到好的算法上跑,得出哪一组是对生物活性影响最大的。
处理流程图:

2. 问题 2 解决
评价指标有 MAE、RMAE、RMSE。
预测值和真值相差的平方和是 SSE,也就是误差平方和;MSE 就是均方误差,SSE 除以样本量,MSE
开方就是 RMSE,也就是均方根。计算真值和预测值之间的误差都是做差求取绝对值,也就是 MAE。
我们选择了随机森林、SVR、xgboost、决策树、多层感知机等多种算法,由于数据集比较小,所
以我们不会过多的使用神经网络相关的算法。同时,由于输入只有 20 种特征向量,也是第一题排序过
后有最大相关性的值,所以,我们不会降维或者再进行特征选择。重点是选择出最优算法,然后对该
最优算法进行调参,使 rsme 值尽可能小。
各个非线性回归算法 RMSE 值
算法名称 RMSE 值
随机森林 0.6846598932294806
SVR 1.0751944032187108
岭回归 1.1575849367003114
lightgbm 0.7014368328364737

5
GBR 0.7198235173927672
mlp 0.9999582017709221
极限树 0.6837984911698586
xgboost 0.6152719237049432
决策树 1.1068092980013458
显然 xgboost 的效果是最好的。同时,通过对比我们得到 selectKbest 得到的结果是最好的,其
次是皮尔逊相关系数,第三是 MIC。
同时在通过 PIC50 求 IC50 也是使用非线性回归的做法,预测出两者之间的关系。

四、第 3 问分析与解决
1.问题 3 分析

2.问题 3 解决

6
五、第 4 问分析与解决
1.问题 4 分析
我们需要寻找有很大抑制影响同时有很好 ADMET 性质的分子描述符,并且需要他的范围。首先我
们需要先筛选出有很好 ADMET 性质的分子描述符(ADMET5 个标准下的和大于等于 3 即可)。其次通过
第一问中的皮尔逊关系系数找出关系系数最大的 20 个,最后找出该分子描述符的范围即可。

2.问题 4 解决
由于 IC50 的负对数是 PIC50,故所选分子描述符应尽可能与 PIC50 负相关。这些分子描述符在范
围内取值越大越好。该范围是均值到最大值

7
分子描述符 范围
C2SP1 0.014691-2.000000
FRAGC 2406.682705-91243.680000
ETA_BETA_S 17.492908-104.500000
NHBACC3 4.545086-46.000000
MAXHSNH2 0.013567- 0.651295
MINHSNH2 0.012891-0.651295
ETA_EPSILON_3 0.443434-0.452730
MAXDNH 0.057643-8.781421
MINDNH 0.056802-8.781421
LIPINSKIFAILURES 0.146403-4.000000

六、结论与模型评价
1.结论
通过以上 4 题的建模,我们可以得到 729 个分子标识符中影响最大的一些分子标识符,同时在处
理数据时,也能得到完全无关的分子标识符。同时我们能通过一些好的分子标识符大致预测其分子的
活性,还有 ADMET 的性质。通过特定分子标识符的数值我们还可以预测其具有抑制作用与否。
同时,我们也从建模中知道,通过模型,能大大提高寻找具有抑制作用的药物的效率,通过,模
型筛选出比较好的分子,再来进行实验,能够大大节省实验的人力、时间、金钱等成本,为患者能够
早日用上药有很好的作用。
药物的分子标识符很多,但真正有用,能指明方向的只有一小部分。

2.模型评价
2.1 模型优点
我们通过大量算法的筛选得到的选特征值的方法是 selectkbest,该方法能够避免皮尔逊相关系
数过于重视线性相关,而忽略其他的相关性,使得能得到比较好的回归或分类。
而 xgboost 能够通过剪枝,从而避免陷入局部最优解。同时 xgboost 在代价函数加入了正则项,
控制了模型的复杂度,使模型更加简单,从而防止过拟合。
同时,我们也使用了自动调参,使得该模型,在我们所处理得到的数据训练下,能达到的效果最
好。

2.2 模型缺点
我们没能更深入的去优化算法,同时对于跑出来的结果的指标其实还是不尽如人意的。说明特征

8
的选择上可能没有做到最好。
其次,第三问的五个分类,没有分别找到最好的算法,得到更好的 F1-score。
最后一问,没能用回归,更好的划定抑制作用好的范围。

You might also like