药企AI分子筛选实战:18个月缩到3个月,他们怎么干的?
干药的都懂:分子筛选是真正的"烧钱无底洞"
做新药研发的朋友都知道,先导化合物发现是整个链条里最磨人的环节之一。一个药物靶点确认之后,你得从几十万甚至上百万个候选分子里找出那几个有希望的。传统做法是跑高通量筛选(HTS),一台机器跑一轮几十万块就没了,而且筛出来的东西还得人工反复验证。运气不好的话,筛了大半年、花了几百万,拿到的候选分子活性、选择性、毒性哪个都不太满意。
去年春天,我接触了一家做肿瘤药的国内生物科技公司,姑且叫他们泰和生物。团队四十多号人,三分之一是计算化学背景,之前主要靠虚拟筛选加实验验证的传统路子。他们的痛点很典型:手里有一个全新的激酶靶点,HTS跑了两轮,花了将近八个月,筛了60万个小分子库,最后只拿到7个能往下推的苗头化合物。用他们研发总监的原话说,"这速度,等我们推到临床,隔壁公司类似靶点的药都快上市了。"
试过的方案和踩的坑
泰和生物不是没想过用AI加速。事实上他们2024年就试过两套方案:
第一套:采购商业分子生成模型。 花了十几万买了某海外公司的分子生成套件,结果发现模型训练数据大部分是公开数据库(ChEMBL、PubChem),对自家靶点的特异性很差。生成的分子看着结构新颖,一合成测活性,九成以上IC50超过10μM——根本没法用。
第二套:自己搭图神经网络。 团队里几个计算化学的同学自学PyTorch Geometric搭了一个GNN模型,用公司内部积累的激酶数据集训练。但问题出在数据量——他们自己的活性数据拢共两千多条,对深度学习来说完全不够。模型过拟合严重,虚拟筛选的富集因子(EF1%)只有3左右,跟传统对接打分差不多。
这两轮折腾前前后后耗了四个月,研发经费烧了大几十万。"外头的AI工具跟我们自己的靶点有断层,自己搞又搞不动,那段时间团队情绪很低。"
转机:找对人和找对方法
后来他们换了个思路——不买成品工具,也不自己从零硬啃,而是找了一家有医药数据工程经验的第三方团队合作。这个合作方是我们在AI项目定制里经常遇到的模式:客户出数据和领域知识,技术方出工程化能力和算法调优经验。
具体的做法分三步走:
第一步:数据增广与迁移学习。 合作方帮他们整合了公开数据库里与激酶相关的2.3万条活性数据,加上泰和生物内部的两千多条,用多任务学习做预训练。通过分子指纹(ECFP4)和图卷积的双模态输入,把模型对激酶结合模式的泛化能力拉高了一个台阶。
第二步:基于物理信息的生成-筛选闭环。 不是简单拿模型生成一坨分子就完事,而是搭了一个迭代循环:生成器(基于改进的REINVENT框架)产出分子 → 对接打分做初筛 → 合成可及性过滤 → 用训练好的GNN做活性重排序 → top 100进实验室验证 → 验证数据反馈回模型微调。每一次迭代大概7-10天,效率远高于传统HTS的"一锤子买卖"。
第三步:主动学习策略。 每次实验验证后,把数据喂回模型重新训练。模型会根据当前的不确定性自动推荐下一轮需要验证的分子——不是随机选,而是选那些模型"最没把握"的分子。这个策略保证了每一轮实验验证的价值最大化,避免了重复验证结构相似的分子。
效果到底怎么样?
从项目启动到拿到第一批可靠的先导化合物,整个过程大概三个半月。相比之前HTS跑了八个月才拿7个苗头化合物,这次AI驱动的方法筛了虚拟库中120万个分子,通过五轮迭代:
- 选出进入实验验证的分子:468个
- 验证后确认有活性的(IC50<1μM):29个
- 其中选择性合格的:11个
- 药代性质和毒性初步过关的:4个先导化合物
泰和生物的研发总监说了一个特别有意思的细节:那4个最终挑出来的先导化合物里,有两个在结构类型上是传统HTS完全没覆盖到的骨架。"HTS的化合物库是固定的,库里有啥你才能筛到啥。但AI生成不受库的限制,它能在化学空间里探索传统筛选箱子里根本没有的结构。"
一点实在的总结
这个案例给我的感受是:AI在制药行业的价值不在"取代实验",而在于把实验资源花在最有价值的地方。 做药的朋友都知道,实验验证永远是金标准,但怎么从百万级别的分子空间里挑出那几十个值得进实验室的候选——这件事现在AI比任何传统方法都做得好。
对国内中型药企来说,花精力去采购一套"万能AI制药平台"大概率会踩坑。更务实的路径是:把自己的数据整理好,找一个懂AI工程化的团队,针对特定靶点类型做定制化模型调优。这笔投入相对于传统HTS动辄几百万的单轮筛选费用,性价比非常突出。
如果你也在考虑用AI改造自己的研发流程,欢迎来智岳科技聊聊,我们可以根据你的实际靶点情况和数据基础,给出客观的技术建议。
