新药研发如此昂贵的一大原因是其失败率太高,如果我们能够通过这种人工智能模型提前预测并筛掉那些不太可能有效的候选药物分子,就能大大降低失败率,从而大幅降低新药研发的时间和成本。
传统的人工智能(AI)系统需要很长时间来筛选候选药物和蛋白质靶点之间相互作用的数据。大多数 AI 系统根据每个目标蛋白质的氨基酸序列计算其三维结构,然后使用这些结构来预测它将与哪些药物分子相互作用。这种方法尽管详尽,但速度缓慢。
今年爆火的以 ChatGPT 为代表的大语言模型 AI 技术,能为药物筛选带来哪些技术革新呢?
2023 年 6 月 8 日,麻省理工学院(MIT)教授、计算分子生物学先驱 Bonnie Berger 在《美国国家科学院院刊》(PNAS)发表了题为:Contrastive learning in protein language space predicts interactions between drugs and protein targets 的研究论文。
研究团队设计了一种基于大语言模型的 AI 算法——ConPLex,它可以像 ChatGPT 那样分析大量文本并找到最可能一起出现的单词(在这项研究中则是氨基酸),从而将目标蛋白质与潜在药物分子相匹配,而无需执行计算分子结构的密集计算步骤。
ConPLex 可以利用预先训练的蛋白质语言模型(PLex),并采用蛋白质锚定的对比共嵌入(Con),超越目前最先进的算法,实现通过蛋白质语言空间的对比学习来预测药物和目标蛋白质之间的相互作用。
药物发现是实现人类健康的一项基本任务,但整个过程仍然非常昂贵和耗时,一款药物从开发到批准和上市销售通常需要花费超过10亿美元和10年的时间。虽然实验结果仍是验证药物功能的金标准,但药物-靶标结合的计算机预测还可以更快、更便宜,因此将继续在早期筛选候选治疗药物中发挥重要作用。
为了解决药物发现中的关键第一步,研究团队开发了 ConPLex 模型,尝试将药物靶点相互作用(DTI)推进到未知药物和靶点类型,同时又能区分具有不同结合特征的结构高度相似的药物候选分子。
ConPLex 通过蛋白质语言模型(PLM)和对比学习(Contrastive Learning)的双重使用解决了上述两个挑战。ConPLex 的广泛适用性、对诱饵的特异性和大规模数据的能力将使其实现药物发现的关键一步,有助于大幅提高药物发现的效率和成功率。
研究团队表示,ConPLex 实现了高精度,对不可见数据的广泛适应性,以及对诱饵化合物的特异性。它可以根据习得表征之间的距离来预测结合,从而实现大规模化合物文库和人类蛋白质组的预测。
ConPLex 模型的体系结构和训练框架,ConPLex 的训练分为两个阶段,以优化通用性和特异性。
研究团队通过筛选大约 4700 个候选药物分子文库来测试这一模型,以检测这些候选药物分子与 51 种蛋白激酶的结合能力。整个筛选过程完全基于 ConPLex 模型的预测,而没有参考以前的实验数据或文献。
研究团队从预测的热门候选分子中选择了 19 对药物-蛋白对进行进一步实验检测,实验结果显示,其中有 12 对具有很强的结合亲和力,其中有 4 对具有极强的亚纳摩尔结合亲和力,以至于十亿分之一的微小药物浓度就足以抑制目标蛋白功能。例如,该模型筛选到了一种能够强效结合酪氨酸蛋白激酶受体 B1(EPHB1)的抑制剂 PD-166326,其 KD=1.3nM。
在这篇论文中,研究团队主要将 ConPLex 模型应用于小分子药物的筛选,但研究团队表示,他们正在将该模型应用于其他类型的药物筛选,例如治疗性抗体。此外,该模型还可用于对潜在药物化合物的毒性筛选,以确保它们在动物模型测试之前没有任何不必要的毒副作用。
论文通讯作者 Bonnie Berger 教授表示,这项工作解决了对潜在候选药物进行高效、准确的硅基筛选的需求,ConPLex 模型能够大规模筛选评估脱靶效应、药物再利用,并确定突变对药物结合的影响。