资讯推荐:Bayer Pharma’s二十年ADMET计算平台的发展及机器学习在药物发现中的应用

广告位

一、引言与背景 Bayer Pharma在过去二十年间致力于构建一个ADMET(吸收、分布、代谢、排泄)计算平…

Bayer Pharma's二十年ADMET计算平台的发展及机器学习在药物发现中的应用

一、引言与背景

Bayer Pharma在过去二十年间致力于构建一个ADMET(吸收、分布、代谢、排泄)计算平台,以模型方式预测早期药物发现阶段的药代动力学和理化性质。这一平台在精选和优化创新先导化合物过程中发挥了重要作用。本文深入探讨了机器学习(ML)方法的研发,特别是关于数据、描述符和算法方面的进展。作者强调高质量数据、定制化描述符以及对实验结果的深刻理解对于构建实用模型的重要性,并通过具体的深度神经网络应用案例展示了最新动态。

二、ADMET计算方法与机器学习

ADMET是新药发现与优化的关键参数。制药行业长期投资开发新检测技术以提升ADMET测试能力,以便对数千种化合物进行高质量体外ADMET表征。现有的结构-活性/结构-特性关系(SAR/SPR)数据是宝贵的资源,能对特定项目的ADMET测量产生深远影响。计算研究人员利用这些数据挖掘ADMET特征的基本原理,并开发出辅助新药研发的计算机模拟模型。这些模型的目标并非减少实验次数,而是使科学家能更精准地聚焦在最有潜力的化合物上。

作者重点讲述了拜耳公司如何在第二类ADMET计算方法上下功夫,即利用ML技术,基于多种化合物的体内外测量数据构建模型(见图1)。

三、数据、描述符与算法

(1) 数据准备与处理:化学结构需去盐、标准化电荷与互变异构体状态,并进行3D立体化处理;分析数据需仔细筛选,剔除非确定性数据,对确定性数据在适应模型要求下予以保留或调整。大数据集、化学多样性、广泛的值分布以及较低的实验误差有助于构建性能优越的模型。

(2) 描述符:分子描述符可分为1D、2D、3D等多种类型,如ECFP指纹用于编码化合物及其邻域属性。近年来,作者借鉴机器翻译模型开发了一种将分子SMILES编码为连续空间的方法,并使用递归网络恢复SMILES规范化形式,增强了QSAR模型和虚拟筛选的构建。

(3) 算法:由于描述符与终点之间的关系通常是非线性的,故需要非线性算法。支持向量机和随机森林证明尤其有用,而深度神经网络在近几年的应用中急剧增长,因其擅长多任务学习,特别是对于溶解性预测等回归模型而言(见图2)。

四、模型质量评估与应用实例

模型质量评估通过嵌套交叉验证和独立测试集确保模型在训练集以外化学空间的可靠性。分类和回归模型应分别选用不同的评价指标,如混淆矩阵、AUC和R等。为了防止过拟合和欠拟合,选择恰当的统计验证方法至关重要。拜耳公司的ADMET计算平台已成功应用于内部数据信息平台,助力先导化合物选择与合成路线设计(见图3)。

NGLI项目展示了ADEMT计算平台如何通过约50万新设计化合物强化筛选效能,并采用Pareto优化设计以获得优良的物理化学和ADMET预测性能。作者还介绍了针对代谢转化区域选择性建模的方法CypScore和MetScore在降低肝脏清除率项目中的应用(见图4)。

五、结论与展望

历经二十年的发展,Bayer Pharma的ADMET计算平台成功的关键在于模型质量、与研究过程的相关性和结果的易获取性。高质量数据、定制化描述符以及多样化的算法对于构建稳健模型至关重要。未来挑战包括将ADMET计算模型更好地融入整体AI策略、解决生物利用度关键参数优化难题(如细胞渗透和代谢清除率)以及体内方法的改进。同时,创新的数据共享方式和更好的3D分子描述符将有望推动该领域进一步发展。

关于作者: jzwpc

为您推荐

广告位

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注