新浦京8883(China)官方网站-BinG百科

BIB | 新浦京8883科学家团队在基于分子图像的表征学习领域取得重要突破

2023-11-28

近日,新浦京8883与湖南大学DrugAI团队在国际生物信息学期刊Briefings in Bioinformatics上发表了题为“Chemical structure-aware molecular image representation learning”研究论文。当前基于分子图像的药物发现方法面临两个主要挑战:(1)怎样解决分子数据标签不足的问题,以及(2)如何从隐式编码图像中捕获化学结构信息。考虑到化学结构可由分子图明确编码(例如氮、苯环和双键),作者提出了一种用于分子表示学习的对比图-图像(Graph-Image)预训练框架(CGIP),该框架利用自监督对比学习将化学知识从图转移到图像中。通过精心设计的模态内和模态间对比学习,CGIP可以从大规模未标记分子中学习图中的显式信息和图像中的隐式信息。作者在多个实验设置(分子性质预测、跨模态检索和分布相似性)上评估了 CGIP的性能,结果表明 CGIP 在 12 个基准数据集上实现最先进的性能,并证明了CGIP 能够将图中的化学知识迁移到分子图像中,使图像编码器能够感知图像中的化学结构信息。


0008.png




背景


基于图的表示学习方法能够学习分子图中的二维结构信息。然而,这些方法主要受到图神经网络(GNN)的两个限制:(1)浅层GNN不足以捕获化合物的全局结构,例如,两层GNN无法知道分子中是否有环,(2)深度GNN容易出现过度平滑问题。难以捕捉结构信息。分子图像是一种更好的选择,因为随着感受野逐层扩展,卷积神经网络可以轻松捕获图像中的全局结构信息。不幸的是,CNN对图像中结构的感知是基于像素的,没有任何语义信息,因此无法理解图像中细粒度的化学知识。该问题可以通过显式引入外部知识作为监督信息来解决。因此,作者提出了一种自监督对比Graph-Image预训练(CGIP)框架将图模态和图像模态集成到统一的对比学习框架中,并进行预训练。


方法

CGIP 框架如图1所示。在预训练阶段,利用图像和图编码器将分子图像和图以及相应的增强视图嵌入到统一的公共特征空间中。然后,使用对比学习更新图像和图编码器的参数,以优化公共特征空间中的特征。在微调阶段,使用预训练模型进行分子性质预测的分类和回归任务。作者选择分子的图像或图表示进行预测,并在预训练模型的图像和图编码器之后添加MLP,以进行下游任务的微调。

0009.png

图1. CGIP 框架概述。


实验结果


表1和表2分别展示了 CGIP 在 8 个分类数据集和 4 个回归数据集上的性能,结果表明CGIP具有良好的性能和较低的标准差。其中,CD和CR分别表示CGIP的图编码器和CGIP的图像编码器。

0010.png

表1. CGIP 在 8 个性质预测数据集上的 ROC-AUC 性能

0011.png

表2. CGIP 在 4 个回归数据集上的 RMSE (FreeSolv、ESOL、Lipo) 和 MAE (QM7) 性能

跨模态检索


为了综合评价CGIP在image-to-graph和graph-to-image检索方面的性能,作者从预训练数据集中随机抽取多组样本(100、1K、10K、50K和100K)作为检索数据集,并对这些数据集上的两种检索策略计算 top-k 召回率 (R@k)。如图2所示,结果表明分子图像不仅可以学习分子图中包含的化学结构知识,还可以隐式地编码分子图中不存在的信息。


0012.png

图2. 不同数据大小和不同k的graph-image和image- graph检索的top-k召回率(R@k)




分布相似性


为了比较不同模型之间的分布相似性,作者随机采样 30 个分子作为锚点,每个锚点随机采样 1000 个分子,得到 30,000 个样本对。对于每个分子对,作者使用预训练的图像编码器或图编码器进行特征提取并计算每对特征的余弦相似度。如图3所示,模态内和模态间的相似度分布存在大量重叠,特别是模态间的相似度分布,表明CGIP可以有效地对齐图像编码器和图编码器提取的特征。


0013.png

图3. 模态内和模态间的分布相似性

可视化研究


作者通过分子骨架的可视化来评估 CGIP 框架学习到的结构信息的质量。如图4(a)和图4(b)所示,作者发现 CGIP-ResNet18 的聚类质量优于 CGIP-DeeperGCN,这表明该模型更容易从分子图像中捕获结构信息。此外,与图4(c)中的 MACCS 密钥指纹(最常用的分子指纹之一)相比,作者发现CGIP具有更好的聚类结果和更低的DB指数,这表明CGIP可以作为一种新的分子指纹来提取化学结构信息。


0014.png

图4. t-SNE可视化结果

可解释性研究


作者使用激活映射(GradCAM)来可视化模型在推理过程中关注的区域。如图5所示,作者发现CGIP-ResNet18可以同时关注局部(图5(a)中的第二行)和全局(图5(b)中的第二行)分子结构,表明CGIP-ResNet18在推理过程中可以提取到基于化学结构的有意义的特征。


0015.png

图5. 局部和全局关注分子图像的几个例子


总结


与最先进的深度学习方法相比,CGIP 有两个显着的改进:首先,它通过平衡图像中的隐式信息和图中的显式信息来增强分子图像和图的表示;其次,它利用无监督的多模式预训练学习框架来捕获来自约 1000 万种在人类蛋白质组中具有不同生物活性的药物化合物的分子图像的细粒度结构信息。作者证明了 CGIP 在评估各种药物发现任务的分子特性方面具有很高的准确性,优于各种最先进的深度学习方法。目前,新浦京8883团队正将该框架用于超级分子胶等技术平台的研发之中。

参考资料


Hongxin Xiang, Shuting Jin, Xiangrong Liu, Xiangxiang Zeng, Li Zeng, Chemical structure-aware molecular image representation learning, Briefings in Bioinformatics, Volume 24, Issue 6, November 2023, bbad404, https://doi.org/10.1093/bib/bbad404


代码

https://github.com/HongxinXiang/CGIP


关于宇耀

上海新浦京8883科技有限公司是一家AI赋能、创新引领,聚焦新技术和新靶点的新药研发企业。公司有三大国际一流新药研发平台和多个自主原创产品管线,核心产品目前正在进行注册临床研究。产品管线YY001是通过靶向肿瘤免疫微环境,用于PD-1等免疫治疗不敏感或治疗失败的肿瘤,即将开展临床2期研究,是一个有潜力成为全球最优的免疫微环境拮抗剂。产品YY201是全球首创的转录因子抑制剂,正在中国和美国开展临床1期研究,未来其他产品管线也即将陆续进入临床。公司目前已申请发明专利20余项并通过PCT国际申请成功进入欧、美、日、加、澳等国家与地区。

公司目前已有博士和硕士员工50余名,在上海闵行区拥有5000余平的研发和办公场地,累计已完成数亿元专业机构投资。先后获得国家科技部颠覆性技术创新大赛全国优秀奖、团中央 “创青春”中国青年创新创业大赛全国金奖、国家人社部第一届博士后创新创业大赛全国金奖和国家教育部“互联网+”大学生创新创业大赛全国银奖等荣誉。


XML 地图