世界最大的中医药数据库,提供基于深度学习的中西药不良反应预测算法

2023-07-14 15:54 · 生物探索

建设一个全面、高可靠性的中医数据库是十分必要的

中医药在中国已经广泛使用了千年,在改善健康以及预防和治疗各种疾病中已经显示出了巨大潜力,是现代药物研发的重要来源。中医药现代化的两个关键方面是确定中药的有效成分和阐明有效成分与靶点之间的作用机制。因此,建设一个全面、高可靠性的中医数据库是十分必要的。

2023年3月31日,中山大学智能工程学院陈语谦教授团队在Signal Transduction and Targeted Therapy (影响因子39.3) 期刊发表了题目为“TCMBank-the largest TCM database provides deep learning-based Chinese-Western medicine exclusion prediction”的论文,该研究建立世界最大的中医药数据库TCMBank(https://TCMBank.CN/),该数据库提供了9192种草药,61,966种成分,15,179个靶标,32,529种疾病,及其它们之间的关联信息。

1689321379844426.png

TCMBank为用户提供了一个方便的网站,让用户可以自由探索草药、成分、基因靶标以及相关通路或疾病之间的关系。TCMBank 还提供了草药中活性成分的以mol2格式存储的3D结构。研究人员可以在TCMBank的下载页面访问这些数据,并很方便的用于中医药物的虚拟筛选。TCMBank从已有的中医相关数据库(TCMID、TCMSP、SymMap、TCM-ID、HERB和ETCM)和公开数据库(OMIM, HGNC, MeSH, ENsembl, DO, HPO等)中添加了外部的交叉引用链接。为了保证TCMBank的可靠性,所有信息在更新到数据库之前都必须经过至少两次人工验证。

除此之外,作者针对中西药之间可能发生的不良反应,设计了一个新颖算法的技术。中西药之间的不良反应会导致医疗费用增加,甚至死亡,这大大增加了药物相互之间不良反应带来的医疗风险。然而,基于人工智能预测的中西药不良反应缺乏现实世界中大量不良反应标签的中西药数据库。因此,作者在两个现实世界的公共药物相互作用(DDI)数据集上提出了两个模型,3DGT-DDI和 SA-DDI, 来预测两种药物化合物之间的相互作用。经过数据集的实验已经证明了3DGT-DDI 和 SA-DDI 在两个公共 DDI 数据集上实现了最精确的预测性能。

随后,作者将上述两个模型的预测结果推广到中西药不良反应的预测中。TCMBank 提供世界上最大的中医药和草药的成分,靶标,疾病映射信息。受益于TCMBank的大数据驱动,作者利用DDI模型进行无监督学习,并预测中西药的不良反应作用的预测。假设中药中的所有成分与西药均不发生不良反应,则确定它们之间不存在相互排斥的反应。如果中药中的一种或多种成分与西药发生不良反应,则存在可能产生不良反应的风险,然而这风险也分等级,否则则容易产生任何药物之间皆有不良反应的警告,反而不是真实世界的事实。作者利用AI辅助的DDI预测模型获得了中西医可能的不良反应风险的预测结果。

1689321398592989.png

图2. 最大的中医药数据库TCMBank的综合分析。

A. TCMBank与其他中医药数据库的数据量对比,其中TCMBank的草药、成分、疾病最为丰富。B. TCMBank网站的结构,包括导航栏、首页、二级页面、三级页面。C. TCMBank中数据处理的框架示意图。D. 基于图神经网络的药物官能团提取的自适应子结构感知模块示意图。E. 基于因果学习的中西药互斥预测。(图源自Signal Transduction and Targeted Therapy)。

另外一项有趣的研究是预测一组多种(两种以上)中西药物的相互排斥反应。在现实世界中,患者摄入的中药或西药显然远不止两种。据统计,超过10%的患者需要同时服用5种药物,20%的老年患者需要同时服用至少10种药物。这将需要开发新的算法来考虑多种药物组合的相互排斥。基于药物化学知识,药物是由不同官能团/化学子结构组成的实体,决定了其药代动力学、药效学特性以及中西药的互斥性。作者认为子结构的相互作用可以被视为中西药相互作用的因果关系,从而建立药物相互作用网络或多种药物之间的相互作用网络,其中化合物作为节点,它们的因果关系作为边。中药中所有成分对应的节点形成了一个子网络。作者根据对应的子网络之间是否存在边来预测中药之间或中药西药是否存在不良反应。

未来,AI辅助模型将会结合大规模语言模型建立中西药不良反应预测模型、自然语言处理和文本挖掘知识图谱技术,开发中西药不良反应数据库。作者利用智能文档识别模块去检索AI辅助模型预测的中西医药的不良反应。通过知识图谱、关键词提取、自动摘要等方式,辅助研究人员手动检查文献中所包含的中西医药的不良反应信息。作者会在未来的工作中出版一个综合的中西医药不良数据库。

STTT是由国内创办的高水平英文期刊,由Springer-Nature出版集团出版,属于中科院1区的Top期刊,2022年影响因子38.104,2023最新影响因子39.3。该论文的发表一方面体现了中山大学智能工程学院的科研人员积极响应国家号召把最重要的论文写在祖国大地上,另一方面也体现陈语谦教授所带领的智能医疗研究中心把人工智能和中医药研究不同学科交叉融合。

文章来源“iNature”

关键词: 中医药 数据库