中药药理与临床

基于大数据整合与文本挖掘的中药生物分子信息 

来源:中药药理与临床 【在线投稿】 栏目:期刊导读 时间:2020-10-23

1 引言

中医药的传承离不开现代化的发展,随着生命科学和中药药理的深入研究,巨量的蛋白、基因、通路等生物信息以及药物实验数据不断被发现,如何基于这些大数据建立中药生物分子信息数据平台,为中医药研究提供方便可靠的基础数据支撑和分析支持,具有重要的科研学术价值。这将有助于促进中药药理与生命科学交叉学科领域的深入研究,为中医药临床与生命科学研究之间提供关键纽带。本研究通过大数据[1-4]和文本挖掘[5-9]技术将多个国际著名生物信息数据库的数据、中药信息以及文献信息进行大规模整合,建立具有多层次信息检索和知识推理发现功能的中药生物分子信息文献系统,具有显著现实意义。

2 系统研发框架与数据库设计

2.1 系统研发技术框架

2.1.1 中药生物分子信息数据库的建立 此阶段主要完成《中药学》﹑TCMID[9]﹑Pubchem[10]﹑HIT[11]﹑Reactome[12]﹑KEGG[13]等数据的采集和整合,形成中药-成份-靶蛋白-生物通路的多层次中药生物分子信息数据库。建立的子库包括中药-功效数据库﹑中药-化学成份数据库﹑成份-靶蛋白数据库﹑靶蛋白-靶蛋白相互作用数据库﹑靶蛋白-通路数据库。

2.1.2 中药生物分子信息文献数据库的建立 通过文本挖掘技术,计算机程序自动从CBM﹑Medkine数据库对中药生物分子信息数据库中的数据进行检索并智能提取返回页面的文献信息,获取的文献信息包括作者、文题、刊名、出版年份、卷号(期号)、起止页码、文摘、关键词,加上检索词、数据库出处这两个字段创建中药生物分子信息文献数据库。

2.1.3 多层次数据信息与文献检索技术的设计与开发 采用双向大数据驱动检索策略分别创建线程向宏观和微观两个层次方向的数据子库同时检索,通过ADO.NET连接SQL Server数据库,在线程同步控制模块的协同下进行数据整合,将最终检索结果返回用户界面[14-19]。支持3种检索模式:单库、跨库、集群跨库检索。

2.1.4 知识发现推理功能的研发 基于后台的生物信息大数据库,生成由巨量信息节点(中药﹑成份及靶蛋白)组成的复杂关联网络[20-22],对于用户输入的若干关键词(中药﹑成份及靶蛋白),搜索生成以这些关键词为中心的关联子网络,即能发现这些关键词与其他生物信息之间的拓扑关联。该功能可以发现成份与目标靶点之间的机制路径﹑作用中介及其文献信息,对药物作用机制的研究或新药研发具有重要的揭示和启发作用。该系统主要包括多层次检索﹑推理分析两大模块,系统研发技术框架,见图1。

图1 系统研发技术框架

2.2 数据库设计

2.2.1 基于大数据整合建立中药生物分子信息数据库 由以下子库构成:(1)中药-功效数据库。字段包括ID、标准药名、同义药名、功效、性能、分类。数据来源为《中国药典》第10版以及《中药学》第7版教材。(2)中药-化学成份数据库。字段包括ID﹑标准药名﹑拉丁名﹑中药对应的化学成份名﹑化学成份对应的CAS号。数据来源为TCMID数据库( ov/)。(3)化学成份-靶蛋白数据库。字段包括ID、化学成份CAS号、化学成份对应的靶蛋白全名、化学成份对应的靶蛋白Symbol 号。数据来源为TCMID数据库﹑HIT数据库以及Pubchem数据库。(4)靶蛋白-靶蛋白相互作用库。字段包括ID﹑靶蛋白A﹑靶蛋白B﹑相互作用主类型﹑相互作用子类型。数据来源为人类生物通路反应数据库Reactome中的FIsInGene_with_annotations子库( ot.org/),以及人类基因数据库Genecards( Server 2008中,使用SQL Server 2008构建并储存。

2.2.2 基于文本挖掘技术建立中药生物分子信息文献数据库 在具有上述结构化和层次化的中药生物分子信息数据的基础上构建相应的文献数据库是该系统的核心。主要构建药物-化学成份-蛋白(基因)信息的关联科技文献信息。文本挖掘方法为:将药物-化学成份-蛋白(基因)数据库中的每一项关联数据作为检索词,在中国生物医学文献数据库( Server 2008中创建中药生物分子信息文献数据库。由于上述检索和信息提取过程非常繁冗,人工操作难以完成,所以本研究使用文本挖掘技术进行自动智能的检索和信息提取。文本挖掘过程为使用编程语言开发文本挖掘程序,以检索提取Medline数据库为例,分析其检索网址的构成以及检索结果网页的源代码,如其带检索词的检索网址为 数据库中每一项数据之间的关联生成组合检索式,生成相应的网址,如 Server 2008中,后期经过人工干预整理将能够建立中药-化学成份-蛋白(基因)文献信息数据库。

上一篇:仙茅治疗不孕不育症的临床应用概述
下一篇:蛇莓抗肿瘤作用及临床应用