这里写自定义目录标题

一、介绍

从DrugBank爬取小分子药物数据,并存入数据库中,由于每一个收录的分子,DrugBank都做了很详尽的描述,信息量非常大,因此将爬取到的信息分两张表保存:一张表(A表)保存基本药物基本信息和化学性质,另一张表(B表)保存与大分子(包括靶标蛋白、酶、转运蛋白)的相互作用。

A表字段

字段名 类型 解释说明
Compound_Id int 化合物Id,化合物的唯一标识
Drug_name varchar(200) 药物名称
accession_number varchar(80) 在DrugBank中的变化,以DB为开头
groups Varchar(60) 1:approved, 2:nutraceutical, 3:llliclit
4:Investigational, 5:withdrawn, 6:experimental
cas Varchar(30) CAS号
weight float 分子量
smiles Varchar(600) 分子的smiles格式的字符串
Action_mechanism text 作用机制描述
Absorption text 吸收过程描述
Protein_binding text 蛋白结合率描述
metabolism text 代谢过程描述
Toxicity text 毒性描述
ex_soluble Varchar(150) 实验测的溶解度,由于表述方式不同,只能记录其表述,后期需要训练时,再转化为“易容、可溶、微溶”等分类。该数据常常会空缺。
ex_logP float 实验测得的logP值,常常空缺。
Pred_solubility float 由ALOGPS预测的水溶解度,单位为mg/ml偶尔空缺
Pred_logP float 由ALOGPS预测的logP, 偶尔空缺
Pred_logS float 由ALOGPS预测的logS, 偶尔空缺
Pre_Intestinal_absorption int 是否能通过肠胃吸收(预测值),-1:不吸收,1:吸收
Pre_bbb int 是否能通过血脑屏障(预测值),-1:通不过,1:通过
Pre_CYP_2C9 Varchar(40) 是否抑制Pre_CYP_2C9
Pre_CYP_2D6 Varchar(40) 是否抑制Pre_CYP_2D6
Pre_CYP_2C19 Varchar(40) 是否抑制Pre_CYP_2C19
Pre_CYP_3A4 Varchar(40) 是否抑制Pre_CYP_3A4
Class Varchar(100) 分子的分类
Sub_class Varchar(100) 分子的亚类,可用于相似结构的搜索

说明:MOL、SDF、3D-SDF、PDB、SMILES、InChI以文件形式下载后保存

B表字段

字段名 类型 解释说明
Item_id int 记录的id
Compound_Id int Id,化合物的唯一标识,与A表的Compound_Id对应
Interatction_target varchar(400) 作用于大分子的名称
Target_kind int 大分子类别,1:蛋白质, 2:核酸, 3:多糖
Organism Varchar(50) 大分子来源的物种
Action_type Varchar(50) 与大分子的作用方式,是激动还是抑制
Action_relaiton Varchar(30) 作用的关系,是靶标还是代谢酶或是转运蛋白
Gene_name Varchar(100) 基因名称
Uniprot_id Varchar(150) 大分子在www.uniprot.org数据库中的ID,通过这个id,可以在www.uniprot.org中查询到该大分子的详尽信息
Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐