DNA甲基化是表观遗传研究的一个重要层面,且与发育、衰老和疾病的发生发展密切相关。为了更好地利用已公开的海量甲基化数据,此前,中国科学院北京基因组研究所国家基因组科学数据中心(以下简称基因组数据中心)已经发布了一个DNA甲基化的综合性数据库MethBank(https://ngdc.cncb.ac.cn/methbank/),涵盖了多物种高质量的全基因组单碱基精度甲基化图谱、健康人参比甲基化组以及人工审编的甲基化分析工具集。这里,我们介绍基因组数据中心最新发布的单细胞甲基化数据库——scMethbank(https://ngdc.cncb.ac.cn/methbank/scm/)。

该项研究成果以“scMethBank: a database for single-cell whole genome DNA methylation maps”为题于2021年9月在国际学术期刊《核酸研究》(Nucleic Acids Research)在线发表。

e119c9eb0fba0a52b35c705484e0cf3e.png

scMethBank主页 scMethBank是第一个致力于单细胞全基因组DNA甲基化数据收集、整合、分析和可视化的综合性数据库,当前版本包括来自15个公共单细胞数据集的亚硫酸氢盐测序数据和人工审编的元数据8328个,涉及个物种(人和小鼠),9 种细胞类型和两种疾病。

数据库核心功能及操作演示

1. 数据浏览与检索

scMethBank使用标准流程对来自不同数据集的数据进行统一处理后录入数据库中,浏览模块提供四个层面的来自人工审编及处理后数据信息。

a7eaa7196aa3054dacfcefc26d51cc01.png

数据集信息包括文章题目,发表年份,PubMed ID,包含的细胞类型和数目,以及详细的实验设计信息和到对应细胞类型的单细胞转录组数据的链接。用户可以选择感兴趣的数据集进行进一步的筛选、使用和下载。

GSE56879为例,在样本浏览界面提供了样本多种生物条件的高效搜索,包括物种、数据集ID、发育阶段、疾病状态、处理方法、年龄、性别等。用户可以使用多个条件进行筛选,比如Series指定GSE56879,细胞类型指定为MII oocyte,在筛选结果页面可以点击列表More Details列的+显示数据处理的详情信息,并通过左上方按钮进行批量下载。

32d2121543c0fe15f65b203a2cf4300b.png

如果用户关注两种细胞类型之间的甲基化差异,scMethbBank也提供了一个预先计算的差异甲基化区域(DMR)的集合。仍然以GSE56879中的MII卵细胞与胚胎干细胞为例,通过在DMR浏览页面中勾选数据集以及对应的两种细胞类型,页面将展示两种细胞类型中存在的差异甲基化区域。同时为了进一步解读,数据库为这些区域提供了初步分析,包括在染色体和基因组区域上的分布情况、对应的基因以及这些基因注释的通路等。

502123d570ff1407a4f236279b4ea949.png

用户可以点击差异甲基化区域对应的基因链接跳转至基因浏览界面,这一功能同样可以通过用户对预先感兴趣的基因进行搜索实现。比如在搜索页面中我们指定遗传性乳腺癌相关基因BRCA1,通过表格最后一栏跳转至基因页面,页面展示了数据库中各种人类细胞类型在该基因上的平均甲基化水平,并可在JBrowse中进行交互式浏览和查看。

0114ae7407c7388bd7ab4d34fbef7a1a.png

2. 甲基化模式区域可视化及细胞分群展示

单细胞甲基化数据与bulk数据不同,具有稀疏性和独特的二值性,即非甲基化(0)和完全甲基化(1)两种状态,因此尽管可以通过计算区域内甲基化水平查看不同细胞之间的差别,但这种方式往往也会掩盖单细胞甲基化模式的复杂性。scMethBank构建了TB级存储的单细胞全基因组甲基化数据池,允许用户从8000多个不同样本中以单碱基精度检索甲基化图谱。通过指定感兴趣的基因或者任何基因组区域后,数据库会快速响应展示该区域样本上的甲基化状态,这里数据库网页提供了两种可交互的可视化模式,仍然以GSE56879数据集中的几个样本在brca1基因上的甲基化模式展示为例:

1a40bc9b5ef112afe09367ecdf529b6a.png

棒棒糖图,该图中展示所有样本每个CpG位点上的甲基化状态,对于浏览已知DMR区域的甲基化pattern以及直观展示区域内差异状态都很实用

9da08934256551fc65887246bb299a10.png

热图,热图展示的也是在区域上的甲基化模式,相对于棒棒糖图在更大尺度上直接展示单碱基上的甲基化状态,并且可以同时显示启动子与基因体区。

此外,来自不同数据集的所有单细胞样本的t-SNE 分析结果显示在cell cluster模块中,点的不同颜色代表不同的细胞群,并可以通过下拉选项指定着色方式和点的大小等。

8a55ad33a31bb0be6b09c462063a1a54.png

3. 在线工具

最后介绍一下scMethBank中提供的工具。目前已发表的单细胞甲基化数据分析工具非常少,scMethBank提供了一系列用于下游分析的绘图与富集分析工具。

LollipopPlotter,用来进行单细胞甲基化的Lollipop绘图。使用起来非常简单,三步即可。通过输入文件,设置甲基化阈值以及调整绘图设置,就可以快速获得单细胞甲基化文献中我们经常看到的棒棒糖图(黑白点图或者糖葫芦图)。

a5a068b019446dfdf4e499b879b4337c.png

富集分析工具可以直接对用户上传的基因集合进行在线富集分析和可视化展示,也可以对分析得到的差异甲基化区域进行基因注释以及富集分析。

b577b4b5fc2378b1e228f4108a2f6d21.png

scMethBank数据库提供了数据的打包下载和ftp下载两种批量下载方式,更多的细节及详细使用方式可以在网页在线帮助文档中获得。

参考文献

  1. Li R, Liang F, Li M, ZouD, Sun S, Zhao Y, Zhao W, Bao Y, Xiao J, Zhang Z. MethBank 3.0: a database ofDNA methylomes across a variety of species. Nucleic Acids Res. 2018 Jan4;46(D1):D288-D295. doi: 10.1093/nar/gkx1139. PMID: 29161430; PMCID: PMC5753180.

  2. Zong W, Kang H, Xiong Z, Ma Y, Jin T, Gong Z, Yi L,Zhang M, Wu S, Wang G, Bao Y, Li R. scMethBank: a database for single-cellwhole genome DNA methylation maps. Nucleic Acids Res. 2021 Sep 27:gkab833. doi:10.1093/nar/gkab833. Epub ahead of print. PMID: 34570235.

有数据库建设需求欢迎联系我们定制

生物大数据时代,如何做好数据管理和再利用,发IF10+的数据库文章?

往期精品(点击图片直达文字对应教程)

e15bff2611793684c38f0a70ee70fd5f.png

01871776b1a2f46d6677a0d4ca7d93c3.png

90202d25965a7bd71b0fdf1e845264c7.png

82882af95ac2cf49fdc7f9022c42d12f.png

bef4b6abb441765cf41774bb32e3d1a1.png

c59465c24873a8a9fddb5ab24c24c6bd.png

3f6444a7889e44054e079f162dbf7008.png

deec405e9714fe0720170ff090f8efee.png

05f402976d0c23acba3930f29f7627f4.png

f5d13f8f8e564710b75fae1ad13cad3b.png

8058ca03fcbabe51be3bc41d70e9a4d5.png

95394c1e9866b5a6da8363d0bb46081c.png

f94d417d0ec21d7f3a58177d3749023e.png

9f44616dd37e32d2e8292e32cc4ecff1.png

201527664fcac662431b0a05cce8ca30.png

f77a4d691bc4001951b67d1df6d8ac5b.png

9a0290f1001778cc2c629ff85a91b3b8.png

6820a6b92b34099d0fade647e741b406.png

4b9af06054ea95e22d4edf346d11bb93.png

37f1076efcea1674317a02fbf7475f53.png

3a2dac4159ceed90e2ae46ba49a16c6e.png

abb0b88803aca9ff93fa6ef05b4991e3.png

5579c2f68383c8ee64462f737353677f.png

df31d32b52a9e178f186abcf79b9fa84.png

7f078bfd3bbb0311c96af37379bdc7a6.png

2d47670fb66f478ca72bfa70ee0378b1.png

0ff901551ce117447720fe08c651d0f6.png

6d46b7fbc93132b96196247b7c041077.png

机器学习

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

7095a54d676b5934eda09550eaf81df6.png

d07efc94c24555642eb85c58ae0dca2c.png

c2236fbafebb76eb5a78917ad83b9db1.png

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐