GEO下载到的标准化后的表达矩阵(Series Matrix File(s)文件)或是下载原始.CEL文件自己归一化后形成的表达矩阵,每行的标注是以探针的形式给出的,例如。

3398158387119692480-115w.png?Expires=1621282510&OSSAccessKeyId=LTAI4FnEjz5mYKJJ4CpRXVuL&Signature=7PsUfUp8fQfFrwqippBF46gORao%3D

这样在分析差异基因之后,并不知道哪个探针对应哪个基因,希望能否先得到每行以基因形式标注的表达矩阵。

我在尝试了多种方法之后,发现GSEA桌面软件中集成的一个“CollapseDataset Page”小软件可以快速实现这一操作,故分享给大家。

在进行转化之前,需要准备两种文件:

安装并运行“GSEA v4.0.3 for Windows”(https://www.gsea-msigdb.org/gsea/downloads.jsp),进入界面后点击左侧栏目的“Load data”,会跳出加载标签页,将刚准备好的两个文件拖入加载框,再点“加载这些文件”按钮。

3398162284802300028-115w.png?Expires=1621282510&OSSAccessKeyId=LTAI4FnEjz5mYKJJ4CpRXVuL&Signature=EKOw2F18jZFiszBRyfPUUaXT0EM%3D

成功加载数据后,点击左侧栏目的Collapse Dataset小工具,会跳出该小工具的标签页。首先,在表达数据集下拉菜单中选取你刚才加载的表达矩阵;接着点击芯片平台右侧的“…”,选取网站上现成的chip文件或刚加载的自制chip文件;再接着选取“多个探针对应一个基因”的转换策略,目前使用较多的策略是:在每个样本中,如果有n个探针对应一个基因,那么就使用n个探针的中位数探针值作为该基因在这个样本中的表达量;因此,这里就选择“Median”;同理也可根据需要选择其他策略;下面可以继续设置分析的命名以及输出结果的文件夹。

3398162757248984558-115w.png?Expires=1621282510&OSSAccessKeyId=LTAI4FnEjz5mYKJJ4CpRXVuL&Signature=%2Frf%2BuC510nX360YHfvA8ytLn2SU%3D

最后点击“Run”,一般几秒钟就会运行完毕。

打开输出结果的文件夹,可以找到一个类似“_collapsed_to_symbols.gct”的文件,就是转化成功的基因级的表达矩阵文件。

3398164395779029899-115w.png?Expires=1621282510&OSSAccessKeyId=LTAI4FnEjz5mYKJJ4CpRXVuL&Signature=v7KCizLhgaVRe78bfojeZjfuZUw%3D

可以根据需要,用EXCEL加工回常规的表达矩阵,用于下一步分析。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐