TCGA是由National Cancer Institute创建的肿瘤基因组数据库,截至目前(2020年6月),共收录65个PROJECTS,67个PRIMARY SITES,84031个CASES,涉及22872个基因。
TCGA数据库的大部分数据可以下载,在网站上直接下载方法如下:
以肾癌中占比最高的ccRCC为例,点击[REPOSITORY],左侧有[FILES]和[CASES],点击[CASES],选择[PRIMARY SITE]下的[KIDNEY],再选择[PROGRAM]下的[TCGA],[PROJECT]选择[TCGA-KIRC],[DISEASE TYPE]选择[ADENOMAS AND ADENOCARCINOMAS],此时,数据总量为22.66TB。回到[FILES]下,[EXPERIMENTAL STRATEGY]选择[RNA SEQ],[WORKFLOW TYPE]选择[HTSEQ COUNTS],[DATA FORMAT]选择[TXT],此时,数据总量为155.8MB,点[ADD FILES TO CART],就可以下载了。
进入[CART],共包含611个FILES,530个CASES,FILE SIZE为155.8MB,全部数据都是开源可供下载的,点击[DOWNLOAD]下的[MANIFEST],可以下载gdc_manifest.txt,这是用于下载的样本信息文件;点击[CLINICAL]下的[JSON],可以下载临床的分类数据;点击[METADATA],可以下载样本的具体信息。
这些文件准备完成之后,我们就可以使用终端来下载数据了,打开cmd,切换到gdc_manifest.txt所在的文件夹下,另外,还需要提前准备好GDC的数据下载客户端gdc-client.exe,放在同一目录下。
1 | > gdc-client.exe download -m gdc_manifest.txt |
共计下载了611个目录,这些目录之下有*.htseq.counts.gz格式的压缩文件,由于文件太多,接下来将要在R中进行批量操作。