24小时热门版块排行榜    

查看: 5519  |  回复: 12
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

zhangjunpeng

至尊木虫 (知名作家)

[交流] TCGA数据库的使用交流 已有10人参与

在生信领域,数据源是非常重要的,毕竟谁也不想感受“巧妇无米之炊”的感觉。随着大数据时代的到来,各种大型生物公共数据库也不断完善,其中就包括The Cancer Genome Atlas (TCGA,https://tcga-data.nci.nih.gov/tcga/tcgaHome2.jsp)数据库。TCGA数据源大部分都是公开的,如何有效的进行收集和预处理是一个头疼的问题。

目前来能够从TCGA数据库中提取数据的处理工具有cBioPortal(http://www.cbioportal.org/public-portal/cgds_r.jsp),ICGC(http://dcc.icgc.org/download/current)和GenePattern(http://www.broadinstitute.org/ca ... tern/download/index)。这些工具使用起来还是有其局限性,都不能够轻易获取每个癌症类型的二维数据矩阵(例如基因为rows,样本为columns)。

因此开此贴,欢迎各位同行虫友交流一下获取TCGA数据库的经验,以及间接获取TCGA数据的工具使用技巧和方法。
回复此楼
北冥有鱼,其名为鲲。鲲之大,不知其几千里也。化而为鸟,其名为鹏。鹏之背,不知其几千里也。怒而飞,其翼若垂天之云。是鸟也,海运则将徙于南冥。南冥者,...
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

anchu

新虫 (小有名气)


小木虫: 金币+0.5, 给个红包,谢谢回帖
引用回帖:
8楼: Originally posted by willjiale at 2015-04-23 12:19:31
那个gene expressing数据在哪里下载 我现在摸不到头脑 谢谢...

In order to download data from TCGA data portal:

1. Connect to https://tcga-data.nci.nih.gov/tcga/
2. Select the cancer subtype you are interested in (i.e breast invasive carcinoma)
3. Select mRNA
4. Now you can see a table where rows are representing different patients.
5. If present select the column (by clicking on header) that referse to RNASeq or RNASeqV2 if it is present for that cancer subtype and then click BUILD archive.
6. Keep in mind that just below the header there is a number indicating the respective data level. Levels 1-4 (https://wiki.nci.nih.gov/display/TCGA/Data+level)
If you need RAW data such as FASTQ files you have find level 1 data, but often this kind of data is not publicly available on TCGA and you might need to ask for permission in order to download it.
11楼2015-08-31 15:15:06
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 zhangjunpeng 的主题更新
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见