24小时热门版块排行榜    

CyRhmU.jpeg
查看: 5422  |  回复: 12
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

zhangjunpeng

至尊木虫 (知名作家)

[交流] TCGA数据库的使用交流已有10人参与

在生信领域,数据源是非常重要的,毕竟谁也不想感受“巧妇无米之炊”的感觉。随着大数据时代的到来,各种大型生物公共数据库也不断完善,其中就包括The Cancer Genome Atlas (TCGA,https://tcga-data.nci.nih.gov/tcga/tcgaHome2.jsp)数据库。TCGA数据源大部分都是公开的,如何有效的进行收集和预处理是一个头疼的问题。

目前来能够从TCGA数据库中提取数据的处理工具有cBioPortal(http://www.cbioportal.org/public-portal/cgds_r.jsp),ICGC(http://dcc.icgc.org/download/current)和GenePattern(http://www.broadinstitute.org/ca ... tern/download/index)。这些工具使用起来还是有其局限性,都不能够轻易获取每个癌症类型的二维数据矩阵(例如基因为rows,样本为columns)。

因此开此贴,欢迎各位同行虫友交流一下获取TCGA数据库的经验,以及间接获取TCGA数据的工具使用技巧和方法。
回复此楼
北冥有鱼,其名为鲲。鲲之大,不知其几千里也。化而为鸟,其名为鹏。鹏之背,不知其几千里也。怒而飞,其翼若垂天之云。是鸟也,海运则将徙于南冥。南冥者,...
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

anchu

新虫 (小有名气)


小木虫: 金币+0.5, 给个红包,谢谢回帖
引用回帖:
8楼: Originally posted by willjiale at 2015-04-23 12:19:31
那个gene expressing数据在哪里下载 我现在摸不到头脑 谢谢...

In order to download data from TCGA data portal:

1. Connect to https://tcga-data.nci.nih.gov/tcga/
2. Select the cancer subtype you are interested in (i.e breast invasive carcinoma)
3. Select mRNA
4. Now you can see a table where rows are representing different patients.
5. If present select the column (by clicking on header) that referse to RNASeq or RNASeqV2 if it is present for that cancer subtype and then click BUILD archive.
6. Keep in mind that just below the header there is a number indicating the respective data level. Levels 1-4 (https://wiki.nci.nih.gov/display/TCGA/Data+level)
If you need RAW data such as FASTQ files you have find level 1 data, but often this kind of data is not publicly available on TCGA and you might need to ask for permission in order to download it.
11楼2015-08-31 15:15:06
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 13 个回答

biojamie

金虫 (初入文坛)


小木虫: 金币+0.5, 给个红包,谢谢回帖
我最近也在使用TCGA的一些数据,TCGA只公开部分的肿瘤数据,有一些是可以下载,但不能发布使用,对于既能下又能用的部分(我用到的是22种肿瘤),又分为基因组的variation和RNA seq的一些原始结果(目前我所知道的)。最好是批量下载,即在它的ftp上把整个文件夹获取。另外也推荐一个肿瘤数据库:COSMIC  里面的mutation文件竟包含了TCGA的一些结果,但我没细看是否完全包含了,lz如果深入做这部分,可以向你请教一下!
2楼2014-03-18 22:11:58
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhangjunpeng

至尊木虫 (知名作家)

引用回帖:
2楼: Originally posted by biojamie at 2014-03-18 22:11:58
我最近也在使用TCGA的一些数据,TCGA只公开部分的肿瘤数据,有一些是可以下载,但不能发布使用,对于既能下又能用的部分(我用到的是22种肿瘤),又分为基因组的variation和RNA seq的一些原始结果(目前我所知道的)。最 ...

虽然TCGA公开了很多数据,但是数据格式难以转化成熟悉的结构化数据:nXm,其中n为变量,m为样本。所以数据转化是一个问题。
北冥有鱼,其名为鲲。鲲之大,不知其几千里也。化而为鸟,其名为鹏。鹏之背,不知其几千里也。怒而飞,其翼若垂天之云。是鸟也,海运则将徙于南冥。南冥者,...
3楼2014-03-18 22:33:43
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

scybhmu老谭

木虫 (小有名气)


小木虫: 金币+0.5, 给个红包,谢谢回帖
我也在用这个数据库的数据,它里面gene expressing 的数据一般有3个level,但是往往没有我需要的level2的数据,所以想要得到真的不容易,但是听人说给作者写邮件能得到level2的数据,不知道能不能行,想问问你们有没有什么办法得到level2的数据?
4楼2014-04-12 14:21:03
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
普通表情 高级回复(可上传附件)
信息提示
请填处理意见