24小时热门版块排行榜    

CyRhmU.jpeg
查看: 5420  |  回复: 12

zhangjunpeng

至尊木虫 (知名作家)

[交流] TCGA数据库的使用交流已有10人参与

在生信领域,数据源是非常重要的,毕竟谁也不想感受“巧妇无米之炊”的感觉。随着大数据时代的到来,各种大型生物公共数据库也不断完善,其中就包括The Cancer Genome Atlas (TCGA,https://tcga-data.nci.nih.gov/tcga/tcgaHome2.jsp)数据库。TCGA数据源大部分都是公开的,如何有效的进行收集和预处理是一个头疼的问题。

目前来能够从TCGA数据库中提取数据的处理工具有cBioPortal(http://www.cbioportal.org/public-portal/cgds_r.jsp),ICGC(http://dcc.icgc.org/download/current)和GenePattern(http://www.broadinstitute.org/ca ... tern/download/index)。这些工具使用起来还是有其局限性,都不能够轻易获取每个癌症类型的二维数据矩阵(例如基因为rows,样本为columns)。

因此开此贴,欢迎各位同行虫友交流一下获取TCGA数据库的经验,以及间接获取TCGA数据的工具使用技巧和方法。
回复此楼
北冥有鱼,其名为鲲。鲲之大,不知其几千里也。化而为鸟,其名为鹏。鹏之背,不知其几千里也。怒而飞,其翼若垂天之云。是鸟也,海运则将徙于南冥。南冥者,...
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
回帖支持 ( 显示支持度最高的前 50 名 )

anchu

新虫 (小有名气)


小木虫: 金币+0.5, 给个红包,谢谢回帖
引用回帖:
8楼: Originally posted by willjiale at 2015-04-23 12:19:31
那个gene expressing数据在哪里下载 我现在摸不到头脑 谢谢...

In order to download data from TCGA data portal:

1. Connect to https://tcga-data.nci.nih.gov/tcga/
2. Select the cancer subtype you are interested in (i.e breast invasive carcinoma)
3. Select mRNA
4. Now you can see a table where rows are representing different patients.
5. If present select the column (by clicking on header) that referse to RNASeq or RNASeqV2 if it is present for that cancer subtype and then click BUILD archive.
6. Keep in mind that just below the header there is a number indicating the respective data level. Levels 1-4 (https://wiki.nci.nih.gov/display/TCGA/Data+level)
If you need RAW data such as FASTQ files you have find level 1 data, but often this kind of data is not publicly available on TCGA and you might need to ask for permission in order to download it.
11楼2015-08-31 15:15:06
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xingzhou823

木虫 (正式写手)

五道杠


小木虫: 金币+0.5, 给个红包,谢谢回帖
http://wenku.baidu.com/link?url= ... O7J9NHzBL_xnc1QCBRC
链接是一个TCGA的基础培训,可以学习一下
你,长大了吗?~有目的的希望小木虫不要倒闭
12楼2015-11-12 11:57:05
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
普通回帖

biojamie

金虫 (初入文坛)


小木虫: 金币+0.5, 给个红包,谢谢回帖
我最近也在使用TCGA的一些数据,TCGA只公开部分的肿瘤数据,有一些是可以下载,但不能发布使用,对于既能下又能用的部分(我用到的是22种肿瘤),又分为基因组的variation和RNA seq的一些原始结果(目前我所知道的)。最好是批量下载,即在它的ftp上把整个文件夹获取。另外也推荐一个肿瘤数据库:COSMIC  里面的mutation文件竟包含了TCGA的一些结果,但我没细看是否完全包含了,lz如果深入做这部分,可以向你请教一下!
2楼2014-03-18 22:11:58
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhangjunpeng

至尊木虫 (知名作家)

引用回帖:
2楼: Originally posted by biojamie at 2014-03-18 22:11:58
我最近也在使用TCGA的一些数据,TCGA只公开部分的肿瘤数据,有一些是可以下载,但不能发布使用,对于既能下又能用的部分(我用到的是22种肿瘤),又分为基因组的variation和RNA seq的一些原始结果(目前我所知道的)。最 ...

虽然TCGA公开了很多数据,但是数据格式难以转化成熟悉的结构化数据:nXm,其中n为变量,m为样本。所以数据转化是一个问题。
北冥有鱼,其名为鲲。鲲之大,不知其几千里也。化而为鸟,其名为鹏。鹏之背,不知其几千里也。怒而飞,其翼若垂天之云。是鸟也,海运则将徙于南冥。南冥者,...
3楼2014-03-18 22:33:43
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

scybhmu老谭

木虫 (小有名气)


小木虫: 金币+0.5, 给个红包,谢谢回帖
我也在用这个数据库的数据,它里面gene expressing 的数据一般有3个level,但是往往没有我需要的level2的数据,所以想要得到真的不容易,但是听人说给作者写邮件能得到level2的数据,不知道能不能行,想问问你们有没有什么办法得到level2的数据?
4楼2014-04-12 14:21:03
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhangjunpeng

至尊木虫 (知名作家)

引用回帖:
4楼: Originally posted by scybhmu老谭 at 2014-04-12 14:21:03
我也在用这个数据库的数据,它里面gene expressing 的数据一般有3个level,但是往往没有我需要的level2的数据,所以想要得到真的不容易,但是听人说给作者写邮件能得到level2的数据,不知道能不能行,想问问你们有没 ...

level2数据一般是受保护的,有些涉及到隐私,内部人员才有权利进入。一般来说,获取level3数据就不错了。
北冥有鱼,其名为鲲。鲲之大,不知其几千里也。化而为鸟,其名为鹏。鹏之背,不知其几千里也。怒而飞,其翼若垂天之云。是鸟也,海运则将徙于南冥。南冥者,...
5楼2014-04-12 15:37:17
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xv1215

金虫 (正式写手)


小木虫: 金币+0.5, 给个红包,谢谢回帖
有没有数据库使用教程啊?
6楼2014-11-23 20:53:01
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhang3213986

新虫 (初入文坛)


小木虫: 金币+0.5, 给个红包,谢谢回帖
下面是某学长发给我的TCGA部分数据,请问每组数据代表什么意思?
# Mutation matrix made from SNV data (/data/compbio/datasets/MutationMatrices/BREAST/2012-10-31/brca_mutation_fromPanCancer.snv) and CNA data (brca_cna_gistic_wide.cna).
TCGA-A1-A0SD        ANK3        C12ORF51        C19ORF51        CASK        CDHR3        CNTFR        COL14A1        CPAMD8        CPEB2        CXORF58        FAM182B        FNDC1        GDF5        GRIN2C        IGSF3        KIRREL        KLK15        L1CAM        LOC653125        LRBA        LRP2        NCOA3        PAK1(A)        PCDHA6        PGC        PNLIPRP2        PTEN(D)        RP1        SFRS17A        SIDT2        SLC44A3        SLFN14        SNX5        TLR5        WDR72        ZFP91        ZFR2        ZNF544        ZNF740
TCGA-A1-A0SE        ARRDC4        B3GNT1        C10ORF71        C3ORF38        CCND1(A)        CDH1        ENSG00000234924        ENSG00000245041        ENSG00000245055        ENSG00000245922        ENSG00000246925        ENSG00000247772        LOC646096        MAP2K4(D)        MED23        MGA        MRPS18B        PAK1(A)        RBM26        SDR16C5        SYDE2        TBC1D12        UNC13C        WDR91        ZFHX4
TCGA-A1-A0SH        12p13.33(A)        ACSL4        AHCTF1        ALPK3        ANK3        ANKRD7        APOB48R        ARHGAP28        ASL        ATPIF1        BCL7B        BDP1        BLOC1S1        BRCA1        C14ORF37        CAP2        CCT8        CD97        CDCA2        CHCHD1        CNTN4        COL14A1        CUBN        DAPK2        DHRS13        DMD        DNAH8        DRGX        ENSG00000210082        ENSG00000245997        ENSG00000246667        ENSG00000247966        ESCO1        EXPH5        FAM111A        FAM149B1        FAM150B        FAM83B        FBXO4        GDF9        GPR32        H2BFWT        HCFC2        HOMER3        HYDIN        IRS4        ITIH5        KCNT2        KCNU1        KDELR3        KLHL25        KRT28        LOC100130982        LOC100288406        LOC201651        LOC440292        LOC645954        LPP        LRRC8A        MAGEA12        MARCH7        MED13L        METT5D1        MICAL1        MTM1        NOS3        PALLD        PCTK3        PHF17        PLCE1        PNCK        PPARA        PREX1        PTPRD(D)        PZP        RHCG        SCAPER        SLC17A4        SPTBN1        TAS2R46        TIFAB        TTC39A        UPRT        WDR7        WDR87        WWOX(D)        ZFHX4        ZNF606
TCGA-A1-A0SJ        20p12.1(D)        ADK-MYST4(A)        ADORA3        ALG1        AMZ2        ASCL3        C14ORF104        CCND1(A)        CHML        CILP        CNR1        COL20A1        ENSG00000240720        ENSG00000245434        ENSG00000245549        ENSG00000245900        ENSG00000246515        ENSG00000247089        FAF2        FLJ40292        GJB2        GNPTAB        HAGHL        HNRPDL        HOOK2        IKZF1        LATS2        LOC100287308        LOC100290640        LOC729866        MAP2K4(D)        MCTS1        MDM2(A)        NOTUM        NUP62        OFD1        PAK1(A)        PSMD11        RANBP6        RASSF7        SCN4A        SNAI1        SPEN        TH1L        TNRC6A        ZBTB11        ZNF217(A)        ZNF543
TCGA-A1-A0SK        8p11(A)        8p11.23(A)        ACBD5        AHNAK        ANKRD42        ARL11        ASB10        ATG2A        C19ORF29OS        CAMTA2        CCL23        CHRNB4        COPE        CYP21A2        DMBT1        DTX1        ENSG00000005206        ENSG00000223274        FAT3        FLJ32810        GDPD5        GMEB1        GTF3C1        HNRNPA1        IDS        LAMA3        LARGE        LOC645954        LRP2        LSR        NPAS2        NSMAF        OBFC2B        OR5AU1        PJA1        POU4F1        RB1(D)        RXFP4        SCD5        SERTAD3        SHPK        SLITRK4        SSR4        TECTA        TEX11        TG        TP53        TRAF3IP1        UGT2B15        UNC5D        USH2A        VIT        YIPF7
Nothing is too difficult if you put your heart into it
7楼2015-03-12 16:09:45
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

willjiale

新虫 (初入文坛)


小木虫: 金币+0.5, 给个红包,谢谢回帖
引用回帖:
4楼: Originally posted by scybhmu老谭 at 2014-04-12 14:21:03
我也在用这个数据库的数据,它里面gene expressing 的数据一般有3个level,但是往往没有我需要的level2的数据,所以想要得到真的不容易,但是听人说给作者写邮件能得到level2的数据,不知道能不能行,想问问你们有没 ...

那个gene expressing数据在哪里下载 我现在摸不到头脑 谢谢
8楼2015-04-23 12:19:31
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

fangyonghui

新虫 (初入文坛)


小木虫: 金币+0.5, 给个红包,谢谢回帖
我刚接触到这个数据库,现在想获取每个基因的TSS位置,但是DOWN下来的数据看起来很不适合呀,不知道有没有比较好的基因和TSS位置对应的文件?愁死我了!
9楼2015-04-24 03:01:21
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

lordove

新虫 (小有名气)

引用回帖:
9楼: Originally posted by fangyonghui at 2015-04-24 03:01:21
我刚接触到这个数据库,现在想获取每个基因的TSS位置,但是DOWN下来的数据看起来很不适合呀,不知道有没有比较好的基因和TSS位置对应的文件?愁死我了!

gtf文件就行啊
10楼2015-06-24 16:55:22
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 zhangjunpeng 的主题更新
普通表情 高级回复(可上传附件)
信息提示
请填处理意见