24小时热门版块排行榜    

CyRhmU.jpeg
查看: 1094  |  回复: 5
本帖产生 1 个 MolEPI ,点击这里进行查看

yanruoke

银虫 (正式写手)

[求助] 关于数据的格式

看到文献上介绍 “GSE8988” (在 NCBI 里下载的 ) 这个 gene 表达数据文件里,是 1269 个gene 在 18 个time-point 的采样数据,我下载 GSE8988 并用 Bioconductor  归一化处理后,数据格式的形式见下图。第一个问题是 诸如 探针 ID “1367452_at” 这样的编号和基因是怎么对应的? “1367****_at” 这样的编号有五千多个,基因个数是1269个? 发现有的基因对应一个编号,有的基因对应数个 探针 ID编号, 这里面的有规律吗?
第二个问题: 第一行的编号 “GSM2273** .cel” 应该是和 采样时间点 对应的吧? 怎么看出这种对应关系?
我看了有关这个文件的相关说明 (http://www.ncbi.nlm.nih.gov/proj ... acc.cgi?acc=GSE8988   ),没找到和以上两个问题相关的介绍,困惑,请熟悉的虫友指教,先行谢过。


[ Last edited by yanruoke on 2011-4-26 at 19:27 ]
回复此楼
戒嗔怒以养肝气,省言语以养神气,多读书以养质气,顺时令以养元气,不拘节以养大气,观天变以养灵气,莫强求规于运气。
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

mumianke

铁杆木虫 (正式写手)

【答案】应助回帖

★ ★ ★ ★ ★
yanruoke(金币+15): thanks a lot 2011-04-27 10:44:19
dhd997(金币+5, EPI+1): good 2011-04-27 16:58:57
1.  探针 ID “1367452_at” 这样的编号和基因是怎么对应的?
这个芯片平台是Affymetrix的,你可参照http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL341,有对应信息,或者到http://www.affymetrix.com/analysis/index.affx注册个用户,里面有详细的信息。
有的基因对应一个编号,有的基因对应数个探针 ID编号,因为有的基因在转录是有可变剪切,在分析时可不用考虑,先基于探针分析,最后再注释到基因。
2. 相关说明你没有看完整吧。在Samples (54)这个地方有每个样本对应的时间点及说明。每个GSM里都有详细说明。或者在下面的
Download family         Format
SOFT formatted family file(s)         SOFT
MINiML formatted family file(s)         MINiML
Series Matrix File(s)         TXT
你可以下载Series Matrix File(s) 查看其对应关系。
狗一样地学,绅士一样地玩。
2楼2011-04-27 09:58:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yanruoke

银虫 (正式写手)

引用回帖:
Originally posted by mumianke at 2011-04-27 09:58:18:
1.  探针 ID “1367452_at” 这样的编号和基因是怎么对应的?
这个芯片平台是Affymetrix的,你可参照http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL341,有对应信息,或者到[url]http://www ...

mumianke,你好,顺便问下,每个sample 里给出了对应的时间点,由于每个时间点有三个老鼠的基因用来采样,因此对于某一时间点的三个 sample 来说,知道哪个sample 是和哪个 老鼠对应 重要吗?还是认为这三个 sample 只是重复采样,并不重要?
或者这样说: 我找出了18个 sample (从初始时刻到结束时刻,每时间点一个sample), 分析时应该确保这18 个sample 来自同一个老鼠吗?
先行谢过。
戒嗔怒以养肝气,省言语以养神气,多读书以养质气,顺时令以养元气,不拘节以养大气,观天变以养灵气,莫强求规于运气。
3楼2011-04-27 10:56:06
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

mumianke

铁杆木虫 (正式写手)

【答案】应助回帖

引用回帖:
Originally posted by yanruoke at 2011-04-27 10:56:06:
mumianke,你好,顺便问下,每个sample 里给出了对应的时间点,由于每个时间点有三个老鼠的基因用来采样,因此对于某一时间点的三个 sample 来说,知道哪个sample 是和哪个 老鼠对应 重要吗?还是认为这三个 s ...

从统计学角度来看,每个点3个样本,这只是试验设计的重复,样本间的差异可以忽略。一般不会一个时间点一个样本。
狗一样地学,绅士一样地玩。
4楼2011-04-27 16:11:26
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yanruoke

银虫 (正式写手)

引用回帖:
Originally posted by mumianke at 2011-04-27 16:11:26:
从统计学角度来看,每个点3个样本,这只是试验设计的重复,样本间的差异可以忽略。一般不会一个时间点一个样本。

thanks
戒嗔怒以养肝气,省言语以养神气,多读书以养质气,顺时令以养元气,不拘节以养大气,观天变以养灵气,莫强求规于运气。
5楼2011-04-28 10:56:22
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

chengs777

禁虫 (著名写手)

优秀版主

引用回帖:
208465楼: Originally posted by mumianke at 2011-04-27 09:58:18:
1.  探针 ID “1367452_at” 这样的编号和基因是怎么对应的?
这个芯片平台是Affymetrix的,你可参照http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL341,有对应信息,或者到http://www.affymetrix.com/an

http://muchong.com/bbs/viewthread.php?tid=4538555
感觉您懂很多,我是新手,麻烦您解答一下我这个帖子,万分感谢,必有重谢
6楼2012-05-21 21:58:55
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 yanruoke 的主题更新
信息提示
请填处理意见