24小时热门版块排行榜    

查看: 8580  |  回复: 21

seamas_gao1

银虫 (小有名气)

[求助] 转录组测序结果的“raw data”和“clean data”里为什么全是100bp的序列? 已有3人参与

我测了几个转录组样品,测序公司把“raw data”和“clean data”,都给我了,都是fq格式的文件,每个大概5个G。我打开发现里面全都是100 bp的序列,请问这正常吗?QC和拼接都是用这些100bp的序列吗?
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
回帖支持 ( 显示支持度最高的前 50 名 )

addict_cy

金虫 (小有名气)

★ ★
gyesang: 金币+2, 鼓励回帖交流! 2014-04-30 14:26:20
引用回帖:
14楼: Originally posted by seamas_gao1 at 2014-04-14 08:56:14
请问测序时用到的“100倍覆盖”,它的意思是不是就是将完整的转录组随机打断100次,之后再进行拼接呢?...

以人的基因组为例,总共3G bp, 如果总测序量是90G(90bp*1G reads),则基因组上每个位点平均被覆盖30次,叫做30X覆盖;注意这不意味着每个位点都有30次覆盖,实际上是一个分布;
转录组的话,由于每个基因表达量差别很大,所以讨论100倍覆盖其实没有意义.

» 本帖已获得的红花(最新10朵)

15楼2014-04-14 14:22:24
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

addict_cy

金虫 (小有名气)

【答案】应助回帖

★ ★ ★ ★ ★
seamas_gao1: 金币+5, ★★★很有帮助, 十分感谢 2014-04-14 08:44:08
引用回帖:
10楼: Originally posted by seamas_gao1 at 2014-04-03 10:06:23
能否麻烦再问一下,只是两端各测100bp的话,那怎么能把序列测通呢,比如序列片段是400bp的话,中间的200bp不就测不到了吗?是否是先把序列都打碎到不到200bp的长度呢,还麻烦解释一下,谢谢!...

考虑到一次测序的片断数目很多(比如5000万个片断),针对一对reads中间测不到的200bp,总会有其他的reads片断覆盖到,这样从全基因来看,基本上每个位置都会有足够的片断覆盖,从而实现对序列的resequencing.
11楼2014-04-03 11:25:21
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

woody196

木虫 (著名写手)

【答案】应助回帖

★ ★ ★ ★ ★ ★ ★ ★
seamas_gao1(西门吹雪170代发): 金币+1, 鼓励回帖交流 2014-04-02 08:30:44
seamas_gao1: 金币+5, ★★★很有帮助, 十分感谢 2014-04-14 08:45:14
seamas_gao1: 金币+2, ★★★很有帮助 2014-04-14 08:46:16
如果你使用的是illumina测序的话都是片段为100bp的reads,raw reads就是测序完后的原始序列,而cleanreads是去除接头以及一些质量值较低的reads后产生的。
9楼2014-04-02 08:05:16
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

洛基殿下~

捐助贵宾 (小有名气)


商家已经主动声明此回帖可能含有宣传内容
引用回帖:
7楼: Originally posted by seamas_gao1 at 2014-04-01 15:40:09
能否麻烦再问一下,只是两端各测100bp的话,那怎么能把序列测通呢,比如序列片段是400bp的话,中间的200bp不就测不到了吗?是否是先把序列都打碎到不到200bp的长度呢,还麻烦解释一下,谢谢!...

一半都是打断成500、300bp。以你的400bp为例,其实他是没有测通的,只是测了2边的各100bp,然后利用片断与片断之间这100bp序列的重叠关系(因为是DNA是随机打断的)利用生物信息软件拼接起来的。
12楼2014-04-04 09:50:14
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

洛基殿下~

捐助贵宾 (小有名气)


商家已经主动声明此回帖可能含有宣传内容
是的,转录组不讲测序深度,因为转录组的表达量不一样,谈不上平均测序深度。主要看饱和曲线,饱和曲线区域饱和,就表明大部分的转录组被测到,再加大测序量,被测到的转录组数量也不会明显增加。  重测序和基因组这种DNA测序,才提到测序深度的问题。
16楼2014-04-14 16:14:45
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

wsliuqiulei

铜虫 (初入文坛)

他是把很长的序列打成了很多很多个小的片段,给每个小的片段加上特定的接头以后,才去进行的PE双端测序,经过大量的测序,就能把这些小的片段之间的overlap区域找到,然后拼接,这样就得到了你说的那种测通的长的序列
21楼2014-09-16 09:30:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
普通回帖

seamas_gao1

银虫 (小有名气)

没有人知道吗?
2楼2014-03-31 11:10:23
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

bio-li

金虫 (小有名气)


myprayer: 金币+1, 赠人玫瑰手有余香,分子生物期待你更多精彩。 2014-03-31 12:41:42
拼接用的是clean data,raw data不能用的,你这测序采用的是什么平台
你不能解决问题,你就会成为问题
3楼2014-03-31 12:09:23
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

seamas_gao1

银虫 (小有名气)

引用回帖:
3楼: Originally posted by bio-li at 2014-03-31 12:09:23
拼接用的是clean data,raw data不能用的,你这测序采用的是什么平台

我正是准备用clean data来拼接,用的是Illumina,我只是不明白为什么clean data全都是100 bp的序列,这正常吗?
4楼2014-04-01 08:00:38
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

洛基殿下~

捐助贵宾 (小有名气)


【答案】应助回帖

商家已经主动声明此回帖可能含有宣传内容
★ ★ ★ ★ ★ ★ ★
seamas_gao1(西门吹雪170代发): 金币+2, 鼓励热心回帖交流 2014-04-01 13:18:40
seamas_gao1: 金币+5, ★★★很有帮助, 十分感谢 2014-04-14 08:44:58
引用回帖:
4楼: Originally posted by seamas_gao1 at 2014-04-01 08:00:38
我正是准备用clean data来拼接,用的是Illumina,我只是不明白为什么clean data全都是100 bp的序列,这正常吗?...

正常的,如果是转录组、DNA重测序,illumina平台一般都是采用PE100测序,测序的过程中都是测DNA片断2端各100bp,所以下机出来的都是100bp的片断。

raw data是原始下机数据,clean data是经过过滤处理后留下的数据,该数据用于后续的生物信息分析。
5楼2014-04-01 10:58:42
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

XOooZzz

银虫 (小有名气)

lz你好,我对生物信息学有点兴趣,想请问你用什么软件进行拼接?
6楼2014-04-01 11:03:50
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

seamas_gao1

银虫 (小有名气)

引用回帖:
5楼: Originally posted by 洛基殿下~ at 2014-04-01 10:58:42
正常的,如果是转录组、DNA重测序,illumina平台一般都是采用PE100测序,测序的过程中都是测DNA片断2端各100bp,所以下机出来的都是100bp的片断。

raw data是原始下机数据,clean data是经过过滤处理后留下的数 ...

能否麻烦再问一下,只是两端各测100bp的话,那怎么能把序列测通呢,比如序列片段是400bp的话,中间的200bp不就测不到了吗?是否是先把序列都打碎到不到200bp的长度呢,还麻烦解释一下,谢谢!
7楼2014-04-01 15:40:09
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

seamas_gao1

银虫 (小有名气)

引用回帖:
6楼: Originally posted by XOooZzz at 2014-04-01 11:03:50
lz你好,我对生物信息学有点兴趣,想请问你用什么软件进行拼接?

CLC,花钱买的
8楼2014-04-01 15:40:22
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

seamas_gao1

银虫 (小有名气)

引用回帖:
9楼: Originally posted by woody196 at 2014-04-02 08:05:16
如果你使用的是illumina测序的话都是片段为100bp的reads,raw reads就是测序完后的原始序列,而cleanreads是去除接头以及一些质量值较低的reads后产生的。

能否麻烦再问一下,只是两端各测100bp的话,那怎么能把序列测通呢,比如序列片段是400bp的话,中间的200bp不就测不到了吗?是否是先把序列都打碎到不到200bp的长度呢,还麻烦解释一下,谢谢!
10楼2014-04-03 10:06:23
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 seamas_gao1 的主题更新
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[考研] 0817 化学工程 299分求调剂 有科研经历 有二区文章 +4 rare12345 2026-03-18 4/200 2026-03-18 13:26 by 北极159263
[考研] 0703化学调剂 +4 pupcoco 2026-03-17 7/350 2026-03-18 12:14 by djl2006
[考研] 281求调剂(0805) +4 烟汐忆海 2026-03-16 11/550 2026-03-18 11:57 by djl2006
[考研] 301求调剂 +9 yy要上岸呀 2026-03-17 9/450 2026-03-18 08:58 by 无际的草原
[考研] 考研求调剂 +3 橘颂. 2026-03-17 4/200 2026-03-17 21:43 by 有只狸奴
[考研] 277调剂 +5 自由煎饼果子 2026-03-16 6/300 2026-03-17 19:26 by 李leezz
[硕博家园] 湖北工业大学 生命科学与健康学院-课题组招收2026级食品/生物方向硕士 +3 1喜春8 2026-03-17 5/250 2026-03-17 17:18 by ber川cool子
[考研] 有没有道铁/土木的想调剂南林,给自己招师弟中~ +3 TqlXswl 2026-03-16 7/350 2026-03-17 15:23 by TqlXswl
[基金申请] 国自科面上基金字体 +6 iwuli 2026-03-12 7/350 2026-03-16 21:18 by sculhf
[考研] 一志愿211 0703方向310分求调剂 +3 努力奋斗112 2026-03-15 3/150 2026-03-16 16:44 by houyaoxu
[考研] 283求调剂 +10 小楼。 2026-03-12 14/700 2026-03-16 16:08 by 13811244083
[考研] 材料与化工 323 英一+数二+物化,一志愿:哈工大 本人本科双一流 +4 自由的_飞翔 2026-03-13 5/250 2026-03-14 19:39 by hmn_wj
[考研] 297求调剂 +4 学海漂泊 2026-03-13 4/200 2026-03-14 11:51 by 热情沙漠
[考研] 材料080500调剂求收留 +3 一颗meteor 2026-03-13 3/150 2026-03-14 10:54 by peike
[基金申请] 有必要更换申报口吗 20+3 fannyamoy 2026-03-11 3/150 2026-03-14 00:52 by zhanghaozhu
[考研] 0703化学一志愿211 总分320求调剂 +5 玛卡巴卡啊哈 2026-03-11 5/250 2026-03-13 21:40 by JourneyLucky
[考研] 26调剂/材料科学与工程/总分295/求收留 +9 2026调剂侠 2026-03-12 9/450 2026-03-13 20:46 by 18595523086
[考研] 295求调剂 +3 小匕仔汁 2026-03-12 3/150 2026-03-13 15:17 by vgtyfty
[考研] 085600材料与化工 309分请求调剂 +7 dtdxzxx 2026-03-12 8/400 2026-03-13 14:43 by jxchenghu
[考研] 070303一志愿西北大学学硕310找调剂 +3 d如愿上岸 2026-03-13 3/150 2026-03-13 10:43 by houyaoxu
信息提示
请填处理意见