版块导航: 正在加载中...

登录注册

应《网络安全法》要求，自2017年10月1日起，未进行实名认证将不得使用互联网跟帖服务。为保障您的帐号能够正常使用，请尽快对帐号进行手机号验证，感谢您的理解与支持！

24小时热门版块排行榜

返回列表

XOooZzz

银虫 (小有名气)

应助: 28 (小学生)
金币: 241.8
散金: 5
红花: 6
帖子: 249
在线: 57.9小时
虫号: 1432381
注册: 2011-10-08
性别: GG
专业: 基因表达调控与表观遗传学

能不能贴一小段上来看看是什么样子的？我最近在学编程，看能不能给你写个小程序

赞一下(1人)

回复此楼

11楼2014-03-02 12:41:11

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

yuehedou

木虫 (小有名气)

应助: 26 (小学生)
金币: 2171.4
红花: 2
帖子: 215
在线: 190.7小时
虫号: 1996646
注册: 2012-09-12
性别: GG
专业: 生物信息学

引用回帖:

11楼: Originally posted by XOooZzz at 2014-03-02 12:41:11
能不能贴一小段上来看看是什么样子的？我最近在学编程，看能不能给你写个小程序

比如这两个fastq文件的两段序列：
文件1：
@DHDC08P1_0325:4:1101:1291:2243#GATCAG/1
TGTATGATTTCGAACTTGGCGC
+DHDC08P1_0325:4:1101:1291:2243#GATCAG/1
__^ccdeefgggghgfhhhhhf
@DHDC08P1_0325:4:1101:1843:2157#GATCAG/1
TCTCGGACCAGGCTTCATTCC
+DHDC08P1_0325:4:1101:1843:2157#GATCAG/1
^^\accccgccceZf`gYe^S
@DHDC08P1_0325:4:1101:2447:2199#GATCAG/1
ACCGTGTTGTGATTTAGAGGCACA
+DHDC08P1_0325:4:1101:2447:2199#GATCAG/1
___eacccgeeggihihihdgdgi

文件2：
@DHDC08P1_0325:4:1101:1291:2243#GATCAG/2
GCGCCAAGTTCGAAATCATACA
+DHDC08P1_0325:4:1101:1291:2243#GATCAG/2
___c`c]cggcg`f\dJ`dg_g
@DHDC08P1_0325:4:1101:1843:2157#GATCAG/2
GGAATGAAGCCTGGTCCGAGA
+DHDC08P1_0325:4:1101:1843:2157#GATCAG/2
Z_ZZ`Zacacggcg`e^effa
@DHDC08P1_0325:4:1101:2447:2199#GATCAG/2
TGTGCCTCTAAATCACAACACGGT
+DHDC08P1_0325:4:1101:2447:2199#GATCAG/2
_b_cceeeggffgiiihiiiiihe

这些看起来好像都正好，但不能保证所有序列都这么整齐。
我想到了两种替换层次：1，/1和/2中每个对应碱基依质量值的替换；
2，/1和/2中每两条对应序列的替换。
对我难度比较大，你看看能实现不……

赞一下

回复此楼

每天都为自己的无知而羞耻！

12楼2014-03-03 15:01:18

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

XOooZzz

银虫 (小有名气)

应助: 28 (小学生)
金币: 241.8
散金: 5
红花: 6
帖子: 249
在线: 57.9小时
虫号: 1432381
注册: 2011-10-08
性别: GG
专业: 基因表达调控与表观遗传学

引用回帖:

12楼: Originally posted by yuehedou at 2014-03-03 15:01:18
比如这两个fastq文件的两段序列：
文件1：
@DHDC08P1_0325:4:1101:1291:2243#GATCAG/1
TGTATGATTTCGAACTTGGCGC
+DHDC08P1_0325:4:1101:1291:2243#GATCAG/1
__^ccdeefgggghgfhhhhhf
@DHDC08P1_0325:4:1101:18 ...

没看明白你的量种替换方法...是这样的意思吗：
1、两个对应的序列逐个碱基比较，保留质量高的那个碱基。最终得到的单一序列里可能有部分碱基来自序列1，部分来自序列2。
2、没看懂....

刚瞄了一下fastq格式，所谓的质量值，只要取其ascii码直接比较就可以了吧？ascii码越大质量越高是吧？

赞一下

回复此楼

13楼2014-03-03 16:12:25

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

yuehedou

木虫 (小有名气)

应助: 26 (小学生)
金币: 2171.4
红花: 2
帖子: 215
在线: 190.7小时
虫号: 1996646
注册: 2012-09-12
性别: GG
专业: 生物信息学

引用回帖:

13楼: Originally posted by XOooZzz at 2014-03-03 16:12:25
没看明白你的量种替换方法...是这样的意思吗：
1、两个对应的序列逐个碱基比较，保留质量高的那个碱基。最终得到的单一序列里可能有部分碱基来自序列1，部分来自序列2。
2、没看懂....

刚瞄了一下fastq格式， ...

2的意思是，如果实现1比较困难，就做简单的：算出整条序列的总质量值（每个碱基的加和），再比较两条对应序列的总质量值大小。
我这些序列的质量值是illumina的offset 64系列的，但仍然是与ascii大小对应，你试试？

赞一下

回复此楼

每天都为自己的无知而羞耻！

14楼2014-03-03 23:06:18

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

XOooZzz

银虫 (小有名气)

应助: 28 (小学生)
金币: 241.8
散金: 5
红花: 6
帖子: 249
在线: 57.9小时
虫号: 1432381
注册: 2011-10-08
性别: GG
专业: 基因表达调控与表观遗传学

★ ★
西门吹雪170: 金币+2, 鼓励回帖交流 2014-03-05 11:48:22

内容已删除

回复此楼

15楼2014-03-04 09:23:04

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

yuehedou

木虫 (小有名气)

应助: 26 (小学生)
金币: 2171.4
红花: 2
帖子: 215
在线: 190.7小时
虫号: 1996646
注册: 2012-09-12
性别: GG
专业: 生物信息学

引用回帖:

15楼: Originally posted by XOooZzz at 2014-03-04 09:23:04
呃，要实现这两种方法的话分别有这些问题：
方法1：
困难在于如果序列1和序列2不保证长度相等且碱基位置一一对应的话，首先要写一个两序列比对的算法。这个我做不来。

方法2：
总质量值怎么算？直接相加的话 ...

哦，我都没想到这么多……看来还真不容易，我可能要和公司给我的分析结果一样，只分析一个文件了……
谢谢你非常细心的关注和思考！
其实有时候我又有这样的想法：其实每两个序列的筛选都可以看做是极端的序列拼接操作（最终得到一条序列），如果有这样一个拼接软件，能用它实现两个fastq序列的拼接，而这种拼接时对于匹配区那些错配碱基的取舍是根据其质量值的大小来做决定的，这样一来，我的目的也就达到了。——不过当然我也还没见到过这种软件。

赞一下

回复此楼

每天都为自己的无知而羞耻！

16楼2014-03-05 09:34:10

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

XOooZzz

银虫 (小有名气)

应助: 28 (小学生)
金币: 241.8
散金: 5
红花: 6
帖子: 249
在线: 57.9小时
虫号: 1432381
注册: 2011-10-08
性别: GG
专业: 基因表达调控与表观遗传学

【答案】应助回帖

引用回帖:

16楼: Originally posted by yuehedou at 2014-03-05 09:34:10
哦，我都没想到这么多……看来还真不容易，我可能要和公司给我的分析结果一样，只分析一个文件了……
谢谢你非常细心的关注和思考！
其实有时候我又有这样的想法：其实每两个序列的筛选都可以看做是极端的序列拼 ...

这个我也不太懂。不过如果你能对方法2定下一个明确的评价方案的话，我之后可以找个时间给你写个小程序。

赞一下

回复此楼

17楼2014-03-07 14:32:24

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖