24小时热门版块排行榜    

查看: 1915  |  回复: 18

XOooZzz

银虫 (小有名气)

能不能贴一小段上来看看是什么样子的?我最近在学编程,看能不能给你写个小程序
11楼2014-03-02 12:41:11
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yuehedou

木虫 (小有名气)

引用回帖:
11楼: Originally posted by XOooZzz at 2014-03-02 12:41:11
能不能贴一小段上来看看是什么样子的?我最近在学编程,看能不能给你写个小程序

比如这两个fastq文件的两段序列:
文件1:
@DHDC08P1_0325:4:1101:1291:2243#GATCAG/1
TGTATGATTTCGAACTTGGCGC
+DHDC08P1_0325:4:1101:1291:2243#GATCAG/1
__^ccdeefgggghgfhhhhhf
@DHDC08P1_0325:4:1101:1843:2157#GATCAG/1
TCTCGGACCAGGCTTCATTCC
+DHDC08P1_0325:4:1101:1843:2157#GATCAG/1
^^\accccgccceZf`gYe^S
@DHDC08P1_0325:4:1101:2447:2199#GATCAG/1
ACCGTGTTGTGATTTAGAGGCACA
+DHDC08P1_0325:4:1101:2447:2199#GATCAG/1
___eacccgeeggihihihdgdgi

文件2:
@DHDC08P1_0325:4:1101:1291:2243#GATCAG/2
GCGCCAAGTTCGAAATCATACA
+DHDC08P1_0325:4:1101:1291:2243#GATCAG/2
___c`c]cggcg`f\dJ`dg_g
@DHDC08P1_0325:4:1101:1843:2157#GATCAG/2
GGAATGAAGCCTGGTCCGAGA
+DHDC08P1_0325:4:1101:1843:2157#GATCAG/2
Z_ZZ`Zacacggcg`e^effa
@DHDC08P1_0325:4:1101:2447:2199#GATCAG/2
TGTGCCTCTAAATCACAACACGGT
+DHDC08P1_0325:4:1101:2447:2199#GATCAG/2
_b_cceeeggffgiiihiiiiihe

这些看起来好像都正好,但不能保证所有序列都这么整齐。
我想到了两种替换层次:1,/1和/2中每个对应碱基依质量值的替换;
2,/1和/2中每两条对应序列的替换。
对我难度比较大,你看看能实现不……
每天都为自己的无知而羞耻!
12楼2014-03-03 15:01:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

XOooZzz

银虫 (小有名气)

引用回帖:
12楼: Originally posted by yuehedou at 2014-03-03 15:01:18
比如这两个fastq文件的两段序列:
文件1:
@DHDC08P1_0325:4:1101:1291:2243#GATCAG/1
TGTATGATTTCGAACTTGGCGC
+DHDC08P1_0325:4:1101:1291:2243#GATCAG/1
__^ccdeefgggghgfhhhhhf
@DHDC08P1_0325:4:1101:18 ...

没看明白你的量种替换方法...是这样的意思吗:
1、两个对应的序列逐个碱基比较,保留质量高的那个碱基。最终得到的单一序列里可能有部分碱基来自序列1,部分来自序列2。
2、没看懂....

刚瞄了一下fastq格式,所谓的质量值,只要取其ascii码直接比较就可以了吧?ascii码越大质量越高是吧?
13楼2014-03-03 16:12:25
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yuehedou

木虫 (小有名气)

引用回帖:
13楼: Originally posted by XOooZzz at 2014-03-03 16:12:25
没看明白你的量种替换方法...是这样的意思吗:
1、两个对应的序列逐个碱基比较,保留质量高的那个碱基。最终得到的单一序列里可能有部分碱基来自序列1,部分来自序列2。
2、没看懂....

刚瞄了一下fastq格式, ...

2的意思是,如果实现1比较困难,就做简单的:算出整条序列的总质量值(每个碱基的加和),再比较两条对应序列的总质量值大小。
我这些序列的质量值是illumina的offset 64系列的,但仍然是与ascii大小对应,你试试?
每天都为自己的无知而羞耻!
14楼2014-03-03 23:06:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

XOooZzz

银虫 (小有名气)

★ ★
西门吹雪170: 金币+2, 鼓励回帖交流 2014-03-05 11:48:22
内容已删除
15楼2014-03-04 09:23:04
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yuehedou

木虫 (小有名气)

引用回帖:
15楼: Originally posted by XOooZzz at 2014-03-04 09:23:04
呃,要实现这两种方法的话分别有这些问题:
方法1:
困难在于如果序列1和序列2不保证长度相等且碱基位置一一对应的话,首先要写一个两序列比对的算法。这个我做不来。

方法2:
总质量值怎么算?直接相加的话 ...

哦,我都没想到这么多……看来还真不容易,我可能要和公司给我的分析结果一样,只分析一个文件了……
谢谢你非常细心的关注和思考!
其实有时候我又有这样的想法:其实每两个序列的筛选都可以看做是极端的序列拼接操作(最终得到一条序列),如果有这样一个拼接软件,能用它实现两个fastq序列的拼接,而这种拼接时对于匹配区那些错配碱基的取舍是根据其质量值的大小来做决定的,这样一来,我的目的也就达到了。——不过当然我也还没见到过这种软件。
每天都为自己的无知而羞耻!
16楼2014-03-05 09:34:10
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

XOooZzz

银虫 (小有名气)

【答案】应助回帖

引用回帖:
16楼: Originally posted by yuehedou at 2014-03-05 09:34:10
哦,我都没想到这么多……看来还真不容易,我可能要和公司给我的分析结果一样,只分析一个文件了……
谢谢你非常细心的关注和思考!
其实有时候我又有这样的想法:其实每两个序列的筛选都可以看做是极端的序列拼 ...

这个我也不太懂。不过如果你能对方法2定下一个明确的评价方案的话,我之后可以找个时间给你写个小程序。
17楼2014-03-07 14:32:24
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

cfl88gupan

金虫 (正式写手)

这位哥啊,我也测序了,但是现在面对的问题是,novel居然有八百多个,我自己都不相信啊 你碰到了这个问题嘛?该怎么办呢有什么意见不?
你还行的
18楼2014-03-08 16:04:53
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yuehedou

木虫 (小有名气)

引用回帖:
18楼: Originally posted by cfl88gupan at 2014-03-08 16:04:53
这位哥啊,我也测序了,但是现在面对的问题是,novel居然有八百多个,我自己都不相信啊 你碰到了这个问题嘛?该怎么办呢有什么意见不?

我还没做到那一步啊!
每天都为自己的无知而羞耻!
19楼2014-03-20 22:25:54
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 yuehedou 的主题更新
信息提示
请填处理意见