24小时热门版块排行榜    

CyRhmU.jpeg
查看: 1739  |  回复: 0

水随缘波

木虫 (小有名气)

[求助] 处理高通量测序数据时遇到几个问题,请高手帮忙解答

最近处理污水反应器高通量测序的数据,之前不是搞这个方向的,有一些基本概念不是很清楚,请高手帮忙解答

(1)Unidentified和Unclassified的区别

请问这两个词是不是一个意思?就是指通过16s rRNA比对之后未能与NCBI数据中已知的序列比对成功的数量?因为我发现文献中用这两个词的都用,不知道在具体的概念上有没有差异。

(2)Unidentified数量表达的意义是什么?

在一些文献中都会讲到,有多少序列是Unidentified,这个数据占到总序列的百分之多少,请问,这个数据说明什么呢?大或者小分别代表什么意思?是说明测序质量的么?

(3)关于相似性(similarity)和一致性(identity)的区别

在DNA序列比对的时候有这两个概念,通过查阅资料,我目前的理解是这样的:

相似性用于划分OTUs,严格的按照序列中碱基是否相同来计算。
一致性用于描述菌种之间的同源性,如果两个菌株同源,可能有很高的一致性,但是不一定相似性很高。

不知我理解的对不对。

(4)高通量测序中Unidentified是如何确定的

这个问题是与第(3)个问题相关的,是不是意味着,测定序列与数据库中所有已知种属的菌株序列进行比对,相似性(注意不是一致性)低于设定值及可认为Unidentified。

不知这个理解对不对。


以上问题请高手不吝赐教啊,拜谢!
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

智能机器人

Robot (super robot)

我们都爱小木虫

相关版块跳转 我要订阅楼主 水随缘波 的主题更新
信息提示
请填处理意见