如何用R计算人类基因组外显子区域的长度

外显子组的序列仅占全基因组序列的1%左右,但大多数与疾病相关的变异位于外显子区。癌症研究人员可以利用外显子组测序检测倾向于让细胞 癌变的生殖细胞遗传变异。外显子组测序的目标是识别 在人类癌症发病过程中重要的编码变异和突变。根据NCBI的CCDS参考,统计到的外显子全长是34729283bp,也就是约35M。

 

我们来看看如何用R语言来实现计算外显子区域的长度呢?

用R语言来进行文本的处理,这显然不是它的长项,没有Perl、python这样高效,花费时间很长。

 

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注