外显子测序分析中使用区间文件INTERVAL

在外显子测序分析过程中,因为测序只针对外显子区域,因此,我们就当只分析外显子区域,这就需要引入一个表示外显子区域的INTERVAL文件,既可加快分析速度,也可以降低OFF-TARGET,那么,在什么步骤引入INTERVAL合适呢?关于这个问题,可以参见GATK的官方说明:When should I restrict my analysis to specific intervals?

关于引入INTERVAL文件,官方文档给出4个理由:

1、针对子集进行快速分析,常常用于排队故障;
2、并行进行跨基因组分析;
3、排除数据质量低的区域;
4、数据集只针对某个特定区域。

对于全基因组测序,没有必要使用INTERVAL文件,但是如果使用,可以排队困难区域以及进行并行处理(拆分成多个区域以进行并行处理,提高分析速度)

对于外显子组测序,必须使用INTERVAL文件,而且需要对两端进行扩展,一般两端各扩展100 bp即可,这可以减少脱靶,并进行并行处理,也可以提高分析速度

那么,何时引入INTERVAL文件呢?对于外显子组测序,特别是BQSR必须限制区域以消除脱靶,因为内含子区域是无信息的,是背景噪音。

另外,使用什么INTERVAL文件呢?官方文档的建议是根据建库的KIT来选择,比如AGILENT,可以从官网下载,对于一个确定的KIT,会提供5个文件:

1
2
3
4
5
6
total 586M
-rwxrwxrwx 1 eric eric 232M Nov 22 17:03 S04380110_AllTracks.bed
-rwxrwxrwx 1 eric eric 116M Nov 22 17:03 S04380110_Covered.bed
-rwxrwxrwx 1 eric eric 116M Nov 22 17:03 S04380110_Padded.bed
-rwxrwxrwx 1 eric eric 116M Nov 22 17:03 S04380110_Regions.bed
-rwxrwxrwx 1 eric eric 6.6M Nov 22 17:03 S04380110_Targets.txt

其中,4个BED文档提供的信息是不同的,我们需要使用的是Padded.bed,原因在于,这个文件是在covered.bed或regions.bed的基础上向两边扩展100bp的,当然,也可以使用未PADDING的BED文件作INTERVAL,因为GATK提供的工具里有interval padding参数,可以在这里指定100 bp的PADDING。

另外,需要注意的是,如果使用了INTERVAL,那么指定区间以外的区域就不会出现在输出文件中了,比如BAM或者VCF文件,这无疑也会使得文件占用空间变小,同时区域以外的数据就丢失了。

  • 本文作者:括囊无誉
  • 本文链接: WES/wxs_interval/
  • 版权声明: 本博客所有文章均为原创作品,转载请注明出处!
------ 本文结束 ------
坚持原创文章分享,您的支持将鼓励我继续创作!