在外显子测序分析过程中,因为测序只针对外显子区域,因此,我们就当只分析外显子区域,这就需要引入一个表示外显子区域的INTERVAL文件,既可加快分析速度,也可以降低OFF-TARGET,那么,在什么步骤引入INTERVAL合适呢?关于这个问题,可以参见GATK的官方说明:When should I restrict my analysis to specific intervals?
关于引入INTERVAL文件,官方文档给出4个理由:
1、针对子集进行快速分析,常常用于排队故障;
2、并行进行跨基因组分析;
3、排除数据质量低的区域;
4、数据集只针对某个特定区域。
对于全基因组测序,没有必要使用INTERVAL文件,但是如果使用,可以排队困难区域以及进行并行处理(拆分成多个区域以进行并行处理,提高分析速度)
对于外显子组测序,必须使用INTERVAL文件,而且需要对两端进行扩展,一般两端各扩展100 bp即可,这可以减少脱靶,并进行并行处理,也可以提高分析速度
那么,何时引入INTERVAL文件呢?对于外显子组测序,特别是BQSR必须限制区域以消除脱靶,因为内含子区域是无信息的,是背景噪音。
另外,使用什么INTERVAL文件呢?官方文档的建议是根据建库的KIT来选择,比如AGILENT,可以从官网下载,对于一个确定的KIT,会提供5个文件:
1 | total 586M |
其中,4个BED文档提供的信息是不同的,我们需要使用的是Padded.bed,原因在于,这个文件是在covered.bed或regions.bed的基础上向两边扩展100bp的,当然,也可以使用未PADDING的BED文件作INTERVAL,因为GATK提供的工具里有interval padding参数,可以在这里指定100 bp的PADDING。
另外,需要注意的是,如果使用了INTERVAL,那么指定区间以外的区域就不会出现在输出文件中了,比如BAM或者VCF文件,这无疑也会使得文件占用空间变小,同时区域以外的数据就丢失了。