一、定义intergenic
基因间区域,即intergenic region,可以简单定义为两个相邻基因A和B之间的区域;对于某个基因而言,TSS和TES可以看作是基因的上下边界,但是,由于promoter往往在TSS上游,而TES附近可能有调控元件存在,因此,我们也需要把promoter区域和TES下游也考虑在内。如果我们定义,promoter区域为“TSS-2Kb至TSS+0.5Kb”,下游调控区域为“TES-0.5Kb至TES+0.5Kb”,那么,intergenic region就可以认为是[A]{TES+0.5Kb}至[B]{TSS-2Kb}之间的区域。当然,这样定义intergenic有个根本的缺陷,即如果A与B之间不足2.5Kb,则这两个基因之间的区域会被忽略掉,但是,通盘考虑,由于目前对于基因的调控区域还不精确清楚,可以说,没有任何一种在基因组水平上的操作是绝对准确的。
二、提取intergenic
根据上面的定义,如果从全基因组中扣除已知的基因区域”[A]{TES+0.5Kb}-[B]{TSS-2Kb}”,剩下的区域就是intergenic,我们利用bedtools来提取intergenic,以mm10为例,方法如下:
2.1 创建文件mm10,内容是所有染色体的长度
1 | > cat mm10 |
2.2 将染色体重新排序,若不排序,后面取补集时会报错
1 | > sort -k1,1 -k2,2n mm10 > mm10_sorted |
2.3 创建mm10_all_genes.bed,如上定义,基因间区域为”[A]{TES+0.5Kb}-[B]{TSS-2Kb}”,并重新排序
1 | > sort -k1,1 -k2,2n mm10_all_genes.bed > mm10_all_sorted.bed |
2.4 用bedtoos提取补集,即intergenic
1 | > bedtools complement -i mm10_all_sorted.bed -g mm10_sorted > intergenic.bed |