定义并提取基因间区域-INTERGENIC REGION

一、定义intergenic

基因间区域,即intergenic region,可以简单定义为两个相邻基因A和B之间的区域;对于某个基因而言,TSS和TES可以看作是基因的上下边界,但是,由于promoter往往在TSS上游,而TES附近可能有调控元件存在,因此,我们也需要把promoter区域和TES下游也考虑在内。如果我们定义,promoter区域为“TSS-2Kb至TSS+0.5Kb”,下游调控区域为“TES-0.5Kb至TES+0.5Kb”,那么,intergenic region就可以认为是[A]{TES+0.5Kb}至[B]{TSS-2Kb}之间的区域。当然,这样定义intergenic有个根本的缺陷,即如果A与B之间不足2.5Kb,则这两个基因之间的区域会被忽略掉,但是,通盘考虑,由于目前对于基因的调控区域还不精确清楚,可以说,没有任何一种在基因组水平上的操作是绝对准确的。

二、提取intergenic

根据上面的定义,如果从全基因组中扣除已知的基因区域”[A]{TES+0.5Kb}-[B]{TSS-2Kb}”,剩下的区域就是intergenic,我们利用bedtools来提取intergenic,以mm10为例,方法如下:

2.1 创建文件mm10,内容是所有染色体的长度

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
> cat mm10
chr1 195471971
chr2 182113224
chr3 160039680
chr4 156508116
chr5 151834684
chr6 149736546
chr7 145441459
chr8 129401213
chr9 124595110
chr10 130694993
chr11 122082543
chr12 120129022
chr13 120421639
chr14 124902244
chr15 104043685
chr16 98207768
chr17 94987271
chr18 90702639
chr19 61431566
chrX 171031299
chrY 91744698

2.2 将染色体重新排序,若不排序,后面取补集时会报错

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
> sort -k1,1 -k2,2n mm10 > mm10_sorted
> cat mm10_sorted
chr1 195471971
chr10 130694993
chr11 122082543
chr12 120129022
chr13 120421639
chr14 124902244
chr15 104043685
chr16 98207768
chr17 94987271
chr18 90702639
chr19 61431566
chr2 182113224
chr3 160039680
chr4 156508116
chr5 151834684
chr6 149736546
chr7 145441459
chr8 129401213
chr9 124595110
chrX 171031299
chrY 91744698

2.3 创建mm10_all_genes.bed,如上定义,基因间区域为”[A]{TES+0.5Kb}-[B]{TSS-2Kb}”,并重新排序

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
> sort -k1,1 -k2,2n mm10_all_genes.bed > mm10_all_sorted.bed
> less mm10_all_sorted.bed
chr1 3071253 3074822 3570 * 4933401J01Rik
chr1 3100016 3102625 2610 * Gm26206
chr1 3203901 3671998 468098 * Xkr4
chr1 3250757 3253736 2980 * Gm18956
chr1 3363731 3369049 5319 * Gm37180
chr1 3373556 3378288 4733 * Gm37363
chr1 3462977 3467785 4809 * Gm37686
chr1 3464587 3514053 49467 * Gm1992
chr1 3510451 3515007 4557 * Gm37329
chr1 3529795 3533220 3426 * Gm7341
chr1 3590892 3596403 5512 * Gm38148
chr1 3645309 3659404 14096 * Gm19938
chr1 3678155 3682288 4134 * Gm10568
chr1 3750010 3754860 4851 * Gm38385
chr1 3781876 3784433 2558 * Gm27396
chr1 3903739 3986715 82977 * Gm37381
chr1 3997557 4409741 412185 * Rp1
chr1 4254234 4261019 6786 * Gm6101
chr1 4361346 4365329 3984 * Gm37483
chr1 4488931 4497854 8924 * Sox17
chr1 4494551 4500058 5508 * Gm37587
chr1 4520905 4527237 6333 * Gm7357
chr1 4527017 4529623 2607 * Gm22307
chr1 4532837 4535786 2950 * Gm38076
chr1 4581129 4586752 5624 * Gm37323
chr1 4608471 4611906 3436 * Gm7369

2.4 用bedtoos提取补集,即intergenic

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
> bedtools complement -i mm10_all_sorted.bed -g mm10_sorted > intergenic.bed
> less intergenic.bed
chr1 0 3071253
chr1 3074822 3100016
chr1 3102625 3203901
chr1 3671998 3678155
chr1 3682288 3750010
chr1 3754860 3781876
chr1 3784433 3903739
chr1 3986715 3997557
chr1 4409741 4488931
chr1 4500058 4520905
chr1 4529623 4532837
chr1 4535786 4581129
chr1 4586752 4608471
chr1 4611906 4685934
chr1 4689903 4690219
chr1 4693924 4721277
chr1 4723879 4733046
chr1 4736176 4769131
chr1 4786239 4805788
chr1 4898409 4903751
chr1 4907361 4907576
chr1 5163029 5274106
chr1 5277837 5305739
chr1 5310517 5401547
chr1 5406078 5586466
chr1 5606631 5615837
  • 本文作者:括囊无誉
  • 本文链接: CHIPSEQ/intergenic/
  • 版权声明: 本博客所有文章均为原创作品,转载请注明出处!
------ 本文结束 ------
坚持原创文章分享,您的支持将鼓励我继续创作!