诸子百家


  • 首页

  • 归档

  • 分类

  • 标签

  • 关于

  • 搜索

合并两个BED文件

发表于 2020-12-02 | 分类于 编程语言 |
如何合并两个BED文件,使其有重合的区域合并成一个?可以使用cat + bedtools merge组合。以A.bed和B.bed为例: 123456789101112138279 A.bed6199 B.bed# 两个BED文件,第一步合并成一个文件,但来自两个文件的区域是分开的$ cat A.bed B.bed > C.bed14478 C.bed# 合并后的文件PEAK数是合并前两个文件的总和# 执行合并之前,需要对染色体坐标进行排序,否则结果会有问题$ sort -k1,1 -k2 ...
阅读全文 »

在IGV中使用脚本批量截图

发表于 2020-12-01 | 分类于 编程语言 |
在IGV中,如果需要查看大量的基因位置,一个一个手动查找是极其耗时费力的,简便的方法是通过运行脚本对所有基因位置进行截图,然后直接查看,免去输入基因名称的工作。 根据IGV官网的说明,脚本可以是TXT文件,每行一个命令,参数由空格来分隔(不可使用TAB),可以使用#或//来进行注释,例子如下: 12345678910111213141516newgenome hg18load myfile.bamsnapshotDirectory mySnapshotDirectorygoto chr1:65 ...
阅读全文 »

生成染色体长度文件chrom.sizes

发表于 2020-11-25 | 分类于 编程语言 |
染色体长度文件在多种分析中都需要用到,可以在R中生成,亦可在LINUX中成生,下面以hg19为例。 一、在LINUX中参考:TwoBit Sequence Archives 12345678910111213141516171819202122# 第一步,将.fa转为.2bit,顾名思义,这是一个二进制文件$ faToTwoBit hg19.fa hg19.2bit-rwxrwxrwx 1 eric eric 779M Nov 25 14:24 hg19.2bit-rwxrwxrwx 1 eri ...
阅读全文 »

使用bigWigMerge合并两个BigWig文件

发表于 2020-11-25 | 分类于 编程语言 |
如需将两个或多个BigWig合并成一个,可以使用bigWigMerge程序,合并完成后输出文件是bedGraph,再使用bedGraphToBigWig转回BigWig即可。 一、将BigWig合并为bedGraph123bigWigMerge f1.bigwig f2.bigwig out.bedGraphGot 91 chromosomes from 2 bigWigsProcessing.................................................... ...
阅读全文 »

外显子测序分析中使用区间文件INTERVAL

发表于 2020-11-23 | 分类于 编程语言 |
在外显子测序分析过程中,因为测序只针对外显子区域,因此,我们就当只分析外显子区域,这就需要引入一个表示外显子区域的INTERVAL文件,既可加快分析速度,也可以降低OFF-TARGET,那么,在什么步骤引入INTERVAL合适呢?关于这个问题,可以参见GATK的官方说明:When should I restrict my analysis to specific intervals? 关于引入INTERVAL文件,官方文档给出4个理由: 1、针对子集进行快速分析,常常用于排队故障;2、并行进行跨 ...
阅读全文 »

肿瘤基因组分析教程:五、检测变异

发表于 2020-11-23 | 分类于 编程语言 |
关于变异检测,目前有多个程序可供使用,但很难说哪个程序更好,需要用实验的手段来验证。目前,TCGA采取4款软件,varscan,MuTect,MuSE,SomaticSniper。在这个教程中,我们会陆续介绍这几款主流的程序的使用方法。 一、Varscan123456789101112$ samtools mpileup -d 1000 -B -q 1 -f /mnt/d/ncbi/hg19/BWAIndex/hg19.fa /mnt/d/cancer/bqsr/SRR5478492C.bqsr ...
阅读全文 »

肿瘤基因组分析教程:四、BAM文件预处理

发表于 2020-11-22 |
本教程目的是对上一步生成的BAM文件进行质控,并检测变异,以及对变异进行注释,参考教程:Single Nucleotide Variant Calling and Annotation,Data pre-processing for variant discovery,以及Somatic short variant discovery (SNVs + Indels) 一、查看BAM信息我们先来具体看一下BAM文件,下面是BAM文件主体内容的前4行 1234567$ samtools view S ...
阅读全文 »

LINUX查看磁盘使用情况

发表于 2020-11-21 | 分类于 编程语言 |
一、本机磁盘使用信息12345678910111213141516$ df -h# df,disk free# -h, human-readableFilesystem Size Used Avail Use% Mounted on/dev/sdb 251G 20G 219G 9% /tmpfs 3.1G 0 3.1G 0% /mnt/wsltools 83G 68G 15G 83% /init ...
阅读全文 »

肿瘤基因组分析教程:三、比对至基因组

发表于 2020-11-20 | 分类于 编程语言 |
本教程主要目的是下载测序数据,并将其比对至基因组上,参考教程:Read Alignment。 主要流程见下图 一、下载数据本次分析使用的数据来自SRA数据库,患有ccRCC的病人,分析其中的两个样本,SRR5478491 (matched primary ccRCC)与 SRR5478492 (matched normal),双端测序,WXS,平台是ILLUMINA,Library Name是P1T与P1N,参考基因组为GRCh37。 1234567891011121314# 下载数据$ pr ...
阅读全文 »

肿瘤基因组分析教程:二、数据质控

发表于 2020-11-20 | 分类于 编程语言 |
本教程目的是对数据质控有初步理解,并熟悉以下工具的使用:FastQC,Skewer,FASTX-Toolkit。参考教程:Quality Control 在高通量测序过程中,很难避免引入测序错误,如碱基读取错误(base calling errors)、插入或缺失(small insertions/deletions),低质量碱基(poor quality reads)、引物与接头污染(primer/adapter contamination),以及最常见的碱基替换(substitution), ...
阅读全文 »
1234…25
括囊无誉

括囊无誉

248 日志
11 分类
228 标签
RSS
简书
© 2017 - 2023 括囊无誉
由 Hexo 强力驱动
主题 - NexT.Mist
访问人数 总访问量 次