诸子百家


  • 首页

  • 归档

  • 分类

  • 标签

  • 关于

  • 搜索

人与小鼠基因名称互相转换

发表于 2020-11-15 | 分类于 编程语言 |
在R中,如需对人和小鼠的基因名进行互相转换,可以使用biomaRt程序包。 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465> library(biomaRt)> human <- useMart("ensembl",dataset="hsapiens_gene_ensembl")> ...
阅读全文 »

在LINUX中查看文件时略过头部的注释部分

发表于 2020-11-12 | 分类于 编程语言 |
在LINUX中查看文件常用less命令,但是在遇到带有注释的文件时,如果单单使用less命令,会看到长长的注释部分,给查看文件带来极大不便,比如VCF文件,头部使用#注释 12345678910111213141516171819##fileformat=VCFv4.2##ALT=<ID=NON_REF,Description="Represents any possible alternative allele not already represented at this locati ...
阅读全文 »

在UBUNTU上安装GATK官方Docker Engine

发表于 2020-11-10 | 分类于 编程语言 |
安装步骤参考官方安装指南 一、卸载旧版本12345678$ sudo apt-get remove docker docker-engine docker.io containerd runc# 为确保安装顺利,先卸载旧版本,如果未曾安装,则会提示:# Package 'docker-engine' is not installed, so not removed# Package 'docker' is not installed, so not removed# Package 'conta ...
阅读全文 »

使用CONDA构建环境

发表于 2020-11-09 | 分类于 编程语言 |
在LINUX中,虚拟环境是在特定环境下程序的集合,使用CONDA可以实现对环境的操作。 一、创建环境12conda create --name envirmentA packageB# 创建名为envirmentA的环境,并在环境中安装packageB程序 二、激活环境12conda activate envirmentA# 激活后,命令行首会显示(envirmentA)前缀 三、检查python版本1python --version 四、退出环境12conda deactive# 创建名为en ...
阅读全文 »

外显子测序分析二

发表于 2020-11-06 | 分类于 编程语言 |
参考资料:Germline short variant discovery (SNPs + Indels) 下面这张图是单样本种系突变的主要分析步骤(Main steps for Germline Single-Sample Data) 一、数据质控1234567891011121314151617181920212223242526272829303132333435363738394041424344fastp -i /mnt/d/wes/sample/fastq/sam01_1.fast ...
阅读全文 »

使用SEQKIT拆分FASTQ文件

发表于 2020-11-03 | 分类于 编程语言 |
在学习数据分析的过程中,原始文件往往很大,这会导致反馈时间极长,比如比对过程,对于普通配置的个人电脑,一个FASTQ文件可能耗时数小时,这会极大地影响对错误的排查过程,增加学习成本。考虑到这一点,我们可以将要分析的FASTQ文件拆分成多个小文件,只取其中一个文件进行比对,为实现这一功能,可以使用SEQKIT。可选程序有两个,一个是seqkit split,这个主要针对FASTA文件,第二个是seqkit split2,这个可以处理单端或双端FASTQ文件。 1234567891011121314 ...
阅读全文 »

R基础命令:读取TSV文件

发表于 2020-10-29 | 分类于 编程语言 |
在R中,可以使用read.table()来读取.tsv文件, 1> data <- read.table("file.tsv", header=T, sep="\t") 但是,若原文件中有缺失值,可能会报错,可以使用fill=TRUE对缺失值进行填充, 1> data <- read.table("file.tsv", header=T, sep="\t",fill=TRUE) 然而,由于这种填充方式是自动将有值的单元格向前移动,并将后面的缺失值填充为NA,因此,可能会引 ...
阅读全文 »

使用MAFTOOLS分析肿瘤变异数据

发表于 2020-10-27 | 分类于 编程语言 |
我们以TCGA-KIRC数据为例,来介绍肿瘤突变数据与临床数据的下载方法、预处理及可视化 一、数据下载与处理在TCGA-GDC官网,在CASES选项下,选择CTGA-KIRC,这里共包含537个CASE,回到FILES选项下,选择Data Category[simple nucleotide variation]+Data Type[Masked Somatic Mutation]+Workflow Type[MuTect2 Variant Aggregation and Masking],至此 ...
阅读全文 »

外显子测序分析教程

发表于 2020-10-21 | 分类于 编程语言 |
一、原始数据下载 如果是从测序公司拿到数据,一般会得到处理过的fastq格式,而我们在此以SRA为数据源获得原始数据。以PRJNA669198这个项目为例,我们下载SRR12846241,原始数据2.76Gb,样本来自31岁的男性colon,患有林奇综合征(Lynch syndrome,或称HNPCC,遗传性非息肉性大肠癌),测序平台是Illumina,双端测序,以上是基本信息。 1prefetch SRR12846241 注:prefetch是sratoolkit中的一个程序,用于从SRA数据 ...
阅读全文 »

在R中拆分与合并数据

发表于 2020-10-15 | 分类于 编程语言 |
数据的拆分与合并可以使用reshape2这个包,主要使用两个命令:melt/cast(dcast返回数据框) 一、准备数据 1234567891011> A <- c("A","B","C","D")> B <- c(1,2,3,4)> C <- c("Apple","Orange","Pear","Banana")> D <- c("Sun","Moon","Earth","Star")> data <- data.frame(A,B ...
阅读全文 »
1…456…25
括囊无誉

括囊无誉

248 日志
11 分类
228 标签
RSS
简书
© 2017 - 2023 括囊无誉
由 Hexo 强力驱动
主题 - NexT.Mist
访问人数 总访问量 次