诸子百家


  • 首页

  • 归档

  • 分类

  • 标签

  • 关于

  • 搜索

GEO学习笔记3

发表于 2020-08-01 | 分类于 生物信息 |
分析GSE66270,28个样本,14对,平台是GPL570,54675个探针。 123456789101112setwd("D:/GEO")library(GEOquery)gset <- getGEO('GSE66270',destdir=".",getGPL=F)gset <- gset[[1]]pdata <- pData(gset)dim(pdata)group_list <- rep(c('tumor','normal'),14)group_list < ...
阅读全文 »

GEO学习笔记2

发表于 2020-07-30 | 分类于 生物信息 |
分析GSE100666,6个配对样本,平台是GPL16951,分析过程如下: 123456789101112setwd("D:/GEO")library(GEOquery)gset <- getGEO('GSE100666',destdir=".",getGPL=F)gset <- gset[[1]]pdata <- pData(gset)dim(pdata)group_list <- c(rep('tumor',3),rep('normal',3))group_list ...
阅读全文 »

GEO学习笔记1

发表于 2020-07-25 | 分类于 生物信息 |
本文是学习过程,参考教程是《来完成你的生信作业,这是最有诚意的GEO数据库教程》,本文分析GSE32575,共36个配对样本,18个处理前,18个处理后。 123456789101112131415161718192021222324> setwd("D:/GEO")> library(GEOquery)> gset <- getGEO('GSE32575',destdir=".",getGPL=F) # 下载数据> gset <- gset[[1]] # 获 ...
阅读全文 »

TCGA学习笔记14-基因集富集分析GSEA

发表于 2020-07-18 | 分类于 生物信息 |
GSEA(Gene Set Enrichment Analysis),是基因集富集分析,也是软件的名称,顾名思议,GSEA用于分析给定分组中差异表达的基因是否在给定的基因集中有富集。 下载GSEA软件:根据操作系统下载相应的版本并安装 软件主界面如下图: 这个软件操作十分容易,简单明了,唯一的难度在于输入数据的准备,简单来说,有两个数据是必须提前准备好的,即表达数据与表型注释 表达数据格式:可以有多种输入格式,这里以TXT为例,我们先在R中将我们需要的数据提取并保存为CSV格式,处理完成后再保 ...
阅读全文 »

TCGA学习笔记13-对所有差异表达基因进行生存分析

发表于 2020-07-05 | 分类于 生物信息 |
前面,我们以padj或FoldChange为依据筛选了TOP10基因,并进行了生存分析,但效果并不理想,原因很简单,因为不论是P值还是变化倍数,其实都与病例生存时间没有必然关联。这次,我们来对所有差异表达基因批量进行生存分析,看有多少基因影响病例生存,并且找找规律。 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626 ...
阅读全文 »

TCGA学习笔记12-富集分析

发表于 2020-07-05 | 分类于 生物信息 |
前面,差异分析得到了4913个基因,注释后剩下4863个基因,如下: 1234> dim(result_select)[1] 4913 7> dim(result_select_annot)[1] 4863 8 现在,我们对这4863个已知基因进行富集分析,看这些基因都集中在哪些信号通路或者生物过程当中。 123456789101112library(clusterProfiler)library(topGO)library(Rgraphviz)library(pathv ...
阅读全文 »

TCGA学习笔记11-生存曲线

发表于 2020-07-05 | 分类于 生物信息 |
前面,我们在差异表达结果中按照padj筛选出了TOP10基因,现在,我们对TOP10基因绘制生存曲线,看它们的表达是否与病例的生存时间相关。 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879808182838485868788899091929394 ...
阅读全文 »

TCGA学习笔记10-受试者工作曲线

发表于 2020-07-04 | 分类于 生物信息 |
得到差异表达结果之后,我们可以根据padj来挑选排名前10的基因,来绘制受试者工作曲线,评估这些基因是否能作为判断肿瘤的标志基因。 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081> annot_order <- result_s ...
阅读全文 »

TCGA学习笔记9-基因注释

发表于 2020-07-04 | 分类于 生物信息 |
我们前面分析得到的4913个差异表达基因的名称使用的是ENSEMBL的ID,比如ENSG00000001630,这类ID是不易记忆的,需要转化成我们熟悉的基因名称,即SYMBOL。 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879> libra ...
阅读全文 »

TCGA学习笔记8-临床信息提取

发表于 2020-07-04 | 分类于 生物信息 |
上面,我们对KIRC的表达数据做了差异分析,并对有差异的基因做了主成份分析和聚类热图,在进行下一步分析之前,我们需要对临床数据进行提取。我们先回顾一下,在学习笔记1中,我们在TCGA上下载到的表达数据包含来自530个CASES的611个FILES,即数据来自530个病人,但由于从某些病人身上收集了不止一个样本,因此,样本数大于病例数。 123456789101112131415161718192021222324252627282930313233343536373839404142434445 ...
阅读全文 »
1…678…25
括囊无誉

括囊无誉

248 日志
11 分类
228 标签
RSS
简书
© 2017 - 2023 括囊无誉
由 Hexo 强力驱动
主题 - NexT.Mist
访问人数 总访问量 次