前面,我们以padj或FoldChange为依据筛选了TOP10基因,并进行了生存分析,但效果并不理想,原因很简单,因为不论是P值还是变化倍数,其实都与病例生存时间没有必然关联。这次,我们来对所有差异表达基因批量进行生存分析,看有多少基因影响病例生存,并且找找规律。
1 | > dim(result_select_annot) # 注释后的4863个基因 |
最终筛选出来的这922个基因,符合FoldChange > 2 && pvalue < 0.001 && survP < 0.001,下面,我们给这些基因分个组,
1)HG,在肿瘤中表达上调,且高表达生存预期好;log2FoldChange > 1 && surv = 0
2)HB,在肿瘤中表达上调,且高表达生存预期坏,暂且认为是原癌基因;log2FoldChange > 1 && surv = 1
3)LG,在肿瘤中表达下调,且高表达生存预期好,暂且认为是抑癌基因;log2FoldChange < -1 && surv = 0
4)LB,在肿瘤中表达下调,且高表达生存预期坏;log2FoldChange < -1 && surv = 1
1 | > result_survP_HG <- result_survP[result_survP$log2FoldChange > 1 & result_survP$surv == 0,] |
看一下这四个集合的基因
1 | > result_survP_HG$hgnc_symbol |
有了这个基因列表,后续可以进行富集分析或者GSEA分析。