在学习数据分析的过程中,原始文件往往很大,这会导致反馈时间极长,比如比对过程,对于普通配置的个人电脑,一个FASTQ文件可能耗时数小时,这会极大地影响对错误的排查过程,增加学习成本。考虑到这一点,我们可以将要分析的FASTQ文件拆分成多个小文件,只取其中一个文件进行比对,为实现这一功能,可以使用SEQKIT。可选程序有两个,一个是seqkit split,这个主要针对FASTA文件,第二个是seqkit split2,这个可以处理单端或双端FASTQ文件。
1 | seqkit split2 -h # 查看帮助 |
对于给定的双端测序文件,使用参数如下:
1 | seqkit split2 -1 SRR12846241_1.fastq -2 SRR12846241_2.fastq -p 20 # 拆分为20个文件 |