处理来自肿瘤样本的CNV,测试seqCNA这个包
一、简介
该软件包的目的是处理来自肿瘤样本的高通量测序拷贝数数据,从SAM或BAM对齐的读数直到调用拷贝数的最后阶段。除其他功能外,它还包括一个集成的摘要方法、基于一系列基因组和基于读取的特征的几个过滤器以及专门为肿瘤数据开发的归一化方法。
源地址:seqCNA
说明·:操作手册
二、安装
打开 R (version “4.0”) 输入如下:
if (!requireNamespace("BiocManager", quietly = TRUE))install.packages("BiocManager")BiocManager::install("seqCNA")
三、使用
1、先把bam或sam文件单独放在文件夹中,运行runSeqsumm(file=yourfile.sam),切成小块
library(seqCNA)> runSeqsumm(summ.win=50, file = "s62255805_75.sam", folder=NULL, output.file="seqsumm_out.txt", samtools.path="samtools")
ps:samtools仅有liunx版本,此步仅能在liunx运行
相关参数
--summ.win 切基因组窗口大小,以千碱基为单位表示为一个整数,用来汇总读数。--file SAM或BAM文件的完整路径。建议将其单独放置在将生成分析输出文件的文件夹中。--folder 仅在未指示文件夹时使用。示例SAM或BAM所在文件夹的路径。该函数首先搜索SAM文件,如果不存在,则搜索BAM文件。如果文件夹中存在多个SAM(或BAM)文件,则只使用第一个文件。汇总结果将写入同一文件夹。--output.file 人类!你懂的!--samtools.path 如果对齐文件为BAM格式,则需要Samtools程序。如果Samtools不在PATH变量中,您应该指明可执行文件的路径
运行成功(如上),生成"*.txt"文件(如下)
2、导入数据
导入数据矩阵seqsumm_out <- read.table("seqsumm_out.txt",header = TRUE)#读取SEQSUM汇总文件的函数rco = readSeqsumm(build="hg19",tumour.data=seqsumm_out)
3、过滤、作图、看数据
#该函数将一组过滤器应用于原始配置文件rco = applyFilters(rco,trim.filter=1, mapp.filter=0.1,mapq.filter=2)
上图是过滤数据的情况
#此函数调用seqnorm,该函数根据配对样本或GC含量对肿瘤轮廓进行归一化rco = runSeqnorm(rco)
上图是GC含量分布情况
#对SeqCNAInfo类对象运行GREAD分段算法的包装函数rco = runGLAD(rco)plotCNProfile(rco)
#对分段配置文件应用阈值,以便调用副本编号rco = applyThresholds(rco, seq(-0.8,4,by=0.8), 1)plotCNProfile(rco)
上图是各区域CNV分布情况
#汇总函数检查数据汇总及其处理步骤summary(rco)#快速浏览输出会显示不同分析步骤的配置文件,在这些步骤中,最初过滤的窗口显示的是NA值。head(rco@output)#输出结果writeCNProfile(rco,'./')
可以查看数据具体的分布情况最小精确到1kb