使用snpeff注释VCF文件

使用SnpEff对得到的标记进行注释

VCF(Variant Call Format)文件变异注释是一种生物信息学分析过程,用于为VCF文件中记录的基因变异提供详细的功能和临床信息。这些变异可能包括单核苷酸多态性(SNP)、插入和缺失(indels)等。变异注释的目的是理解这些变异的生物学意义及其潜在的影响。

具体来说,变异注释包括以下几个方面的内容:

  1. 基因信息
    • 基因名称:识别变异所在的基因。
    • 转录本信息:标识变异影响的特定转录本。
  2. 变异类型
    • 编码区变异:包括错义变异、同义变异、无义变异等。
    • 非编码区变异:包括内含子变异、上游/下游变异、调控区域变异等。
  3. 功能影响
    • 蛋白质影响:例如,变异是否会导致氨基酸的改变。
    • 结构影响:例如,变异是否会影响蛋白质的结构或功能。
  4. 临床意义
    • 已知疾病关联:变异是否与某些遗传疾病或综合征相关。
    • 药物反应:变异是否会影响个体对某些药物的反应。
  5. 保守性和进化信息
    • 保守性评分:变异位置在进化过程中是否保守,保守性较高的位置通常对功能更重要。
    • 进化信息:变异在不同物种中的保守性。
  6. 频率信息
    • 群体频率:变异在不同人群中的频率,通常来自于公共变异数据库,如1000 Genomes、gnomAD等。
  7. 数据库注释
    • ClinVar:变异的临床意义注释。
    • dbSNP:常见的SNP数据库注释。
    • COSMIC:癌症相关变异数据库注释。

变异注释的工具

有多种工具和软件可以进行VCF文件的变异注释,包括但不限于:

  • ANNOVAR:一个广泛使用的变异注释工具。

  • **VEP (Variant Effect Predictor)**:由Ensembl提供的变异注释工具。

  • SnpEff:一个高效的变异注释和预测工具。

    本文主要将snpEff注释

snpeff注释变异文件

在存放物种数据库的data文件下面运行注释的命令

1
2
3
4
5
6
###配置后,直接运行,备忘
#build
java -jar snpEff.jar build -gff3 -v oarv1

#成功注释
java -Xmx16g -jar /home/liuxiao/soft/snpeff/snpEff.jar ann oarv1 miss0.7.vcf.recode.vcf > 325.ann.vcf

在使用gatk挖掘出相应的变异信息之后,需要对得到的变异信息SNP或Indel进行注释,然后再筛选。打算使用SnpEff来进行注释。

下载安装SnpEff

去官网SnpEff找到相应最新版本的下载链接,然后下载到服务器中

1
2
3
wget -c https://snpeff.blob.core.windows.net/versions/snpEff_latest_core.zip

unzip snpEff_latest_core.zip

直接在官网下载最新版本的软件,然后使用unzip解压即可看见SnpEff文件夹里面有相应的脚本文件

SnpEff使用

首先要将我们需要用到的参考基因组添加到SnpEff的配置文件里面,我是添加在最后一行了

1
2
3
4
5
vim snpEff.config  #使用vim编辑该文件,使用G跳转最后一行
添加如下注释信息(你需要用到的物种信息)

# ovis_v1
ovis.genome : ovis

SnpEff配置文件修改

在SnpEff下面新建data文件夹,并在里面新建你添加的物种的文件夹

1
mkdir -p ovis

需要下载参考基因组的染色体水平的fasta文件以及gff文件

上传到指定的XX文件夹之后要将文件名称改SnpEff需要的名字

1
2
mv oarv1.gff genes.gff
mv oarv1.fasta squences.fa

使用SnpEff的build命令构建参考数据库

使用build命令构建参考物种的数据库

1
2
3
4
5
java -jar snpEff.jar build -gff3 -v oarv1

#-gff3:指明使用的是gff格式的文件
#不检查cds和protein文件
java -jar snpEff.jar build -gff3 -c snpEff.config -v oarv1 -d -noCheckCds -noCheckProtein