使用snpeff注释VCF文件
使用SnpEff对得到的标记进行注释
VCF(Variant Call Format)文件变异注释是一种生物信息学分析过程,用于为VCF文件中记录的基因变异提供详细的功能和临床信息。这些变异可能包括单核苷酸多态性(SNP)、插入和缺失(indels)等。变异注释的目的是理解这些变异的生物学意义及其潜在的影响。
具体来说,变异注释包括以下几个方面的内容:
- 基因信息:
- 基因名称:识别变异所在的基因。
- 转录本信息:标识变异影响的特定转录本。
- 变异类型:
- 编码区变异:包括错义变异、同义变异、无义变异等。
- 非编码区变异:包括内含子变异、上游/下游变异、调控区域变异等。
- 功能影响:
- 蛋白质影响:例如,变异是否会导致氨基酸的改变。
- 结构影响:例如,变异是否会影响蛋白质的结构或功能。
- 临床意义:
- 已知疾病关联:变异是否与某些遗传疾病或综合征相关。
- 药物反应:变异是否会影响个体对某些药物的反应。
- 保守性和进化信息:
- 保守性评分:变异位置在进化过程中是否保守,保守性较高的位置通常对功能更重要。
- 进化信息:变异在不同物种中的保守性。
- 频率信息:
- 群体频率:变异在不同人群中的频率,通常来自于公共变异数据库,如1000 Genomes、gnomAD等。
- 数据库注释:
- ClinVar:变异的临床意义注释。
- dbSNP:常见的SNP数据库注释。
- COSMIC:癌症相关变异数据库注释。
变异注释的工具
有多种工具和软件可以进行VCF文件的变异注释,包括但不限于:
ANNOVAR:一个广泛使用的变异注释工具。
**VEP (Variant Effect Predictor)**:由Ensembl提供的变异注释工具。
SnpEff:一个高效的变异注释和预测工具。
本文主要将snpEff注释
snpeff注释变异文件
在存放物种数据库的data文件下面运行注释的命令
1 | ###配置后,直接运行,备忘 |
在使用gatk挖掘出相应的变异信息之后,需要对得到的变异信息SNP或Indel进行注释,然后再筛选。打算使用SnpEff来进行注释。
下载安装SnpEff
去官网SnpEff找到相应最新版本的下载链接,然后下载到服务器中
1 | wget -c https://snpeff.blob.core.windows.net/versions/snpEff_latest_core.zip |
直接在官网下载最新版本的软件,然后使用unzip解压即可看见SnpEff文件夹里面有相应的脚本文件
SnpEff使用
首先要将我们需要用到的参考基因组添加到SnpEff的配置文件里面,我是添加在最后一行了
1 | vim snpEff.config #使用vim编辑该文件,使用G跳转最后一行 |
SnpEff配置文件修改
在SnpEff下面新建data文件夹,并在里面新建你添加的物种的文件夹
1 | mkdir -p ovis |
需要下载参考基因组的染色体水平的fasta文件以及gff文件
上传到指定的XX文件夹之后要将文件名称改SnpEff需要的名字
1 | mv oarv1.gff genes.gff |
使用SnpEff的build命令构建参考数据库
使用build命令构建参考物种的数据库
1 | java -jar snpEff.jar build -gff3 -v oarv1 |