用R语言对vcf文件进行数据挖掘.1 前言

众所周知,基因组分析的软件为了效率进行大规模的计算处理,大多数是基于C++。这对于用惯了R语言的同学就很不友好了。花了时间和钱做了分析拿到了vcf结果,还得去花时间去学处理vcf的linux软件,结果回报的是一大堆报错,可谓生产力低下。所以在此给同行小伙伴推荐一款R语言包vcfR来轻松应对生信分析。谁说统计学工具不适合做基因组分析。
自己用vcfR有一段时间,vcfR不仅可以用来对数据进行可视化,过滤,还可以用来从复杂的vcf文件中提取自己想要的数据,重组成csv文件轻松应对SNPs的样本比对。当然不止于此,最近发现vcfR还可以用来做copy number variation(CNV)分析和未知物种的染色体倍数判定。有感于其功能之强大,一定要写点教程下来和小伙伴分享。

目录

  1. 前言
  2. 方法简介
  3. 从vcf文件里提取有用信息
  4. tidy vcfR
  5. vcf可视化1
  6. vcf可视化2
  7. 测序深度覆盖度
  8. 窗口缩放
  9. 如何单独分离染色体
  10. 利用vcf信息判断物种染色体倍数
  11. CNV分析

你可能感兴趣的:(用R语言对vcf文件进行数据挖掘.1 前言)