生物信息-编程练习题学习01

参考学习资料:https://mp.weixin.qq.com/s/n-C2P322ZWQyZ6-3EEKbxA
经常看到群里会有一些题目,然后都不知道怎么去做,先来学习一下前人经验

关于如何入门编程,你可能需要

  • 生信分析人员如何系统入门python?

  • 生信分析人员如何系统入门perl?

  • 生信分析人员如何系统入门R?

  • 生信分析人员如何系统入门Linux?

以下是一些题目及答案示例

对FASTQ的操作:

  • 5,3段截掉几个碱基
  • 序列长度分布统计
  • FASTQ 转换成 FASTA
  • 统计碱基个数及GC%

对FASTA的操作:

  • 取互补序列
  • 取反向序列
  • DNA to RNA
  • 大小写字母形式输出
  • 每行指定长度输出序列
  • 按照序列长度/名字排序
  • 提取指定ID的序列
  • 随机抽取序列

高级难度:

  • 根据坐标取序列
  • 多文件合并
  • 根据ID列表取序列
  • GTF文件探索
  • 简并碱基的引物序列还原成多条序列
  • snp进行注释并格式化输出

01 下载安装bowtie2(内含测试数据)

先下载安装安装软件的工具 Bioconda (http://bioconda.github.io)
参考:https://mp.weixin.qq.com/s/FBsY8hRjTS6ih2RvY47I6Q
按照这个工具先删除电脑原来的版本,重新安装新的版本

$ wget https://repo.anaconda.com/miniconda/Miniconda3-latest-MacOSX-x86_64.sh
Miniconda3-latest-M 100%[===================>]  49.36M   381KB/s    in 2m 10s
$ mkdir biosoft
$ mv Miniconda3-latest-MacOSX-x86_64.sh biosoft/
$ cd biosoft/
$ ls
Miniconda3-latest-MacOSX-x86_64.sh
$ bash Miniconda3-latest-MacOSX-x86_64.sh 
Welcome to Miniconda3 4.7.12
#省略安装过程,一路enter,yes
optional arguments:
  -h, --help     Show this help message and exit.
  -V, --version  Show the conda version number and exit.
conda commands available from other packages:
  env
#安装完成
$ conda list
#配置镜像:
$ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
$ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ 
$ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
$ conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/free/
$ conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/main/
$ conda config --set show_channel_urls yes
$ conda config --add channels conda-forge
$ conda config --add channels r
$ conda config --add channels bioconda
#查看镜像
$ conda config --get channels
$ cat ~/.condarc
#删除镜像
$ conda config --remove channels
#新建文件目录安装软件
$ conda create -n test 
conda activate test
$ mkdir bowtie &&  cd bowtie
$ conda install -y bowtie2
#同样是一路yes,然后如下结果显示正确安装
Preparing transaction: done
Verifying transaction: done
Executing transaction: done
(test) Cheng-MacBook-Pro:bowtie chelsea$ 

小知识点:
软件更新 : conda update 软件名
若不确定软件名称,可以先使用搜索: conda search fastqc
安装特定版本软件: ex. conda install bwa=0.7.12
软件卸载: conda remove 软件名
conda 卸载:
A :首先 rm -rf ~/miniconda3
B: 环境变量中去掉conda, vi ~/bash_profile 删除conda路径,退出保存
C: 删除隐藏的.condarc 、.conda以及.continuum文件

02 人类基因组的外显子区域的长度

题目:下载人类外显子的坐标文件,编写代码统计外显子区域的长度。
测试数据:
Bioconductor的TxDb.Hsapiens.UCSC.hg19.knownGene
NCBI数据库:ftp://ftp.ncbi.nlm.nih.gov/pub/CCDS/current_human/

这么多的内容都要下载,我应该需要一个批量下载的命令行

原本是想找到一个批量下载的工具,搜索到这篇推送让下载更方便
它首推了一个叫uGet的插件,在火狐浏览器里面支持使用的,下载安装后,发现有点问题:

image.png

提示不能使用,需要安装新的支持工具
2个链接都去看了,发现没有适合Mac终端的指令,不知道是不是不支持还是怎么回事

然后去GitHub上查找了相关信息,发现这个插件也是支持Chrome的,然后尝试了一下发现可以用
添加了插件

直接右键点击需要下载的文件就可以看到多了一个通过这个插件下载的选项了。
选择uGet下载

将下载好的文件放在一个目录下,新建一个R session

R实现代码示例:拷贝了曾老师教程里面的代码后运行出了如下报错,然后我以为是没有安装什么包,把实例数据的包TxDb.Hsapiens.UCSC.hg19.knownGene安装了一遍,加载后仍然出现报错

> a=read.table(choose.files("ccds/CCDS_nucleotide.current.fna.gz"),sep = '  ',stringsAsFactors = F,header = T) # 选择你下的CCDs文件
Error in choose.files("ccds/CCDS_nucleotide.current.fna.gz") : 
  could not find function "choose.files"

之后去查这个函数到底在哪里,发现是在基础包里面,既然是基础包,我应该都安装了,为啥加载错误呢,问号一下发现,又闹了个笑话


这是一个windows定制函数

估计这样的函数还有很多,但是有没有对应的mac版本可用的函数呢?我想这里应该有个列表,但是我觉得这种不同系统版本问题导致的函数不同应该挺多的,希望开发者找到一个合理的方法去解决,如果能统一就好了。

你可能感兴趣的:(生物信息-编程练习题学习01)