生信宝典

Linux bash学习

更多生信和LInux学习，程序写作，请扫描关注生信宝典。

https://mp.weixin.qq.com/mp/homepage?__biz=MzI5MTcwNjA4NQ==&hid=6&sn=667813e1f021e2cf155a74457b48d087&scene=18&uin=&key=&devicetype=Windows+UnKnow&version=62040549&lang=zh_CN&ascene=7&winzoom=1

本教程宗旨 (请仔细阅读)

本教程不是一个完备的Linux使用教程，而是侧重于一般教程默认读者会了的信息，包括基本概念的解释 (方便初学者了解自己的操作)、命令的各种错误及解决 (通常写教程的都是对这一领域比较熟悉的，一般不会提到这些初学者刚开始不好理解的简单错误)、部分常用命令 (会提到基本用法，具体的使用还请查看手册或在线搜索)、常用快捷键 (简化操作)和组合命令 (快速的批处理等，初学者一般不会想到、高级学者又不屑于提起的部分)。

为什么要用Linux系统

个人认为，Linux操作系统和类Linux操作系统的命令行界面是最适合进行生物信息分析的操作系统。原因有三点：

长期运行的稳定性
多数软件只有Linux版本
强大的Bash命令简化繁琐的操作，尤其是大大简化重复性工作

但对于初学者来说，接触和理解Linux操作系统需要一些时间和摸索。陡然从可视化点选操作的Windows进入到只有命令行界面的Linux，最大的陌生感是不知道做什么，不知道文件在哪？本文希望能通过几个示例帮助大家适应Linux系统。

如何获取Linux系统

如果自己的单位有共有服务器，可以尝试申请账号。
自己的电脑安装双系统或虚拟机
购买一块云服务器
试验下在线学习平台实验楼 https://www.shiyanlou.com (里面也有不少Linux教程，任意点一个进去，双击桌面的Xfce图标，都可以启动Linux终端)
<生信宝典>微信公众号后台回复向管理员索要

初识Linux系统

登录Linux系统后，呈现在眼前的是这样一个界面:

Last login: Mon Jun  5 16:56:56 2017 from 219.241.208.209

Welcome to aliyun Elastic Compute Service!

ct@ehbio:~$

首先解释下出现的这几个字母和符号:

ct: 用户名
ehbio：如果是登录的远程服务器，则为宿主机的名字
~: 代表家目录, 在我们进入新的目录后，这个地方会跟着改变
$: 用来指示普通用户输入命令的地方；对根用户来说一般是#
http://bashrcgenerator.com/可视化定制不同的显示方式。

我的电脑在哪？

打开Windows，首先看到的是桌面；不爱整理文件的我，桌面的东西已经多到需要2个屏幕才能显示的完。另外一个常用的就是我的电脑，然后打开D盘，依次点开对应的文件夹，然后点开文件。

Linux的文件系统组织方式与Windows略有不同，登录进去就是家目录，可视为Windows下的桌面。在这个目录下，我们可以新建文件、新建文件夹，就像在桌面上的操作一样。

注：

这里我们假设所有用到的文件和文件夹都放置于家目录下
Linux的家目录严格来说可能类似于Windows下的C:\Users\ct

如果想查看当前目录下都有什么内容，输入命令 ls，回车即可 (ls可以理解为单词list的缩写)。当前目录下什么也没有，所以没有任何输出。

ct@ehbio:~$ ls

如果错把l看成了i，输入了is，则会出现下面的提示未找到命令。如果输入的是Linux基本命令，出现这个提示，基本可以判定是命令输入错了，瞪大眼睛仔细看就是了。 在敲完命令回车后，注意查看终端的输出，以判断是否有问题。

ct@ehbio:~$ is
-bash: is: 未找到命令
# 大小写敏感
ct@ehbio:~$ lS
-bash: lS: 未找到命令

当前目录下只有一个文件，看不出效果，我们可以新建几个文件和文件夹，来查看下。

mkdir是新建一个目录 (make a directory)；data是目录的名字。
如果目录存在，则会出现提示，”无法创建已存在的目录”。这时可以使用参数-p忽略这个错误。

ct@ehbio:~$ mkdir data
ct@ehbio:~$ mkdir ls
data
ct@ehbio:~$ mkdir data
mkdir: 无法创建目录"data" : 文件已存在
ct@ehbio:~$ mkdir -p data

cat是一个命令，主要用来查看文件；在这与<连用用于读入大段数据。输入cat <之后，回车，会看到终端出现一个大于号，大于号后面可以输入内容，再回车，继续输入内容，直到我们输入END (大写的，与上面一致)，输入过程结束，我们输入的内容都显示在了屏幕上。

 
  ct@ehbio:~$ mkdir data
ct@ehbio:~$ cat < a
> bc
> END
a
bc

`>`是一个重定向符号，即把前面命令的输出写入到`>`后面的文件中。如下所示，新建了一个`Fasta`格式的文件。
`ls -l`列出文件的详细信息；`-l`表示命令行参数，是程序预留的一些选项，保证在不更改程序的情况下获得更灵活的操作。可使用`man ls`查看`ls`所有的命令行参数, 上下箭头翻页，按`q`退出查看。(man: manual, 手册)

```bash
ct@ehbio:~$ cat <data/test.fa
> >SOX2
> ACGTCGGCGGAGGGTGGSCGGGGGGGGAGAGGT
> ACGATGAGGAGTAGGAGAGAGGAGG
> >OCT4
> ACGTAGGATGGAGGAGAGGGAGGGGGGAGGAGAGGAA
> AGAGTAGAGAGA
> >NANOG
> ACGATGCGATGCAGCGTTTTTTTTTGGTTGGATCT
> CAGGTAGGAGCGAGGAGGCAGCGGCGGATGCAGGCA
> ACGGTAGCGAGTC
> >mYC HAHA
> ACGGAGCGAGCTAGTGCAGCGAGGAGCTGAGTCGAGC
> CAGGACAGGAGCTA
> end
> END




"se-preview-section-delimiter">

## 注意命令和参数之间的空格
ct@ehbio:~/data$ ls-l
-bash: ls-l: 未找到命令
ct@ehbio:~$ ls -l
总用量 4




"se-preview-section-delimiter">

## d: dir; 表示data是个目录




"se-preview-section-delimiter">

## rwx：表示目录的权限，暂时忽略，或自己在线搜索
drwxrwxr-x 2 ct ct 4096 6月   8 14:52 data
ct@ehbio:~$ ls -l data
总用量 4




"se-preview-section-delimiter">

## 开头的`-`表示test.fa是个文件
-rw-rw-r-- 1 ct ct 284 6月   8 14:48 test.fa




"se-preview-section-delimiter">
 
  查看写入的文件的内容，cat 文件名；需要注意的是文件所在的目录，默认是当前目录；如下面第一个命令，会提示cat: test.fa: 没有那个文件或目录，是因为当前目录下不存在文件test.fa。(注意文件末尾的end) 
  ct@ehbio:~$ cat test.fa
cat: test.fa: 没有那个文件或目录
ct@ehbio:~$ cat data/test.fa 
>SOX2
ACGTCGGCGGAGGGTGGSCGGGGGGGGAGAGGT
ACGATGAGGAGTAGGAGAGAGGAGG
>OCT4
ACGTAGGATGGAGGAGAGGGAGGGGGGAGGAGAGGAA
AGAGTAGAGAGA
>NANOG
ACGATGCGATGCAGCGTTTTTTTTTGGTTGGATCT
CAGGTAGGAGCGAGGAGGCAGCGGCGGATGCAGGCA
ACGGTAGCGAGTC
>mYC HAHA
ACGGAGCGAGCTAGTGCAGCGAGGAGCTGAGTCGAGC
CAGGACAGGAGCTA
end




"se-preview-section-delimiter">
 
  test.fa在目录data下，可以先进入data目录，然后再查看文件。类比于Windows下先点开一个文件夹，再点开下面的文件。 
  cd (change dir)切换目录。 
  head查看文件最开始的几行，默认为10行，可使用-n 6指定查看前6行。 
  ct@ehbio:~$ cd data
ct@ehbio:~/data$ head -n 6 test.fa 
>SOX2
ACGTCGGCGGAGGGTGGSCGGGGGGGGAGAGGT
ACGATGAGGAGTAGGAGAGAGGAGG
>OCT4
ACGTAGGATGGAGGAGAGGGAGGGGGGAGGAGAGGAA
AGAGTAGAGAGA




"se-preview-section-delimiter">
 
  另外less和more也可以用来查看文件，尤其是文件内容特别多的时候。 
  ct@ehbio:~/data$ less test.fa 




"se-preview-section-delimiter">

# q: 退出




"se-preview-section-delimiter">

# 上下箭头、空格翻页




"se-preview-section-delimiter">
 
  获取可用命令行参数 
  前面使用的命令，有几个用到了参数如ls -l, head -n 6等，需要注意的是命令跟参数之间要有空格。 
  终端运行man ls可以查看ls所有可用的参数，上下箭头翻页，按q退出查看。(man: manual, 手册) 
  ct@ehbio:~/data$ man ls
NAME
 ls - list directory contents

SYNOPSIS
 ls [OPTION]... [FILE]...

DESCRIPTION
 List  information  about  the  FILEs  (the current directory by default).
 Sort entries alphabetically if none of -cftuvSUX nor --sort is specified.

 Mandatory arguments to long options are mandatory for short options too.

 -a, --all
  do not ignore entries starting with .

 -A, --almost-all
  do not list implied . and ..

 --author
  with -l, print the author of each file

 -b, --escape
  print C-style escapes for nongraphic characters
 ....





"se-preview-section-delimiter">
 
  文件上下翻转和左右翻转 
  两个有意思的命令，tac: 文件翻转，第一行变为最后一行，第二行变为倒数第二行；rev每列反转，第一个字符变为最后一个字符，第二个字符变为倒数第二个字符。 
  ct@ehbio:~/data$ cat < first
> second
> third
> END
third
second
first
ct@ehbio:~/data$ cat < abcde
> xyz
> END
edcba
zyx




"se-preview-section-delimiter">
 
  其它新建文件的方式 
  nano类似于Windows下记事本的功能，nano filename就可以新建一个文件，并在里面写内容；ctrl+x退出，根据提示按Y保存。 
  vim 功能更强大的文本编辑器。vim filename就可以新建一个文件, 敲击键盘字母i，进入写作模式。写完后，敲击键盘Esc, 退出写作模式，然后输入:w (会显示在屏幕左下角)，回车保存。vim的常用方法，以后会单写一个，这里点到为止。 
  Linux下文件操作 
  常用的文件操作有移动文件到另一个文件夹、复制文件到另一个文件夹、文件重命名等。 
  cp (copy): 拷贝文件或文件夹 (cp -r 拷贝文件夹时的参数，递归拷贝) 
  



"se-preview-section-delimiter">

# 列出当前目录下有的文件和文件夹
ct@ehbio:~$ ls
data





"se-preview-section-delimiter">

# 新建一个文件夹
ct@ehbio:~$ mkdir ehbio_project





"se-preview-section-delimiter">

# 列出当前目录下有的文件和文件夹, 及其子文件夹的内容




"se-preview-section-delimiter">

# data目录下有一个文件，ehbio_project目录下无文件
ct@ehbio:~$ ls *
data:
test.fa

ehbio_project:





"se-preview-section-delimiter">

# 拷贝data目录下的文件test.fa到ehbio_project目录下
ct@ehbio:~$ cp data/test.fa ehbio_project/





"se-preview-section-delimiter">

# 列出当前目录下有的文件和文件夹, 及其子文件夹的内容




"se-preview-section-delimiter">

# data目录下有一个文件，ehbio_project目录下无文件
ct@ehbio:~$ ls *
data:
test.fa

ehbio_project:
test.fa




"se-preview-section-delimiter">
 
  mv (move): 移动文件或文件夹 
  



"se-preview-section-delimiter">

# 重命名data目录下的文件test.fa为first.fa




"se-preview-section-delimiter">

# mv除了可以移动文件，也可以做单个文件的重命名
ct@ehbio:~$ mv data/test.fa data/first.fa





"se-preview-section-delimiter">

# 列出当前目录下有的文件和文件夹,  及其子文件夹的内容
ct@ehbio:~$ ls *
data:
first.fa

ehbio_project:
test.fa




"se-preview-section-delimiter">
 
  rename: 文件重命名 (常用于批量重命名，不同的系统可能用法略有不同，使用前先man rename查看使用方法) 
  



"se-preview-section-delimiter">

# 进入另一个目录
ct@ehbio:~$ cd ehbio_project/
ct@ehbio:~/ehbio_project$ ls
test.fa





"se-preview-section-delimiter">

# 给文件做一份拷贝
ct@ehbio:~/ehbio_project$ cp test.fa second.fa
ct@ehbio:~/ehbio_project$ ls
second.fa  test.fa





"se-preview-section-delimiter">

# 给文件多拷贝几次，无聊的操作，就是为了给rename提供发挥作用的机会
ct@ehbio:~/ehbio_project$ cp test.fa test2.fa
ct@ehbio:~/ehbio_project$ cp test.fa test3.fa
ct@ehbio:~/ehbio_project$ cp test.fa test4.fa





"se-preview-section-delimiter">

# cp 后面需要2个参数，被拷贝的文件和要被拷贝到的目录或文件




"se-preview-section-delimiter">

# 出现下面的错误，表示缺少目标路径或文件
ct@ehbio:~/ehbio_project$ cp ehbio.fa 
cp: 在" ehbio.fa"  后缺少了要操作的目标文件
Try 'cp --help' for more information.

ct@ehbio:~/ehbio_project$ ls
second.fa  test2.fa  test3.fa  test4.fa  test.fa





"se-preview-section-delimiter">

# 用rename进行文件批量重命名
ct@ehbio:~/ehbio_project$ rename 'test' 'ehbio' test*.fa
ct@ehbio:~/ehbio_project$ ls
ehbio2.fa  ehbio3.fa  ehbio4.fa  ehbio.fa  second.fa




"se-preview-section-delimiter">
 
  ln (link): 给文件建立快捷方式 (ln -s source_file target 创建软连接)。 
  在建立软连接时，原文件要使用全路径。全路径指以/开头的路径。 
  建立软连接，是为了在不增加硬盘存储的情况下，简化文件访问方式的一个办法。把其它文件夹下的文件链接到当前目录，使用时只需要写文件的名字就可以了，不需要再写长串的目录了。  
  ../: 表示上一层目录；../../: 表示上面两层目录 
  pwd (print current/working directory): 输出当前所在的目录  
  \``为键盘Esc下第一个按键 (与家目录~`符号同一个键)，写在反引号内的命令会被运行，运行结果会放置在反引号所在的位置 
  



"se-preview-section-delimiter">

# 建立软连接，把当前目录下的ehbio2.fa，链接到上一层目录的data下面





"se-preview-section-delimiter">

# 这是一个无效的软连接，
ct@ehbio:~/ehbio_project$ ln -s ehbio2.fa ../data





"se-preview-section-delimiter">

# 在使用ls查看时，无效的软连接的文件名下面是黑色的背景。
ct@ehbio:~/ehbio_project$ ls -l ../data/
总用量 4
lrwxrwxrwx 1 ct ct   9 6月   9 17:55 ehbio2.fa -> ehbio2.fa
-rw-rw-r-- 1 ct ct 284 6月   8 14:48 first.fa





"se-preview-section-delimiter">

# 输出当前所在的目录
ct@ehbio:~/ehbio_project$ pwd
/home/ct/ehbio_project





"se-preview-section-delimiter">

# 建立软连接时，原始文件一定使用全路径。全路径指以/开头的路径。
ct@ehbio:~/ehbio_project$ ln -s /home/ct/ehbio_project/ehbio2.fa ../data
ln: 无法创建符号链接" ../data/ehbio2.fa" : 文件已存在





"se-preview-section-delimiter">

# 上面的错误信息时，已经存在这么一个链接了（虽然是无效的），但再建新的链接时还会提示




"se-preview-section-delimiter">

# 使用`-f` (force)强制覆盖已有的链接
ct@ehbio:~/ehbio_project$ ln -fs `pwd`/ehbio2.fa ../data





"se-preview-section-delimiter">

# 再次查看时，就正常了。文件名下面没有了背景色，并且有个右箭头指向原始文件




"se-preview-section-delimiter">

# `lrwxrwxrwx`中的`l`表示软连接。
ct@ehbio:~/ehbio_project$ ls -l ../data/
总用量 4
lrwxrwxrwx 1 ct ct  32 6月   9 17:56 ehbio2.fa -> /home/ct/ehbio_project/ehbio2.fa
-rw-rw-r-- 1 ct ct 284 6月   8 14:48 first.fa





"se-preview-section-delimiter">

# 通常为了简化写法，使用`pwd`代替全路径




"se-preview-section-delimiter">

# `为键盘Esc下面的按键，写在反引号内的命令会被运行，运行结果会放置在反引号所在的位置
ct@ehbio:~/ehbio_project$ ln -s `pwd`/ehbio2.fa ../data
ln: 无法创建符号链接" ../data/ehbio2.fa" : 文件已存在
ct@ehbio:~/ehbio_project$ ln -fs `pwd`/ehbio2.fa ../data
ct@ehbio:~/ehbio_project$ ls -l ../data/
总用量 4
lrwxrwxrwx 1 ct ct  32 6月   9 17:56 ehbio2.fa -> /home/ct/ehbio_project/ehbio2.fa
-rw-rw-r-- 1 ct ct 284 6月   8 14:48 first.fa




"se-preview-section-delimiter">
 
  Linux下命令的一些异常情况 
  命令不全：在命令没有输入完 (引号或括号没有配对)，就不小心按下了Enter键，终端会提示出一个>代表命令不完整，这是可以继续输入，也可以ctrl+c终止输入，重新再来。(下面sed命令使用时，还有另外一种命令不全的问题) 
  ct@ehbio:~/ehbio_project$ rename 'ehbio2
>'
ct@ehbio:~/ehbio_project$ rename 'ehbio2
> ^C
ct@ehbio:~/ehbio_project$





 
  文件名输入错误: 多一个字母、少一个字母、大小写问题 
  ct@ehbio:~/ehbio_project$ls
ehbio2.fa  ehbio3.fa  ehbio4.fa  ehbio.fa  second.fa





"se-preview-section-delimiter">

# 重命名没有生效
ct@ehbio:~/ehbio_project$ rename 'ehbio2' 'ehbio5' ebio2.fa
ct@ehbio:~/ehbio_project$ ls
ehbio2.fa  ehbio3.fa  ehbio4.fa  ehbio.fa  second.fa





"se-preview-section-delimiter">

# 仔细看是ehbio2.fa写成了ebio2.fa，更正后即可。
Z8vb3e9jtel4m99ss6e7eZ:~/ehbio_project$ rename 'ehbio2' 'ehbio5' ehbio2.fa
ct@ehbio:~/ehbio_project$ ls
ehbio3.fa  ehbio4.fa  ehbio5.fa  ehbio.fa  second.fa




"se-preview-section-delimiter">
 
  所在目录不对: 访问的文件不存在于当前目录，而又没有提供绝对路径, 或软连接失效 
  ct@ehbio:~/ehbio_project$ ls
ehbio3.fa  ehbio4.fa  ehbio5.fa  ehbio6.fa  ehbio.fa  second.fa
ct@ehbio:~/ehbio_project$ ls ../data
ehbio2.fa  first.fa





"se-preview-section-delimiter">

# 当前目录没有ehbio2.fa
ct@ehbio:~/ehbio_project$ less ehbio2.fa
ehbio2.fa: 没有那个文件或目录





"se-preview-section-delimiter">

# ehbio2.fa在上一层目录的data目录下
ct@ehbio:~/ehbio_project$ ls ../data/ehbio2.fa 
../data/ehbio2.fa





"se-preview-section-delimiter">

# 加上路径依然访问不了 
ct@ehbio:~/ehbio_project$ less ../data/ehbio2.fa 
../data/ehbio2.fa: 没有那个文件或目录





"se-preview-section-delimiter">

# 上面的问题是软连接失效，在之前的操作中删掉了原始的ehbio2.fa，所以快捷方式失效





"se-preview-section-delimiter">

# 正确的访问
ct@ehbio:~/ehbio_project$ tail -n 3 ../data/first.fa 
ACGGAGCGAGCTAGTGCAGCGAGGAGCTGAGTCGAGC
CAGGACAGGAGCTA
end




"se-preview-section-delimiter">
 
  Linux下文件内容操作 
  常用的文件内容操作有文件压缩解压缩、文件大小行数统计、文件内容查询等。 
  gzip: 压缩文件; gunzip: 解压缩文件 
  



"se-preview-section-delimiter">

# gzip -c 把压缩的文件输出到标准输出 (一般是屏幕)




"se-preview-section-delimiter">

# '>' 输出重定向，输出写入文件

ct@ehbio:~/ehbio_project$ gzip -c ehbio.fa >ehbio.fa.gz





"se-preview-section-delimiter">

# 多了一个.gz文件
ct@ehbio:~/ehbio_project$ ls
ehbio3.fa  ehbio4.fa  ehbio5.fa  ehbio.fa  ehbio.fa.gz  second.fa





"se-preview-section-delimiter">

#解压缩
ct@ehbio:~/ehbio_project$ gunzip ehbio.fa.gz
gzip: ehbio.fa already exists; do you wish to overwrite (y or n)? y
ct@ehbio:~/ehbio_project$ ls
ehbio3.fa  ehbio4.fa  ehbio5.fa  ehbio.fa  second.fa




"se-preview-section-delimiter">
 
  wc (word count): 一般使用wc -l获取文件的行数 
  



"se-preview-section-delimiter">

# 输出文件有14行
ct@ehbio:~/ehbio_project$ wc -l ehbio.fa
14 ehbio.fa




"se-preview-section-delimiter">
 
  获取文件中包含大于号 (>)的行, grep (print lines matching a pattern)。 
 grep的用法很多，支持正则表达式匹配，这里不展开，可以自己查阅资料，或在后期的教程涉及到时再学习。 
  ct@ehbio:~/ehbio_project$ grep '>' ehbio.fa
>SOX2
>OCT4
>NANOG
>mYC HAHA





"se-preview-section-delimiter">

# 获取包含>的行的行数 (-c: count lines)
ct@ehbio:~/ehbio_project$ grep -c '>' ehbio.fa
4





"se-preview-section-delimiter">

# 是不是还记得当时新建文件时，末尾多了一行end，删除end所在行
ct@ehbio:~/ehbio_project$ less ehbio.fa 





"se-preview-section-delimiter">

# -v: 不输出匹配上的行
ct@ehbio:~/ehbio_project$ grep -v 'end' ehbio.fa >ehbio6.fa
ct@ehbio:~/ehbio_project$ cat ehbio6.fa 
>SOX2
ACGTCGGCGGAGGGTGGSCGGGGGGGGAGAGGT
ACGATGAGGAGTAGGAGAGAGGAGG
>OCT4
ACGTAGGATGGAGGAGAGGGAGGGGGGAGGAGAGGAA
AGAGTAGAGAGA
>NANOG
ACGATGCGATGCAGCGTTTTTTTTTGGTTGGATCT
CAGGTAGGAGCGAGGAGGCAGCGGCGGATGCAGGCA
ACGGTAGCGAGTC
>mYC HAHA
ACGGAGCGAGCTAGTGCAGCGAGGAGCTGAGTCGAGC
CAGGACAGGAGCTA




"se-preview-section-delimiter">
 
  替换文件中的字符: sed是一个功能强大的文件内容编辑工具，常用于替换、取得行号等操作。 
  



"se-preview-section-delimiter">

# 第一个错误，漏掉了文件名




"se-preview-section-delimiter">

# 程序静止在这，等待用户的进一步输入




"se-preview-section-delimiter">

# ctrl+c杀掉当前命令
ct@ehbio:~/ehbio_project$ sed 's/ HAHA//' | tail -n 3

^C





"se-preview-section-delimiter">

# 第二个错误，文件名和单引号之间没有空格，使得sed判断命令错误

ct@ehbio:~/ehbio_project$ sed 's/ HAHA//'ehbio.fa  | tail -n 3
sed：-e 表达式 #1，字符 11：“s”的未知选项





"se-preview-section-delimiter">

# 正确操作，

ct@ehbio:~/ehbio_project$ sed 's/ HAHA//' ehbio.fa  | tail -n 4
>mYC
ACGGAGCGAGCTAGTGCAGCGAGGAGCTGAGTCGAGC
CAGGACAGGAGCTA
end




"se-preview-section-delimiter">
 
  另外一个方式，去除HAHA，使用cut命令 (cut更适合与矩阵操作，去除其中的一列或者多列)。 
  -f: 指定取出哪一列，使用方法为-f 2 (取出第2列)，-f 2-5 (取出第2-5列)，-f 2,5 (取出第2和第5列)。 
  -d: 设定分隔符, 默认为TAB键。如果一行没有指定的分隔符，整行都为第一列。 
  ct@ehbio:~/ehbio_project$ cut -f 1 -d ' ' ehbio.fa | tail -n 4
>mYC
ACGGAGCGAGCTAGTGCAGCGAGGAGCTGAGTCGAGC
CAGGACAGGAGCTA
end




"se-preview-section-delimiter">
 
  Linux终端常用快捷操作 
   
   命令或文件名自动补全：在输入命令或文件名的前几个字母后，按Tab键，系统会自动补全或提示补全 
   上下箭头：使用上下箭头可以回溯之前的命令，增加命令的重用，减少输入工作量 
   !加之前输入过的命令的前几个字母，快速获取前面的命令 
   
  ct@ehbio:~/ehbio_project$ cut -f 1 -d ' ' ehbio.fa | tail -n 4
>mYC
ACGGAGCGAGCTAGTGCAGCGAGGAGCTGAGTCGAGC
CAGGACAGGAGCTA
end
ct@ehbio:~/ehbio_project$ man cut




"se-preview-section-delimiter">

# 直接跳到上面运行的cut命令，再执行一次
ct@ehbio:~/ehbio_project$ !cut
cut -f 1 -d ' ' ehbio.fa | tail -n 4
>mYC
ACGGAGCGAGCTAGTGCAGCGAGGAGCTGAGTCGAGC
CAGGACAGGAGCTA
end




"se-preview-section-delimiter">
 
   
   ctrl+a回到命令的行首，用于修改常命令或注释掉命令 
   
  



"se-preview-section-delimiter">

# 写完下面的命令，突然不想运行了，又不想一个个删掉
ct@ehbio:~/ehbio_project$ cut -f 1 -d ' ' ehbio.fa | tail -n 4





"se-preview-section-delimiter">

# 按ctrl+a, 回到行首，再输入`#`号，回车，命令即被注释掉。
ct@ehbio:~/ehbio_project$ #cut -f 1 -d ' ' ehbio.fa | tail -n 4





"se-preview-section-delimiter">
 
   
   !! 表示上一条命令。 
   
  ct@ehbio:~/ehbio_project$ ls
ehbio3.fa  ehbio4.fa  ehbio5.fa  ehbio6.fa  ehbio.fa  second.fa
ct@ehbio:~/ehbio_project$ !!
ls
ehbio3.fa  ehbio4.fa  ehbio5.fa  ehbio6.fa  ehbio.fa  second.fa




"se-preview-section-delimiter">
 
   
   替换上一个命令中的字符，再运行一遍命令，用于需要对多个文件执行同样的命令，又不想写循环的情况 
   
  



"se-preview-section-delimiter">

# 输入一个命令
ct@ehbio:~/ehbio_project$ #cut -f 1 -d ' ' ehbio.fa | tail -n 4





"se-preview-section-delimiter">

# !!表示上一条命令




"se-preview-section-delimiter">

# :gs表示替换，把上一个命令中全部的ehbio替换为ehbio3; g: global; s: substitute
ct@ehbio:~/ehbio_project$ !!:gs/ehbio/ehbio3




"se-preview-section-delimiter">

#cut -f 1 -d ' ' ehbio3.fa | tail -n 4





"se-preview-section-delimiter">

# 替换后效果如上





"se-preview-section-delimiter">

# 去掉命令前的#号
ct@ehbio:~/ehbio_project$ cut -f 1 -d ' ' ehbio3.fa | tail -n 4
>mYC
ACGGAGCGAGCTAGTGCAGCGAGGAGCTGAGTCGAGC
CAGGACAGGAGCTA
end





"se-preview-section-delimiter">

## 替换ehbio3为ehbio4，直接运行命令
ct@ehbio:~/ehbio_project$ !!:gs/ehbio3/ehbio4
cut -f 1 -d ' ' ehbio4.fa | tail -n 4
>mYC
ACGGAGCGAGCTAGTGCAGCGAGGAGCTGAGTCGAGC
CAGGACAGGAGCTA
end




"se-preview-section-delimiter">
 
  Linux下的标准输入、输出、重定向、管道 
  在Linux系统中，有4个特殊的符号，<, ‘>’, ‘|’, ‘-‘，在我们处理输入和输出时存在重要但具有迷惑性的作用。 
  默认Linux的命令的结果都是输出到标准输出，错误信息 (比如命令未找到或文件格式识别错误等) 输出到标准错误，而标准输出和标准错误默认都会显示到屏幕上。 
  >表示重定向标准输出，> filename就是把标准输出存储到文件filename里面。标准错误还是会显示在屏幕上。 
  2 >&1 表示把标准错误重定向到标准输出。Linux终端用2表示标准错误，1表示标准输出。 
  - (短横线)：表示标准输入，一般用于1个程序需要多个输入的时候。 
  <标准输入，后面可以跟可以产生输出的命令，一般用于1个程序需要多个输入的时候。 
  |管道符，表示把前一个命令的输出作为后一个命令的输入，前面也有一些展示例子。用于数据在不同的命令之间传输，用途是减少硬盘存取损耗。 
  下面我们通过一个程序stdout_error.sh来解释上面的文字，内容如下 
  



"se-preview-section-delimiter">

#!/bin/bash

echo "I am std output" 




"se-preview-section-delimiter">

# 下面是随便写的一个理论上不存在的命令, 理论上会报错的。
unexisted_command




"se-preview-section-delimiter">
 
  运行这个脚本 
  



"se-preview-section-delimiter">

# 标准输出和标准错误默认都会显示到屏幕上
ct@ehbio:~$ bash stdout_error.sh 
I am std output
stdout_error.sh: line 5: unexisted_command: command not found





"se-preview-section-delimiter">

# >把结果输入到了文件；标准错误还显示在屏幕上
ct@ehbio:~$ bash stdout_error.sh >stdout_error.stdout
stdout_error.sh: line 5: unexisted_command: command not found
ct@ehbio:~$ cat stdout_error.stdout
I am std output





"se-preview-section-delimiter">

# >把结果输入到了文件; 2>把标准错误输入到了另一个文件
ct@ehbio:~$ bash stdout_error.sh >stdout_error.stdout 2>stdout_error.stderr
ct@ehbio:~$ cat stdout_error.stderr
stdout_error.sh: line 5: unexisted_command: command not found





"se-preview-section-delimiter">

# 标准输出和标准错误写入同一个文件
ct@ehbio:~$ bash stdout_error.sh >stdout_error.stdout 2>&1
ct@ehbio:~$ cat stdout_error.stdout
I am std output
stdout_error.sh: line 5: unexisted_command: command not found




"se-preview-section-delimiter">
 
  下面看管道符和标准输入的使用。 
  



"se-preview-section-delimiter">

# 管道符的使用




"se-preview-section-delimiter">

# 第一个命令的输出作为第二个的输入




"se-preview-section-delimiter">

# 前面的例子中也有使用




"se-preview-section-delimiter">

# tr: 是用于替换字符的，把空格替换为换行，文字就从一行变为了一列
ct@ehbio:~$ echo "1 2 3" | tr ' ' '\n'
1
2
3





"se-preview-section-delimiter">

# cat命令之前也用过，输出一段文字




"se-preview-section-delimiter">

# diff是比较2个文件的差异的，需要2个参数




"se-preview-section-delimiter">

# - (短横线)表示上一个命令的输出，传递给diff




"se-preview-section-delimiter">

# < 表示其后的命令的输出，也重定向给diff
ct@ehbio:~$ cat <echo "1 2 3" | tr ' ' '\n')
> 2
> 3
> 4
> END
0a1
> 1
3d3
< 4





"se-preview-section-delimiter">

# 如果不使用管道和重定向标准输入，程序是这么写的





"se-preview-section-delimiter">

# 先把第一部分存储为1个文件
ct@ehbio:~$ cat <firstfile
2
3
> 4
> END
ct@ehbio:~$ less firstfile 





"se-preview-section-delimiter">

# 再把第二部分存储为1个文件
ct@ehbio:~$ echo "1 2 3" | tr ' ' '\n' >secondfile





"se-preview-section-delimiter">

# 然后比较
ct@ehbio:~$ diff firstfile secondfile 
0a1
> 1
3d3
< 4





"se-preview-section-delimiter">
 
  管道符的更多应用 
  ct@ehbio:~$ echo  "actg aaaaa cccccg" | tr ' ' '\n' | wc -l
3





"se-preview-section-delimiter">

# sed =：先输出行号，再输出每行的内容
ct@ehbio:~$ echo  "a b c" | tr ' ' '\n' | sed =  
1
a
2
b
3
c





"se-preview-section-delimiter">

# 后面这个命令不太好解释




"se-preview-section-delimiter">

# sed = 同时输出行号




"se-preview-section-delimiter">

# N: 表示读入下一行；sed命令每次只读一行，加上N之后就是缓存了第2行，所有的操作都针对第一行；




"se-preview-section-delimiter">

# s: 替换；把换行符替换为\t
ct@ehbio:~$ echo  "a b c" | tr ' ' '\n' | sed = | sed 'N;s/\n/\t/' 
1   a
2   b
3   c





"se-preview-section-delimiter">

# 后面这个命令不太好解释




"se-preview-section-delimiter">

# sed = 同时输出行号




"se-preview-section-delimiter">

# N: 表示读入下一行；sed命令每次只读一行，加上N之后就是缓存了第2行，所有的操作都针对第一行；




"se-preview-section-delimiter">

# s: 替换；把读取的奇数行行首加一个'>'（偶数行相当于被隐藏了）
ct@ehbio:~$ echo  "a b c" | tr ' ' '\n' | sed = | sed 'N;s/^/>/' 
>1
a
>2
b
>3
c





"se-preview-section-delimiter">

# 把多条序列转成FATSA格式




"se-preview-section-delimiter">

# sed = 同时输出行号




"se-preview-section-delimiter">

# N: 表示读入下一行；sed命令每次只读一行，加上N之后就是缓存了第2行，所有的操作都针对第一行；




"se-preview-section-delimiter">

# s: 替换；把读取的奇数行行首加一个'>'（偶数行相当于被隐藏了）




"se-preview-section-delimiter">

# 于是FASTA格式序列就出来了
ct@ehbio:~$ echo  "actg aaaaa cccccg" | tr ' ' '\n' | sed = | sed 'N;s/^/>/' 
>1
actg
>2
aaaaa
>3
cccccg




"se-preview-section-delimiter">
 
  文件的可执行属性和环境变量 
  Linux下文件有一个特殊的属性即可执行属性，用来指示这个文件是一个可执行的脚本或可以运行的二进制文件。前面所提到的这些命令，都具有可执行属性。 
  which: 表示查看命令的路径。一般用于当我们想知道使用的命令来源于什么地方时，比如安装了多个R或多个python，但又分不清用的是哪个时，which一下，立即明了。在这儿我们用which获取的是可执行的命令所在的路径，进而查看其属性。 
  ct@iZ8vb3e9jtel4m99ss6e7eZ:~$ ls -l "`which cd`"




"se-preview-section-delimiter">

#rwx: 文件所有者可读、可写、可执行




"se-preview-section-delimiter">

#r-x: 文件所有者所在组其它成员可读、可执行，不可修改




"se-preview-section-delimiter">

#r-x: 其它人可读、可执行，不可修改
-rwxr-xr-x 1 root root 26 12月  7 2016 /usr/bin/cd
ct@iZ8vb3e9jtel4m99ss6e7eZ:~$ ls -l "`which mkdir`"
-rwxr-xr-x. 1 root root 79768 11月  6 2016 /usr/bin/mkdir
ct@iZ8vb3e9jtel4m99ss6e7eZ:~$ ls -l "`which python`"




"se-preview-section-delimiter">

#l: 代表软连接




"se-preview-section-delimiter">

#软连接自身是所有人可读可写，但具体的权限依赖于其链接的文件
lrwxrwxrwx. 1 root root 7 3月  22 15:04 /usr/bin/python -> python2
ct@iZ8vb3e9jtel4m99ss6e7eZ:~$ ls -l "`which python2`"




"se-preview-section-delimiter">

#第二层链接
lrwxrwxrwx. 1 root root 9 3月  22 15:04 /usr/bin/python2 -> python2.7




"se-preview-section-delimiter">

#链接的原始文件
ct@iZ8vb3e9jtel4m99ss6e7eZ:~$ ls -l "`which python2.7`"
-rwxr-xr-x. 1 root root 7136 11月  6 2016 /usr/bin/python2.7




"se-preview-section-delimiter">
 
  文件属性rwx中r表示read (数字表示为4)、w表示write (数字表示为2)、x表示执行 (数字表示为1)。三个未一组，连续出现三次(如下面命令行中所示), 第一组表示文件的所有者拥有的权限，第二组为文件所有者所在的用户组所拥有的权限，组内所有成员都具有的权限，第三组为其它用户的权限。 
  chmod a+x file: 表示给文件增加所有人(a)可执行权限 (+x) 
  chmod u+x file: 表示给文件增加所有者(u，user，)可执行权限 (+x) 
  chmod g+x, chmod o+X: 表示给文件增加组内人或其它人可执行权限 
  chmod 755 file: 表示拥有者有可读写执行权限，其它人有可读执行权限。(7=4+2+1; 5=4+1) 
  具体使用man chmod查看其它参数使用。 
  



"se-preview-section-delimiter">

# 新建个文件
ct@iZ8vb3e9jtel4m99ss6e7eZ:~$ cat <run.sh
> echo " I am a script created by ehbio." 
> END





"se-preview-section-delimiter">

# 查看其权限值
ct@iZ8vb3e9jtel4m99ss6e7eZ:~$ ls -l run.sh 
-rw-rw-r-- 1 ct ct 39 6月  14 23:12 run.sh





"se-preview-section-delimiter">

# 更改权限值
ct@iZ8vb3e9jtel4m99ss6e7eZ:~$ chmod 755 run.sh





"se-preview-section-delimiter">

# 查看其权限值




"se-preview-section-delimiter">

# 注意多了3个x
ct@iZ8vb3e9jtel4m99ss6e7eZ:~$ ls -l run.sh 
-rwxr-xr-x 1 ct ct 39 6月  14 23:12 run.sh





"se-preview-section-delimiter">

# 去除其它用户的可执行权限
ct@iZ8vb3e9jtel4m99ss6e7eZ:~$ chmod o-x run.sh 





"se-preview-section-delimiter">

# 注意看少了个x
ct@iZ8vb3e9jtel4m99ss6e7eZ:~$ ls -l run.sh 
-rwxr-xr-- 1 ct ct 39 6月  14 23:12 run.sh





"se-preview-section-delimiter">

# 去除同组的可执行权限
ct@iZ8vb3e9jtel4m99ss6e7eZ:~$ chmod g-x run.sh





"se-preview-section-delimiter">

# 注意看又少了个x
ct@iZ8vb3e9jtel4m99ss6e7eZ:~$ ls -l run.sh 
-rwxr--r-- 1 ct ct 39 6月  14 23:12 run.sh





"se-preview-section-delimiter">

# 去除所有人的可执行权限
ct@iZ8vb3e9jtel4m99ss6e7eZ:~$ chmod a-x run.sh
ct@iZ8vb3e9jtel4m99ss6e7eZ:~$ ls -l run.sh 
-rw-r--r-- 1 ct ct 39 6月  14 23:12 run.sh





"se-preview-section-delimiter">

# 给所有人增加可执行权限
ct@iZ8vb3e9jtel4m99ss6e7eZ:~$ chmod a+x run.sh
ct@iZ8vb3e9jtel4m99ss6e7eZ:~$ ls -l run.sh 
-rwxr-xr-x 1 ct ct 39 6月  14 23:12 run.sh




"se-preview-section-delimiter">
 
  如果一个文件有了可执行权限，是不是就可以执行了，我们来检测下。 
  ct@iZ8vb3e9jtel4m99ss6e7eZ:~$ run.sh
-bash: run.sh: 未找到命令




"se-preview-section-delimiter">
 
  事实上并非如此，输入命令，回车后，提示命令未找打，这是为什么呢？ 
  这就涉及到环境变量的概念，通俗的讲，环境变量就是告诉电脑 (实际是操作系统)几个目录。这几个目录下存储又可执行文件，如前面显示的/usr/bin目录，大部分的系统命令都在这个目录下。 
  当我们输入命令mkdir时，系统就会在环境变量所代表的几个目录从前都厚去查找，哪个里面有mkdir文件，然后去执行mkdir命令。 
  系统中环境变量的名字是PATH，其内容可通过下面的命令显示 (根据操作系统不同和配置不同，略有差别，但格式是统一的，:分割的一堆路径)： 
  ct@iZ8vb3e9jtel4m99ss6e7eZ:~$ echo $PATH
/usr/local/bin:/usr/bin:/usr/local/sbin:/usr/sbin




"se-preview-section-delimiter">
 
  所以如果我们想让自己的命令能被系统找到，就需要把命令所在的目录加到环境变量里面，怎么操作呢？ 
  加到环境变量的路径必须是全路径，全路径指以/开头或已~开头的路径。 
  



"se-preview-section-delimiter">

# 加到环境变量的路径必须是全路径，全路径指以/开头或已~开头的路径




"se-preview-section-delimiter">

# 注意第一个PATH不含$, 第二个PATH有$符号




"se-preview-section-delimiter">

# 我们后面会讲什么时候用$, 什么时候不用$
ct@iZ8vb3e9jtel4m99ss6e7eZ:~$ export PATH=$PATH:/home/ct
ct@iZ8vb3e9jtel4m99ss6e7eZ:~$ echo $PATH
/usr/local/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/home/ct




"se-preview-section-delimiter">
 
  这时，我们在执行那个命令试试，成功运行了。 
  ct@iZ8vb3e9jtel4m99ss6e7eZ:~$ run.sh 
I am a script created by ehbio.




"se-preview-section-delimiter">
 
  所以在以后安装了新的软件，或者写了新的脚本后，都把软件的可执行程序和可执行的脚本所在的目录，加到环境变量里面就可以了。 
  但是，在命令行中执行export，对环境变量所做的修改，只对当前终端有效，退出后就无效了。为了使得这一操作，长期有效，我们需要把这句话写入一个文件中，一个登陆服务器就会被自动读取的文件中。 
  对于普通用户，在远程登录终端时，家目录下的~/.bash_profile (不是~/.bashrc, 在本地登录时才会被读取)会自动被读取，所以我们需要把export语句加入到这个文件中。 
  



"se-preview-section-delimiter">

# 这是我的~/.bash_profile中的内容，主要是最好一行。可以连续的加入多个路径。
if [ -f ~/.bashrc ]; then
    . ~/.bashrc
fi

if [ -f ~/.bash_aliases ]; then
    . ~/.bash_aliases
fi

export PATH=$PATH:/home/ct:/home/bin:/home/soft/bowtie2/bin




"se-preview-section-delimiter">
 
  前面提到，系统查找命令的顺序是从环境变量的第一个目录到最后一个目录，在第一次碰到查询的命令后，就调用执行。假如系统存在一个python命令，我们自己又安装了一个python (假如在/home/ct/anaconda/bin目录下)，如果我们想执行自己的python程序，就需要把/home/ct/anaconda/bin写在$PATH前面，如下 
  



"se-preview-section-delimiter">

# 注意$PATH的顺序

ct@iZ8vb3e9jtel4m99ss6e7eZ:~$ export PATH=/home/ct/anaconda/bin:$PATH




"se-preview-section-delimiter">
 
  至此，我们可以熟练使用环境变量来简化命令的输入过程了，因为如果没有环境变量，我们就得需要运行/home/ct/anaconda/bin/python来运行python命令了。 
  环境变量这块，自己多操作下，就会慢慢理解熟练了。 
  环境变量的补充 
  PATH只是众多环境变量中的一个变量，用于存储可执行文件所在的目录，以便在用户输入命令时可以查询的到。尤其是自己写的脚本或安装的程序，系统不会知道它们在哪个路径下，需要我们去提供给系统这些新的路径，学名叫设置环境变量。 
  此外常用到的环境变量还有LD_LIBARY_PATH: 指定动态链接库 (so文件)的位置，一般在安装软件出错时会用到；PYTHONPATH: 指定Python的安装包的路径；PERL5LIB: 指定perl的安装包的路径。 
  设置环境变量要注意2点：1. 设置新的环境变量时一般要包含原始的环境变量，不能覆盖；2. 注意自己的目录和系统环境变量的目录的顺序，想让哪个先被找到，就先放哪个。 
  文件内容操作 (二) 
  文件排序 
  seq: 产生一系列的数字; man seq查看其具体使用。我们这使用seq产生下游分析所用到的输入文件。 
  



"se-preview-section-delimiter">

# 产生从1到10的数，步长为1
ct@ehbio:~$ seq 1 10
1
2
3
4
5
6
7
8
9
10





"se-preview-section-delimiter">

# 产生从1到10的数，步长为1，用空格分割
ct@ehbio:~$ seq -s ' ' 1 10
1 2 3 4 5 6 7 8 9 10





"se-preview-section-delimiter">

# 产生从1到10的数，步长为2




"se-preview-section-delimiter">

# 如果有3个数，中间的数为步长，最后一个始终为最大值
ct@ehbio:~$ seq -s ' ' 1 2 10
1 3 5 7 9





"se-preview-section-delimiter">

# 还记得前面提到的标准输入和标准输出吧




"se-preview-section-delimiter">

# 后台回复 标准输入 查看
ct@ehbio:~$ cat <(seq 0 3 17) <(seq 3 6 18) >test
ct@ehbio:~$ cat test 
0
3
6
9
12
15
3
9
15




"se-preview-section-delimiter">
 
  sort: 排序，默认按字符编码排序。如果想按数字大小排序，需添加-n参数。 
  



"se-preview-section-delimiter">

# 可能不符合预期的排序，系统首先排0，然后排1, 3, 6, 9
ct@ehbio:~$ sort test
0
12
15
15
3
3
6
9
9




"se-preview-section-delimiter">

# 按数字大小排序
ct@ehbio:~$ sort -n test
0
3
3
6
9
9
12
15
15




"se-preview-section-delimiter">
 
  sort -u: 去除重复的行，等同于sort | uniq。 
  ct@ehbio:~$ sort -nu test
0
3
6
9
12
15




"se-preview-section-delimiter">
 
  sort file | uniq -d: 获得重复的行。(d=duplication) 
  ct@ehbio:~$ sort -n test | uniq -d
3
9
15




"se-preview-section-delimiter">
 
  sort file | uniq -c: 获得每行重复的次数。 
  



"se-preview-section-delimiter">

# 第一列为每行出现的次数，第二列为原始的行
ct@ehbio:~$ sort -n test | uniq -c
  1 0
  2 3
  1 6
  2 9
  1 12
  2 15





"se-preview-section-delimiter">

# 换一个文件看的更清楚
ct@ehbio:~$ cat <test2
> a
> b
> c
> b
> a
> e
> d
> a
> END





"se-preview-section-delimiter">

# 第一列为每行出现的次数，第二列为原始的行
ct@ehbio:~$ sort test2 | uniq -c
3 a
2 b
1 c
1 d
1 e





"se-preview-section-delimiter">

# 在执行uniq操作前，文件要先排序，不然结果很诡异
ct@ehbio:~$ cat test2 | uniq -c
1 a
1 b
1 c
1 b
1 a
1 e
1 d
1 a




"se-preview-section-delimiter">
 
  整理下uniq -c的结果，使得原始行在前，每行的计数在后。 
  awk是一个强大的文本处理工具，其处理数据模式为按行处理。每次读入一行，进行操作。OFS: 输出文件的列分隔符 (output file column separtor)；FS为输入文件的列分隔符 (默认为空白字符)。awk中的列从第1到n列，分别记录为$1, $2 … $n。BEGIN表示在文件读取前先设置基本参数；与之相对应的是END，只文件读取完成之后进行操作。不以BEGIN, END开头的{}就是文件读取、处理的部分。 
  



"se-preview-section-delimiter">

# 管道符还记得吧，后台回复 管道 可查看




"se-preview-section-delimiter">

# awk的操作就是镀金上一步的结果，去除多余的空白，然后调换2列
ct@ehbio:~$ sort test2 | uniq -c | awk 'BEGIN{OFS="\t";}{print $2, $1}'
a   3
b   2
c   1
d   1
e   1




"se-preview-section-delimiter">
 
  对两列文件，安照第二列进行排序, sort -k2,2n。 
  



"se-preview-section-delimiter">

# 第二列按数值大小排序
ct@ehbio:~$ sort test2 | uniq -c | awk 'BEGIN{OFS="\t";}{print $2, $1}' | sort -k2, 2n
c   1
d   1
e   1
b   2
a   3





"se-preview-section-delimiter">

# 第二列按数值大小排序




"se-preview-section-delimiter">

# 第二列相同的再按第一列的字母顺序的逆序排序 (-r)




"se-preview-section-delimiter">

# 注意看前3行的顺序与上一步结果的差异
ct@ehbio:~$ sort test2 | uniq -c | awk 'BEGIN{OFS="\t";}{print $2,$1}' | sort -k2,2n -k1,1r
e   1
d   1
c   1
b   2
a   3





"se-preview-section-delimiter">
 
  FASTA序列提取 
  生成单行序列FASTA文件，提取特定基因的序列，最简单的是使用grep命令。 
  grep在前面也提到过，以后还会经常提到，主要用途是匹配文件中的字符串，以此为基础，进行一系列的操作。如果会使用正则表达式，将会非常强大。正则表达式版本很多，几乎每种语言都有自己的规则，本文档不会展开，用到哪个提哪个。 
  



"se-preview-section-delimiter">

# 生成单行序列FASTA文件
ct@ehbio:~$ cat <test.fasta
> >SOX2
> ACGAGGGACGCATCGGACGACTGCAGGACTGTC
> >POU5F1
> ACGAGGGACGCATCGGACGACTGCAGGACTGTC
> >NANOG
> CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT
> END
ct@ehbio:~$ cat test.fasta 
>SOX2
ACGAGGGACGCATCGGACGACTGCAGGACTGTC
>POU5F1
ACGAGGGACGCATCGGACGACTGCAGGACTGTC
>NANOG
CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT





"se-preview-section-delimiter">

# grep匹配含有SOX2的行




"se-preview-section-delimiter">

# -A 1 表示输出的行中，包含匹配行的下一行 (A: after)
ct@ehbio:~$ grep -A 1 'SOX2' test.fasta 
>SOX2
ACGAGGGACGCATCGGACGACTGCAGGACTGTC





"se-preview-section-delimiter">

# 也可以使用AWK




"se-preview-section-delimiter">

# 先判断当前行是不是 > 开头，如果是，表示是序列名字行，替换掉大于号，取出名字。




"se-preview-section-delimiter">

# sub 替换, sub(被替换的部分，要替换成的，待替换字符串)




"se-preview-section-delimiter">

# 如果不以大于号开头，则为序列行，存储起来。




"se-preview-section-delimiter">

# seq[name]: 相当于建一个字典，name为key，序列为值。然后就可以使用name调取序列。
ct@ehbio:~$ awk 'BEGIN{OFS=FS="\t"}{if($0~/>/) {name=$0; sub(">", "", name);} else seq[name]=$0;}END{print ">SOX2"; print seq["SOX2"]}' test.fasta
>SOX2
ACGAGGGACGCATCGGACGACTGCAGGACTGTC





"se-preview-section-delimiter">
 
  多行FASTA序列提取要麻烦些，一个办法就是转成单行序列，用上面的方式处理。 
  sed和tr都为最常用的字符替换工具。 
  ct@ehbio:~$ cat <test.fasta
> >SOX2
> ACGAGGGACGCATCGGACGACTGCAGGACTGTC
> ACGAGGGACGCATCGGACGACTGCAGGACTGTC
> ACGAGGGACGCATCGGACGACTGCAGGAC
> >POU5F1
> CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT
> CGGAAGGTAGTCGTCAGTGCAGCGAGTCC
> >NANOG
> ACGAGGGACGCATCGGACGACTGCAGGACTGTC
> ACGAGGGACGCATCGGACGACTGCAGG
> ACGAGGGACGCATCGGACGACTGCAGGACTGTC
> ACGAGGGACGCATCGGACGACTGCAGGACTGT
> END





"se-preview-section-delimiter">

# 给>号开头的行的行尾加个TAB键，以便隔开名字和序列




"se-preview-section-delimiter">

# TAB键不可见，直接看看不大




"se-preview-section-delimiter">

# \(\)表示记录匹配的内容，\1则表示()中记录的匹配的内容




"se-preview-section-delimiter">

# 后面我们专门讲sed
ct@ehbio:~$ sed 's/^\(>.*\)/\1\t/' test.fasta 
>SOX2   
ACGAGGGACGCATCGGACGACTGCAGGACTGTC
ACGAGGGACGCATCGGACGACTGCAGGACTGTC
ACGAGGGACGCATCGGACGACTGCAGGAC
>POU5F1 
CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT
CGGAAGGTAGTCGTCAGTGCAGCGAGTCC
>NANOG  
ACGAGGGACGCATCGGACGACTGCAGGACTGTC
ACGAGGGACGCATCGGACGACTGCAGG
ACGAGGGACGCATCGGACGACTGCAGGACTGTC
ACGAGGGACGCATCGGACGACTGCAGGACTGT





"se-preview-section-delimiter">

#使用cat -A 可以显示文件中所有的符号




"se-preview-section-delimiter">

# ^I 表示tab键




"se-preview-section-delimiter">

# $表示行尾

ct@ehbio:~$ sed 's/^\(>.*\)/\1\t/' test.fasta | cat -A
>SOX2^I$
ACGAGGGACGCATCGGACGACTGCAGGACTGTC$
ACGAGGGACGCATCGGACGACTGCAGGACTGTC$
ACGAGGGACGCATCGGACGACTGCAGGAC$
>POU5F1^I$
CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT$
CGGAAGGTAGTCGTCAGTGCAGCGAGTCC$
>NANOG^I$
ACGAGGGACGCATCGGACGACTGCAGGACTGTC$
ACGAGGGACGCATCGGACGACTGCAGG$
ACGAGGGACGCATCGGACGACTGCAGGACTGTC$
ACGAGGGACGCATCGGACGACTGCAGGACTGT$





"se-preview-section-delimiter">

# 把所有的换行符替换为空格




"se-preview-section-delimiter">

# tr这个命令，前面提到过，若想不起来 `man tr`查看




"se-preview-section-delimiter">

# 主意第二个参数，引号内为空格。
ct@ehbio:~$ sed 's/^\(>.*\)/\1\t/' test.fasta | tr '\n' ' '
>SOX2    ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGAC >POU5F1   CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT CGGAAGGTAGTCGTCAGTGCAGCGAGTCC >NANOG    ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGG ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGT 





"se-preview-section-delimiter">

# 把最后一个空格替换为换行符
ct@ehbio:~$ sed 's/^\(>.*\)/\1\t/' test.fasta | tr '\n' ' ' | sed -e 's/ $/\n/'
>SOX2    ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGAC >POU5F1   CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT CGGAAGGTAGTCGTCAGTGCAGCGAGTCC >NANOG    ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGG ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGT





"se-preview-section-delimiter">

# 把  ' >'替换为换行符 注意被替换的是 空格+大于号




"se-preview-section-delimiter">

# 当连用多个替换命令时，使用-e 隔开
ct@ehbio:~$ sed 's/^\(>.*\)/\1\t/' test.fasta | tr '\n' ' ' | sed -e 's/ $/\n/' -e 's/ >/\n>/g'
>SOX2    ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGAC
>POU5F1  CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT CGGAAGGTAGTCGTCAGTGCAGCGAGTCC
>NANOG   ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGG ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGT





"se-preview-section-delimiter">

# 把所有的空格替换掉
ct@ehbio:~$ sed 's/^\(>.*\)/\1\t/' test.fasta | tr '\n' ' ' | sed -e 's/ $/\n/' -e 's/ >/\n>/g' -e 's/ //g'
>SOX2   ACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGAC
>POU5F1 CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGTCGGAAGGTAGTCGTCAGTGCAGCGAGTCC
>NANOG  ACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACTGT





"se-preview-section-delimiter">

# 把TAB键转换为换行符
ct@ehbio:~$ sed 's/^\(>.*\)/\1\t/' test.fasta | tr '\n' ' ' | sed -e 's/ $/\n/' -e 's/ >/\n>/g' -e 's/ //g' -e 's/\t/\n/g' 
>SOX2
ACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGAC
>POU5F1
CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGTCGGAAGGTAGTCGTCAGTGCAGCGAGTCC
>NANOG
ACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACTGT




"se-preview-section-delimiter">
 
  或者简单点，直接用前面的awk略微做下修改。 
  



"se-preview-section-delimiter">

# 差别只在一点




"se-preview-section-delimiter">

# 对于单行fasta文件，只需要记录一行，seq[name]=$0




"se-preview-section-delimiter">

# 对于多好fasta文件，需要把每一行序列都加到前面的序列上，seq[name]=seq[name]$0
ct@ehbio:~$ awk 'BEGIN{OFS=FS="\t"}{if($0~/>/) {name=$0; sub(">", "", name);} else seq[name]=seq[name]$0;}END{print ">SOX2"; print seq["SOX2"]}' test.fasta
>SOX2
ACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGAC




"se-preview-section-delimiter">
 
  命令运行监测 
   
   检测命令的运行时间 time command 
   
  ct@ehbio:~$ time sleep 5

real    0m5.003s # 程序开始至结束的时间，包括其它进程占用的时间片和IO时间
user    0m0.001s # 进程真正执行占用CPU的时间, 
sys 0m0.002s     # 进程在内核中调用所消耗的CPU时间
user+sys是进程实际的CPU时间。如果多线程执行，这个时间可能大于Real。如果IO是瓶颈，则real会大于user+sys (单线程)。




<div class="se-preview-section-delimiter">div>
 
   
   查看正在运行的命令和其资源使用 top 
     
     top输出界面第一行主要信息是负载显示，分别是1分钟、5分钟、15分钟前到现在的任务队列的平均长度。 
     一般与CPU数目相当为好，过大系统负载超额，反应慢。 
     在top输出界面输入 u, 会提示输入用户名，以查看某个用户的进程。 
     重点关注的是%MEM列，查看系统占用的内存是否超出。 
     
   
  ct@ehbio:~$ top -a #按内存排序显示

top - 09:02:11 up 224 days,  8:34,  30 users,  load average: 40, 33, 28
Tasks: 1561 total,   1 running, 1550 sleeping,   0 stopped,  10 zombie
Cpu(s):  0.6%us,  0.2%sy,  0.0%ni, 99.2%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Mem:  2642768880k total, 2094619800k used, 548149080k free,   4310240k buffers
Swap: 86472700k total, 73226016k used, 13246684k free, 193383748k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND                                  
32527 ct        20   0 2631m 1.7g 1332 S  0.0  0.7 100:34.87 rsem-run-em 
29273 ct        20   0 4094m 692m 3396 S  0.0  0.3  45:18.83 java -Xmx1000m
40148 mysql     20   0 21.9g 606m 6116 S  1.3  0.2   2536:06 /usr/sbin/mysqld
31040 ct        20   0 1887m  77m 2604 S  0.3  0.0 180:43.16 [celeryd: 




"se-preview-section-delimiter"></div>
 
   
   查看系统进程 ps auwx | grep 'process_name' 
   
  文件系统和磁盘信息监测 
  查看系统硬盘大小和分配 
  ct@ehbio:~$ df -h
Filesystem            Size  Used   Avail   Use% Mounted on
/dev/sda3             193G  112G     71G    62% /
tmpfs                 127G  104K    127G     1% /dev/shm
/dev/sda2             477M  102M    351M    23% /boot
/dev/sda1             200M  264K    200M     1% /boot/efi
/dev/mapper/ehbiobp1  137T   10T    127T     7% /ehbioB
/dev/mapper/ehbiocp1  137T   32T  104.8T    23% /ehbioC
/dev/mapper/ehbiodp1  137T   56T     81T    41% /ehbioD




"se-preview-section-delimiter">
 
  ct@ehbio:~$ du -sh *
268M    blog
4.0K    browserMimic.py
5.6G    CAFE
386M    chip
73M class
4.0K    config.file
4.0K    do_not_del_r_test.Rmd
7.2M    ehbio
20K ehbio_logo.png
12K ehbio_weixin.jpg
4.0K    Grid_with_line.Rmd
8.0K    heatmap_nonlinear.pdf
8.0K    heatmap_nooutlier.pdf




"se-preview-section-delimiter">
 
  软件安装 
  不同于windows，Linux下软件安装的方式比较多样，有些也比较复杂。每种安装方式都有自己的优点和局限，也都有可能遇到问题。在我们理解了原理之后，借助谷歌，可以更好地帮助解决问题。 
  系统包管理器安装 
  软件安装最方便的、一般也不容易出问题的是利用系统自带的包管理工具，可以解决大部分的依赖问题。 
  



<div class="se-preview-section-delimiter">div>

# centos




<div class="se-preview-section-delimiter">div>

# 如果长时间没更新，先运行下update
yum update




<div class="se-preview-section-delimiter">div>

# 如果不知道软件具体名字，可以先用一个关键字search一下, 选择正式的名字




<div class="se-preview-section-delimiter">div>

# 需要注意的是一般的服务器都是64 bit，需要选x86_64版本
yum search soft_name or soft_description
yum search soft_official_name




<div class="se-preview-section-delimiter">div>
 
  但也有一些不足，主要3点： 
   
   需要根用户的权限。 
   如果系统版本老，安装的软件版本也会比较老。使用新版本有时又会发生冲突。 
   生物信息学中不少软件不在系统的安装源里面。 
   
  解决这些问题，就需要自己去软件官网查找最新的分法包，又有两种可能，一种是分法包直接就是编译好的软件，下载下来设置下可执行属性并放入环境变量就可以运行了，如于blast或bowtie这样的工具。 
  另一种则是需要从源码编译安装，下面主要讲解下这个。 
  源码编译安装 
  源码编译经典的三部曲configure, make, make install。如果不出问题，对着执行下来就安装好了，也不一定知其所以然。但出了问题，就不是比较容易解决的。如果知道这背后的机制，还是会有帮助的。 
   
   configure是检查系统的库文件、类文件、依赖软件是否存在以及它们的版本是否满族需求，并根据实际检测结果生成Makefile的工具。一般是一堆bash命令的组合。通常也需要在这一步配置一些参数。最常用的就是指定软件的安装目录--prefix=/home/ct/soft/specific_name。 
   make则是具体的编译过程。编译的语句都写在了Makefile中。make默认编译Makefile中出现的第一个target，也可以指定target编译，并根据Makefile的设置方式依次编译所有依赖的东西。
 Makefile通常的格式和布局如下，有兴趣的可以自己去学，或者我们再出一个教程。
 
# 假设当前文件夹下Makefile文件中内容如下 

ct@ehbio:~$ cat Makefile

# first: target名字


# echo "compile first": target对应的命令，任何Linux命令都可以

first:
echo "compile first"
all: first second
echo "compile all"
second:
echo "compile second"


# 直接运行make，会make第一个出现的target

ct@ehbio:~$ make
echo "compile first"
compile first

# make first与直接make相同，因为它出现在第一个 

ct@ehbio:~$ make first
echo "compile first"
compile first

# all依赖于first, second，因此make all会先执行make first, make second


# 然后才是自己所代表的命令 

ct@ehbio:~$ make all
echo "compile first"
compile first
echo "compile second"
compile second
echo "compile all"
compile all 
   
  有些软件的安装，在执行完make后就获得了可执行程序，可以跳过make install的过程，只需要放入环境变量就可以运行了。但部分软件还需要一些依赖关系，所以需要执行make install才算完成了完整的安装。 
   
   make install通常是拷贝make编译出来的可执行文件或者依赖的库文件(如果有的话)到configure时的--prefix指定的目录下。 
   安装好的软件放入环境变量, 就可以快乐的运行了。 
   
  两条注意: 
   
   从源码编译最难解决的问题就是依赖的库文件、头文件、其它软件的缺失或版本不匹配，没有统一的解决办法，原则就是缺啥补啥。 
   三部曲每一步的执行，屏幕上都会输出比较多的信息，一定仔细看最后有没有ERROR类的字样，对判断软件有无安装成功和下一步要怎么做会很有帮助。 
   
  Linux包的安装的通用方式主要这些，后面还会提到两种虚拟安装方式，也都是为了简化安装而提出的。 
  Python包的安装 
  在没有Anaconda(或其前身canopy)出现之前，Python包以其管理混乱、安装困难著称。有了Anaconda后，不只python包的安装简单了，其它软件的安装也都方便了 (详见后面Anaconda的两个福利)。 
   
   首先下载Anaconda的安装包 https://www.continuum.io/downloads。 
   Anaconda的安装包做的很人性化，一个bash脚本，只要运行bash Anacond*x86_64.sh，然后按照提示操作就可以了。 
   按照好后，设置或刷新下环境变量就可以使用了。 
   此后再安装python的包只需要执行pip install pakcage_name或conda install pakckage_name就可以了。 
   这里唯一需要注意的就是确认使用的python或pip确实是Anaconda安装的python或pip。 
 
     
     which python查看使用的python命令。 
     如果使用的还是系统默认的python，则需要检查下环境变量的设置。 
     
   
  Anaconda的两个福利 
   
   头文件和库文件库 
   
  这是Anaconda安装后的目录结构 
  bin   envs  Examples  imports  lib    LICENSE.txt  pkgs     share  var
conda-meta  etc   gcc include  lib64  mkspecsplugins  ssl




<div class="se-preview-section-delimiter">div>
 
  其中lib目录下，一部分是依赖的动态链接库, .so文件；这也是在源码编译时最常见的拦路虎。通常，只需要把这个目录放入环境变量LD_LIBRARY_PATH里面比如export LD_LIBARY_PATH=${LD_LIBARY_PATH}:anaconda_path/lib就可以解决问题。 
  cairo                    libitm.a              libQtScript.so.4
cmake                    libitm.la             libQtScript.so.4.8
engines                  libitm.so             libQtScript.so.4.8.7
gcc                      libitm.so.1           libQtScriptTools.la
gcj-4.8.5-14             libitm.so.1.0.0       libQtScriptTools.prl
glib-2.0                 libitm.spec           libQtScriptTools.so
libargtable2.a           libjpeg.a             libQtScriptTools.so.4
libargtable2.la          libjpeg.la            libQtScriptTools.so.4.8
libargtable2.so          libjpeg.so            libQtScriptTools.so.4.8.7
libargtable2.so.0        libjpeg.so.8          libQtSql.la
libargtable2.so.0.1.8    libjpeg.so.8.4.0      libQtSql.prl
libasan.a                libmkl_avx2.so        libQtSql.so
libasan.la               libmkl_avx512_mic.so  libQtSql.so.4
libasan_preinit.o        libmkl_avx512.so      libQtSql.so.4.8
libasan.so               libmkl_avx.so         libQtSql.so.4.8.7 
   
   bioconda 
   
  bioconda提供了一个虚拟环境，方便软件的编译安装。具体的我没用过，可以读下 徐洲更的生信软件的好帮手-bioconda。 
  R包的安装 
  R包的安装具体看之前的R教程。 
  需要注意的也是依赖的软件或库文件的版本，同样的Anaconda提供的lib库也可以直接拿来用。 
  备注 
  文中凡是提到环境变量的地方都可链接到之前提到的环境变量使用的文章，请务必仔细读两遍。 
  如果软件版本或依赖实在解决不了的，用Docker，虚拟出一个新的系统来解决，具体见。 
  Original link 
  原文链接 http://blog.genesino.com//2017/06/bash1/ 
  微信公众号 
  http://mp.weixin.qq.com/s/yKP1Kboji9N4p2Sl1Ovj0Q

http://www.cnpop.org/portal.php,生物信息的84个新晋网红应用 weixin_39699163
Descriptionsofnewonlinedatabasesinthe2018NARDatabaseissueDatabaseURLBriefdescriptiona3DIVhttp://kobic.kr/3div3D-genomeInteractionVieweranddatabaseAAgMarkerhttp://bioinfo.wilmer.jhu.edu/AAgMarker/index
【生信知识】---全网最佳方案下载SRA数据库文件！卡布达b1
前言：众所周知，NCBI对我朝的局域网不甚友好，对于国内的生信玩家来说，想要下载SRA数据库的.sra或者.fastq经常遇到网速问题，慢到你怀疑人生有木有！因此，我在这里摸索了一个目前看来最高效的方法，那就是。。。ascp+ENA数据库！详解：1.首先安装ascp这个神器就不多介绍了，没有安装的同学先把ascp安装到自己的服务器上吧，推荐安装教程www.bioinfo-scrounger.com
bioinfo100-第9题-FastQC报告中的duplicate RachaelRiggs
duplicate问题zhn去除duplicate可以这样理解：去除“假重复”（人为造成的重复序列方面的bias)保留“真重复”（天然存在的重复序列）。第9题读懂FastQC报告中的duplicate问题本周我们预计会把前10个问题提出来，结束我们的测序原理与FastQC部分。今天我们来详细聊聊duplicate问题。duplicate的产生主要是因为Illumina建库的过程中，一般会需要使用P
2019-08-21 gffread----gff、gtf格式转换老_Z
三代数据分析，用Minimap2分析出结果，生成了gff文件，想继续用为了想用到MatchAnno去，但是MatchAnno需求是gtf文件，所以想找大家都推荐的cufflinks中的脚本gffread来做。寻找过程中发现gffread有官网直接下载http://ccb.jhu.edu/software/stringtie/gff.shtmlhttp://www.bioinfo-scrounger
卡梅计算机生物专业怎么样,美国卡梅生物信息学专业录取案例 weixin_39683863 卡梅计算机生物专业怎么样
宫同学基本情况本科学校：山东大学；gpa:85.44;托福：107；gre:3.5录取Carnegiemellonuniversity卡耐基梅隆大学computationalbiology计算机生物学Universityofmichigan,annarbor密歇根大学安娜堡分校bioinformatics生物信息学Georgiainstituteoftechnology佐治亚理工学院bioinfo
bioinfo100-第22题-都有了SAM文件，为什么还需要BAM文件？ RachaelRiggs
Hello大家好！前面的若干问题，我们一直在围绕着SAM文件的记录格式做了详细地讨论，我相信大家通过我们的问题，跟随我们学习的思路已经掌握了SAM文件作为标准的比对格式的合理性以及相关特点。1.背景介绍和数据下载SAM文件不但记录了reads详细的mapping信息，还记录了reads的原始信息，内容很是全面。这样很好，但也存在很多问题：比如我的原始FASTQ文件是100G，那么我的SAM文件一定
Freebayes用法简单介绍京古
本文转载自：http://www.bioinfo-scrounger.com/archives/254Freebayes身为众多call变异软件中的一员，一直被使用到现在，肯定有其独到之处。因此对其的简单使用方法做个笔记下载及安装gitclone--recursivegit://github.com/ekg/freebayes.gitmakemakeinstall软件介绍及原理可参考一篇博客htt
bioinfo100-第13题-从双序列比对开始学起 RachaelRiggs
参考：孟浩巍的知乎zhn第13题从双序列比对开始学起Hello大家好！经过我们之前的12个问题，我们对Illumina测序的原理，测序的储存模式，测序数据的质控已经有了一个比较清楚的认识。那么我们今天就开始用接下来的若干次提问来学习与比对有关的知识。比对其实应该对应的单词是alignment，但往往特指低通量的序列之间的比较。比如10条序列，进行多序列比对就是我们常说的multiplealignm
bioinfo100-第10题-FastQC报告之adapter与kmer RachaelRiggs
参考：孟浩巍的知乎zhn第10题读懂FastQC报告之adapter与kmerHello大家好！我们又见面了！今天是我们的FastQC中最后1次提问啦！今天，我们要聊得是adapter与kmer的问题。我们在[生物信息学100个基础问题——第5题测序建库的adapter](https://zhuanlan.zhihu.com/p/34691037"\t"_blank)的时候讨论过adapter的问
有没有人带？这些都是学习生信的一大助力！生信宝典人工智能编程语言数据可视化微软大数据
经常能看到某人5篇SCI！某实验室10篇SCI！科研学习过程中，一年多篇文章的人是如何保持科研创新能力的？及时关注学界动态，高效获取优质资源非常重要。但是大量的科研资讯，热点也层出不穷，那么作为硕博新生的你，如何做好科研呢！下个优质公众号，由科研大咖主持分享最有影响力的经典文献，提供前沿的研究思路、提供生信和基因分析的科研方法，更有投稿、选刊等论文秘笈。生信补给站Bioinfo_R_Python▲
清华大学鲁志实验室内部生物信息学培训教材可以公开的秘密Scarlett
授课的配套PPT都是共享在清华大学校园网盘：-[Bioinfo2020](https://cloud.tsinghua.edu.cn/d/b707e65b559549069938/?p=%2Fbioinfo2020%2FLectures&mode=list)-[Bioinfo2019](https://cloud.tsinghua.edu.cn/d/b707e65b559549069938/?p=
【R】数据相关性的可视化风风是超人 r语言数据库服务器
一千零一技|相关性分析及其可视化：copy&paste，搞定.libPaths(c("/bioinfo/home/software/miniconda3/envs/R4.0/lib/R/library"))#data("mtcars")library("PerformanceAnalytics")#pdf("test.pdf")#my_data<-mtcars[,c(1,3,4,5,6,7)]#p
linux创建账户点滴生信
创建组groupaddbioinfo创建用户useradd-u1006-d/data/users/lb-m-gbioinfolb-u1006指定id适用于已经创建过用户,再是系统重装等原因造成的需要重新创建账号,保持与原始的记录一致-d指定目录结构-g指定归属组最后设置账号名字设置密码passwdlb更改目录归属权限chownlb:bioinfo-Rtest-R要更改的目录lb:bioinfo即将
bioinfo100-第23题-转录组的比对与基因组的比对有何不同？ RachaelRiggs
参考：孟浩巍的知乎zhn第23题转录组的比对与基因组的比对有何不同？Hello大家好！我们今天又见面了！我们通过前期的22个问题，从数据的简单质控，到测序数据的mapping，再到mapping后的SAM文件都有了一个比较清楚的认识。那么说了半天的mapping问题，一直都是在以DNA进行举例，RNA的比对我们都还没有谈。那么今天我们就来简单谈谈RNA序列的mapping，尤其是真核生物的RNA序
又发现了一本对纯生信友好的期刊 SCI狂人团队
今天分享一本对纯生信数据挖掘友好的期刊——BioMedicalEngineeringOnLine，BioMedicalEngineeringOnLine期刊官方给出的影响因子：2.059，中科院最新分区：4区，审稿周期：1-3个月，版面费：$2290.00，不在中科院《国际期刊预警名单（试行）》名单（2021年1月发布版）上。该期刊主要对以下研究领域感兴趣，其中生物信息学排在第一位：Bioinfo
【bioinfo】samtools stats 输出结果解读青灯照颦微 bioinfo 笔记 bioinfo samtools
参考：samtoolsstats#samorbaminput$samtoolsstattest.sam>test_sam_stat.txt下图为示例统计的SN关键字部分：统计结果中包含的信息有：关键字官方解释说明CHKChecksum校验和SNSummarynumbers摘要编号FFQFirstfragmentqualitiesRead1片段质量LFQLastfragmentqualitiesRe
懒人版肿瘤细胞系鉴定神器：CCLA 概普生信
你是否遇到过癌症细胞系污染或者误用的情况呢？今天介绍一款简单易用的，基于基因表达数据的癌症细胞系鉴定工具CCLA(http://bioinfo.life.hust.edu.cn/web/CCLA/)发表于杂志：BriefingsinBioinformaticsIF：8.99背景介绍癌症细胞系（Cancercellline，CCL）是癌症研究中最常用的实验材料。然而由于长期培养和传代，CCL容易被污
生信分析Python实战练习 4 | 视频22 生信宝典 python 开发语言
开源生信Python教程生信专用简明Python文字和视频教程源码在：https://github.com/Tong-Chen/Bioinfo_course_python目录背景介绍编程开篇为什么学习Python如何安装Python如何运行Python命令和脚本使用什么编辑器写Python脚本Python程序事例Python基本语法数值变量操作字符串变量操作列表操作集合操作Range使用字典操作层
2020-02-21 单因素/多因素分析-R语言清水煮竹笋
R语言学习笔记参考内容：https://www.bioinfo-scrounger.com/archives/647/#注意该文章中，部分代码前面多了>符号https://www.jianshu.com/p/2da6645e0a86#两篇文章采取的函数略有不同library("survival")library("survminer")data("lung")#载入lung数据库head(lung
【bioinfo】bwa mem 比对分值参数测试青灯照颦微 bioinfo 生物信息学 bwa 序列比对
常用的序列比对软件bwa：command对应的多种命令，这里使用的是mem，即使用BWA-MEM算法进行序列比对。bwamem命令比对：下方官网上介绍的mem命令：bwamem比对分值参数：参数默认比对情况分值说明-A[1]Match11bp比对得1分-B[4]Mismatch-41bp错配扣4分-O[6,6]gap(ins,del)-6,-61bp的ins扣6分，del扣6分-E[1]gapex
生信分析Python实战练习 3 | 视频21 生信宝典 python 开发语言
开源生信Python教程生信专用简明Python文字和视频教程源码在：https://github.com/Tong-Chen/Bioinfo_course_python目录背景介绍编程开篇为什么学习Python如何安装Python如何运行Python命令和脚本使用什么编辑器写Python脚本Python程序事例Python基本语法数值变量操作字符串变量操作列表操作集合操作Range使用字典操作层
R语言基础--向量山竹山竹px
R-基础-向量运行代码快捷键：ctrl+entertab补全控制台清屏：ctrl+l赋值（globaloptions=>appearance=>zoom=>150%符号皆为英文符号？函数名，查看帮助文档设置工作目录setwd('E:\bioinfo_study\one')#设置工作目录Error:'\o'isanunrecognizedescapeincharacterstringstarting
生信分析matplotlib 绘图 Python简明教程 | 视频17 生信宝典 python 开发语言
开源生信Python教程生信专用简明Python文字和视频教程源码在：https://github.com/Tong-Chen/Bioinfo_course_python目录背景介绍编程开篇为什么学习Python如何安装Python如何运行Python命令和脚本使用什么编辑器写Python脚本Python程序事例Python基本语法数值变量操作字符串变量操作列表操作集合操作Range使用字典操作层
为生信写的Python简明教程 | 视频6 生信宝典
开源生信Python教程生信专用简明Python文字和视频教程源码在：https://github.com/Tong-Chen/Bioinfo_course_python目录背景介绍编程开篇为什么学习Python如何安装Python如何运行Python命令和脚本使用什么编辑器写Python脚本Python程序事例Python基本语法数值变量操作字符串变量操作列表操作集合操作Range使用字典操作层
bioinfo100-第1题-（1）fasta&fastq RachaelRiggs
参考：孟浩巍知乎zhn博客入门课程1.入门课程image.png2.测序原理（待填坑）3.分析流程image.png第1题，与FASTQ与FASTA格式有关1.0掌握fasta格式概述一下，fasta格式是一种非常简单的储存序列的格式，可以储存核酸序列（DNA/RNA）也可以储存蛋白质的氨基酸序列（AminoAcidsequence，简称AA序列），主要分成2个部分。举个例子1.>sp|P6990
GSEA输入文件准备——转载自生信笔记 whykm
转载网址：https://www.bioinfo-scrounger.com/archives/557/说到富集，富集是将基因根据一些先验的知识（也就是常见的注释）进行分类的过程。我们一般会想到最常见的是GO/KEGG富集，其思路是先筛选差异基因，然后确定这些差异基因的GO/KEGG注释，然后通过超几何分布计算出哪些通路富集到了，通常会选择一个阈值来卡一下，比如p值和FDR等。因此这会涉及到人为的
宏基因组之物种注释（基于nr库）凯凯何_Boy
昨天下午捣鼓了一下宏基因组物种注释过程(基于nr库)，现在将整个流程记录一下。软件需求：blast，diamond，taxonkit(安装自行百度)构建细菌子库blast方法可能会准确点，但是它的速度简直让我怀疑人生，俩种软件的方法我都说下吧，因为我比对的主要是细菌，我首先想到是干脆按照网上的方法构建一个细菌的子库可能速度会更快点~说干就干参考连接:https://www.bioinfo-scro
2019-04-21解决xshell的backspace键无法删除却显示出了“^H”问题司令_b2bc
xshell在输入命令时，如果敲错字母了的时候，想通过按退格键删除敲错的字母，却在屏幕显示出了“H”，退格不行，再按删除键，却显示出“[[3~”，怎么着就是删除不了输错的字母。修改办法：xshell文件-->打开--->属性-->终端-->键盘吧delete和backspace序列改为ASCII127即可。image.png本文参考于，致谢！作者：bioinfo2011链接：https://www
微生物组(16S rRNA)数据分析套件PMS尝鲜凯凯何_Boy
前几日宏基因组公号上推送了《iMeta：青岛大学苏晓泉组开发跨平台可交互的微生物组分析套件PMS》一文，但软件中示例文件貌似是单端数据，于是想着拿手里一批已发表过的双端测序16S数据集尝试一番。Paper准备代码Tutorial：Github：https://github.com/qdu-bioinfo/parallel-meta-suiteGittee：https://gitee.com/qdu
TCGA|GEO可视化分析第1篇---相关性分析沉迷工作的我
导读：今天有小伙伴问我，筛选完差异基因后，想看自己关注的基因和其他基因的关系，应该怎么做？那当然要先做一下相关性分析了！好，下面让我给大家娓娓道来......正文：step1：我们先读取下所需要的数据library(openxlsx)setwd("E:\\Bioinfo_analysis\\scripts\\corr\\corr_batch")#设置工作路径fr<-read.xlsx('infil
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s

Linux bash学习

本教程宗旨 (请仔细阅读)

为什么要用Linux系统

如何获取Linux系统

初识Linux系统

我的电脑在哪？

获取可用命令行参数

文件上下翻转和左右翻转

其它新建文件的方式

Linux下文件操作

Linux下命令的一些异常情况

Linux下文件内容操作

Linux终端常用快捷操作

Linux下的标准输入、输出、重定向、管道

文件的可执行属性和环境变量

环境变量的补充

文件内容操作 (二)

文件排序

FASTA序列提取

命令运行监测

文件系统和磁盘信息监测

软件安装

系统包管理器安装

源码编译安装

Python包的安装

Anaconda的两个福利

R包的安装

备注

Original link

微信公众号

你可能感兴趣的:(Bioinfo)