【shell笔记>生信|专项】生信数据处理技能手札(1):实用命令与注意事项

Unix philosophy: Write programs that do one thing and do it well. Write programs to work together. Write programs to handle text streams, because that is a universal interface.

推荐shell版本为bash

2017.5.18

输入命令是千万要注意空格键,使用不当会产生严重后果,要操作处理的文件名不要用空格键分隔。

Adding -lrt to the ls lists files in directory in list format (-l), in reverse (-r) time (-t) order.如果想要最新的文件出现在前面,省略-r标识。

重导向标准错误:2> 将重导向标准错误到指定文件,2>>以追加形式而不是覆盖。

2017.5.19

The Golden Rule of Bioinformatics is to not trust your tools or data.

检查.fasta文件中的非核苷酸字符

grep -v "^>" filaname.fasta | \
grep --color -i "[^ATCG]"

​ 第一行代码移除移除标识符行,-v为移除; 第二行pattern排除ATCG核苷酸,-i选项以忽略大小写。

​ 注意碱基的IUPAC表示是合法的。

program1 input.text 2> program1.stderr | \
    program2 2> program2.stderr > results.txt

程序1处理输入文件后导入程序2处理,结果放到results.txt文件;相应的错误输出之相应记录文件。

如果要抓出错误记录文件中的error字段,以下方式可以将标准错误重定向标准输出流:

program1 2>&1 | grep "error"

使用tee命令拷贝标准输出流文件:

program1 input.txt | tee intermediate-file.txt | program2 > results.txt

进程操作

  • 后台运行,通过添加&标识符

    program1 input.txt > results.txt &
    [1] 26577
    

    会返回进行的ID或者PID。可以用jobs命令检查后台运行的进程,fg命令可以将进程放到前台。注意后台运行的工作关掉终端后会被杀死。把进程从前提放到后台,通过suspend命令然后使用bg命令。

  • topps命令查看进行,kill杀死。

  • 程序正常运行完成后返回状态0,否则非0。这有利于在shell中串接程序命令。shell的两个操作符&&以及||可以在此使用。

    例如程序2只有在程序1成功运行的情况下才执行

    program1 input.txt > intermediate-results.txt && \
      program2 intermediate-results.txt > results.txt
    

    程序2只有在程序1失败后运行

    program1 input.txt > intermediate-results.txt || \
      echo "warning: an error occurred"
    
  • 如果只是想连续运行两个命令,可以通过;分割符分开两个执行命令。

命令替换操作:例如我们创建一个目录mkdir results-$(date +%F),这个命令有用之处在于我们同样输入文件同样的处理结果可以贴上时间标签,以方便区分和查询。

存储常用命令——为命令取个别名:例如我编辑以下两个常用命令的别名。

alias mkpr="mkdir -p {data,scripts,output}"
wsx@wsx-ubuntu:~$ alias today="date +%F"
wsx@wsx-ubuntu:~$ today
2017-05-19

这样mkdir results=$(today)将创建一个日期标记的文件夹

你可能感兴趣的:(【shell笔记>生信|专项】生信数据处理技能手札(1):实用命令与注意事项)