有些分析需要很长时间,因为它在单个处理器上运行并且有大量数据需要处理。如果数据可以分成块并单独处理,那么问题就被认为是可并行化的。
基因组组装并不是简单的可并行化,因为第一步需要将每个读数与其他读数进行对齐,以便找到哪些读数相似并且应该连接(组装)。获取读取的子集会导致低质量的组装结果。
我们用来并行化生物信息学问题的程序是 GNU 并行。它是“一种使用一个或多个计算节点并行执行作业的 shell 工具”。 GNU 并行可帮助您运行原本要按顺序一项一项或循环运行的作业。您可以查看 GNU Parallel 网站,以确定如何在集群上安装 Parallel 和/或了解如何使用它。
sudo apt update # 更新包列表
sudo apt install parallel
# 版本查看
parallel --version
# 集群load 模块
module load parallel
# 版本查看
parallel --version
我们将使用纽约时报 github 存储库整理的 COVID-19 数据
mkdir GNU-parallel
cd GNU-parallel
wget https://raw.githubusercontent.com/nytimes/covid-19-data/master/us-counties.csv
这是一个逗号分隔的文件,所以让我们将其转换为制表符分隔的文件
more us-counties.csv | tr ',' '\t' > us-counties.tab
如您所见,此数据包含各县和州有关疫情随时间变化的信息。
head us-counties.tab
让我们按县/州分开这些数据,而不是一个大文件
使用 sort 和 awk,我们可以首先按县/州对文件进行排序,然后使用 awk 将每一行 ($0) 打印到名为 County-state.tab 的文件中。
sort -k 2,3 us-counties.tab | awk '{print $0 > $2"-"$3".tab"}'
这将生成 2578 个文件 + 我们下载的原始 2 个文件
ls | wc
2580 2580 50550 # 输出结果
让我们复制数据并比较使用 for 循环与使用并行运行 gzip 需要多长时间
mkdir -p gzip/parallel
mkdir -p gzip/forloop
cp *.tab gzip/parallel
cp *.tab gzip/forloop
cd gzip/forloop
time for f in *.tab; do gzip $f; done
real 0m15.801s
user 0m1.414s
sys 0m5.045s
然而,我们可以通过使用 GNU 并行来更好地利用所有可用的 CPU。该函数的使用方法是:
parallel -j10 "gunzip {}" ::: *.tab.gz
real 0m5.519s
user 0m0.376s
sys 0m1.367s
正如您所看到的,这将 gziping 命令的速度提高了 2.3 倍。这可能会有所不同,具体取决于您拥有的 CPU 数量及其速度。
本文由 mdnice 多平台发布