我的Rust编程第一课

题图来源: Bio-Rust

在2020年5月17日，HengLi在它的一篇博客「Fast high-level programming languages」提到，他一直在寻找一门编程语言，生物学家容易使用而且速度还快。( I have always been searching for a high-level language that is fast and easy to use by biologists. )

于是在这篇博客中，他评估了一些高级编程语言的处理速度，包括，C, Python, Javascript, LuaJIT, Nim, Crystal，Rust。其中Rust在FASTQ的解析速度上略胜于C语言。

同时在2020年12月的nature的technology feature中也有一篇是关于Rust，「Why scientists are turning to Rust」地址为https://www.nature.com/articles/d41586-020-03382-2

里面有一张图，是评估Rust近年来的社区状态的（即相关包的增长数量），从中可以发现Rust的增长超过了R。

Rust社区活跃

我并不是某个编程语言的信徒，平常用的最多的是R和Python，同时经常性的找机会学习C和C++，以及每隔几个月会去尝试学一门新的编程语言。

这一次，我是跟着极客时间里的一门课，「陈天·Rust编程第一课」学习Rust。
基础配置：安装Rust工具链

curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh

我使用VScode进行开发，并安装了如下插件

rust-analyzer （语法分析）
rust syntax （语法高亮）
crates
better toml （TOML格式更好的展示）
rust test lens
Tabnine （基于机器学习的自动补全，不只是Rust）

接着，尝试使用Rust构建第一个程序。我的目标是读取Fasta，统计其中的A, T, C, G各有多少个。
完成这个需求，有两个思路，第一个是调用成熟的库，第二个是自己造轮子写一个函数。
对于思路1，我使用关键词，Rust和Bio搜索到一个库叫做，rust-bio。https://rust-bio.github.io/

接下来，使用cargo new创建项目

cargo new fasta_count

第二步: 添加依赖。编辑 Cargo.toml , 添加依赖信息

[dependencies]
bio = "0.37.1"

第三步: 学习rust-bio文档，查找相关函数，然后在 src/main.rs中编写代码。

use bio::io::fasta;
use std::io;

fn main() {
    let  reader = fasta::Reader::new(io::stdin());
    let mut nb_a = 0;
    let mut nb_t = 0;
    let mut nb_c = 0;
    let mut nb_g = 0;
    for result in reader.records(){
        let record = result.expect("Error during fasta record parsing");
        for &base in record.seq() { //return sequence
            if base == b'a' || base == b'A' {
                nb_a += 1;
            } else if base == b'c' || base == b'C'{
                nb_c += 1;
            } else if base == b'g' || base == b'G'{ 
                nb_g += 1;
            } else if base == b't' || base == b'T'{ 
                nb_t += 1;
            }
        }
    }
    println!("A:{}, C:{}, G:{}, T:{}", nb_a, nb_c, nb_g, nb_t);
}

我使用标准库io::stdin从标准输入中读取数据，然后利用fasta::Reader的new出一个新的reader实例。对该实例的records对象进行遍历，得到fasta的中记录，record。最后对记录中序列进行遍历，得到不同碱基的数目。

第四步：编译代码。cargo会先将依赖环境下载到当前项目下，然后在进行编译。
cargo build

编译结果存放在 target的debug目录下，名为fasta_count。我们运行程序，得到结果。

cat TAIR10.fa | target/debug/fasta_count
# A:38223602, C:21551439, G:21528650, T:38177852

第一种思路的代码，是看教程里使用案例"使用HTTP获取HTML然后保存成Markdown"后，自己尝试的第一个和生信相关程序。在尝试过程中，由于对基本的数据类型不了解，所以在处理字符的时候，还专门去检索了下 'a' 和 b'a'的区别，以及为什么要用一个b''.
鉴于自己的水平太次，还是决定后续学习更多Rust基础再来尝试吧。

最后说说自己的编程体验：

每一门编程语言都有其特殊的语法，在Rust中，Rust用let对类型进行推导，而C++中是用auto进行类型推导。Rust和Python类似，可以直接用for x in xxx对xxx进行遍历，而C++则是 for (auto x : xxx )。Rust使用｛｝声明代码块，而不是Python那样子使用缩进。在函数返回上，Rust可以用return 显示说明要返回的内容，还是隐式将最后一个值（不能加上;）作为返回值，这个跟R语言又很像。当然还有函数定义，python用def 函数名, C和C++是返回值函数名，R用函数名 <-function, GO是 func 函数名, Rust用的是新的缩写 fn 函数名。

每次我学一门编程语言的时候，我都在想，这种语法上的特立独行，到底是为了什么呢？
吐槽完语言，最后夸夸Rust的编译器。它的编译器非常强大，能够很好的指出的我代码中的错误，便于检索debug。甚至有些时候都不需要检索，因为它会直接跟你说怎么改。就仿佛有一个老师在你方便，跟你说，你这里不对，你要这样子做。

我的Rust编程第一课

你可能感兴趣的:(我的Rust编程第一课)