Python 工匠:使用数字与字符串的技巧

序言

这是 “Python 工匠”系列的第 3 篇文章。
数字是几乎所有编程语言里最基本的数据类型,它是我们通过代码连接现实世界的基础。在 Python 里有三种数值类型:整型(int)、浮点型(float)和复数(complex)。绝大多数情况下,我们只需要和前两种打交道。

整型在 Python 中比较让人省心,因为它不区分有无符号并且永不溢出。但浮点型仍和绝大多数其他编程语言一样,依然有着精度问题,经常让很多刚进入编程世界大门的新人们感到困惑:“Why Are Floating Point Numbers Inaccurate?”。

相比数字,Python 里的字符串要复杂的多。要掌握它,你得先弄清楚 bytes 和 str 的区别。如果更不巧,你还是位 Python2 用户的话,就够你喝上好几壶了光 unicode 和字符编码问题*(赶快迁移到 Python3 吧,就在今天!)*。

不过,上面提到的这些都不是这篇文章的主题,如果感兴趣,你可以在网上找到成堆的相关资料。在这篇文章里,我们将讨论一些 更细微、更不常见 的编程实践。来帮助你写出更好的 Python 代码。


内容目录

  • 最佳实践
    1 少写数字字面量,使用 enum 枚举类型改善代码
    2 别在裸字符串处理上走太远
    3 不必预计算字面量表达式
  • 实用技巧
    1 当多级缩进里出现多行字符串时
    2 布尔值其实也是“数字”
    3 改善超长字符串的可读性
    4 别忘了那些 “r” 开头的内建字符串函数
    5 使用“无穷大” float(“inf”)
  • 常见误区
    1 “value = 1” 并非线程安全
    2 字符串拼接并不慢

最佳实践

1. 少写数字字面量

“数字字面量(integer literal)” 是指那些直接出现在代码里的数字。它们分布在代码里的各个角落,比如代码 del users[0] 里的 0 就是一个数字字面量。它们简单、实用,每个人每天都在写。但是,当你的代码里不断重复出现一些特定字面量时,你的“代码质量告警灯”就应该亮起黄灯了。

举个例子,假如你刚加入一家心仪已久的新公司,同事转交给你的项目里有这么一个函数:

def mark_trip_as_featured(trip):
    """将某个旅程添加到推荐栏目
    """
    if trip.source == 11:
        do_some_thing(trip)
    elif trip.source == 12:
        do_some_other_thing(trip)
    ... ...
    return

这个函数做了什么事?你努力想搞懂它的意思,不过 trip.source == 11 是什么情况?那 == 12 呢?这两行代码很简单,没有用到任何魔法特性。但初次接触代码的你可能需要花费一整个下午,才能弄懂它们的含义。
问题就出在那几个数字字面量上。 最初写下这个函数的人,可能是在公司成立之初加入的那位元老程序员。而他对那几个数字的含义非常清楚。但如果你是一位刚接触这段代码的新人,就完全是另外一码事了。

使用 enum 枚举类型改善代码

那么,怎么改善这段代码?最直接的方式,就是为这两个条件分支添加注释。不过在这里,“添加注释”显然不是提升代码可读性的最佳办法*(其实在绝大多数其他情况下都不是)*。我们需要用有意义的名称来代替这些字面量,而 枚举类型enum)用在这里最合适不过了。

enum 是 Python 自 3.4 版本引入的内置模块,如果你使用的是更早的版本,可以通过 pip install enum34 来安装它。下面是使用 enum 的样例代码:

# -*- coding: utf-8 -*-
from enum import IntEnum

class TripSource(IntEnum):
    FROM_WEBSITE = 11
    FROM_IOS_CLIENT = 12


def mark_trip_as_featured(trip):
    if trip.source == TripSource.FROM_WEBSITE:
        do_some_thing(trip)
    elif trip.source == TripSource.FROM_IOS_CLIENT:
        do_some_other_thing(trip)
    ... ...
    return

将重复出现的数字字面量定义成枚举类型,不光可以改善代码的可读性,代码出现 Bug 的几率也会降低。
试想一下,如果你在某个分支判断时将 11 错打成了 111 会怎么样?我们时常会犯这种错,而这类错误在早期特别难被发现。将这些数字字面量全部放入枚举类型中可以比较好的规避这类问题。类似的,将字符串字面量改写成枚举也可以获得同样的好处。

使用枚举类型代替字面量的好处:

  • 提升代码可读性:所有人都不需要记忆某个神奇的数字代表什么
  • 提升代码正确性:减少打错数字或字母产生 bug 的可能性

当然,你完全没有必要把代码里的所有字面量都改成枚举类型。 代码里出现的字面量,只要在它所处的上下文里面容易理解,就可以使用它。 比如那些经常作为数字下标出现的 0 和 -1 就完全没有问题,因为所有人都知道它们的意思。

2. 别在裸字符串处理上走太远

什么是“裸字符串处理”?在这篇文章里,它指只使用基本的加减乘除和循环、配合内置函数/方法来操作字符串,获得我们需要的结果。

所有人都写过这样的代码。有时候我们需要拼接一大段发给用户的告警信息,有时我们需要构造一大段发送给数据库的 SQL 查询语句,就像下面这样:

def fetch_users(conn, min_level=None, gender=None, has_membership=False, sort_field="created"):
    """获取用户列表

    :param int min_level: 要求的最低用户级别,默认为所有级别
    :param int gender: 筛选用户性别,默认为所有性别
    :param int has_membership: 筛选所有会员/非会员用户,默认非会员
    :param str sort_field: 排序字段,默认为按 created "用户创建日期"
    :returns: 列表:[(User ID, User Name), ...]
    """
    # 一种古老的 SQL 拼接技巧,使用 "WHERE 1=1" 来简化字符串拼接操作

你可能感兴趣的:(Python工匠,运维,python,docker,开发工具)