用Python转换一些常见全角字符为半角

前言

最近在爬日文小说的过程中，经常遇到全角（甚至和和半角混用），造成我（强迫症）强烈不适，就着手专门写一个脚本处理之

思路

首先在网上寻找看是否已经有现成库/脚本能做到，寻找一番之后只找到一些思路文章，这里就不重复了
有一点要注意，不少文章里是python2的情况，里面用的是unichr函数，到python3就变成了chr函数
直接看代码吧

def SBC2DBC(char):
    chr_code = ord(char)
    # 处理全角中数字大等于10的情况
    if chr_code in range(9312, 9332):
        return str(chr_code - 9311)
    elif chr_code in range(9332, 9352):
        return str(chr_code - 9331)
    elif chr_code in range(9352, 9372):
        return str(chr_code - 9351)
    elif chr_code in range(8544, 8556):
        return str(chr_code - 8543)

    else:
        if chr_code == 12288: # 全角空格，同0x3000
            chr_code = 32
        if chr_code == 8216 or chr_code == 8217:  # ‘’
            chr_code = 39 # '
        elif chr_code in range(65281, 65374):
            chr_code = chr_code - 65248
        return chr(chr_code)


def SBC2DBC_string(string):
    new_string = ''
    for char in string:
        new_string += SBC2DBC(char)
    return new_string

网上大部分文章里只有全角空格和range(65281,65374)的情况，我时不时能遇到一些比较奇怪的全角数字，比如⑩ ⑽ ⒑ Ⅻ，这里也一并处理了

扩展思考

1 . 某些情况下全角反而是更好的选择，比如文件名，其不能用*:/等符号，全角就更适合，当然这属于另一个话题，就不在此展开
2 . 罗马数字的情况，在现有的全角字符中罗马数字仅到12，如果某位（丧心病狂的）作者用了多个罗马数字的话，比如ⅩⅤ，上面的脚本就不合适了（就转成105），这时候需要先对整个字符串进行处理，找到连接在一起的罗马数字，然后计算并替换，这更像是数据清洗的范畴，也不展开多说了

用Python转换一些常见全角字符为半角

前言

思路

扩展思考

你可能感兴趣的:(python)