笔者最近在从事文本纠错的相关工作,颇有收获,因此记录于此。
文本纠错很大一部分工作在于纠正同音字、形近字,所谓形近字,是指字形相近的汉字。本文将介绍如何获取形近字。
获取形近字的算法如下:
下面将详细演示如何获取形近字。
我们从网上得到3500个汉字的txt文件(all_3500_chars.txt
),通过pygame将汉字转化为100*100的黑白图片,Python程序如下:
# -*- coding: utf-8 -*-
import pygame
pygame.init()
# 获取3500个汉字
with open("all_3500_chars.txt", "r", encoding="utf-8") as f:
chars = f.read().strip()
# 通过pygame将汉字转化为黑白图片
for char in chars:
font = pygame.font.Font("C://Windows/Fonts/simkai.ttf", 100)
rtext = font.render(char, True, (0, 0, 0), (255, 255, 255))
pygame.image.save(rtext, "{}.png".format(char))
前10个汉字为一乙二十丁厂七卜人入
,其对应的黑白图片如下:
接着我们获取每个汉字的向量表示,并将这两个向量的余弦相似度作为对应汉字的余弦相似度,Python程序如下:
# -*- coding: utf-8 -*-
# get_similiar_char.py
import numpy as np
import cv2
import os
from operator import itemgetter
def read_img_2_list(img_path):
# 读取图片
img = cv2.imdecode(np.fromfile(img_path, dtype=np.uint8), -1)
# 把图片转换为灰度模式
img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY).reshape(-1, 1)
return [_[0] for _ in img.tolist()]
# 获取所有汉字的向量表示,以dict储存
def get_all_char_vectors():
image_paths = [_ for _ in os.listdir(".") if _.endswith("png")]
img_vector_dict = {}
for image_path in image_paths:
img_vector_dict[image_path[0]] = read_img_2_list(img_path=image_path)
return img_vector_dict
# 计算两个向量之间的余弦相似度
def cosine_similarity(vector1, vector2):
dot_product = 0.0
normA = 0.0
normB = 0.0
for a, b in zip(vector1, vector2):
dot_product += a * b
normA += a ** 2
normB += b ** 2
if normA == 0.0 or normB == 0.0:
return 0
else:
return dot_product / ((normA**0.5)*(normB**0.5))
if __name__ == '__main__':
img_vector_dict = get_all_char_vectors()
# 获取最接近的汉字
similarity_dict = {}
while True:
match_char = input("输入汉字: ")
match_vector = img_vector_dict[match_char]
for char, vector in img_vector_dict.items():
cosine_similar = cosine_similarity(match_vector, vector)
similarity_dict[char] = cosine_similar
# 按相似度排序,取前10个
sorted_similarity = sorted(similarity_dict.items(), key=itemgetter(1), reverse=True)
print([(char, round(similarity, 4))for char, similarity in sorted_similarity[:10]])
我们尝试着输入国、填、博
这三个字,得到的相近字形的汉字如下:
输入汉字: 国
[(‘国’, 1.0), (‘固’, 0.9493), (‘团’, 0.9432), (‘困’, 0.9405), (‘因’, 0.9369), (‘围’, 0.9357), (‘门’, 0.9334), (‘园’, 0.9326), (‘同’, 0.929), (‘圆’, 0.9261)]
输入汉字: 填
[(‘填’, 1.0), (‘慎’, 0.9522), (‘坞’, 0.9238), (‘培’, 0.9149), (‘坎’, 0.9133), (‘块’, 0.9101), (‘币’, 0.9092), (‘镇’, 0.9077), (‘埠’, 0.9074), (‘了’, 0.9044)]
输入汉字: 博
[(‘博’, 1.0), (‘傅’, 0.9306), (‘协’, 0.9115), (‘搏’, 0.907), (‘惰’, 0.9046), (‘膊’, 0.9029), (‘愕’, 0.9019), (‘侯’, 0.8999), (‘悴’, 0.8997), (‘怜’, 0.8989)]
在使用opencv读物文件名为汉字的图片时,读取的图片内容为None,我们以一.png
为例,演示程序如下:
# -*- coding: utf-8 -*-
import cv2
image_path = "一.png"
img = cv2.imread(image_path, 1)
print(img, type(img))
输出结果为None
。也就是说,opencv在读取带汉字的文件路径时会报错,解决办法如下:
# -*- coding: utf-8 -*-
import cv2
import numpy as np
image_path = "一.png"
img = cv2.imdecode(np.fromfile(image_path, dtype=np.uint8), -1)
print(img.shape, type(img))
输出结果为(100, 100, 3)
。
本文通过将汉字转化为图片,获取图片的向量表示来表征汉字,在获取形近字方面有着不错的效果。
我们可以通过更复杂的图片相似度算法来增强获得更好的形近字能力。
也有不少研究者,通过四角码、音形码等算法来获取形近字,取得了不错的效果。本文想法朴素,容易用程序实现,且效果也较为不错。
后面将继续记录笔者在文本纠错方面的尝试,欢迎大家继续阅读~
2021年6月29日于上海浦东,此日上海暑气逼人~