如何删除 字符串中的 emoji 表情符号

在爬取数据时候遇到昵称中有 emoji  符号的在存储数据库的时候会遇到报错,这是因为 emoji 占用四个字符的大小,如果昵称很重要,必须保存完整昵称的,需要修改数据库的设置即可

 

如果保存完整的昵称不是很重要可以考虑删除昵称中存在的 emoji 符号,方法如下

我看了网上的其他资料,是用 emoji 的编码区间过滤的,很明显有缺陷,因为很难找到很全的 emoji 编码区间表

所以我就在想自己的思路

方法很简单,就是因为 emoji 占的空间会更大,所以我们干脆通过字符占空间大小过滤

方法如下:

import sys
nickname  = 'a比糖甜
temp_nickname = ''
for _ in nickname:
    if sys.getsizeof(_) != 80:
        temp_nickname += _
nickname = temp_nickname

你可能感兴趣的:(爬虫知识点收集,python,mysql,emoji,mysql)