删除文档中的汉字

偶尔心血来潮,就做做试验,想法也是乱七八糟的,在群友的帮助下,了解了一点,暂时先记录下,以免遗忘。

[root@dbrg-2 test]# cat kongge
A B C
j j jjjjjj
天使
大侠
英雄
好汉







gggggg
[root@dbrg-2 test]# LANG=C sed -r "s/[\x81-\xFE][\x40-\xFE]//g" kongge
A B C
j j jjjjjj











gggggg
[root@dbrg-2 test]#

群友给的:
GB12345和GB13000是对GB2312-1980的扩充,所有已经包含在GB2312中的汉字编码不变,另外增加更多的码位。其编码规则大致 为:第一个字节的值在0x81到0xFE之间,第二个字节的值在0x40到0xFE之间。由于GB13000 是对GB2312的扩展,所以也被称为GBK。

刚才搜到了编码,给关了,还没找到,找到了再补上;

你可能感兴趣的:(职场,休闲)