英文分词(不用类似re等工具)

不用类似re等工具,将输入英文文本,拆分成一个个有意义的单词。


(笔记模板由python脚本于2024年01月15日 23:34:05创建,本篇笔记适合会基础编程,熟悉python字符串的coder翻阅)


【学习的细节是欢悦的历程】

  • Python 官网:https://www.python.org/

  • Free:大咖免费“圣经”教程《 python 完全自学教程》,不仅仅是基础那么简单……
    地址:https://lqpybook.readthedocs.io/


  自学并不是什么神秘的东西,一个人一辈子自学的时间总是比在学校学习的时间长,没有老师的时候总是比有老师的时候多。
            —— 华罗庚


  • My CSDN主页、My HOT博、My Python 学习个人备忘录
  • 好文力荐、 老齐教室
等风来,不如追风去……


将输入英文文本
英文分词
(拆分成有意义的单词)


本文质量分:

97 97 97

本文地址: https://blog.csdn.net/m0_57158496/article/details/135613713

CSDN质量分查询入口:http://www.csdn.net/qc


目 录

  • ◆ 英文分词
    • 1、念想萌芽
    • 2、算法解析
      • 2.1 去除非字母字符
      • 2.2 统计词频
      • 2. 分词
    • 3、完整源码(Python)


◆ 英文分词


1、念想萌芽


  今天在 c s d n csdn csdn看到 j i e b a jieba jieba,脑中居然浮现出一个想法:“我可不可以撰写一段代码,实现 j i e b a jieba jieba一样的分词效果”。于是,我就开始了尝试……



回页目录


2、算法解析


   英 文 分 词 英文分词 ,实现起来比中文分词相对容易,因为英文句子中的单词都是被非字母分隔开来的。只要把非字母字符替换成“同一字符”,就可以很方便地使用字符串方法 s t r . s p l i t ( ) str.split() str.split()把英文句子中的单词分割开来。再将 s t r . s o l i t ( ) str.solit() str.solit()方法返回的列表中的空字符串’'剔除,就达成了 英 文 分 词 英文分词 的目的。如果将无实际意义的代码词介词等单词清理,就准备好了做词云图片的文本数据了咯。


  • 6 k + 6k+ 6k+字符的试码文本 英 文 美 文 . t x t 英文美文.txt .txt
    英文分词(不用类似re等工具)_第1张图片

  • 实现效果截屏图片

    分 词 列 表 分词列表
    英文分词(不用类似re等工具)_第2张图片

    词 频 统 计 词频统计
    英文分词(不用类似re等工具)_第3张图片
       中间部分略
    英文分词(不用类似re等工具)_第4张图片


2.1 去除非字母字符


  列表解析遍历输入文本参数,用 三 元 操 作 语 句 三元操作语句 把非字母字符替换成一个英文空格’ ',返回“无缝”拼接的字符串(只有空格分隔的英文单词字符串),完成了输入文本的“预处理”。



Python代码


    def _isletter(self):
        ''' 剔除非字母字符 '''
        lowers = ''.join(chr(i) for i in range(ord('a'), ord('z')+1)) # 生成26个小写字母字符串。
        letters = tuple(lowers+lowers.upper())
        #input(letters) # 校验字母列表。
        words = [i if i in letters else ' ' for i in self.words] # 把非字母替换成英文空格字符。
        
        return ''.join(words)



回页目录


2.2 统计词频


  词频统计,一般用字典比较方便。一次遍历输入分词列表就可以完成统计,将遍历到的单词在统计字典中的相应键值 + 1 +1 +1,遍历完分词列表也就完成了词频统计。

  我在今天的代码中,用了另一种“ 算 法 算法 ”——用 p y t h o n python python集合 s e t set set的唯一特性对分词列表去重作为遍历序列,遍历分词列表单词“种类”,用 l i s t . c o u n t ( w o r d ) list.count(word) list.count(word)方法来统计词频数据,词频统计数据结构可以列表 l i s t list list、元组 t u p l e tuple tuple、字典 d i c t dict dict,根据需要任意选择。


Python代码


    def _count(self, words):
        ''' 统计词频 '''
        words = [(i, words.count(i)) for i in set(words)] # 列表解析式统计词频。
        words.sort(key=lambda x: x[0]) # 按单词排序。
        words.sort(key=lambda x: x[-1], reverse=True) # 按词频排逆序。
        
        return words



回页目录


2. 分词


  “预处理”(英文空格字符替换非字母字符)好了的输入文本,直接用 s t r . s p l i t ( ) str.split() str.split()默认缺省参数就可以拆分单词了。再一步剔除拆分出和空字符串’’,就算是完成“英文分词”。


  • 返回结果可以自行定制:
    a . a. a. 直接输出分词;
    b . b. b. 统计词频;
    c . c. c. 去除无实义单词;
    d . d. d. c & b c\&b c&b,既去除无实义单词又统计词频。

  我在这里的代码选择采用了第四种返回形式。我能想到的无实义单词列表如下:


I   m e   m y   m a i n   y o u   y o u r   h e r s   s h e I\ me\ my\ main\ you\ your\ hers\ she I me my main you your hers she
h e r   h e r s   h e   h i s   h i m   w e   o u r   o u r s her\ hers\ he\ his\ him\ we\ our\ ours her hers he his him we our ours
t h e y   t h e i r   t h e m   i t s   i t   a   a n   m   s   d they\ their\ them\ its\ it\ a\ an\ m\ s\ d they their them its it a an m s d
d i d   d o   d o i n g   d o e s   d o n e   c a n   w o u l d did\ do\ doing\ does\ done\ can\ would did do doing does done can would
a m   i s   w a s   a r e   w e r e   b e   h a v e   h a s am\ is\ was\ are\ were\ be\ have\ has am is was are were be have has
o f t e n   a l w a y s   t o   t o o   v e r y   m a n y   a n y often\ always\ to\ too\ very\ many\ any often always to too very many any
i n   o n   w i t h   a t   o f   u p   d o w n   g o   g o e s in\ on\ with\ at\ of\ up\ down\ go\ goes in on with at of up down go goes
w e n t   f o r   a b o u t   n o w   i f   b u t   r e   f r o m went\ for\ about\ now\ if\ but\ re\ from went for about now if but re from
t h e   t h e r e   t h i s   t h a t   t h a n   w h e n   w h a t the\ there\ this\ that\ than\ when\ what the there this that than when what
w h e r e   w h o   w h y   s o   a s   y e s   n o   n o t where\ who\ why\ so\ as\ yes\ no\ not where who why so as yes no not
j i o n   o r   a n d   b y   b u t jion\ or\ and\ by\ but jion or and by but


Python代码


    def split(self):
        ''' 分词 '''
        nowords = ('I', 'me', 'my', 'main', 'you', 'your', 'hers', 'she', 'her', 'hers', 'he', 'his', 'him', 'we', 'our', 'ours', 'they', 'their', 'them', 'its', 'it', 'a', 'an', 'm', 's', 'd', 'did', 'do', 'doing', 'does', 'done', 'can', 'would', 'am', 'is', 'was', 'are', 'were', 'be', 'have', 'has', 'often', 'always', 'to', 'too', 'very', 'many', 'any', 'in', 'on', 'with', 'at', 'of', 'up', 'down', 'go', 'goes', 'went', 'for', 'about', 'now', 'if', 'but', 're','from', 'the', 'there', 'this', 'that', 'than', 'when', 'what', 'where', 'who', 'why', 'so', 'as', 'yes', 'no', 'not', 'jion', 'or', 'and', 'by', 'but')
        nowords = list(nowords) + [i.title() for i in nowords]
        #input(nowords) # 校验无效单词列表。
        words = [i for i in self._isletter().split() if i and i not in nowords] # 去除空格和无效单词。
        #print(words) # 打印分词列表。
        
        return self._count(words)



回页目录


3、完整源码(Python)

(源码较长,点此跳过源码)


#!/sur/bin/nve python
# coding: utf-8


'''
英文分词
'''

class EnSplit:
    
    def __init__(self, text):
        self.words = text
        
    def _isletter(self):
        ''' 剔除非字母字符 '''
        lowers = ''.join(chr(i) for i in range(ord('a'), ord('z')+1)) # 生成26个小写字母字符串。
        letters = tuple(lowers+lowers.upper())
        #input(letters) # 校验字母列表。
        words = [i if i in letters else ' ' for i in self.words] # 把非字母替换成英文空格字符。
        
        return ''.join(words)
        
    def _count(self, words):
        ''' 统计词频 '''
        words = [(i, words.count(i)) for i in set(words)] # 列表解析式统计词频。
        words.sort(key=lambda x: x[0]) # 按单词排序。
        words.sort(key=lambda x: x[-1], reverse=True) # 按词频排逆序。
        
        return words

    def split(self):
        ''' 分词 '''
        nowords = ('I', 'me', 'my', 'main', 'you', 'your', 'hers', 'she', 'her', 'hers', 'he', 'his', 'him', 'we', 'our', 'ours', 'they', 'their', 'them', 'its', 'it', 'a', 'an', 'm', 's', 'd', 'did', 'do', 'doing', 'does', 'done', 'can', 'would', 'am', 'is', 'was', 'are', 'were', 'be', 'have', 'has', 'often', 'always', 'to', 'too', 'very', 'many', 'any', 'in', 'on', 'with', 'at', 'of', 'up', 'down', 'go', 'goes', 'went', 'for', 'about', 'now', 'if', 'but', 're','from', 'the', 'there', 'this', 'that', 'than', 'when', 'what', 'where', 'who', 'why', 'so', 'as', 'yes', 'no', 'not', 'jion', 'or', 'and', 'by', 'but')
        nowords = list(nowords) + [i.title() for i in nowords]
        #input(nowords) # 校验无效单词列表。
        words = [i for i in self._isletter().split() if i and i not in nowords] # 去除空格和无效单词。
        print(words) # 打印分词列表。

        return self._count(words)


if __name__ == '__main__':
    text = '''
    I'm a old man. I love Python.
    我是一个老男人,我爱Python。
    '''
    text = open('/sdcard/Documents/英文美文.txt').read()
    en = EnSplit(text)
    print('\n'.join([f"{i[0]}: {i[-1]}" for i in en.split()]))



回页首


上一篇:  正则表达式中的“回引用(回溯)”($Python$正则表达式中的“回引用(回溯)”——分组别名引用与序号引用的差异及正则表达式中的“P”关键字详情)
下一篇: 



我的HOT博:

  本次共计收集289篇博文笔记信息,总阅读量44.72w。数据采集于2023年12月11日 23:07:13,用时5分11.8秒。阅读量不小于4.0k的有17篇。

  1. ChatGPT国内镜像站初体验:聊天、Python代码生成等
    地址:https://blog.csdn.net/m0_57158496/article/details/129035387
    浏览阅读:6.2w
    点赞:127 收藏:809 评论:71
    (本篇笔记于2023-02-14 23:46:33首次发布,最后修改于2023-07-03 05:50:55)

  2. 让QQ群昵称色变的神奇代码
    地址:https://blog.csdn.net/m0_57158496/article/details/122566500
    浏览阅读:5.8w
    点赞:24 收藏:86 评论:17
    (本篇笔记于2022-01-18 19:15:08首次发布,最后修改于2022-01-20 07:56:47)

  3. Python列表(list)反序(降序)的7种实现方式
    地址:https://blog.csdn.net/m0_57158496/article/details/128271700
    浏览阅读:9.9k
    点赞:5 收藏:30 评论:8
    (本篇笔记于2022-12-11 23:54:15首次发布,最后修改于2023-03-20 18:13:55)

  4. pandas 数据类型之 DataFrame
    地址:https://blog.csdn.net/m0_57158496/article/details/124525814
    浏览阅读:9.4k
    点赞:7 收藏:34 
    摘要:pandas 数据类型之 DataFrame_panda dataframe。
    (本篇笔记于2022-05-01 13:20:17首次发布,最后修改于2022-05-08 08:46:13)

  5. 个人信息提取(字符串)
    地址:https://blog.csdn.net/m0_57158496/article/details/124244618
    浏览阅读:7.7k
    摘要:个人信息提取(字符串)_python个人信息提取。
    (本篇笔记于2022-04-18 11:07:12首次发布,最后修改于2022-04-20 13:17:54)

  6. Python字符串居中显示
    地址:https://blog.csdn.net/m0_57158496/article/details/122163023
    浏览阅读:7.2k
    评论:1
  7. 罗马数字转换器|罗马数字生成器
    地址:https://blog.csdn.net/m0_57158496/article/details/122592047
    浏览阅读:7.2k
    (本篇笔记于2022-01-19 23:26:42首次发布,最后修改于2022-01-21 18:37:46)

  8. 斐波那契数列的递归实现和for实现
    地址:https://blog.csdn.net/m0_57158496/article/details/122355295
    浏览阅读:5.6k
    点赞:4 收藏:2 评论:8
  9. 回车符、换行符和回车换行符
    地址:https://blog.csdn.net/m0_57158496/article/details/123109488
    浏览阅读:5.5k
    点赞:2 收藏:3 
    摘要:回车符、换行符和回车换行符_命令行回车符。
    (本篇笔记于2022-02-24 13:10:02首次发布,最后修改于2022-02-25 20:07:40)

  10. python清屏
    地址:https://blog.csdn.net/m0_57158496/article/details/120762101
    浏览阅读:5.3k
  11. 练习:字符串统计(坑:f‘string‘报错)
    地址:https://blog.csdn.net/m0_57158496/article/details/121723096
    浏览阅读:5.1k
  12. 练习:尼姆游戏(聪明版/傻瓜式•人机对战)
    地址:https://blog.csdn.net/m0_57158496/article/details/121645399
    浏览阅读:5.1k
    点赞:14 收藏:44 
  13. 我的 Python.color() (Python 色彩打印控制)
    地址:https://blog.csdn.net/m0_57158496/article/details/123194259
    浏览阅读:4.6k
    点赞:2 收藏:8 
    摘要:我的 Python.color() (Python 色彩打印控制)_python color。
    (本篇笔记于2022-02-28 22:46:21首次发布,最后修改于2022-03-03 10:30:03)

  14. 练习:生成100个随机正整数
    地址:https://blog.csdn.net/m0_57158496/article/details/122558220
    浏览阅读:4.6k
    (本篇笔记于2022-01-18 13:31:36首次发布,最后修改于2022-01-20 07:58:12)

  15. 密码强度检测器
    地址:https://blog.csdn.net/m0_57158496/article/details/121739694
    浏览阅读:4.4k
    (本篇笔记于2021-12-06 09:08:25首次发布,最后修改于2022-11-27 09:39:39)

  16. 罗马数字转换器(用罗马数字构造元素的值取模实现)
    地址:https://blog.csdn.net/m0_57158496/article/details/122608526
    浏览阅读:4.2k
    (本篇笔记于2022-01-20 19:38:12首次发布,最后修改于2022-01-21 18:32:02)

  17. 练习:班里有人和我同生日难吗?(概率probability、蒙特卡洛随机模拟法)
    地址:https://blog.csdn.net/m0_57158496/article/details/124424935
    浏览阅读:4.0k
    摘要:班里有人和我同生日难吗?(概率probability、蒙特卡洛随机模拟法)_生日模拟问题,计算频率,并画出随着试验次数n的增大,频率和理论概率的 关系图。
    (本篇笔记于2022-04-26 12:46:25首次发布,最后修改于2022-04-27 21:22:07)

推荐条件 阅读量突破4.0k
(更多热博,请点击蓝色文字跳转翻阅)

  • 截屏图片
    在这里插入图片描述
      (此文涉及ChatPT,曾被csdn多次下架,前几日又因新发笔记被误杀而落马。躺“未过审”还不如回收站,回收站还不如永久不见。值此年底清扫,果断移除。留此截图,以识“曾经”。2023-12-31)



回页首


老齐漫画头像

精品文章:

  • 好文力荐:齐伟书稿 《python 完全自学教程》 Free连载(已完稿并集结成书,还有PDF版本百度网盘永久分享,点击跳转免费下载。)
  • OPP三大特性:封装中的property
  • 通过内置对象理解python'
  • 正则表达式
  • python中“*”的作用
  • Python 完全自学手册
  • 海象运算符
  • Python中的 `!=`与`is not`不同
  • 学习编程的正确方法

来源:老齐教室


◆ Python 入门指南【Python 3.6.3】


好文力荐:

  • 全栈领域优质创作者——[寒佬](还是国内某高校学生)博文“非技术文—关于英语和如何正确的提问”,“英语”和“会提问”是编程学习的两大利器。
  • 【8大编程语言的适用领域】先别着急选语言学编程,先看它们能干嘛
  • 靠谱程序员的好习惯
  • 大佬帅地的优质好文“函数功能、结束条件、函数等价式”三大要素让您认清递归

CSDN实用技巧博文:

  • 8个好用到爆的Python实用技巧
  • python忽略警告
  • Python代码编写规范
  • Python的docstring规范(说明文档的规范写法)

你可能感兴趣的:(练习,python)