不用类似re等工具,将输入英文文本,拆分成一个个有意义的单词。
(笔记模板由python脚本于2024年01月15日 23:34:05创建,本篇笔记适合会基础编程,熟悉python字符串的coder翻阅)
Python 官网:https://www.python.org/
Free:大咖免费“圣经”教程《 python 完全自学教程》,不仅仅是基础那么简单……
地址:https://lqpybook.readthedocs.io/
自学并不是什么神秘的东西,一个人一辈子自学的时间总是比在学校学习的时间长,没有老师的时候总是比有老师的时候多。
—— 华罗庚
本文质量分:
CSDN质量分查询入口:http://www.csdn.net/qc
今天在 c s d n csdn csdn看到 j i e b a jieba jieba,脑中居然浮现出一个想法:“我可不可以撰写一段代码,实现 j i e b a jieba jieba一样的分词效果”。于是,我就开始了尝试……
英 文 分 词 英文分词 英文分词,实现起来比中文分词相对容易,因为英文句子中的单词都是被非字母分隔开来的。只要把非字母字符替换成“同一字符”,就可以很方便地使用字符串方法 s t r . s p l i t ( ) str.split() str.split()把英文句子中的单词分割开来。再将 s t r . s o l i t ( ) str.solit() str.solit()方法返回的列表中的空字符串’'剔除,就达成了 英 文 分 词 英文分词 英文分词的目的。如果将无实际意义的代码词介词等单词清理,就准备好了做词云图片的文本数据了咯。
列表解析遍历输入文本参数,用 三 元 操 作 语 句 三元操作语句 三元操作语句把非字母字符替换成一个英文空格’ ',返回“无缝”拼接的字符串(只有空格分隔的英文单词字符串),完成了输入文本的“预处理”。
Python代码
def _isletter(self):
''' 剔除非字母字符 '''
lowers = ''.join(chr(i) for i in range(ord('a'), ord('z')+1)) # 生成26个小写字母字符串。
letters = tuple(lowers+lowers.upper())
#input(letters) # 校验字母列表。
words = [i if i in letters else ' ' for i in self.words] # 把非字母替换成英文空格字符。
return ''.join(words)
词频统计,一般用字典比较方便。一次遍历输入分词列表就可以完成统计,将遍历到的单词在统计字典中的相应键值 + 1 +1 +1,遍历完分词列表也就完成了词频统计。
我在今天的代码中,用了另一种“ 算 法 算法 算法”——用 p y t h o n python python集合 s e t set set的唯一特性对分词列表去重作为遍历序列,遍历分词列表单词“种类”,用 l i s t . c o u n t ( w o r d ) list.count(word) list.count(word)方法来统计词频数据,词频统计数据结构可以列表 l i s t list list、元组 t u p l e tuple tuple、字典 d i c t dict dict,根据需要任意选择。
Python代码
def _count(self, words):
''' 统计词频 '''
words = [(i, words.count(i)) for i in set(words)] # 列表解析式统计词频。
words.sort(key=lambda x: x[0]) # 按单词排序。
words.sort(key=lambda x: x[-1], reverse=True) # 按词频排逆序。
return words
“预处理”(英文空格字符替换非字母字符)好了的输入文本,直接用 s t r . s p l i t ( ) str.split() str.split()默认缺省参数就可以拆分单词了。再一步剔除拆分出和空字符串’’,就算是完成“英文分词”。
我在这里的代码选择采用了第四种返回形式。我能想到的无实义单词列表如下:
I m e m y m a i n y o u y o u r h e r s s h e I\ me\ my\ main\ you\ your\ hers\ she I me my main you your hers she
h e r h e r s h e h i s h i m w e o u r o u r s her\ hers\ he\ his\ him\ we\ our\ ours her hers he his him we our ours
t h e y t h e i r t h e m i t s i t a a n m s d they\ their\ them\ its\ it\ a\ an\ m\ s\ d they their them its it a an m s d
d i d d o d o i n g d o e s d o n e c a n w o u l d did\ do\ doing\ does\ done\ can\ would did do doing does done can would
a m i s w a s a r e w e r e b e h a v e h a s am\ is\ was\ are\ were\ be\ have\ has am is was are were be have has
o f t e n a l w a y s t o t o o v e r y m a n y a n y often\ always\ to\ too\ very\ many\ any often always to too very many any
i n o n w i t h a t o f u p d o w n g o g o e s in\ on\ with\ at\ of\ up\ down\ go\ goes in on with at of up down go goes
w e n t f o r a b o u t n o w i f b u t r e f r o m went\ for\ about\ now\ if\ but\ re\ from went for about now if but re from
t h e t h e r e t h i s t h a t t h a n w h e n w h a t the\ there\ this\ that\ than\ when\ what the there this that than when what
w h e r e w h o w h y s o a s y e s n o n o t where\ who\ why\ so\ as\ yes\ no\ not where who why so as yes no not
j i o n o r a n d b y b u t jion\ or\ and\ by\ but jion or and by but
Python代码
def split(self):
''' 分词 '''
nowords = ('I', 'me', 'my', 'main', 'you', 'your', 'hers', 'she', 'her', 'hers', 'he', 'his', 'him', 'we', 'our', 'ours', 'they', 'their', 'them', 'its', 'it', 'a', 'an', 'm', 's', 'd', 'did', 'do', 'doing', 'does', 'done', 'can', 'would', 'am', 'is', 'was', 'are', 'were', 'be', 'have', 'has', 'often', 'always', 'to', 'too', 'very', 'many', 'any', 'in', 'on', 'with', 'at', 'of', 'up', 'down', 'go', 'goes', 'went', 'for', 'about', 'now', 'if', 'but', 're','from', 'the', 'there', 'this', 'that', 'than', 'when', 'what', 'where', 'who', 'why', 'so', 'as', 'yes', 'no', 'not', 'jion', 'or', 'and', 'by', 'but')
nowords = list(nowords) + [i.title() for i in nowords]
#input(nowords) # 校验无效单词列表。
words = [i for i in self._isletter().split() if i and i not in nowords] # 去除空格和无效单词。
#print(words) # 打印分词列表。
return self._count(words)
(源码较长,点此跳过源码)
#!/sur/bin/nve python
# coding: utf-8
'''
英文分词
'''
class EnSplit:
def __init__(self, text):
self.words = text
def _isletter(self):
''' 剔除非字母字符 '''
lowers = ''.join(chr(i) for i in range(ord('a'), ord('z')+1)) # 生成26个小写字母字符串。
letters = tuple(lowers+lowers.upper())
#input(letters) # 校验字母列表。
words = [i if i in letters else ' ' for i in self.words] # 把非字母替换成英文空格字符。
return ''.join(words)
def _count(self, words):
''' 统计词频 '''
words = [(i, words.count(i)) for i in set(words)] # 列表解析式统计词频。
words.sort(key=lambda x: x[0]) # 按单词排序。
words.sort(key=lambda x: x[-1], reverse=True) # 按词频排逆序。
return words
def split(self):
''' 分词 '''
nowords = ('I', 'me', 'my', 'main', 'you', 'your', 'hers', 'she', 'her', 'hers', 'he', 'his', 'him', 'we', 'our', 'ours', 'they', 'their', 'them', 'its', 'it', 'a', 'an', 'm', 's', 'd', 'did', 'do', 'doing', 'does', 'done', 'can', 'would', 'am', 'is', 'was', 'are', 'were', 'be', 'have', 'has', 'often', 'always', 'to', 'too', 'very', 'many', 'any', 'in', 'on', 'with', 'at', 'of', 'up', 'down', 'go', 'goes', 'went', 'for', 'about', 'now', 'if', 'but', 're','from', 'the', 'there', 'this', 'that', 'than', 'when', 'what', 'where', 'who', 'why', 'so', 'as', 'yes', 'no', 'not', 'jion', 'or', 'and', 'by', 'but')
nowords = list(nowords) + [i.title() for i in nowords]
#input(nowords) # 校验无效单词列表。
words = [i for i in self._isletter().split() if i and i not in nowords] # 去除空格和无效单词。
print(words) # 打印分词列表。
return self._count(words)
if __name__ == '__main__':
text = '''
I'm a old man. I love Python.
我是一个老男人,我爱Python。
'''
text = open('/sdcard/Documents/英文美文.txt').read()
en = EnSplit(text)
print('\n'.join([f"{i[0]}: {i[-1]}" for i in en.split()]))
我的HOT博:
本次共计收集289篇博文笔记信息,总阅读量44.72w。数据采集于2023年12月11日 23:07:13,用时5分11.8秒。阅读量不小于4.0k的有17篇。
截屏图片
精品文章:
来源:老齐教室
◆ Python 入门指南【Python 3.6.3】
好文力荐:
CSDN实用技巧博文: