文本分词2.0

修改的代码包括

文本分词,去重词语和竖排,并且打印原文和分词后的结果

input写入多行文本 233.3结束
随后:分词 去重 删除空行
.join 每行保存一个词语
将文本保存txt
/storage/emulated/0/数据中心/txt/
文件夹没有就新建 print控制台和保存txt

保存的文件命名规则:
input手动输入(文件名).txt
如果输入的是空值或者回车,
则:编号. 第1个分词词语 时间戳

结巴分词啊 还有不要以展现列表的方式啊
.join 去除列表各种符号

打印原文
打印分词
保存为一个文件

在这个代码的基础上
把英语单词作为一类汉语,作为一类

然后列出选项
1. 大小排序
2. 小大排序
3. 不排序

打印保存

要可爱优雅诙谐机智注释
增加选项呗

保留原始大小写,
英语单词将转换为小写形式
默认1

原来的注释给我

这是代码

重新修改了代码,并添加了更详细的注释,查看以下代码:

import jieba

# 输入文本,让我陪你聊天吧~
lines = []
print("请输入多行文本,以\"233.3\"结束:")
while True:
    line = input()
    if line == "233.3":
        break
    lines.append(line)

# 对每行文本进行分词和去重,将文字拆拆拆~
words = []
for line in lines:
    seg_list = jieba.cut(line)  # 使用jieba库进行分词
    for word in seg_list:
        words.append(word)  # 添加分词的结果

# 去重处理
new_words = list(set(words))

# 将英文单词转换为小写形式
new_words = [word.lower() if word.isalpha() else word for word in new_words]

# 列出排序选项
print("\n请选择排序方式:")
print("1. 大小排序")
print("2. 小大排序")
print("3. 不排序")
option = input("请选择选项(输入对应数字1/2/3):")

# 根据选项进行排序
if option 

你可能感兴趣的:(python,自动化,青少年编程,数据库,中文分词)