import jieba
import os
from docx import Document
keywords = []
jieba.load_userdict(r’C:\Users\ddl\Desktop\py\test4_mountdeal\keywords.txt’) # 增加自定义词库
key_open = open(‘C:/Users/ddl/Desktop/py/test4_mountdeal/keywords.txt’, ‘r’, encoding=‘utf-8-sig’)
for words in key_open:
keywords.append(words.strip())
key_open.close()
print(keywords)
word_dict2 = {}
word_lst = []
def word_list(word_dict, word_lst):
# 统计词
for item in word_lst:
if item not in word_dict:
word_dict[item] = 1
else:
word_dict[item] += 1
return word_dict
with open(‘C:/Users/ddl/Desktop/py/test4_mountdeal/out1.txt’, ‘w’) as wf1:
j=0
files=os.listdir(r’C:\Users\ddl\Desktop\py\test3_deal_20200508’)
#创建同义词库
combine_dict={}
for line in open(‘C:/Users/ddl/Desktop/py/test4_mountdeal/keywords_replace.txt’, ‘r’, encoding=‘utf-8-sig’):
seperate_word = line.strip().split("\t")
num = len(seperate_word)
for i in range(1, num):
combine_dict[seperate_word[i]] = seperate_word[0]
for file in files:
original_file = “C:/Users/ddl/Desktop/py/test3_deal_20200508” + os.sep+files[j]
domain = os.path.abspath(r’C:\Users\ddl\Desktop\py\test3_deal_20200508’)
print(’《’ + original_file + ‘》’) # 打印出文件名
print(’------------------------------’)
document = Document(original_file)
word_lst1 = []
word_dict1 = {}
# 打开 docx 文件
for paragraph in document.paragraphs: # 遍历文档
tags = jieba.cut(paragraph.text)
for t in tags:
if len(t) > 1:
word_lst.append(t)
word_lst1.append(t)
# 同义词替换,统计每篇文章的输出结果,并排序
word_lst2=[]
for word in word_lst1:
if word in combine_dict:
word=combine_dict[word]
word_lst2.append(word)
else:
word_lst2.append(word)
word_list(word_dict1, word_lst2)
word_sort1 = sorted(word_dict1.items(), key=lambda x: x[1], reverse=True)
wf1.write(str('*' * 5) + original_file + str('*' * 5) + '\n') # 打印题目
# 将每篇文章的 统计结果输出到文本
newfilename=""
for i in range(len(word_sort1)):
if word_sort1[i][0] in keywords:
wf1.write(str(word_sort1[i][0] + '\t\t' + str(word_sort1[i][1])))
#以输出关键词、频率重命名word文档
m=str(word_sort1[i][0] + str(word_sort1[i][1]))
newfilename+=m
new= "C:/Users/ddl/Desktop/py/test3_deal_20200508" +os.sep+ newfilename +".docx"
try:
os.rename(original_file,new)
except FileExistsError:
pass
except PackageNotfoundError:
pass
j+=1
wf1.close()
#参考
你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。
我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:
撤销:Ctrl/Command + Z
重做:Ctrl/Command + Y
加粗:Ctrl/Command + B
斜体:Ctrl/Command + I
标题:Ctrl/Command + Shift + H
无序列表:Ctrl/Command + Shift + U
有序列表:Ctrl/Command + Shift + O
检查列表:Ctrl/Command + Shift + C
插入代码:Ctrl/Command + Shift + K
插入链接:Ctrl/Command + Shift + L
插入图片:Ctrl/Command + Shift + G
查找:Ctrl/Command + F
替换:Ctrl/Command + G
直接输入1次#,并按下space后,将生成1级标题。
输入2次#,并按下space后,将生成2级标题。
以此类推,我们支持6级标题。有助于使用TOC
语法后生成一个完美的目录。
强调文本 强调文本
加粗文本 加粗文本
标记文本
删除文本
引用文本
H2O is是液体。
210 运算结果是 1024.
链接: link.
图片:
带尺寸的图片:
居中的图片:
居中并且带尺寸的图片:
当然,我们为了让用户更加便捷,我们增加了图片拖拽功能。
去博客设置页面,选择一款你喜欢的代码片高亮样式,下面展示同样高亮的 代码片
.
// An highlighted block
var foo = 'bar';
一个简单的表格是这么创建的:
项目 | Value |
---|---|
电脑 | $1600 |
手机 | $12 |
导管 | $1 |
使用:---------:
居中
使用:----------
居左
使用----------:
居右
第一列 | 第二列 | 第三列 |
---|---|---|
第一列文本居中 | 第二列文本居右 | 第三列文本居左 |
SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如:
TYPE | ASCII | HTML |
---|---|---|
Single backticks | 'Isn't this fun?' |
‘Isn’t this fun?’ |
Quotes | "Isn't this fun?" |
“Isn’t this fun?” |
Dashes | -- is en-dash, --- is em-dash |
– is en-dash, — is em-dash |
一个具有注脚的文本。2
Markdown将文本转换为 HTML。
您可以使用渲染LaTeX数学表达式 KaTeX:
Gamma公式展示 Γ ( n ) = ( n − 1 ) ! ∀ n ∈ N \Gamma(n) = (n-1)!\quad\forall n\in\mathbb N Γ(n)=(n−1)!∀n∈N 是通过欧拉积分
Γ ( z ) = ∫ 0 ∞ t z − 1 e − t d t . \Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,. Γ(z)=∫0∞tz−1e−tdt.
你可以找到更多关于的信息 LaTeX 数学表达式here.
可以使用UML图表进行渲染。 Mermaid. 例如下面产生的一个序列图:
这将产生一个流程图。:
我们依旧会支持flowchart的流程图:
如果你想尝试使用此编辑器, 你可以在此篇文章任意编辑。当你完成了一篇文章的写作, 在上方工具栏找到 文章导出 ,生成一个.md文件或者.html文件进行本地保存。
如果你想加载一篇你写过的.md文件,在上方工具栏可以选择导入功能进行对应扩展名的文件导入,
继续你的创作。
mermaid语法说明 ↩︎
注脚的解释 ↩︎