正则表达式应用--获取毕业论文中所有的缩略词--python

 

关于正则表达式的总结:正则表达式学习笔记--python处理


毕业论文中有一页需要列出本文中所有的缩略语,并解释其全称。通读全文把这些缩略语提取出来是十分浪费时间的,可以用正则表达式快速提取。

一.分解执行步骤

  1. 将毕业论文的内容复制到剪切板(Ctrl+C)
  2. 用python的pyperclip模块中的paste()方法获取剪切板的内容,并转化为字符串
  3. 定义缩略词的正则表达式:一个以上的大写字母
  4. 用python的re模块构建一个正则表达式,并用findall函数找出所有的缩略词
  5. 定义一个集合存放缩略词
  6. 将集合转化为列表,并按照首字母升序排列

二.上代码

import re #处理正则表达式
import pyperclip #处理剪切板内容

#定义存放缩略词的集合
matches=set()

#定义正则表达式
Reg = re.compile(r'[A-Z][A-Z]+')

#将剪切板的内容处理为字符串
text = str(pyperclip.paste())

#查找缩略词
for word in Reg.findall(text):
    matches.add(word)

#将缩略词按照首字母升序排列
matches=list(matches)
matches.sort(key=lambda i:i[0])
print(matches)

 

你可能感兴趣的:(高效工作)