用正则筛取网页内容

Mark下学习过程,防止以后忘掉,哈哈。。。


import re

def main():
    html_data= '''职位诱惑:
            

扁平化 成长快 氛围好

职位描述:

职责:
• 负责相关系统的设计与开发,包括基于linux操作系统的脚本开发
• 按照规范及设计文档完成编码工作,对代码质量负责,并按照规定提交相应的开发文档

要求:
• 熟悉Python语言及Django框架
• 熟悉WEB标准,对使用CSS进行页面布局具有一定经验
• 熟悉至少一种Bash/PHP/JavaScript/Ruby脚本语言
• 熟悉SQL语言,熟悉MySQL的使用,能够分析SQL语句的性能
• 熟悉至少一种linux发行版
• 持续关注某开源领域相关技术及其发展
• 关注代码/系统性能或服务架构设计

优秀应届生亦可

工作态度
• 具备良好的人际交往、语言表达和沟通能力
• 具备高度的责任心、诚信的工作作风、优秀沟通能力及团队精神
• 愿意接受挑战性的工作,能够高效及时完成工作

''' ret1=re.findall(r"<(.*?)>",html_data) ret=html_data for i in ret1: if i=="br" or "/" in i: repl="\\n" ret = re.sub(r"<(.*?)>", repl, ret,count=1) # 每判断一次替换一次 else: repl="\\r" ret = re.sub(r"<(.*?)>", repl, ret, count=1) # 每判断一次替换一次 final_ret=re.sub(r"\n\s*\n\s*","\n\n",ret) `在这里插入代码片`# 删除多余的空行 print(final_ret) if __name__ == "__main__": main()

输出结果:
“D:\new file\python-3.6.4 install\python.exe” “D:/new file/正则和http协议/正则清洗1.py”
职位诱惑:

扁平化 成长快 氛围好

职位描述:

职责:
• 负责相关系统的设计与开发,包括基于linux操作系统的脚本开发
• 按照规范及设计文档完成编码工作,对代码质量负责,并按照规定提交相应的开发文档

要求:
• 熟悉Python语言及Django框架
• 熟悉WEB标准,对使用CSS进行页面布局具有一定经验
• 熟悉至少一种Bash/PHP/JavaScript/Ruby脚本语言
• 熟悉SQL语言,熟悉MySQL的使用,能够分析SQL语句的性能
• 熟悉至少一种linux发行版
• 持续关注某开源领域相关技术及其发展
• 关注代码/系统性能或服务架构设计

优秀应届生亦可

工作态度
• 具备良好的人际交往、语言表达和沟通能力
• 具备高度的责任心、诚信的工作作风、优秀沟通能力及团队精神
• 愿意接受挑战性的工作,能够高效及时完成工作

进程已结束,退出代码0

你可能感兴趣的:(Python,Python,正则表达式)