c 爬虫怎么去掉html,爬虫数据清洗之html标签的清洗

咱们日常爬取数据时,会常常有多余的html便签,下面咱们就来清洗一下这些标签:html

1,只清洗标签,能够用正则,也能够用remove(),remove_tags()函数node

正则清洗:

import re

html='

\n                    【#13个求职新方向#!有你心动的职业吗[并不简单]】近日,人社部、市场监管总局、统计局联合发布13个新职业,既有如今流行的人工智能、数据、云计算、物联网等工程技术人员,也有电子竞技员、无人机驾驶员等新颖工种…你心动了吗?哪些学校开设了相关专业值得关注?戳图了解↓↓转给正在求学的TA!                

pre = re.compile('>(.*?)

text= ''.join(pre.findall(html))express

remove()用于删除多余的,咱们不想要的特定的标签app

doc = pq(html)函数

doc('.article-t style').remove()云计算

如上是:想要class为article里面的内容,但又不想要style标签中的内容,就能够经过以上把style标签删除,而后再提取article下的全部内容。人工智能

remove_tags()删除含有完整的标签:spa

from w3lib.html import remove_tagscode

a = 'ai工程师'orm

print(remove_tags(a))

ai工程师

2,清洗标签和标签包括的内容,用remove_tags_with_content(要清洗的文本,which_ones=(要清洗的标签,))函数

from w3lib.html import remove_tags_with_content

a = "OTEzMjEzMTEzNDY=9OTEzMjEzMTEzNDY=132131134642891XT"

print(remove_tags_with_content(a, which_ones=('span',)))

9132131134642891XT

你可能感兴趣的:(c,爬虫怎么去掉html)