python数据筛选总结

数据筛选总结

正则表达式筛选法

语法

import re
re.findall('正则表达式',字符串)

优缺点

优点:简单粗暴,输入字符串即可,不需要解析
缺点:对于要筛选出大块HTML代码的情况,可能碰到相同的头尾导致只能筛选出一部分

标签筛选法

语法

from bs4 import BeautifulSoup
soup.findall("a") #依照标签查找
soup.findall(text = 'plants') #依照文本查找(可以用re.complie()编译好的正则表达式当文字)
soup.find_all(attrs={'class':''})

优缺点

标签筛选出来为逐条的标签,还需要用i.text等方式提取标签内信息,或者i.attrs[“target”]提取目标属性的值,或者强制转换为str后使用正则表达式再次提取。

你可能感兴趣的:(python数据筛选总结)