python学习之爬虫(四)--数据处理:数据分类、json、正则、xpath、xpath工具:XPath Helper、lxml、beautifulsoup4
数据处理:一、数据提取的概念和数据的分类:1爬虫中数据的分类在爬虫爬取的数据中有很多不同类型的数据,我们需要了解数据的不同类型来又规律的提取和解析数据.1.结构化数据:json,xml等处理方式:直接转化为python类型2.非结构化数据:HTML处理方式:正则表达式、xpath2.小结:1.爬虫中数据分类之结构化数据:json,xml2.爬虫中数据分类之非结构化数据:Html,字符串3.结构化数