Python爬虫(一)-数据清洗与提取

re模块的使用
提取,匹配,替换
提取:findall()
匹配:match()
替换 :sub()

例子:

#sub("正则表达式",'替换的字符','需要替换的字符')
    html=re.sub('\n','',html)
#findall("正则表达式","要替换的字符")
    ret=re.findall(pattern_1,html)
#match("正则表达式","匹配的字符")
	re.match(password_patter,pass1)

Xpath的基础语法

表达式 描述
/ 根节点选取或下级
// 任意节点,不考虑位置
. 当前节点
当前节点的父节点
@ 选取属性
* 匹配任意节点
[nodename] 根据节点筛选
contains(@属性,“包含的内容”) 模糊查询
text() 文本内容

JsonPath的使用

主要有4个方法:
dumps():用于将python对象转换成json对象
loads(): 用于将json对象转换成python对象
dump():用于将python对象转换成json对象并保存至本地
load():用于加载本地的json对象并转换成python

例子:

import json
python_data=[
	{
	'name':'name1',
	'vip':True
	},
	{
	'name':None,
	'vip':False
	}
]

#dumps用于将python对象将json对象
json_data=json.dumps(python_data)
#loads 用于将json对象转换成python对象
python_data=json.loads(json_data)
#dump 用于将python对象转成json对象并保存至本地
json.dump(pythton_data,open('json.txt','w'))
#load 用于将本地的json文本对象加载出来并转换成python对象
python_data2=json.load(open('json.txt'))

你可能感兴趣的:(Python爬虫)