python爬虫之基本解析库和选择器

基本库,常用的http库urllib,httplib2,requests
urllib的四大模块,
request请求网址,
error异常处理,
parse:url处理,拆分,解析,合并,
robotparser
request.BaseHandler的子类
Handler:处理器,登录验证,cookie,代理设置,
主要是处理发送请求,用户名密码认证,代理的添加和利用,cookie的下载和调用
还有CA认证的相关处理方法。及异常的处理,
url的解析,格式:协议://域名/路径;参数?query#fragment
robots协议的分析,下载看是否可以抓取
requests处理cookie,登录验证,代理设置

选择器
在css中通过css选择器定位节点,分别根据#id,.class,标签名筛选
嵌套选择如:#id.class p.text最后选取内部class为text的p节点
css选择器更多的语法规则见官方

另一种选择器为XPath
bs
节点选择器使用节点的名称选择节点元素soup.
方法选择器find_all()和find()传入属性或则文本
css选择器ul li

pyquery,更加强大的css选择器
1,初始化,字符串初始化,URL初始化,文本初始化。
2,基本的css选择器
3,查找节点如直接子节点,子孙节点
4,遍历,itms( )
5,获取信息属性attr( ),和文本text( )获取全部,html( ),获取单个,需遍历
6,节点操作、对节点进行动态修改,添加class,remove,node
addClass,removeClass,attr( ),text( ),html( ),remove
7,伪类选择器,例如,第一个,最后一个,偶数的
 

你可能感兴趣的:(爬虫,爬虫基础库,选择器)