python爬虫总结

一、python爬虫一般的代码实现步骤:

-1.得到url地址、请求头(Refer很重要)


-2.获取url地址的响应


-3.从响应中提取数据

    提取数据的方法:xpath

    注意:xpath()返回的是一个列表类型


    

-4.保存数据




二、爬虫项目的基本概念:

超文本传输协议:

                            HTTP:效率高,安全性不高

                            HTTPS:HTTP+SSL(加密):安全性高,效率低


GET请求与POST请求:

                                    GET请求:没有请求体,把数据放在url地址中

                                    POST请求:有请求体,把数据放在请求体中(应用于登陆注册、大文本传输)


HTTP协议之请求:

                            —1.请求行

                            —2.请求头:

                                                -user_Agent(用户代理):对方服务器通过user_Agent知道当前请求资源的服务器是什么

                                                -如果我们需要模拟手机浏览器发送请求,就需要把user_Agent改为手机版

                                                -cookie:用来存储用户信息的,每次请求都会被携带上传给服务器

                            —3.请求体

                                                -GET无请求体

                                                -POST有请求体:请求体中带有一些数据


HTTP协议之响应:

                                -1.响应头

                                                set-cookie:对方服务器通过该字段设置cookie到本地

                                -2.响应体

                                                -url地址对应的响应

你可能感兴趣的:(python爬虫总结)