爬虫(二)

了解爬虫的人,都听过,爬虫技术,反爬虫技术,反反爬虫技术。而在这个里面,httpx协议就占据了很大一部分。


http协议

Accept: 页面的格式。

Accept-Encoding: 是否压缩,所采用的压缩的格式

Accept:Language:语言

Cache-Control:是否缓存

Connection:连接保持时间,

Cookie:本地保存的通关文书。

Host:域名

User-Agent:浏览器的编码




爬虫跟反爬虫:

         爬虫端                                                                              服务器端

啥都不写吧,直接发送请求                                                      你谁啊!

加上user-Agent                                                                         你从哪来啊!

加上refer                                                                                    我们的证书呢!

加上cookie                                                                                  我们要验证一下呢,亲?

SSL等,技术性跳过就好                                                             来,给你出道题

简单的验证码,自己训练就好,复杂的接打码平台吧                  答案错了啊!

研究算法,找出他们的加密方式!                                                这么进出那么多次啊!

控制频率!                                                                                     怎么老是你啊!

使用代理Ip                                                                                       挺厉害啊,会分身啊?

多账号                                                                                              升级中-----

换个门进                                                                                           升级中-----

速度太慢,分布式                                                                             ............

........                                                                                                 ...........

..........                                                                                                  ..........

...........                                                                                                    ..............

没钱了,不弄了!                                                                              


全部照抄的这个

总感觉没人家写的好,但是吧,咱也不能光复制粘贴。那样子太low了。 反正呢,就是这么个意思。 

欢迎个为大佬拍砖,热烈欢迎扑克大佬,来进行版权纠正!!!

你可能感兴趣的:(爬虫(二))