爬虫one-Day总结

1,大叔据时代数据产生:

(1)大的公司大的企业:通过用户产生的数据

(2)大的数据平台:通过手机或者和其他企业或者公司合作

(3)国家政府(or)大的机构:通过省县乡或者其他方式统计汇总产生

(4)数据咨询公司:通过手机或者和其他企业或者公司合作,会根据数据做分析对比形成报表,给你做数据参考

2,什么是爬虫:就是一段自动获取互联网数据的程序

3,爬虫有什么用途?

搜索引擎

比价工具(慧慧购物助手)

大的咨询网站(jobbole,今日头条...)

4,爬虫分为俩类:

(1)通用爬虫:通用爬虫是浏览器的重要组成部分,将互联网上所有的网页下载到本地, 镜像备份,提取重要数据(过滤数据,分词,去广告...)

(2)    聚焦爬虫:是面向主题的怕黑从,由需求产生的,是一种定向的爬虫,载爬去网页数据的时候,会对网页数据进行一些

筛选,保证只抓取和需求相关的数据

5,通用爬虫(搜索引擎)的缺点:

(1)需要遵循robot协议:Robots协议(也称为爬虫协议,机器人协议等)的全称是"网络爬虫排除标准"

(2)搜索引擎返回的结果千篇一律没有很好的针对性,不能够特殊的用户群体返回对应的数据

(3)搜索引擎一般请款下获取的文本信息,处理图像,音频,视频多媒体还是有困难的

6,常见状态码:

200(OK请求成功)

301:永久重定向

302:临时重定向(所请求的页面已经临时转移至新的url)

400:错误请求,服务器无法解析请求

401:未授权,没有进行身份验证

403:服务器拒绝访问

404:服务器无法找到被请求的网页

408:请求超时

500:服务器内部错误

501:服务器不具备完成请求的功能

503:服务器不可用

7,转字符串类型:decode

你可能感兴趣的:(爬虫one-Day总结)