Python终究大招之爬虫:初窥门径(1)

Python终极,当前看来无法是三个方向:
1.web后端配套django等
2.网络爬虫方向的数据分析
3.机器学习神经网络方向

下面对三大法之一的网络爬虫略作叙述

网络爬虫大抵可分为下面四类:
1.通用型网络爬虫 尽可能大范围爬虫
2.聚焦型网络爬虫 有目的性的针对型爬虫
3.增量型网络爬虫 针对增量信息,内存消耗小,难度大,去重之类的
4.深层型网络爬虫 深层爬虫,反反爬

爬虫的用途:
1.科学研究
。。。。额,这个有点伟光正
2.web安全
你爬我,我爬你,美滋滋

  1. 产品研发
    了解产业方向等信息
    4.舆论监控
    开门,查水表

爬虫的基础知识
1.Python基础语言
2.W3C标准
html,css,javascript,xpath,json等

  1. http标准
    http请求方式,过程,cookie状态等
    4.数据库
    SQLSite,mysql,redis,mongoDB等

数据库用于爬取得数据存储,

不求多熟悉,要了解相关的概念。

python网络爬虫技术
1.爬取
urlib,urlib3,request,selenium,scrapy等
模拟向浏览器发生http请求
2.解析
数据解析库,lxml,beautifulsoup4,re,pyquery,xpath等

你可能感兴趣的:(Python终究大招之爬虫:初窥门径(1))