第三次作业

1.注册中国大学MOOC

第三次作业_第1张图片

 

 2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程

第三次作业_第2张图片

 

 

3.学习完成第0周至第4周的课程内容,并完成各周作业

第三次作业_第3张图片

 

4.提供图片或网站显示的学习进度,证明学习的过程。

第三次作业_第4张图片

 

 

5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。

通过学习课程初识了网络爬虫的感念,网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器人等,可以自动化浏览网络中的信息,当然浏览信息的时候需要按照我们制定的规则进行,这些规则我们称之为网络爬虫算法。使用Python可以很方便地编写出爬虫程序,进行互联网信息的自动化检索。通过了解,现在我们生活在一个大数据时代,个人所需要的一堆数据都散落在网络各处。我们成这些散落在各处的数据为“非结构化数据”。而网络爬虫的作用就是将这些数据拉到一起,使他们变得结构化,使他们变成使用者的“自有数据”。在从“非结构化数据”变为“结构化数据”时就需要用到ETL功能。(ETL:数据抽取、转换、存储)也就是网络连接器向网页发出"请求Request",网页在接收到请求后向网页链接器发出“回应Request”,网页链接器在进行资料的剖析,将剖析后的数据发送至数据中心的过程。

了解之后,网络爬虫又分为:

  通用网络爬虫又叫全网爬虫,也就是网络爬虫爬取的目标资源在全网中。这种爬虫所爬取的目标数据是巨大的,并且爬取的范围也是很大的,是一种很典型的海量数据,所以对爬取的性能要求是非常高的,主要应用于大型搜索引擎中。   聚焦网络爬虫:也叫主题爬虫,是按照预先定义好的主题有选择性的进行网页抓取的一种爬虫,这种爬虫也就是我们平时所用的爬虫。    增量式爬虫:这种爬虫只爬取页面更新的地方,而未改变的地方则不更新。所以大多数时候都是新页面    深层网络爬虫:这种爬虫可以爬取深层页面。就是比较深层次的东西。

如果我们需要大量的从网上请求数据,在以前没有接触爬虫的时候,我们只能依靠人工一个个得机械操作,但是这样特别浪费时间,显然是不现实的,当我们接触了爬虫后,我们就可以发挥爬虫的作用了,它会让这一切变得十分简单:

网站分析

  1. 找出数据来源:Doc、XHR、JS
  2. 找出数据所在请求,分析请求链接、请求方式、请求参数
  3. 确定参数来源:固定可选值、通过别的请求生成、经过JS处理、特殊值

抓包工具:Fiddler

爬虫库:

  • urllib
  • requests:语法简单,兼容python2和3
  • requests_html:提供了数据清洗、ajax数据动态渲染

爬虫缓存:requests_cache

requests_cache.install_cache(backend='memory')

存储机制:

  • memory:每次程序运行都会将缓存以字典形式保存在内存中
  • sqlite:默认存储机制
  • redis:通过redis模块实现数据库的读写
  • mongo:通过pymongo模块实现数据库的读写

网页操控与数据爬取Selenium

手机App数据爬取Appium

验证码识别

  • 人工识别
  • ocr
  • 调用第三方平台API:在线人员、人工智能

这是我第一次系统的了解了爬虫,内容有所摘录,我想爬虫在以后的使用中会越来越方便,学习这门课程让我受益匪浅,收获良多,相信会有越来越多的人接触并喜欢上爬虫。

 

你可能感兴趣的:(第三次作业)