08. 如何自动化采集数据

数据源

image.png

一个数据的走势,是由多个维度影响的,要通过多源的数据采集,手机尽可能多的数据维度,同时保证数据的质量

开放数据源

行业的数据库

  • 单位维度


    image.png

    政府、企业、高校

  • 行业维度
    交通、金融、能源等领域

爬虫抓取 - py、常用工具

网站,App

  • py爬虫三个过程
    • 使用 Requests 爬取网页信息
      抓取网页信息,是 py 的 HTTP 库
    • 使用 XPath 解析内容
      XML Path,也就是 XML 路径语言,是一种用来确定 XML 文档中某部分位置的语言,常当做小型查询语言。可以通过元素和属性进行位置索引
    • 使用 Pandas 保存数据
      Pandas 是让数据分析工作变得更加简单的高级数据结构,保存爬取的数据,可以写入到 XLS 或者 MySQL 等数据库
    • 其他无头模式: Selenium、PhantomJS、Puppteteer
  • 常用工具
    • 火车采集器
      可抓取、数据清洗、数据分析、挖掘和可视化等,网页中能看到的内容都可以通过采集规则进行抓取
    • 八爪鱼
      免费版:是内容采集规则,包括电商、生活服务、社交媒体、论坛类等网站
      付费版:云采集,配置好采集任务,就交给八爪鱼采集,避免 IP 被封​
    • 集搜客
      可视化操作,无需编程。无云采集功能

传感器

物理信息,图像、视频、速度、热度、压强等,基于特定设备

日志采集

统计用户的操作,在前端进行埋点,在后端进行脚本收集、统计,分析网站访问情况及使用承载瓶颈等。是运维人员重要工作之一。
记录了用户访问网站的全过程,那些人在什么时间通过什么渠道来过,执行了哪些操作,系统是否产生了错误,IP、HTTP 请求的时间,用户代理等0​

  • 通过 Web 服务器采集
    Web:如 httpd、Nginx、Tomcat
    企业自己的系统日志采集:​Hadoop 的 Chukwa、Cloudera 的Flume、Facebook 的 Scribe 等
  • 自定义采集用户行为
    • JavaScript 代码监听用户行为
    • AJAX 异步请求后台记录日志等
  • 埋点是什么
    在有需要的位置采集相应的信息进行上报
    • 页面访问情况
      • 用户信息
      • 设备信息
    • 操作行为
      • 时长等
  • 如何埋点
    • 友盟
    • Google Analysis
    • Talkingdata
    • 想看更深层的用操作需要自定义埋点

你可能感兴趣的:(08. 如何自动化采集数据)