《分布式爬虫实战》第二期含课件代码价值899

《分布式爬虫实战》第二期含课件代码价值899_第1张图片
      这是一门培养专业爬虫工程师的课程。本课程以大数据业务需求为导向,旨在掌握分布式爬虫的原理、理解互联网技术和各类数据分析挖掘的应用技巧。

    1.  围绕微博的抓取、存储、提取和文本分析来展开
    3.  增加了对于数据库性能及优化的关键方法和原理的介绍,例如深翻页、查询优化、索引优化,Redis 队列原理及优化等
面向人群:

    2.  网站后台及分布式系统架构的开发者和学习者
    4.  希望搭建聚合类、数据挖掘类、图片视频库等网站的爱好者、从业者
学习收益:

    2.  掌握分布式系统架构设计
    4.  了解如Google、百度、今日头条等互联网公司的产品技术和解决方案
    6.  针对不同任务,能快速开发网络爬虫满足业务需求



第一课 静态网页爬虫:爬虫的基础技术
CSS 选择器
lxml 及 XPath
高速位缓存设计:BloomFilter
第二课 登录及动态网页的抓取
网站登录及Cookie
浏览器的驱动:Selenium
第三课 微博的抓取
通过动态页面来抓取
Java 的反编译
源代码的接口分析
第四课 多线程与过进程的爬虫
2.     Python 的多线程约束
4.     多个进程同时抓取

SQL 与 NoSQL
HDFS
MongoDB
基于分布式数据库的分布式爬虫

Socket 编程
Slave 设计
分布式集群部署的爬虫

分布式应用协调服务:ZooKeeper
服务发布及注册
第八课 微博数据查询:分布式数据库系统的优化及负载均衡
流量控制及均衡
Redis 的核心技术介绍
MySQL 的查询过程介绍及优化要素

     1.  PageRank 计算模型及推导
     3.  网站服务架构
     5.  多IP技术与路由控制

     1.  基于距离的图片比对
     3.  其它验证码识别方案
     5.  淘宝数据抓取

SimHash
海量数据的相似度计算
语义哈希简介

     1.  距离与联合概率
     3.  K-Means 算法
     5.  PyGoose 的开源系统

网页分类基础
线性回归
Logistic Regession
多分类器

词向量简介


下载地址:百度网盘






你可能感兴趣的:(《分布式爬虫实战》第二期含课件代码价值899)