爬虫就业冲刺20180811

一、教学内容

1、知识点

  • charles使用复习

2、音乐爬虫

  • 获取音乐的真实地址
  • 提供获取音乐真实地址的接口
  • 做成一个简单的音乐播放器
  • 爬虫的监控与统计

3、性能优化

mongodb批量写与逐条写性能对比
1、将单条插入改为批量插入
2、将单条写改为批量改
3、将单条查询改为多条查询放入队列

4、验证码

1、使用打码平台
菲菲打码
云打码
2、其他破解方式简介
pytesser

5、代理

讯代理
多IP机器
开源代理池项目

项目API

二、上周复习

S1 : 抓取专辑列表页,将专辑任务存在album_task表
S2:从album_task表获取album url,把歌曲url存在 song_task
S3: 从song_task表取出url,把歌曲信息放在song_info

status:
0 还没抓取
1 正在抓取
2 抓取成功
3 抓取失败
4 非法任务

你可能感兴趣的:(爬虫就业冲刺20180811)