Python +mysql 简易爬虫给新浪大 V 微博和文章做备份

写了个爬虫定期抓取新浪指定用户的微博和文章,以防哪天失联了还能看备份。 GitHub: https://github.com/HubQin/sinaCrawlerV

各文件功能:

  • database.py 封装了各种 mysql 操作
  • post.py 抓取微博,每次抓取到上次抓取的时间为止
  • article.py 抓取文章,同上
  • gadget.py 用到的各种小工具
  • config.py 需要用到的参数

使用:

  • 创建数据表:运行 sina.sql 创建数据表
  • 完善 config.py 的参数,抓取微博使用移动端的请求链接;抓取文章需要登录,这里手动登录后,查看移动端的异步请求,复制 Request Header 里面的 cookie 出来使用
  • 命令行终端 cd 到 py 文件所在目录,运行 pyhton.py 和 article.py ,或修改 auto.bat 文件的 cd 路径,双击改文件开始抓取

你可能感兴趣的:(python,mysql,简易)