第五章:爬取历史推送并保存

个人对HTLM还并不了解,只是照猫画虎,按照军哥的教程把代码手打一遍,确保最终能够使用。
在军哥的代码风格中学习到了一些让代码结构和意义更为清晰的方法。

  1. 为函数和方法自定义类的方法添加注释,说明各参数类型和意义和大致的处理思路。
  2. 及时进行代码重构,避免发生后期代码整体结构臃肿的问题。

在技术上,还有几点需要研究:

  1. 正则表达式;
  2. json.loads()html.unexcape()的实际意义;在处理美团的数据时直接用request.get().json()获取了json数据;
  3. 在Robo 3T中无法查看到爬取美团保存下来的数据,在compass中可以。

在微信历史文章的爬取中,仅爬取到120条;在这之后报错为


错误代码.png

目前尚未解决。


利用本章学习到的方法,试着爬取了美团西安的美食信息,并保存在数据库中,下一步该如何处理还没想好。

你可能感兴趣的:(第五章:爬取历史推送并保存)