爬去网络数据的一般思路

   前段时间一直在做网络爬虫,我也总结了一些心得分享一下。在做网络爬虫的过程中,我更加深入体会了html,EL表达式等javaweb技术的本质原理,对提高我的编程水平的提升有了非常大的帮助。后期在爬虫优化中采用并行策略,提高系统效率。

  从本质上看一切请求都是在获取数据,那么从技术实现角度来划分我个人觉得应该分为两点:

  一、html文档数据

  二、ajax请求json或者其他数据。

 下面仔细分析一下:

 对于html文档,推荐使用jsoup来解析html元素,另外jsoup自身也具备数据获取功能,整个开发功能都特别简单。对于ajax请求接口获取json获取其他数据可以推荐使用fastjson来解析数据。

 在抓取数据过程中,比较难把握的一点是:异常情况的处理。某一时刻因为机器响应迟钝或者网络情况不良或者请求参数异常等种种情况出现的异常情况,是否需要重试机制等等问题都是需要在前期规划好的。

 对于爬虫项目逻辑复杂的地方不在于取数据,而在于取到数据后的解析办法。另外这种爬虫数据由于数据量比较大,对于大数据的处理和存储也是一个比较大的难度。

你可能感兴趣的:(爬去网络数据的一般思路)