day74,爬虫01,HttpClient工具类的使用步骤,jsoup的解析常用方法,爬京东数据的案例
一、什么是爬虫爬虫是一段程序,抓取互联网上的数据,保存到本地。抓取过程:1、使用程序模拟浏览器2、向服务器发送请求。3、服务器响应html4、把页面中的有用的数据解析出来。解析页面中的链接地址。把链接地址添加到url队列中。5、爬虫从url队列中取url,返回的操作。二、爬虫的抓取环节1、抓取页面。可以使用javaapi中提供的URLConnection类发送请求。推荐使用工具包HttpClien