教你如何使用Java代码从网页中爬取数据到数据库中——网络爬虫精华篇

文章目录

  • 1:网络爬虫介绍
  • 2:HttpClients类介绍
    • 2.1 HttpGet参数问题
    • 2.2 HttpPost参数问题
    • 2.3 连接池技术问题
  • 3:Jsoup介绍
  • 4:动手实践如何抓取网页上数据并保存到自己数据库中

有一句话说的好,只要精神不滑坡,办法总比困难多——阿俊(这句话可以形容我这三天学习知识的态度)
就在前天,我的一个项目进入到了省赛,想下定决心把自己的一部分未完成的功能完善起来(想爬取网页上的各种数据到自己的所对应的页面上显示),这个问题在我脑子里回旋许久,于是打开电脑就在网上查阅各种资料,而我第一次查就是如何使用Java代码从网页中爬取数据到数据库中,有了这一步我相信在显示到自己的界面上应该就是很简单的一件事了,那么到底如何使用Java代码从网页中爬取数据到数据库中呢?昨天我花了一天的时间学习这方面的内容,当然我觉得这学的只是片面知识有很多还得掌握,待以后在遇到继续解决,今天夜里,我决定总结昨天遇到的困难和学过的知识,以博客的形式记录下来分享给大家
教你如何使用Java代码从网页中爬取数据到数据库中——网络爬虫精华篇_第1张图片

1:网络爬虫介绍

  • 在大数据时代,信息的采集是一项重要的工作,而互联网中的数据是海量的,如果单纯靠人力进行信息采集,不仅低效繁琐,搜集的成本也会提高。如何自动高效地获取互联网中我们感兴趣的信息并为我们]所用是一个重要的问题,而爬虫技术就是为了解决这些问题而生的。
    网络爬虫(Web crawler)也叫做网络机器人,可以代替人们自动地在互联网中进行数据信息的采集与整理。它是一种按照一定的规则,自动地抓取万维网信息的程序或者脚木,可以自动采集所有其能够访问到的页而内容,以获取相关数据。
    从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页而上抽取新的URL放入队列,直到满足系统的一定停止条件。

网络爬虫作用
1.可以实现搜索引擎。
我们学会了爬虫编写之后,就可以利用爬虫自动地采集互联网中的信息,采集回来后进行相应的存储或处理,在需要检索某些信息的时候,只需在采集回来的信息中进行检索,即实现了私人的搜索引擎。。
2.大数据时代,可以让我们获取更多的数据源。
在进行大数据分析或者进行数据挖掘的时候,需要有数据源进行分析。我们可以从某些提供数据统计的网站获得,也可以从某些文献或内部资料中获得,但是这些获得数据的方式,有时很难满足我们对数据的需求,而手动从互联网中去寻找这些数据,则耗费的精力过大。此时就可以利用爬虫技术,自动地从互联网中获取我们]感兴趣的数据内容,并将这些数据内容爬取回来,作为我们的数据源,再进行更深层次的数据分析,并获得更多有价值的信息。
3.可以更好地进行搜索引擎优化 (SEO)。
对于很多SEO从业者来说,为了更好的完成工作,那么就必须要对搜索引擎的工作原理非常清楚,同时也需要掌握搜索引擎爬虫的工作原理。而学习爬虫,可以更深层次地理解搜索引擎爬虫的工作原理,这样在进行搜索引擎优化时,才能知己知彼,百战不殆。(我还没掌握这么深(狗头))
4.有利于就业。
从就业来说,爬虫工程师方向是不错的选择之一,因为目前爬虫程师的需求越来越大,而能够胜任这方而岗位的人员较少,所以属于一个比较紧缺的职业方向,并且随着大数据时代和人工智能的来临,爬虫技术的应用将越来越广“泛,在未来会拥有很好的发展空间。(我是搞软件开发的(狗头))

2:HttpClients类介绍

为什么讲完爬虫介绍就直接讲这一个类呢?

网络爬虫就是用程序帮助我们访问网络上的资源,我们一 直以来都是使用HTTP协议访问互联网的网页,网络爬虫需要编写程序,在这里使用同样的HTTP协议访问网页。这里我们使用Java的HTTP协议客户端HttpClients 这个技术,来实现抓取网页数据。
如下代码我们有些类的信息要去如下API寻找(大家可以看它们分别引入类的的包就知道要怎么寻找API了)
org.apache.http (Apache HttpCore 4.2.5 API)
Apache HttpCore 4.2.5 API
这两个API不一样的
我们先上一个简单的例子,来看看怎么用Java代码成功爬取到网页上的数据到控制台

public class Crawler01 {
   
    public static void main(String[] args) throws Exception{
   
        //1.打开浏览器,创建对象
        CloseableHttpClient httpClient = HttpClients.createDefault();
        //2.网址
        HttpGet httpGet = new HttpGet("http://www.baidu.com");
        //3.发起请求
        CloseableHttpResponse response = httpClient.execute(httpGet);
        //4.解析响应,获取数据
        if(response.getStatusLine().getStatusCode()==200){
   
            HttpEntity entity = response.getEntity();
            String content = EntityUtils.toString(entity, "utf8");
            System.out.println(content);
        }
    }
}

教你如何使用Java代码从网页中爬取数据到数据库中——网络爬虫精华篇_第2张图片
相关如上类的信息如下,如下代码都是借鉴API中的内容

Interface HttpEntity:可以通过HTTP消息发送或接收的实体。可以在某些请求和响应中找到实体,这些实体是可选的。——Interface
Class EntityUtils:处理HttpEntitys的静态帮助程序。——Class
方法1:static String toString(HttpEntity entity)
读取实体的内容并将其作为字符串返回。
方法2:static String toString(HttpEntity entity, Charset defaultCharset)
以字符串形式获取实体内容,如果在实体中没有找到,则使用提供的默认字符集。(字符集很关键,我当时的实验代码就是该方法中的字符集和页面上的字符集不一一对应造成的)
Interface——CloseableHttpResponse:HttpResponse接口的扩展版本,它也扩展了Closeable。——Interface
Class HttpGet:HTTP GET method——GET方法意味着检索由请求uri标识的任何信息(以实体的形式)。如果请求uri指的是一个数据产生过程,它是被产生的数据,应该作为响应中的实体返回,而不是该过程的源文本,除非该文本恰好是该过程的输出。 ——Class
方法1:public HttpGet(String uri)
Class:HttpClients: CloseableHttpClient实例的工厂方法。 ——Class
方法1:static CloseableHttpClient createDefault()
使用默认配置创建CloseableHttpClient实例。
Class CloseableHttpClient:基于HttpClient的基本实现同时也实现了 Closeable ——Class
方法1: CloseableHttpResponse execute(HttpUriRequest request)
使用默认上下文执行HTTP请求。
Interface CloseableHttpResponse :Extended version of the HttpResponse interface that also extends Closeable.
Interface HttpResponse ——Interface
方法1:HttpEntity getEntity()
获取此响应的消息实体(如果有的话)
方法2:StatusLine getStatusLine()
获取此响应的状态行。
Interface StatusLine :响应消息的第一行是状态行,由协议版本、数字状态代码及其相关的文本短语组成,每个元素由SP字符分隔。除非在最后的CRLF序列中,否则不允许使用CR或LF。
状态行= http版本的SP状态码SP原因短语CRLF——Interface
方法1:int getStatusCode()

我们接下来就要讲到HttpGet,HttpPost两个类中解决无参数和带参数的问题,和连接池技术问题

看如下博客,知道Get,Post请求的区别(也就是为什么我们要将HttpGet,HttpPost两个类)
get请求和post请求的详细区别

2.1 HttpGet参数问题

访问传智官网,请求url地址(无参数)
http://www.itcast.cn
以下代码默认已经对这些类有所了解,这里不再记叙有关类的信息
代码演示

   public static void main(String[] args) throws Exception{
   
        //1.创建对象
        CloseableHttpClient httpClient = HttpClients.createDefault();
        //2.访问地址
        HttpGet httpGet = new HttpGet("http://www.itcast.cn");
        //3.发起请求
        CloseableHttpResponse response = httpClient.execute(httpGet);
        //4.解析响应
        if(response.getStatusLine().getStatusCode()==200){
   
            HttpEntity entity = response.getEntity();
            String content = EntityUtils.toString(entity, "utf8");
            System.out.println(content);
        }
        //5.关闭response
        response.close();
        httpClient.close();
  }

访问传智官网,搜索学习视频,请求url地址为(有参数)
http://yun.itheima.com/search?keys=java
有关API
org.apache.http (Apache HttpCore 4.2.5 API)
Apache HttpCore 4.2.5 API

public static void main(String[] args) throws Exception{
   
        //1.创建对象
        CloseableHttpClient httpClient = HttpClients.createDefault();

        //设置请求地址http://yun.itheima.com/search?keys=java
        URIBuilder uriBuilder = new URIBuilder("http://yun.itheima.com/search");
        uriBuilder.setParameter("keys","java");

        //2.访问地址
        HttpGet httpGet = new HttpGet(uriBuilder.build());
        //3.发起请求
        CloseableHttpResponse response = httpClient.execute(httpGet);
        //4.解析响应
        if(response.getStatusLine().getStatusCode()==200){
   
            HttpEntity entity = response.getEntity();
            String content = EntityUtils.toString(entity, "utf8");
            System.out.println(content);
        }
        //5.关闭response
        response.close();
        httpClient.close();
    }

有关类的信息
Class URIBuilder:URI实例的生成器。
方法1:URIBuilder(URI uri)
从提供的URI构造一个实例。
方法2: URIBuilder setParameter(String param, String value)
设置URI查询的参数,如果设置则重写现有值。
方法3: URI build()
构建一个URI实例。

大家观察如上两个代码,发现基本思路都没变
1.创建对象2.访问地址 3.发起请求4.解析响应变得只是访问地址时要考虑有关的参数问题

2.2 HttpPost参数问题

使用Post访问创智官网&#

你可能感兴趣的:(前端学习,java,python)