火玄

JAVA网络爬虫基础

网络爬虫概述：

在大数据时代，信息的采集是一项重要的工作，而互联网中的数据是海量的，如果单纯靠人力进行信息采集，不仅低效繁琐，搜集的成本也会提高。如何自动高效地获取互联网中我们感兴趣的信息并为我们所用是一个重要的问题，而爬虫技术就是为了解决这些问题而生的。
网络爬虫（Web crawler）也叫做网络机器人，可以代替人们自动地在互联网中进行数据信息的采集与整理。它是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，可以自动采集所有其能够访问到的页面内容，以获取相关数据。
从功能上来讲，爬虫一般分为数据采集，处理，储存三个部分。爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

1 入门案例

1.1 环境配置

pom配置

<dependencies>
    <dependency>
        <groupId>org.apache.httpcomponentsgroupId>
        <artifactId>httpclientartifactId>
        <version>4.5.3version>
    dependency>
    <dependency>
        <groupId>org.jsoupgroupId>
        <artifactId>jsoupartifactId>
        <version>1.10.3version>
    dependency>
    <dependency>
        <groupId>junitgroupId>
        <artifactId>junitartifactId>
        <version>4.12version>
    dependency>
    <dependency>
        <groupId>org.apache.commonsgroupId>
        <artifactId>commons-lang3artifactId>
        <version>3.7version>
    dependency>
    <dependency>
        <groupId>commons-iogroupId>
        <artifactId>commons-ioartifactId>
        <version>2.6version>
    dependency>
    <dependency>
        <groupId>org.slf4jgroupId>
        <artifactId>slf4j-log4j12artifactId>
        <version>1.7.25version>
    dependency>

dependencies>

log4j.properties配置

log4j.rootLogger=DEBUG,A1
log4j.logger.cn.itcast = DEBUG

log4j.appender.A1=org.apache.log4j.ConsoleAppender
log4j.appender.A1.layout=org.apache.log4j.PatternLayout
log4j.appender.A1.layout.ConversionPattern=%-d{yyyy-MM-dd HH:mm:ss,SSS} [%t] [%c]-[%p] %m%n

1.2 代码编写

@Test
public void SCrawler()throws Exception{
    CloseableHttpClient httpClient = HttpClients.createDefault();

    HttpGet httpGet = new HttpGet("http://www.itcast.cn/");

    CloseableHttpResponse response = httpClient.execute(httpGet);

    if (response.getStatusLine().getStatusCode() == 200){
        String html = EntityUtils.toString(response.getEntity(),"UTF-8");

        System.out.println(html);
    }

    httpClient.close();
    httpGet.clone();
}

结果为该网页的网页源代码

2 HttpClient

概述：网络爬虫就是用程序帮助我们访问网络上的资源，我们一直以来都是使用HTTP协议访问互联网的网页，网络爬虫需要编写程序，在这里使用同样的HTTP协议访问网页。这里我们使用Java的HTTP协议客户端 HttpClient这个技术，来实现抓取网页数据。

2.1 Get请求

@Test
public void HttpGet(){
    //创建httpClient对象
    CloseableHttpClient httpClient = HttpClients.createDefault();

    //创建HttpGet对象，设置url访问地址
    HttpGet httpGet = new HttpGet("http://www.itcast.cn/");

    //使用httpClient对象发起请求，获取response
    CloseableHttpResponse response = null;
    try {
        response = httpClient.execute(httpGet);

        //解析响应
        if (response.getStatusLine().getStatusCode() == 200){
            String html = EntityUtils.toString(response.getEntity(),"UTF-8");
            System.out.println(html);
        }
    } catch (IOException e) {
        e.printStackTrace();
    }finally {//释放资源
        //判断response是否为null，为null则代表未获取response，不为null则要释放资源

        if (response!=null){
            try {
                response.close();

                //重点：释放掉资源后，将它重新赋值为null，因为GC回收资源优先回收null值的
                response = null;
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
        try {
            httpClient.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

2.2 带参数的Get请求

爬取的网址：http://yun.itheima.com/search?keys=Java

//带参数的Get请求
@Test
public void HttpParamGet() throws Exception {
    //创建httpClient对象
    CloseableHttpClient httpClient = HttpClients.createDefault();

    //设置请求的地址：http://yun.itheima.com/search?keys=Java

    //1.创建URIBuilder 内容为未设置参数的地址
    URIBuilder uriBuilder = new URIBuilder("http://yun.itheima.com/search");

    //2.设置参数
    uriBuilder.setParameter("keys","Java");

    //如果为多个参数，则使用多次setParameter
    //eg：uriBuilder.setParameter("","").setParameter("","")...;

    //创建HttpGet对象，设置url访问地址
    HttpGet httpGet = new HttpGet(uriBuilder.build());

    //使用httpClient对象发起请求，获取response
    CloseableHttpResponse response = null;
    try {
        response = httpClient.execute(httpGet);

        //解析响应
        if (response.getStatusLine().getStatusCode() == 200){
            String html = EntityUtils.toString(response.getEntity(),"UTF-8");
            System.out.println(html);
        }
    } catch (IOException e) {
        e.printStackTrace();
    }finally {//释放资源
        //判断response是否为null，为null则代表未获取response，不为null则要释放资源

        if (response!=null){
            try {
                response.close();

                //重点：释放掉资源后，将它重新赋值为null，因为GC回收资源优先回收null值的
                response = null;
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
        try {
            httpClient.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

2.3 Post请求

@Test
public void HttpPost(){
    //创建httpClient对象
    CloseableHttpClient httpClient = HttpClients.createDefault();

    //创建HttpPost对象，设置url访问地址
    HttpPost httpPost = new HttpPost("http://www.itcast.cn/");

    //使用httpClient对象发起请求，获取response
    CloseableHttpResponse response = null;
    try {
        response = httpClient.execute(httpPost);

        //解析响应
        if (response.getStatusLine().getStatusCode() == 200){
            String html = EntityUtils.toString(response.getEntity(),"UTF-8");
            System.out.println(html);
        }
    } catch (IOException e) {
        e.printStackTrace();
    }finally {//释放资源
        //判断response是否为null，为null则代表未获取response，不为null则要释放资源

        if (response!=null){
            try {
                response.close();
                //重点：释放掉资源后，将它重新赋值为null，因为GC回收资源优先回收null值的
                response = null;
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
        try {
            httpClient.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

2.4 带参数的Post请求

//带参数的Post请求
@Test
public void HttpParamPost() throws Exception {
    //创建httpClient对象
    CloseableHttpClient httpClient = HttpClients.createDefault();

    //创建HttpPost对象，设置url访问地址
    HttpPost httpPost = new HttpPost("http://www.itcast.cn/search");

    //声明list请求，封装表单中的请求参数
    List<NameValuePair> params = new ArrayList<NameValuePair>();
    params.add(new BasicNameValuePair("keys","Java"));

    //创建表单的Entity对象,第一个参数时封装好的表单数据，第二个参数是编码
    UrlEncodedFormEntity formEntity = new UrlEncodedFormEntity(params, "utf8");

    //设置表单的Entity对象到Post请求中
    httpPost.setEntity(formEntity);

    //使用httpClient对象发起请求，获取response
    CloseableHttpResponse response = null;
    try {
        response = httpClient.execute(httpPost);

        //解析响应
        if (response.getStatusLine().getStatusCode() == 200){
            String html = EntityUtils.toString(response.getEntity(),"UTF-8");
            System.out.println(html);
        }
    } catch (IOException e) {
        e.printStackTrace();
    }finally {//释放资源
        //判断response是否为null，为null则代表未获取response，不为null则要释放资源

        if (response!=null){
            try {
                response.close();
                //重点：释放掉资源后，将它重新赋值为null，因为GC回收资源优先回收null值的
                response = null;
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
        try {
            httpClient.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

2.5 Get和Post的区别

GET在浏览器回退时是无害的，而POST会再次提交请求。
GET产生的URL地址可以被Bookmark，而POST不可以。
GET请求会被浏览器主动cache，而POST不会，除非手动设置。
GET请求只能进行url编码，而POST支持多种编码方式。
GET请求参数会被完整保留在浏览器历史记录里，而POST中的参数不会被保留。
GET请求在URL中传送的参数是有长度限制的，而POST没有。
对参数的数据类型，GET只接受ASCII字符，而POST没有限制。
GET比POST更不安全，因为参数直接暴露在URL上，所以不能用来传递敏感信息。
GET参数通过URL传递，POST放在Request body中。

2.6 连接池

概述：如果每次请求都要创建HttpClient，会有频繁创建和销毁的问题，可以使用连接池来解决这个问题。

public class httpClientPool {
    public static void main(String[] args) throws Exception {
        //创建连接池管理器
        PoolingHttpClientConnectionManager cm = new PoolingHttpClientConnectionManager();

        //设置最大连接数
        cm.setMaxTotal(100);

        //设置每个主机的最大连接数
        cm.setDefaultMaxPerRoute(10);

        //使用连接池管理器发起请求
        doGet(cm);
        doGet(cm);
        doGet(cm);


    }

    private static void doGet(PoolingHttpClientConnectionManager cm) throws Exception {
        //不用每次创建Httpclient，而是从连接池中获取Httpclient对象
        CloseableHttpClient httpClient = HttpClients.custom().setConnectionManager(cm).build();

        HttpGet httpGet = new HttpGet("http://www.itcast.cn/");

        CloseableHttpResponse response = httpClient.execute(httpGet);

        if (response.getStatusLine().getStatusCode()==200){
            String html = EntityUtils.toString(response.getEntity());

            System.out.println(html);
        }

        response.close();

        //重点：不能够关闭httpclient，由连接池管理httpclient
//        httpClient.close();

    }
}

2.7 请求时间参数

概述：有时候因为网络，或者目标服务器的原因，请求需要更长的时间才能完成，我们需要自定义相关时间。

public class HttpClientConfig {
    public static void main(String[] args) {
        //创建httpClient对象
        CloseableHttpClient httpClient = HttpClients.createDefault();

        //创建HttpGet对象，设置url访问地址
        HttpGet httpGet = new HttpGet("http://www.itcast.cn/");

        //配置请求信息
        RequestConfig config = RequestConfig.custom().setConnectTimeout(1000)//创建连接的最长时间，单位毫秒
            .setConnectionRequestTimeout(500)//设置获取连接的最长时间，单位毫秒
            .setSocketTimeout(10*1000) //设置数据传输的最长时间，单位毫秒
            .build();

        //给请求设置请求信息
        httpGet.setConfig(config);

        //使用httpClient对象发起请求，获取response
        CloseableHttpResponse response = null;
        try {
            response = httpClient.execute(httpGet);

            //解析响应
            if (response.getStatusLine().getStatusCode() == 200){
                String html = EntityUtils.toString(response.getEntity(),"UTF-8");
                System.out.println(html);
            }
        } catch (IOException e) {
            e.printStackTrace();
        }finally {//释放资源
            //判断response是否为null，为null则代表未获取response，不为null则要释放资源

            if (response!=null){
                try {
                    response.close();

                    //重点：释放掉资源后，将它重新赋值为null，因为GC回收资源优先回收null值的
                    response = null;
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
            try {
                httpClient.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }

    }
}

3 Jsoup

概述：jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

主要功能：

从一个URL，文件或字符串中解析HTML；
使用DOM或CSS选择器来查找、取出数据；
可操作HTML元素、属性、文本；

3.1 解析Url

@Test
public void testUrl()throws Exception{
    //解析URL地址 第一个参数是访问的URL，第二个是访问的时候超时时间
    Document document = Jsoup.parse(new URL("http://www.itcast.cn/"), 1000);

    //使用标签选择器，获取Title标签中的内容
    String title = document.getElementsByTag("title").first().text();
    System.out.println(title);
}

注意：虽然使用Jsoup可以替代HttpClient直接发起请求解析数据，但是往往不会这样用，因为实际的开发过程中，需要使用到多线程，连接池，代理等等方式，而jsoup对这些的支持并不是很好，所以我们一般把jsoup仅仅作为Html解析工具使用

3.2 解析字符串

//解析字符串
@Test
public void testString()throws Exception{
    //使用工具类读取文件，获取字符串
    String file = FileUtils.readFileToString(new File("E:\\code\\java\\java_crawler\\src\\main\\java\\jsoup\\jsoup.html"), "utf8");


    //解析字符串
    Document doc = Jsoup.parse(file);
    String title = doc.getElementsByTag("title").first().text();

    System.out.println(title);

}

3.3 解析文件

//文件解析
@Test
public void testFile()throws Exception{
    Document doc = Jsoup.parse(new File("E:\\code\\java\\java_crawler\\src\\main\\java\\jsoup\\jsoup.html"), "utf8");
    String title = doc.getElementsByTag("title").first().text();

    System.out.println(title);
}

3.4 使用dom方式遍历文档

元素获取方式：

根据id查询元素getElementById
根据标签获取元素getElementsByTag
根据class获取元素getElementsByClass
根据属性获取元素getElementsByAttribute

//dom获取元素
@Test
public void testDOM()throws Exception{
    //解析文件
    Document doc = Jsoup.parse(new File("E:\\code\\java\\java_crawler\\src\\main\\java\\jsoup\\jsoup.html"), "utf8");

    //获取元素
    //1.   根据id查询元素getElementById
    Element city_bj = doc.getElementById("city_bj");

    //2.   根据标签获取元素getElementsByTag
    Element element = doc.getElementsByTag("span").first();

    //3.   根据class获取元素getElementsByClass
    Element element1 = doc.getElementsByClass("class_a class_b").first();
    //如果一个class里含有多个class，那么使用其中一个也可以访问其值
    //Element element2 = doc.getElementsByClass("class_a").first();
    //Element element3 = doc.getElementsByClass("class_b").first();

    //4.   根据属性获取元素getElementsByAttribute
    Element element4 = doc.getElementsByAttribute("abc").first();
    // 也可以通过属性名+值来获取元素
    Element element5 = doc.getElementsByAttributeValue("href", "http://sh.itcast.cn").first();

    //结果打印
    System.out.println(city_bj.text());
    System.out.println(element.text());
    System.out.println(element1.text());
    System.out.println(element4.text());
    System.out.println(element5.text());

}

元素中获取数据：

从元素中获取id
从元素中获取className
从元素中获取属性的值attr
从元素中获取所有属性attributes
从元素中获取文本内容text

@Test
public void testData()throws Exception{
    //解析文件，获取document
    Document doc = Jsoup.parse(new File("E:\\code\\java\\java_crawler\\src\\main\\java\\jsoup\\jsoup.html"), "utf8");

    //获取元素
    Element element = doc.getElementById("test");

    String str = "";

    //元素中获取数据
    //1.   从元素中获取id
    str = element.id();

    //2.   从元素中获取className
    str = element.className();
    //按照空格切分，将多个class存放在集合里
    Set<String> strList = element.classNames();

    //3.   从元素中获取属性的值attr
    str = element.attr("id");
    str = element.attr("class");

    //4.   从元素中获取所有属性attributes
    Attributes attributes = element.attributes();
    System.out.println(attributes.toString());

    //5.   从元素中获取文本内容text
    str = element.text();

    System.out.println(str);
    //System.out.println(strList);


}

3.5 selector选择器查找元素

tagname: 通过标签查找元素，比如：span

#id: 通过ID查找元素，比如：# city_bj

.class: 通过class名称查找元素，比如：.class_a

[attribute]: 利用属性查找元素，比如：[abc]

[attr=value]: 利用属性值来查找元素，比如：[class=s_name]

//selector选择器
@Test
public void testSelector()throws Exception{
    //解析文件，获取document
    Document doc = Jsoup.parse(new File("E:\\code\\java\\java_crawler\\src\\main\\java\\jsoup\\jsoup.html"), "utf8");

    //tagname: 通过标签查找元素，比如：span
    Elements elements = doc.select("span");
    for (Element element:elements){
        System.out.println(element.text());
    }

    //#id: 通过ID查找元素，比如：# city_bj
    Element e = doc.select("#city_bj").first();
    System.out.println(e.text());

    //.class: 通过class名称查找元素，比如：.class_a
    Element clazz = doc.select(".class_a").first();
    System.out.println(clazz.text());

    //[attribute]: 利用属性查找元素，比如：[abc]
    Element attr = doc.select("[abc]").first();
    System.out.println(attr.text());

    //[attr=value]: 利用属性值来查找元素，比如：[class=s_name]
    Elements attrs = doc.select("[class=s_name]");
    for (Element element : attrs) {
        System.out.println(element.text());
    }

}

3.6 selector选择器组合使用

el#id: 元素+ID，比如： h3#city_bj

el.class: 元素+class，比如： li.class_a

el[attr]: 元素+属性名，比如： span[abc]

任意组合: 比如：span[abc].s_name

ancestor child: 查找某个元素下子元素，比如：.city_con li 查找"city_con"下的所有li

parent > child: 查找某个父元素下的直接子元素，比如：

.city_con > ul > li 查找city_con第一级（直接子元素）的ul，再找所有ul下的第一级li

parent > *: 查找某个父元素下所有直接子元素

//选择器的组合使用
@Test
public void testSelectors()throws Exception{
    //解析文件，获取document
    Document document = Jsoup.parse(new File("E:\\code\\java\\java_crawler\\src\\main\\java\\jsoup\\jsoup.html"), "utf8");
    //el#id: 元素+ID，比如： h3#city_bj
    String str = document.select("h3#city_bj").text();

    //el.class: 元素+class，比如： li.class_a
    str = document.select("li.class_a").text();

    //el[attr]: 元素+属性名，比如： span[abc]
    str = document.select("span[abc]").text();

    //任意组合，比如：span[abc].s_name
    str = document.select("span[abc].s_name").text();

    //ancestor child: 查找某个元素下子元素，比如：.city_con li 查找"city_con"下的所有li
    str = document.select(".city_con li").text();

    //parent > child: 查找某个父元素下的直接子元素，
    //比如：.city_con > ul > li 查找city_con第一级（直接子元素）的ul，再找所有ul下的第一级li
    str = document.select(".city_con > ul > li").text();

    //parent > * 查找某个父元素下所有直接子元素.city_con > *
    str = document.select(".city_con > *").text();
    System.out.println(str);

}

10初识Spring MVC框架 TechLens JAVA EE笔记 servlet spring java
学习内容一、回顾1.JSPModel2架构模型采用JSP+Servlet+JavaBean技术实现了页面显示、流程控制和业务逻辑的分离Jsp负责生成动态网页，只用做显示页面；Servlet负责流程控制，用来处理各种请求的分派；JavaBeans负责业务逻辑，对数据库的操作流程控制等通用逻辑以硬编码的方式实现，每次开发新的Web应用程序均需重新编写流程控制、通用逻辑代码2.WebMVC应用框架Spr
Java多线程反方向的空 Java多线程 java 开发语言
Java多线程为什么要在代码中引入多线程?可以使用多个线程来处理任务,提高效率如果阻塞点过多,一个线程会处理不过来;例如TCP服务器在等待建立连接的时候会阻塞,而整个流程不能因为这个而卡死在这里,所以引入另外的线程去处理另外的任务哪些地方是线程安全问题的风险点?线程对共享数据修改的部分,必须考虑是否线程安全!!!并发编程的优缺点为什么要使用并发编程?(优点)充分利用多核CPU的计算能力:通过并发编
图解HTTP的知识框架详解 GISer_Jinger javascript 前端架构
图解HTTP的知识框架详解，我需要结合提供的搜索结果来整理出一个结构化的回答。首先，看看用户提供的搜索结果，有三个文档，分别是关于《图解HTTP》的读书笔记、Java解析HTTP的方法，以及网络基础知识的图解内容。不过用户的问题主要集中在HTTP的知识框架，所以可能主要参考第一个和第三个文档。第一个搜索结果[1]是《图解HTTP》的读书笔记，里面详细介绍了HTTP协议的基本概念、请求方法、状态码、
Spring MVC +Spring 框架学习总结-入门必学知识点柚子味* Java spring spring mvc java spring mvc
Spring框架是由于软件开发的复杂性而创建的。Spring使用的是基本的JavaBean来完成以前只可能由EJB完成的事情。然而，Spring的用途不仅仅限于服务器端的开发。从简单性、可测试性和松耦合性角度而言，绝大部分Java应用都可以从Spring中受益。spring相关视频教程：https://www.bilibili.com/video/BV1nz4y1d7uySpringMVC是Spr
利用Python爬虫获取Shopee（虾皮）商品详情：实战指南小爬虫程序猿 python 爬虫开发语言
在跨境电商领域，Shopee（虾皮）作为东南亚及台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，获取Shopee商品详情都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写Python爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用Python爬虫获取Shopee商品详情，并提供完整的代码示例。一、为
babel 埋点插件小猫儿工具环境配置等 javascript 开发语言 ecmascript
我们通常对babel的理解就是它可以帮助我们去处理兼容性，也就是有些JavaScript的新特性，可能我们想去使用，但对于某些浏览器来说还并未支持，此时我们就可以通过babel将我们的代码降级处理为浏览器兼容的执行版本，以便能够运行在当前和旧版本的浏览器或其他环境中。Babel插件就是作用于抽象语法树。Babel三个主要的处理步骤就是解析（parse），转换（transform），生成（gener
开源前端埋点监控插件Web-Tracing 研创通之逍遥峰开源工具开源前端
Web-Tracing是一款专为前端项目设计的前端监控插件，它基于JavaScript设计，兼容跨平台使用，并提供了全方位的监控功能。开源地址：https://gitee.com/junluoyu/web-tracing-analysis以下是关于Web-Tracing的详细介绍：一、主要功能Web-Tracing涵盖了多个领域的监控手段，包括但不限于：埋点：通过事件监听，实现对用户交互行为的精准
Java基础9（throws和throw、异常细节）孤影恋长风 java 开发语言
throws和throw可能出现错误的代码写在try中e接受可能出现的异常，为了通用性一般不要写精确的异常，写最大的Exceptionthor抛出一个具体的异常，throw跟在函数之后，标志有异常抛出publicvoidtext（）{如果这个函数将有异常处理，有两种策略，1.立即用try处理2.不处理，抛给调用此函数对象异常处理的原则，谁调用谁处理以后调用别人的函数，除了关注函数的参数，返回值，还
Java设计模式之解释器模式飞翔中文网 java 设计模式
概念解释器模式是一种行为型设计模式，用于定义一种语言的语法规则，并提供解释器来解释该语言中的表达式。作用其核心作用是将复杂的语法分解为简单的语法单元，通过递归组合的方式构建抽象语法树（AST），最终由解释器逐层解释执行。场景1.需要解释特定领域的语言：如数学公式、正则表达式、SQL查询等。2.语法相对简单且稳定：若语法频繁变化或过于复杂，建议使用解析器生成工具（如ANTLR）。3.需要灵活扩展语法
深入理解 Java 内存模型（JMM）：原理、可见性与并发控制全栈探索者chen java java 开发语言缓存程序人生数据库 JMM 内存
深入理解Java内存模型（JMM）：原理、可见性与并发控制1.引言在多线程编程中，内存可见性、指令重排序和线程同步是开发者必须理解的核心概念。Java内存模型（JMM，JavaMemoryModel）定义了一组规则，确保Java程序在并发环境下的线程安全性和一致性。本文将深入剖析JMM的原理，并通过代码示例展示如何正确控制并发。2.什么是Java内存模型（JMM）？Java内存模型（JMM）是Ja
Java 并发编程实战：深入理解线程池的核心原理与最佳实践全栈探索者chen java java 服务器开发语言性能优化缓存 node.js 数据库
Java并发编程实战：深入理解线程池的核心原理与最佳实践1.为什么需要线程池？在Java并发编程中，直接创建和管理线程的成本较高，频繁创建线程会带来性能开销和资源浪费。线程池（ThreadPool）的作用：降低线程创建和销毁的开销，提高系统响应速度。提高系统吞吐量，充分利用CPU资源。避免资源耗尽，限制最大线程数，防止OOM（内存溢出）。支持任务排队，确保任务按照一定规则执行。2.线程池的核心组成
Visual Studio Code官网下载地址及使用技巧（含常用的拓展插件推荐） ITCTCSDN vscode ide 编辑器
VisualStudioCode（简称“VSCode”）是Microsoft于2015年4月发布的可运行于MacOS、Windows和Linux之上的跨平台源代码编辑器，它具有对JavaScript，TypeScript和Node.js的内置支持，并具有丰富的其他语言（例如C++，C＃，Java，Python，PHP，Go）和运行时（例如.NET和Unity）扩展的生态系统。VisualStudi
Java 24 正式发布：AI 开发与后量子安全引领企业级编程革命程序猿小白菜后端java生态圈 java 人工智能安全
摘要2025年3月18日，Oracle正式发布Java24（OracleJDK24），这是Java诞生30周年之际的重要版本更新。新版本聚焦AI开发支持、后量子安全加密、性能优化和开发效率提升，提供20余项新特性及数千项改进，为企业级应用开发注入全新动力。一、语言特性：代码简洁性与模式匹配增强Java24在语法层面进一步简化代码逻辑，提升开发效率：JEP488：原始类型模式匹配（第二次预览）支持在
什么是Spring Boot？它在Java后端开发中的作用是什么？破碎的天堂鸟学习教程 java spring boot 数据库
什么是SpringBoot？SpringBoot是由Pivotal团队开发的一个基于Spring框架的快速开发框架，旨在简化Spring应用的初始搭建和开发流程。其核心理念是“约定优于配置”（ConventionoverConfiguration），通过默认配置和自动化机制，使开发者能够快速构建独立的、生产级别的应用程序。以下是其核心定义与特点：基于Spring的扩展与优化SpringBoot并非
庖丁解java(一篇文章学java) 庖丁解java java 开发语言 spring boot 后端
(大家不用收藏这篇文章,因为这篇文章会经常更新,也就是删除后重发)一篇文章学java,这是我滴一个执念...当然,真一篇文章就写完java基础,java架构,java业务实现,java业务扩展,根本不可能.所以,这篇文章,就是一个索引,索什么呢?请看下文...关于决定开始写博文的介绍(一切故事的起点源于这一次反省)中小技术公司的软扩展(微服务扩展是否有必要?)-CSDN博客SpringCloud(
ts之变量声明以及语法细节，ts小白初学ing 菥菥爱嘻嘻小白学习ts typescript 前端
TypeScript用js编写的项目虽然开发很快，但是维护是成本很高，而且js不报错啊啊啊啊啊！！！以js为基础进行扩展的给变量赋予了类型语法、实战(ts+vue3)TypeScript是JavaScript的一个超集，支持ECMAScript6标准（ES6教程）。TypeScript由微软开发的自由和开源的编程语言，在JavaScript的基础上增加了静态类型检查的超集。TypeScript设计
Node.js 如何发布一个 NPM 包——详细教程还是鼠鼠 node.js npm 前端 node.js vscode
在本文中，我将带大家一步步学习如何创建并发布一个NPM包，帮助开发者理解整个流程，并能顺利将自己的JavaScript库发布到NPM上供他人使用。1.安装Node.js和npm在开始之前，请确保你的电脑上已经安装了Node.js和npm（Node.js自带npm）。你可以在终端（Windows用户请使用cmd或PowerShell）输入以下命令检查是否已安装：node-vnpm-v如果出现版本号，
程序员晋升架构师实战指南甘苦人生职业规划职场和发展
以下是为程序员量身定制的晋升架构师实战指南，结合行业案例与可落地路径，助你完成技术跃迁：一、晋升路径拆解（从Code到Architecture）程序员→高级工程师核心任务：独立完成模块开发（需求分析+方案设计+编码实现）技术重点：掌握1-2门核心语言（如Java/Go）、熟悉主流框架（SpringCloud/Dubbo）案例：主导用户中心模块开发，通过缓存优化将接口响应时间从800ms降至150m
Linux 启动Jar脚本&&设置开机自启【超级详细】黑taoA linux jar python
Linux启动Jar脚本&&设置开机自启【超级详细】概要服务器开机自启服务重启脚本概要最近在Linux服务器中部署了一个项目（单机版），每次更新服务的时候需要用到好几个命令，停止服务，再重启，并且服务器突然重启后，还需要人工重启服务，非常繁琐，下面展示了两个脚本的写法。。服务器开机自启检查系统是否安装jdk；java-version查看jdk安装位置whereisjava编写脚本restart_y
包管理工具她的双马尾 JS javascript 包管理工具 npm yarn pnpm
JavaScript包管理工具对比：npm、yarn和pnpm1.npm1.1历史与背景npm（NodePackageManager）是Node.js的默认包管理工具，首次发布于2010年。它是JavaScript生态系统中最早的包管理工具，主要用于管理和共享JavaScript模块。目前，npm拥有全球最大的JavaScript包注册中心（npmregistry），包含数百万个开源包。1.2核心
PV操作(Java代码)进程同步实战指南 Cloud_. java 开发语言操作系统并发
引言在Java并发编程中，资源同步如同精密仪器的齿轮咬合，任何偏差都可能导致系统崩溃。本文将以Java视角解析经典PV操作原理，通过真实可运行的代码示例，带你掌握线程同步的底层实现逻辑。一、Java信号量实现机制1.1Semaphore类解析importjava.util.concurrent.Semaphore;//创建包含5个许可的信号量（相当于计数信号量）Semaphoresemaphore
开发语言漫谈-groovy 大道不孤,众行致远技术杂谈开发语言
groovy是一门脚本语言，在前期的脚本语言中简单介绍了下。现在再深入介绍下，因为它是本平台上选用的脚本语言。所谓脚本语言就是不用编译，直接执行。这种特色非常适合做嵌入编程，即编即用。我们知道平台后台的业务开发语言是Java，开发人员都熟悉Java。那么使用groovy就是自然而然的事情，因为groovy最大特点就是和Java兼容。然后做了最有意义的改造：1、可以解释执行；2、增加动态类型。发明人
java:实现设置窗体背景颜色为淡蓝色（附带源码） Katie。 Java 实战项目 java 信息可视化开发语言
一、项目简介在桌面应用开发中，窗体背景颜色作为界面设计的重要组成部分，不仅影响整体美观，还能传递特定的情感和品牌信息。本项目旨在使用JavaSwing简单实现将窗体背景颜色设置为淡蓝色效果。该示例展示了如何创建一个基本的JFrame，并通过调用其内容面板的setBackground()方法，设置背景颜色为淡蓝色（RGB值173,216,230）。通过本项目，初学者可以了解Swing基本组件的使用方
前端实例：轮播图效果 2301_81535770 前端
利用HTML、CSS和JavaScript实现轮播图效果。一、轮播图原理：通过给窗口设置position属性和overflow属性，使得超出窗口范围的部分被隐藏，表面可见范围只包含窗口，但实际上其内部空间很大；调整胶卷相对于窗口的位置，使得整个胶卷向左移动；调用JS中的定时器，实现轮播效果。流程图如下：二、实现自动切换效果1、HTML搭建基础框架分为图片展示窗口和上下页切换按键两部分>2、CSS设
Orange 单体架构 - 快速启动 mmd0308 Orange 开源项目架构开源
1后端服务1.1基础设施组件说明版本MySQLMySQL数据库服务5.7/8+JavaJava17redis-stackRedis向量数据库最新版本Node安装Node22.11.0+1.2orange-dependencies-parent项目Maven依赖版本管理1.2.1项目克隆GitHubgitclonehttps://github.com/hengzq/orange-dependenci
过滤器Filter " 微笑 spring
过滤器Filter1.快速入门什么是Filter？Filter表示过滤器，是JavaWeb三大组件(Servlet、Filter、Listener)之一。过滤器可以把对资源的请求拦截下来，从而实现一些特殊的功能使用了过滤器之后，要想访问web服务器上的资源，必须先经过滤器，过滤器处理完毕之后，才可以访问对应的资源。过滤器一般完成一些通用的操作，比如：登录校验、统一编码处理、敏感字符处理等。下面我们
k8s运维设置Pod实现JVM内存根据容器内存动态调整风行無痕 K8S kubernetes jvm 容器
一、实现方式推荐方案：利用JVM容器感知特性，按比例动态分配。适用场景‌：动态根据Pod内存限制自动分配堆内存，无需硬编码参数Java要求：Java8u191+或Java11+Java8u191+或Java11+支持通过-XX:InitialRAMPercentage替代-Xms，根据容器内存限制自动计算堆内存。在容器环境变量中配置-XX:MaxRAMPercentage=75.0，使JVM根据容
基于Redis分布锁+事务补偿解决数据不一致性问题 yiridancan 并发编程 Redis 分布式 redis 数据库缓存
基于Redis的分布式设备库存服务设计与实现概述本文介绍一个基于Redis实现的分布式设备库存服务方案，通过分布式锁、重试机制和事务补偿等关键技术，保证在并发场景下库存操作的原子性和一致性。该方案适用于物联网设备管理、分布式资源调度等场景。代码实现importjava.util.HashMap;importjava.util.Map;importorg.slf4j.Logger;importorg
Java并发实战——CountDownLatch优化商品详情页数据加载 1加1等于 Java并发 java 开发语言多线程
本文将结合电商场景比如优化商品详情页数据加载，深入探讨CountDownLatch的工作原理及实际应用。本文目录1.简介2.商品详情页数据加载优化实战3.CountDownLatch的优势4.其他应用场景5.使用误区1.简介CountDownLatch是Java并发包java.util.concurrent中的一个同步工具类。允许一个或多个线程等待，直到其他一组线程完成一系列操作。CountDow
Java进阶——常用类及常用方法详解 1加1等于 Java java
本文将深入探讨Java常用类的核心知识点以及在日常工作中的使用场景。本文目录一、String类1.不可变性2.字符串常量池3.比较字符串二、日期时间常用类1.Java8引入2.时间计算三、Math数值处理四、Optional空值处理五、异常处理类六、枚举类一、String类1.不可变性String类是不可变的，这意味着一旦创建就不能被修改。在进行字符串拼接时，需要注意性能问题。//不推荐：会创建多
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交