Answer_Ball

全网最详细——用java实现网页信息爬虫

java网页爬虫的实现

爬取某数字网站公司信息

第一步
第二步
第三步
第四步
详细代码

爬取某数字网站公司信息

第一步

首先先分析页面url，爬虫最重要的就是获取页面的url，观察要爬取页面的url查看其规律找到其构成元素，一般都会有id、页面信息等
然后分析页面请求数据后返回的数据类型，有的页面信息直接在html代码中，有的返回的是json，根据不同情况分别解析便可

第二步

模仿浏览器访问，否则可能会被封ip，代码如下

// 创建httpclient实例
        CloseableHttpClient httpclient = HttpClients.createDefault();
        String url = "https://\"www.hah.com\"";
        // 创建httpget实例
        HttpGet httpget = new HttpGet(url);
        // 模拟浏览器 ✔
        httpget.setHeader("User-Agent",
                "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:50.0) Gecko/20100101 Firefox/60.0");
        // 使用代理 IP ✔
//        HttpHost proxy = new HttpHost("192.168.1.124", 8080);
        RequestConfig config = RequestConfig.custom()
                //设置连接超时 ✔
                .setConnectTimeout(10000) // 设置连接超时时间 10秒钟
                .setSocketTimeout(10000) // 设置读取超时时间10秒钟
                .build();
        httpget.setConfig(config);
        // 执行get请求
        CloseableHttpResponse response = httpclient.execute(httpget);
        HttpEntity entity = response.getEntity();
        // 获取返回实体（页面代码）
        String content = EntityUtils.toString(entity, "utf-8");
        //System.out.println(content);

第三步

解析页面：如果页面返回的是html代码，有两种方法解析
（1）、用jsoup获得html标签，找到你想获得的信息所在标签，可根据其class定位它，在分别获取属性值和内容便可，例：

					//获取class中值为 ico bz-border的标签
					Elements s3 = text.getElementsByAttributeValue("class", "ico bz-border");
					//获取a标签
					Elements a = text.getElementsByTag("a");
					//获取a中的href属性值
                    String href = a.get(0).attr("href");
                    //获取a标签中的内容
                    String ka = a.get(1).text();

（2）、用正则表达式解析获得html标签，属性值等，可以分层获取解析，如果不能解析，可利用string API中的方法截取字符串等例：

					//获取class中值为 ico bz-border的标签
					Elements s3 = text.getElementsByAttributeValue("class", "ico bz-border");
					//获取a标签
					Elements a = text.getElementsByTag("a");
					//获取a中的href属性值
                    String href = a.get(0).attr("href");
                    //获取a标签中的内容
                    String ka = a.get(1).text();

//用正则解析代码
        String a = "]*>([^<]*)";
        String aTag = "]*>([^<]*)";
        Pattern aPattern = Pattern.compile(aTag);
        Matcher aMatcher = aPattern.matcher(content);
        //System.out.println("解析a为："+ amatcher.find());
        String reg = "[^\\u4e00-\\u9fa5]";
        //判断地址是否规范
        String judge = "false";
        while (aMatcher.find()) {
            String allMessage = aMatcher.group();
            //System.out.println("解析a为："+allMessage);
            //使用正则表达式
            Pattern pattern = Pattern.compile("[^\\u4E00-\\u9FA5]");
            //[\u4E00-\u9FA5]是unicode2的中文区间
            Matcher matcher = pattern.matcher(allMessage);
            String doubleAddress = matcher.replaceAll("");
           // System.out.println("解析doubleAddress为："+doubleAddress);
            //System.out.println("汉字长度为"+matcher.replaceAll(""));
            //System.out.println("汉字为："+doubleAddress);
            if(doubleAddress.equals("搜职位")){
                judge = "true";

            }
        }

解析页面：如果页面返回的是json，直接解析json即可

第四步

把数据存储数据库或导出文件即可

//导出文件

public class ExportExcel {

    HSSFWorkbook workbook = new HSSFWorkbook();// 创建工作簿对象 中有多个sheet
    //显示的导出表的标题
    private String title;
    //导出表的列名
    private String[] rowName;
    private List> list = new ArrayList>();
    private List countList = new ArrayList<>();
    private String[] categoryName;
    //构造方法，传入要导出的数据
    public ExportExcel(String title, String[] rowName, List> list, String[] categoryName, List countList) {
        this.list = list;
        this.rowName = rowName;
        this.title = title;
        this.categoryName = categoryName;
        this.countList = countList;
    }
    public ExportExcel(String title, String[] rowName) {
        this.rowName = rowName;
        this.title = title;
    }
    public void exportPersonInfo2(String sheetTitle,List countList) throws Exception {
        try {
            HSSFSheet sheet = workbook.createSheet(sheetTitle);// 创建工作表
            sheet.setColumnWidth(1, 4000);
            sheet.setColumnWidth(2, 20000);
            HSSFCellStyle style = this.getStyle(workbook);
            HSSFCellStyle numberStyle = this.getNumberStype(workbook);
            HSSFCellStyle headStyle = this.getColumnTopStyle(workbook);
            int columnNum = rowName.length;
            HSSFRow rowRowName = sheet.createRow(2);                // 在索引2的位置创建行(最顶端的行开始的第二行)
            HSSFRow rowRowName2 = sheet.createRow(3);                // 在索引2的位置创建行(最顶端的行开始的第二行)

            // 将列头设置到sheet的单元格中
            for (int n = 0; n < columnNum; n++) {
                HSSFCell cellRowName = rowRowName.createCell(n);                //创建列头对应个数的单元格
                cellRowName.setCellType(HSSFCell.CELL_TYPE_STRING);
                cellRowName.setCellStyle(headStyle);
                HSSFCell cellRowName2 = rowRowName2.createCell(n);                //创建列头对应个数的单元格
                cellRowName2.setCellType(HSSFCell.CELL_TYPE_STRING);
                cellRowName2.setCellStyle(headStyle);
                sheet.addMergedRegion(new CellRangeAddress(2, 3, n, n));
                //设置列头单元格的数据类型
                HSSFRichTextString text = new HSSFRichTextString(rowName[n]);
                cellRowName.setCellValue(text);                                    //设置列头单元格的值
                // HSSFCell cell = row.createCell((short) cellIndex);
                //创建表头
                HSSFRow row=sheet.createRow(1);
                //合并列
                HSSFCell cell=row.createCell(0);
                cell.setCellValue(sheetTitle);
//                CellRangeAddress callRangeAddress1 = new CellRangeAddress(1,1,0,2);;
                cell.setCellType(HSSFCell.CELL_TYPE_STRING);
                cell.setCellStyle(headStyle);
            }
            //将查询出的数据设置到sheet对应的单元格中
            List dataList = countList;
            System.out.println(dataList.size());
            for (int i = 0; i < dataList.size(); i++) {
                HSSFRow row = sheet.createRow(i + 6);//创建所需的行数
                HSSFCell cell1 = row.createCell(0, HSSFCell.CELL_TYPE_STRING);
                cell1.setCellStyle(style);
                cell1.setCellValue(i + 1);
                HSSFCell cell2 = row.createCell(1, HSSFCell.CELL_TYPE_STRING);
                cell2.setCellStyle(style);
                cell2.setCellValue(dataList.get(i).getCompanyName());
                HSSFCell cell3 = row.createCell(2, HSSFCell.CELL_TYPE_STRING);
                cell3.setCellStyle(style);
                cell3.setCellValue(dataList.get(i).getCompanyUrl());
            }
        } catch (Exception e) {
            e.printStackTrace();
        }

    }
   }

详细代码

package com.mbyte.easy.admin.controller;

import java.io.IOException;

import java.util.Arrays;
import java.util.Scanner;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import com.mbyte.easy.admin.entity.FiveEightCity;
import com.mbyte.easy.admin.service.IFiveEightCityService;
import com.sun.org.apache.xerces.internal.parsers.DOMParser;
import net.sourceforge.pinyin4j.PinyinHelper;
import net.sourceforge.pinyin4j.format.HanyuPinyinCaseType;
import net.sourceforge.pinyin4j.format.HanyuPinyinOutputFormat;
import net.sourceforge.pinyin4j.format.HanyuPinyinToneType;
import net.sourceforge.pinyin4j.format.HanyuPinyinVCharType;
import net.sourceforge.pinyin4j.format.exception.BadHanyuPinyinOutputFormatCombination;
import org.apache.http.HttpEntity;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.config.RequestConfig;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;

import javax.xml.parsers.ParserConfigurationException;

import static java.lang.Integer.parseInt;

public class TestHttp {

    /**
     * 获取总页数
     * @param args
     * @throws IOException
     */
    public static void main(String[] args) throws IOException {

        // 创建httpclient实例
        CloseableHttpClient httpclient = HttpClients.createDefault();
        System.out.print("请输入需要查找的公司关键字：");
        Scanner in = new Scanner(System.in);
        String Keyword=in.next();

        System.out.print("请输入需要查找的公司所在城市：");
        Scanner in1 = new Scanner(System.in);
        String city = in1.next();

        TestHttp pinyin11 = new TestHttp();
        String cityPI = pinyin11.getPinYin(city);
        System.out.println("+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++"+cityPI);

        String url = "https://"+cityPI+".******.com/job/?key="+Keyword+"&classpolicy=main_null,job_A&final=1&jump=1";
        // 创建httpget实例
        HttpGet httpget = new HttpGet(url);
        // 模拟浏览器 ✔
        httpget.setHeader("User-Agent",
                "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:50.0) Gecko/20100101 Firefox/60.0");
        // 使用代理 IP ✔
//        HttpHost proxy = new HttpHost("192.168.1.124", 8080);
        RequestConfig config = RequestConfig.custom()
                //设置连接超时 ✔
                .setConnectTimeout(10000) // 设置连接超时时间 10秒钟
                .setSocketTimeout(10000) // 设置读取超时时间10秒钟
                .build();
        httpget.setConfig(config);
        // 执行get请求
        CloseableHttpResponse response = httpclient.execute(httpget);
        HttpEntity entity = response.getEntity();
        // 获取返回实体（页面代码）
        String content = EntityUtils.toString(entity, "utf-8");
        //System.out.println(content);
        //用正则解析代码
        String a = "]*>([^<]*)";
        String aTag = "]*>([^<]*)";
        Pattern aPattern = Pattern.compile(aTag);
        Matcher aMatcher = aPattern.matcher(content);
        //System.out.println("解析a为："+ amatcher.find());
        String reg = "[^\\u4e00-\\u9fa5]";
        //判断地址是否规范，如果没有搜职位即是主页面
        String judge = "false";
        while (aMatcher.find()) {
            String allMessage = aMatcher.group();
            //System.out.println("解析a为："+allMessage);
            //使用正则表达式
            Pattern pattern = Pattern.compile("[^\\u4E00-\\u9FA5]");
            //[\u4E00-\u9FA5]是unicode2的中文区间
            Matcher matcher = pattern.matcher(allMessage);
            String doubleAddress = matcher.replaceAll("");
           // System.out.println("解析doubleAddress为："+doubleAddress);
            //System.out.println("汉字长度为"+matcher.replaceAll(""));
            //System.out.println("汉字为："+doubleAddress);
            if(doubleAddress.equals("搜职位")){
                judge = "true";

            }
        }
		//获取页面信息的总页数
        String iTag = "]*>([^<]*)";
        Pattern iPattern = Pattern.compile(iTag);
        Matcher iMatcher = iPattern.matcher(content);
        String allPage = "-1";
        while (iMatcher.find()){
            String iMessage = iMatcher.group();
            //System.out.println("解析i为："+ iMessage);
            if(iMessage.length()>=27 && iMessage.length()<=28){
                Pattern pattern = Pattern.compile("[^\\u4E00-\\u9FA5]");
                //[\u4E00-\u9FA5]是unicode2的中文区间
                Matcher matcher = pattern.matcher(iMessage);
                String haveChinese = matcher.replaceAll("");
                if(haveChinese.length()==0){
                    //System.out.println("解析i为："+ iMessage);
                    String regEx3 = "[0-9]";
                    allPage = matchResult(Pattern.compile(regEx3),iMessage);
                    //System.out.println("解析allPage为："+ allPage);
                }
            }
        }
        //System.out.println("解析allPage为："+ allPage);
        //System.out.println("judge："+ judge);
        TestHttp testHttp = new TestHttp();
        int page = parseInt(allPage);
        //加入判断看信息是否正确，且信息有几页，采用不同的方式调用爬取方法
        if(judge.equals("true")){
            if(page == -1){
                System.out.println("没有与\""+Keyword+"\"关键字匹配的信息！");
            }else if(page == 1){
                testHttp.branchPage(page,Keyword);
            }else{
                for(int i = 1 ; i <= page ; i++){
                    testHttp.branchPage(i,Keyword);
                }
            }
        }else{
            System.out.println("输入的\""+city+"\"地址不存在！");
        }

    }

    /**
     * 获取字符串中的数字
     * @param p
     * @param str
     * @return
     */
    public static String matchResult(Pattern p,String str)
    {
        StringBuilder sb = new StringBuilder();
        Matcher m = p.matcher(str);
        while (m.find())
            for (int i = 0; i <= m.groupCount(); i++)
            {
                sb.append(m.group());
            }
        return sb.toString();
    }

    /**
     * 爬取信息
     * @param page
     * @param keyword
     * @throws IOException
     */
    public void branchPage(int page,String keyword) throws IOException {

        // 创建httpclient实例
        CloseableHttpClient httpclient = HttpClients.createDefault();
        String url = "https://bd.58.com/job/?key=" + keyword + "&classpolicy=main_null,job_A&final=1&jump=1&page=" + page;
        // 创建httpget实例
        HttpGet httpget = new HttpGet(url);
        // 模拟浏览器 ✔
        httpget.setHeader("User-Agent",
                "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:50.0) Gecko/20100101 Firefox/60.0");
        // 使用代理 IP ✔
//        HttpHost proxy = new HttpHost("192.168.1.124", 8080);
        RequestConfig config = RequestConfig.custom()
                //设置连接超时 ✔
                .setConnectTimeout(10000) // 设置连接超时时间 10秒钟
                .setSocketTimeout(10000) // 设置读取超时时间10秒钟
                .build();
        httpget.setConfig(config);
        // 设置爬取时间间隔 5s
        try {
            Thread.sleep(5000);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
        // 执行get请求
        CloseableHttpResponse response = httpclient.execute(httpget);
        HttpEntity entity = response.getEntity();
        // 获取返回实体（页面代码）
        String content = EntityUtils.toString(entity, "utf-8");
        //System.out.println(content);
        System.out.println("==================================================================================================");
//        String a = "]*>([^<]*)";
        //用正则解析代码，解析a标签
        String aTag = "]*>([^<]*)";
        Pattern aPattern = Pattern.compile(aTag);
        Matcher aMatcher = aPattern.matcher(content);
        //System.out.println("解析a为："+ amatcher.find());
        String reg = "[^\\u4e00-\\u9fa5]";
        while (aMatcher.find()) {
            String allMessage = aMatcher.group();
            if (allMessage.length() >= 235 && allMessage.length() <= 262) {
                //使用正则表达式，用StringAPI获取想要信息
                Pattern pattern = Pattern.compile("[^\\u4E00-\\u9FA5]");
                //[\u4E00-\u9FA5]是unicode2的中文区间
                Matcher matcher = pattern.matcher(allMessage);
                String doubleAddress = matcher.replaceAll("");
                //System.out.println("汉字长度为"+matcher.replaceAll(""));
                if (doubleAddress.length() > 8) {
                   String href = allMessage.substring(10, 43);
                  if(href.indexOf("https") != -1){
                       String hrefs = href.replaceAll(" ", "");
                       //System.out.println("hrefs：" + hrefs);
                       if(href.length() > hrefs.length()){
                           String hrefUrl = hrefs.substring(0, 28);
                           if(hrefUrl.indexOf("\"") != -1){
                               String hrefUrls = hrefUrl.substring(0,hrefUrl.length()-1);
                               System.out.println("链接：" + hrefUrls);
                               int length = doubleAddress.length() / 2;
                               String address = doubleAddress.substring(0, length);
                               System.out.println("地址：" + address);
                           }
                       }else{
                           if(href.indexOf("\"") != -1){
                               String hrefUrls = href.substring(0,href.length()-1);
                               System.out.println("链接：" + hrefUrls);
                               int length = doubleAddress.length() / 2;
                               String address = doubleAddress.substring(0, length);
                               System.out.println("地址：" + address);
                           }else{
                               System.out.println("链接：" + href);
                               int length = doubleAddress.length() / 2;
                               String address = doubleAddress.substring(0, length);
                               System.out.println("地址：" + address);
                           }
                       }
                   }
                }
            }
        }
    }

    /**
     * 将汉字转换成拼音
     * @param inputString
     * @return
     */
    public static String getPinYin(String inputString) {
        HanyuPinyinOutputFormat format = new HanyuPinyinOutputFormat();
        format.setCaseType(HanyuPinyinCaseType.LOWERCASE);
        format.setToneType(HanyuPinyinToneType.WITHOUT_TONE);
        format.setVCharType(HanyuPinyinVCharType.WITH_V);

        char[] input = inputString.trim().toCharArray();
        String output = "";

        try {
            for (int i = 0; i < input.length; i++) {
                if (java.lang.Character.toString(input[i]).matches("[\\u4E00-\\u9FA5]+")) {
                    String[] temp = PinyinHelper.toHanyuPinyinStringArray(input[i], format);
                    output += temp[0];
                } else
                    output += java.lang.Character.toString(input[i]);
            }
        } catch (BadHanyuPinyinOutputFormatCombination e) {
            e.printStackTrace();
        }
        return output;
    }
}

UnityShader实现水渲染源 unity shader
今天分享一下如何使用Shader实现水体渲染和波浪扰动效果我们一般可以使用Plane去模拟水平面，创建好Plane后,结合自己项目的风格去搞一个水体贴图，可以在网上下载，我这里直接用这张1准备工作完毕，直接上代码Shader"Custom/WaterShader"{Properties{_BaseColor("BaseColor",Color)=(0,0.5,1,1)//水的基色_NormalM
k8s中PAUSE容器与init容器比较 local卷与hostpath卷比较小刘爱喇石( ˝ᗢ̈˝ ) kubernetes 容器云原生
目录一、PAUSE容器与INIT容器比较1.Pause容器作用特点示例2.Init容器作用特点示例3.Pause容器vsInit容器4.总结这两个哪个先启动呢？详细启动顺序为什么Pause容器最先启动？示例总结二、local卷与hostpath卷1.local卷定义特点配置示例2.hostPath卷定义特点配置示例3.local卷vshostPath卷4.选择建议一、PAUSE容器与INIT容器比
k8s服务中userspace，iptables，和ipvs的比较小刘爱喇石( ˝ᗢ̈˝ ) kubernetes 云原生
在Kubernetes中，kube-proxy是负责实现服务负载均衡的组件。它支持三种代理模式：userspace、iptables和ipvs。这三种模式在性能、功能和复杂性上有所不同。以下是它们的详细比较：1.Userspace模式Userspace是Kubernetes最早支持的代理模式，kube-proxy在用户空间监听服务的IP和端口，并将流量转发到后端Pod。工作原理kube-proxy
基于FPGA的DDS连续FFT 仿真验证 toonyhe FPGA开发 fpga开发 DDS FFT IFFT
基于FPGA的DDS连续FFT仿真验证1摘要本文聚焦AMDLogiCOREIPFastFourierTransform(FFT)核心，深入剖析其在FPGA设计中的应用。该FFT核心基于Cooley-Tukey算法，具备丰富特性，如支持多种数据精度、算术类型及灵活的运行时配置。文中详细介绍了其架构选项、端口设计、理论运算原理，以及在不同场景下的动态范围特性。同时，结合VivadoDesignSuit
手机号码归属地API：助力数字化服务的利器 api
前言在当今数字化时代，手机号码已成为人们日常生活中不可或缺的一部分，而手机号码归属地API作为一种高效、便捷的网络服务接口，正逐渐成为众多行业提升用户体验和服务质量的重要工具。什么是手机号码归属地API？手机号码归属地API是一种允许开发者通过编程方式查询手机号码注册地信息的网络服务接口。它通常由第三方服务提供商通过HTTP请求的方式提供。通过这种API，开发者可以快速获取手机号码的归属地信息，包
外贸英语报价单制作步骤分享，可在线编辑财务管理系统财务软件进销存系统
在国际贸易中，一份专业、清晰的外贸英语报价单是赢得客户信任的关键工具。它不仅需要准确传递产品信息与价格条款，还需符合国际商务规范。本文将深入解析外贸英语报价单的核心要素，并介绍如何通过ZohoBooks快速制作标准化模板，提升业务效率与竞争力。一、外贸英语报价单模板的核心要素一份完整的报价单需涵盖以下关键内容：1、基础信息标题与编号：明确标注“Quotation”或“ProformaInvoice
这些搜索技巧你不会？前端后端
Hey,我是沉浸式趣谈本文首发于【沉浸式趣谈】，我的个人博客https://yaolifeng.com也同步更新。转载请在文章开头注明出处和版权信息。如果本文对您有所帮助，请点赞、评论、转发，支持一下，谢谢！每天搜索，你却只会简单输入几个词？搜索结果总被广告和无关内容淹没？掌握这些搜索技巧，让你不再在信息海洋中迷失，直达目标信息！基础搜索技巧1.多关键词搜索方式：关键词1关键词2关键词3例如：Py
Win NAS 的数据传输原理分析，超级详细！ DeepSeek+NAS 家用NAS WinNAS 飞牛NAS 人工智能安卓NAS
WinNAS是一款运行在Windows系统上的NAS服务，允许用户通过手机客户端远程访问和管理电脑上的文件。为了实现这一功能，WinNAS与手机之间的数据传输过程涉及多个步骤，具体取决于手机和WinNAS电脑所处的网络环境。以下是整个数据传输过程的详细说明：1.权限认证与连接建立无论手机和WinNAS电脑是否在同一个局域网内，手机客户端在访问WinNAS之前，都需要先通过耘想公司的云服务器进行权限
APP怎么抓取原生日志 - Android篇大汉堡玩测试 android 功能测试
文章目录前言为什么要抓原生页面的日志举一个抓取原生日志的例子AndroidDebugBridge(ADB)安装ADB连接设备验证连接抓取日志注意点总结前言好困~写点我觉得重要的吧，IOS和HarmonyOSNEXT这周写为什么要抓原生页面的日志原生日志能够捕捉到与操作系统和应用框架交互的关键信息，包括性能瓶颈、崩溃报告和安全事件等，而这些是纯H5日志无法提供的，确保了对应用行为的全面监控和精准调试
Python 正则表达式小结1 大收藏家 Python 正则表达式 python
[声明]：本文参考了白夜黑雨老师的网页讲解。如有侵权，请与我联系！！！Python正则表达式小结11.正则表达式验证2.特殊元字符及含义3匹配某种字符类型4.正则表达式举例大收藏家说1.正则表达式验证提供两个网站用于正则表达式的验证，可以敲入文本与正则表达式。通过该网站，验证正则表达式的正确性。非常好用！英文网站中文网站2.特殊元字符及含义元字符含义.表示要匹配除了换行符之外的任何单个字符*星号-
前端解决跨域的几种方案爱分享的程序员前端前端
以下是前端解决跨域问题的7种主流方案，根据应用场景和实现难度排序，附详细实现示例：一、开发环境解决方案1.WebpackDevServer代理（推荐）//vue.config.js/webpack.config.jsmodule.exports={devServer:{proxy:{'/api':{target:'http://backend-domain.com',//后端地址changeOri
react 技术栈请问该如何优化 DOM 大小混血哲谈 react.js 前端前端框架
针对React应用中DOM大小过大的问题，以下是详细的优化方案和具体操作步骤，帮助你提升Lighthouse性能评分和用户体验：一、问题根源分析DOM大小过大（如超过1500个节点或深度超过32层）会导致：渲染性能下降：浏览器解析和渲染DOM的时间增加。内存占用过高：大量DOM节点占用更多内存，影响低端设备表现。交互延迟：事件监听器绑定过多节点时，响应变慢。常见原因：未优化的列表渲染（如长列表一次
webpack的SplitChunksPlugin和在路由或组件级别进行拆分混血哲谈 webpack 前端 node.js
请问下面内容中提到的SplitChunksPlugin和“在路由或组件级别进行拆分是一种更简单的方法，可用于延迟加载应用的不同部分”在前端项目中如何应用？“”“在大型应用中，延迟加载第三方依赖项并不是常见的模式。通常，第三方依赖项会拆分为单独的供应商软件包，因为它们的更新频率较低，因此可以缓存。您可以详细了解SplitChunksPlugin如何帮助您实现这一点。使用客户端框架时，在路由或组件级别
MarkDown 输出表格的方法龙之叶技术 Markdown markdown
MarkDown用来输出表格很简单，比Word手搓表格简单多了，而且方便修改。MarkDown代码：|A|B|C|D||:-|-:|:-:|-||1|b|c|d||2|b|c|d||3|b|c|d||4|b|c|d||5|b|c|d|显示效果：ABCD1bcd2bcd3bcd4bcd5bcdA列强制左对齐，B列强制右对齐，C列强制居中对齐，D列默认对齐。默认对齐在PC端网页显示为表格标题和内容都居
CVPR 2024 | 低分辨率引领方向：通过自监督学习提升超分辨率的泛化能力小白学视觉计算机顶会顶刊论文解读计算机视觉深度学习 CVPR 计算机顶会论文解读
论文信息题目：Low-ResLeadstheWay:ImprovingGeneralizationforSuper-ResolutionbySelf-SupervisedLearning低分辨率引领方向：通过自监督学习提升超分辨率的泛化能力作者：HaoyuChen,WenboLi,JinjinGu,JingjingRen,HaozeSun,XueyiZou,ZhensongZhang,Youlia
什么是MCP？看不懂你打我 X.Cristiano 深度学习 MCP
什么是MCP？MCP是一种协议，它实现了大模型资源调用的标准化。千百年来，随着人类社会的发展，标准化的进程不断推进。大模型与外部资源的对接同样需要标准化，MCP正是为此而生！接下来的文字，或许，将帮助你奶奶明白MCP对于她意味着什么。2011年，微信发布。想象一下，你奶奶刚开始用微信。那时，还没有小程序。她的体验或许是这样的：第一个月，她惊喜地发现微信能订电影票了！再过一个月，她发现微信又能约出租
星型组网和路由器组网的区别森焱森架构网络智能路由器
星型组网和路由器组网是两种不同的网络架构，它们都可以用于构建局域网（LAN）。以下是它们的详细比较：星型组网(StarTopology)：1.拓扑结构：星型组网是一种物理拓扑结构，其中所有的终端设备（如计算机、打印机、手机等）都通过无线或有线连接到一个中心设备（通常是接入点AP，如果是有线网络则是集线器或交换机）。2.特点：3.所有设备都依赖于中心设备（AP或交换机）进行通信。4.任何设备之间的通
自学网络安全（黑客技术）2025年 —三个月学习计划 csbDD web安全学习安全网络 python
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包前言什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习
算法基础——蓝桥杯（python实现，实际上大多数用c++更明白易懂）（第一部分，共12个小题） New_Teen 算法蓝桥杯 python
1.成绩统计问题描述:编写一个程序，建立一个字典，每个字典包含姓名、学号、英语成绩、数学成绩和C++成绩，并通过字典操作平均分最高的学生和平均分最低的学生并且输出。输入格式：输入n+1行，第一行输入一个正整数n，表示学生数量；接下来的n行每行输入5个数据，分别表示姓名、学号、英语成绩、数学成绩和C++成绩。注意成绩有可能会有小数。输出格式：输出两行，第一行输出平均成绩最高的学生姓名。第二行输出平均
Webpack4从入门到精通以及和webpack5对比_webpack现在用的是哪个版本 2501_90253044 webpack 前端 node.js
'css-loader',//less-loader：将less文件编译成css文件，需要下载less-loader和less'less-loader'],},{test:/\.css$/,//使用多个loader用use,使用一个loader用loaderuse:['style-loader','css-loader'],},{//url-loader：处理图片资源，问题：默认处理不了html中
2025年零基础入门学网络安全（详细），看这篇就够了网安大师兄 web安全安全网络网络安全密码学
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包一、自学网络安全学习的误区和陷阱1.不要试图先成为一名程序员（以编程为基础的学习）再开始学习我在之前的回答中，我都一再强调不要以编程为基础再开始学习网络安全，一般来说，学习编程不但学习周期长，而且实际向安全过渡后可用到的关键知识并不多一般人如果想要把编程学好再开始学习网络安全往往需要花费很长时间，容易半途而废。而且学习编程只是工具不是
【C++】动态规划从入门到精通諰. 动态规划 c++
一、动态规划基础概念详解什么是动态规划动态规划（DynamicProgramming，DP）是一种通过将复杂问题分解为重叠子问题，并存储子问题解以避免重复计算的优化算法。它适用于具有以下两个关键性质的问题：最优子结构：问题的最优解包含子问题的最优解重叠子问题：不同决策序列会重复求解相同的子问题下面用一些例子（由浅入深）了解动态规划1.1斐波那契数列递归实现解析intfib(intn){if(n>d
rag-给一篇几百页的pdf，如何从中找到关键信息并汇总出关系图蒸土豆的技术细节人工智能
小思考对pdf肯定要做模糊chunk，能用模型切分就用模型切分，不能用模型就用规则，规则要尽可能保存连续文本，特殊数据格式（图、表格）必须完整保存，必须能被捕捉到。这些独立的表格or图数据，也要单独做embedding，以其中的title和行列title信息作embedding材料。也不能忘了传统搜索方法，基于搜索的、基于传统词频的、基于关键字的。。。假设已经找到了信息所在的目标，如果它是个表格，
【C语言】动态内存管理用realloc管理更灵活 xiaofann_ C c语言算法
realloc——动态内存空间管理更灵活为了合理使用内存，我们会对内存的大小做灵活的调整。那realloc函数就可以做到对动态开辟内存大小的调整。头文件：#includevoid*realloc(要调整的内存地址,调整之后新大小)void*realloc(void*ptr,size_tsize)注意：返回值为调整之后的内存起始位置。这个函数调整原内存空间大小的基础上，还会将原来内存中的数据移动到新
Python用Pyqt5制作音乐播放器 Aix959 python 开发语言
具体效果如下需要实现的功能主要的几个有：1、搜索结果更新至当前音乐的列表，这样播放下一首是搜素结果的下一首2、自动播放3、滚动音乐文本4、音乐进度条5、根据实际情况生成音乐列表。我这里的是下面的情况，音乐文件的格式是歌名_歌手.mp3所以根据需求修改find_mp3_files方法，我这里返回的是[{"path":音乐文件路径,"music":歌名,"singer":歌手},{"path":音乐文
商店管理系统 Charon424 c语言链表数据结构
源代码：//商店管理系统（人员信息，商品信息）#include#include#include#includetypedefstructdate//出生年月日{intyear;intmonth;intday;}DATA;typedefstructinformation//人员信息{charname[20];//名字longid;//编号charsex[20];//性别charfunction[20
论云原生架构及其应用桃花键神云原生架构
摘要：2021年7月，我所在的公司承担了广东省某医院的网上预约挂号项目的开发工作，我有幸作为系统架构师参与整个系统的开发过程，并负责了系统架构设计工作。该系统以预约挂号为主线，其中包括管理平台审核、确认挂号、订单支付、更新预约状态等业务模块。本文以网上预约挂号项目为例，详细论述了云原生架构在该项目中的具体应用。系统以SpringCloud微服务框架开发，分为前端Web服务、平台保障服务、业务服务三
jieba库词频统计_jieba分词器（应用及字典的补充）及文档高频词提取实战袁圆园建建 jieba库词频统计
jieba分词器是Python中最好的中文分词组件，本文讲解一下jieba分词器及其应用。1、jieba分词器的分词模式jieba分词器提供了三种常用的分词模式1、精确模式：将句子按照最精确的方法进行切分，适合用于进行文本分析；2、全模式：将句子当中所有可以成词的词语都扫描出来，分词速度很快但容易产生歧义；3、搜索引擎模式：在精确模式分词的基础上，将长的句子再次进行切分，提高召回率，适用于搜索引擎
风控算法（一）——数据测试月亮月亮要去太阳机器学习人工智能
下面的内容都是针对数据源测试的一些可能得问题：1、请描述你在开发和执行数据测试流程时的具体步骤。确定样本（对齐样本与时间，去除假样本）——确定特征（确认目前特征）——数据信息（返回的数据字典、收费方式、底层数据：特征、分数）——数据清洗（缺失值替换）——数据训练形成报告。2、如何确定数据产品在风险模型中的潜在价值和适用性的？AUC、IV、相关性、性价比、数据产品背景和领域3、请详细描述你负责的10
[C/C++][VsCode]使用VsCode在Linux上开发和Vscode在线调试 ★Orange★ Linux C++嵌入式 c语言 c++vscode
目录0.前言1.win10上搭建环境Linux环境2.编写makefile3.怎么在线调试结语0.前言在开发中，可以一边开发一边调试，这样可以大大的减少bug；但是正常来说一个大点的项目，是不太可能单步调试的，因为一般都是用make或者CMake，甚至安卓中的Android.bp来编译；因此检查调试程序，仅能通过编译后，烧录到目标板子上或者搭建好的环境上，根据Log信息来调试，这样确实有点麻烦，但
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，

全网最详细——用java实现网页信息爬虫

java网页爬虫的实现

爬取某数字网站公司信息

第一步

第二步

第三步

第四步

详细代码

你可能感兴趣的:(全网最详细——用java实现网页信息爬虫)