abc20899

网络爬虫（Spider）Java实现原理

网络爬虫（Spider）Java实现原理
     “网络蜘蛛”或者说“网络爬虫”，是一种能访问网站并跟踪链接的程序，通过它，可快速地画出一个网站所包含的网页地图信息。本文主要讲述如何使用Java编程来构建一个“蜘蛛”，我们会先以一个可复用的蜘蛛类包装一个基本的“蜘蛛”，并在示例程序中演示如何创建一个特定的“蜘蛛”来扫描相关网站并找出死链接。
    * Java语言在此非常适合构建一个“蜘蛛”程序，其内建了对HTTP协议的支持，通过它可以传输大部分的网页信息；其还内建了一个HTML解析器，正是这两个原因使Java语言成为本文构建“蜘蛛”程序的首选。
      文章后面

      例1的示例程序，将会扫描一个网站，并寻找死链接。

      *如何使用？

      使用这个程序时需先输入一个URL并单击“Begin”按钮，程序开始之后，“Begin”按钮会变成“Cancel”按钮。在程序扫描网站期间，会在“Cancel”按钮之下显示进度，且在检查当前网页时，也会显示相关正常链接与死链接的数目，死链接将显示在程序底部的滚动文本框中。单击“Cancel”按钮会停止扫描过程，之后可以输入一个新的URL；如果期间没有单击“Cancel”，程序将会一直运行直到查找完所有网页，此后，“Cancel”按钮会再次变回“Begin”，表示程序已停止。
      下面将演示示例程序是如何与可复用“Spider”类交互的，示例程序包含在例1的CheckLinks类中，这个类实现了ISpiderReportable接口，如例2所示，正是通过这个接口，蜘蛛类才能与示例程序相交互。在这个接口中，定义了三个方法：

      第一个方法是“spiderFoundURL”，它在每次程序定位一个URL时被调用，如果方法返回true，表示程序应继续执行下去并找出其中的链接；

      第二个方法是“spiderURLError”，它在每次程序检测URL导致错误时被调用（如“404 页面未找到”）；

       第三个方法是“spiderFoundEMail”，它在每次发现电子邮件地址时被调用。有了这三个方法，Spider类就能把相关信息反馈给创建它的程序了。
     在begin方法被调用后，“蜘蛛”就开始工作了；为允许程序重绘其用户界面，“蜘蛛”是作为一个单独的线程启动的。点击“Begin”按钮会开始这个后台线程，当后台线程运行之后，又会调用“CheckLinks”类的run方法，而run方法是由Spider对象实例化时启动的，如下所示：
spider = new Spider(this);
spider.clear();
base = new URL(url.getText());
spider.addURL(base);
spider.begin();
     首先，一个新的Spider对象被实例化，在此，需要传递一个“ISpiderReportable”对象给Spider对象的构造函数，因为“CheckLinks”类实现了“ISpiderReportable”接口，只需简单地把它作为当前对象（可由关键字this表示）传递给构造函数即可；其次，在程序中维护了一个其访问过的URL列表，而“clear”方法的调用则是为了确保程序开始时URL列表为空，程序开始运行之前必须添加一个URL到它的待处理列表中，此时用户输入的URL则是添加到列表中的第一个，程序就由扫描这个网页开始，并找到与这个起始URL相链接的其他页面；最后，调用“begin”方法开始运行“蜘蛛”，这个方法直到“蜘蛛”工作完毕或用户取消才会返回。
     当“蜘蛛”运行时，可以调用由“ISpiderReportable”接口实现的三个方法来报告程序当前状态，程序的大部分工作都是由“spiderFoundURL”方法来完成的，当“蜘蛛”发现一个新的URL时，它首先检查其是否有效，如果这个URL导致一个错误，就会把它当作一个死链接；如果链接有效，就会继续检查它是否在一个不同的服务器上，如果链接在同一服务器上，“spiderFoundURL”返回true，表示“蜘蛛”应继续跟踪这个URL并找出其他链接，如果链接在另外的服务器上，就不会扫描是否还有其他链接，因为这会导致“蜘蛛”不断地浏览Internet，寻找更多、更多的网站，所以，示例程序只会查找用户指定网站上的链接。
构造Spider类
前面已经讲了如何使用Spider类，请看例3中的代码。使用Spider类及“ISpiderReportable”接口能方便地为某一程序添加“蜘蛛”功能，下面继续讲解Spider类是怎样工作的。
Spider类必须保持对其访问过的URL的跟踪，这样做的目的是为了确保“蜘蛛”不会访问同一URL一次以上；进一步来说，“蜘蛛”必须把URL分成三组：

        第一组存储在“workloadWaiting”属性中，包含了一个未处理的URL列表，“蜘蛛”要访问的第一个URL也存在其中；

        第二组存储在“workloadProcessed”中，它是“蜘蛛”已经处理过且无需再次访问的URL；

        第三组存储在“workloadError”中，包含了发生错误的URL。
Begin方法包含了Spider类的主循环，其一直重复遍历“workloadWaiting”，并处理其中的每一个页面，当然我们也想到了，在这些页面被处理时，很可能有其他的URL添加到“workloadWaiting”中，所以，begin方法一直继续此过程，直到调用Spider类的cancel方法，或“workloadWaiting”中已不再剩有URL。这个过程如下：
cancel = false;
while ( !getWorkloadWaiting().isEmpty() && !cancel ) {
Object list[] = getWorkloadWaiting().toArray();
for ( int i=0; (i
processURL((URL)list[i]);
}
当上述代码遍历“workloadWaiting”时，它把每个需处理的URL都传递“processURL”方法，而这个方法才是真正读取并解析URL中HTML信息的。
读取并解析HTML
      Java同时支持访问URL内容及解析HTML，而这正是“processURL”方法要做的。在Java中读取URL内容相对还比较简单，下面就是“processURL”方法实现此功能的代码：
URLConnection connection = url.openConnection();
if ( (connection.getContentType()!=null) &&!connection.getContentType().toLowerCase().startsWith("text/") ) {
getWorkloadWaiting().remove(url);
getWorkloadProcessed().add(url);
log("Not processing because content type is: " +
connection.getContentType() );
return;
}
首先，为每个传递进来的变量url中存储的URL构造一个“URLConnection”对象，因为网站上会有多种类型的文档，而“蜘蛛”只对那些包含HTML，尤其是基于文本的文档感兴趣。前述代码是为了确保文档内容以“text/”打头，如果文档类型为非文本，会从等待区移除此URL，并把它添加到已处理区，这也是为了保证不会再次访问此URL。在对特定URL建立连接之后，接下来就要解析其内容了。下面的代码打开了URL连接，并读取内容：

InputStream is = connection.getInputStream();

Reader r = new InputStreamReader(is);

现在，我们有了一个Reader对象，可以用它来读取此URL的内容，对本文中的“蜘蛛”来说，只需简单地把其内容传递给HTML解析器就可以了。本例中使用的HTML解析器为Swing HTML解析器，其由Java内置，但由于Java对HTML解析的支持力度不够，所以必须重载一个类来实现对HTML解析器的访问，这就是为什么我们要调用“HTMLEditorKit”类中的“getParser”方法。但不幸的是，Sun公司把这个方法置为protected，唯一的解决办法就是创建自己的类并重载“getParser”方法，并把它置为public，这由“HTMLParse”类来实现，请看例4：

import javax.swing.text.html.*;

public class HTMLParse extends HTMLEditorKit {

public HTMLEditorKit.Parser getParser()

{

return super.getParser();

}

}

这个类用在Spider类的“processURL”方法中，我们也会看到，Reader对象会用于读取传递到“HTMLEditorKit.Parser”中网页的内容：

HTMLEditorKit.Parser parse = new HTMLParse().getParser();

parse.parse(r,new Parser(url),true);

请留意，这里又构造了一个新的Parser类，这个Parser类是一个Spider类中的内嵌类，而且还是一个回调类，它包含了对应于每种HTML tag将要调用的特定方法。在本文中，我们只需关心两类回调函数，它们分别对应一个简单tag（即不带结束tag的tag，如

）和一个开始tag，这两类回调函数名为“handleSimpleTag”和“handleStartTag”。因为每种的处理过程都是一样的，所以“handleStartTag”方法仅是简单地调用“handleSimpleTag”，而“handleSimpleTag”则会负责从文档中取出超链接，这些超链接将会用于定位“蜘蛛”要访问的其他页面。在当前tag被解析时，“handleSimpleTag”会检查是否存在一个“href”或超文本引用：

String href = (String)a.getAttribute(HTML.Attribute.HREF);

if( (href==null) && (t==HTML.Tag.FRAME) )

href = (String)a.getAttribute(HTML.Attribute.SRC);

if ( href==null )

return;

如果不存在“href”属性，会继续检查当前tag是否为一个Frame，Frame会使用一个“src”属性指向其他页面，一个典型的超链接通常为以下形式：

上面链接中的“href”属性指向其链接到的页面，但是“linkedpage.html”不是一个地址，它只是指定了这个Web服务器上一个页面上的某处，这称为相对URL，相对URL必须被解析为绝对URL，而这由以下代码完成：

URL url = new URL(base,str);

这又会构造一个URL，str为相对URL，base为这个URL上的页面，这种形式的URL类构造函数可构造一个绝对URL。在URL变为正确的绝对形式之后，通过检查它是否在等待区，来确认此URL是否已经被处理过。如果此URL没有被处理过，它会添加到等待区，之后，它会像其他URL一样被处理。

相关的代码如下所示：

1.CheckLinks.java

import java.awt.*;
       import javax.swing.*;
       import java.net.*;
       import java.io.*;
public class CheckLinks extends javax.swing.JFrame implements
             Runnable,ISpiderReportable {

public CheckLinks()
{
    //{{INIT_CONTROLS
    setTitle("Find Broken Links");
    getContentPane().setLayout(null);
    setSize(405,288);
    setVisible(true);
    label1.setText("Enter a URL:");
    getContentPane().add(label1);
    label1.setBounds(12,12,84,12);
    begin.setText("Begin");
    begin.setActionCommand("Begin");
    getContentPane().add(begin);
    begin.setBounds(12,36,84,24);
    getContentPane().add(url);
    url.setBounds(108,36,288,24);
    errorScroll.setAutoscrolls(true);
    errorScroll.setHorizontalScrollBarPolicy(javax.swing.
                ScrollPaneConstants.HORIZONTAL_SCROLLBAR_ALWAYS);
    errorScroll.setVerticalScrollBarPolicy(javax.swing.
                ScrollPaneConstants.VERTICAL_SCROLLBAR_ALWAYS);
    errorScroll.setOpaque(true);
    getContentPane().add(errorScroll);
    errorScroll.setBounds(12,120,384,156);
    errors.setEditable(false);
    errorScroll.getViewport().add(errors);
    errors.setBounds(0,0,366,138);
    current.setText("Currently Processing: ");
    getContentPane().add(current);
    current.setBounds(12,72,384,12);
    goodLinksLabel.setText("Good Links: 0");
    getContentPane().add(goodLinksLabel);
    goodLinksLabel.setBounds(12,96,192,12);
    badLinksLabel.setText("Bad Links: 0");
    getContentPane().add(badLinksLabel);
    badLinksLabel.setBounds(216,96,96,12);
    //}}
//{{INIT_MENUS
    //}}

    //{{REGISTER_LISTENERS
    SymAction lSymAction = new SymAction();
    begin.addActionListener(lSymAction);
    //}}
}

static public void main(String args[])
{
    (new CheckLinks()).setVisible(true);
}

public void addNotify()
{
    // Record the size of the window prior to calling parent's
    // addNotify.
    Dimension size = getSize();

super.addNotify();

    if ( frameSizeAdjusted )
      return;
    frameSizeAdjusted = true;

// Adjust size of frame according to the insets and menu bar
    Insets insets = getInsets();
    javax.swing.JMenuBar menuBar = getRootPane().getJMenuBar();
    int menuBarHeight = 0;
    if ( menuBar != null )
      menuBarHeight = menuBar.getPreferredSize().height;
    setSize(insets.left + insets.right + size.width, insets.top +
                          insets.bottom + size.height +
                          menuBarHeight);
}

// Used by addNotify
boolean frameSizeAdjusted = false;

//{{DECLARE_CONTROLS
javax.swing.JLabel label1 = new javax.swing.JLabel();

javax.swing.JButton begin = new javax.swing.JButton();

javax.swing.JTextField url = new javax.swing.JTextField();

javax.swing.JScrollPane errorScroll =
        new javax.swing.JScrollPane();

javax.swing.JTextArea errors = new javax.swing.JTextArea();
javax.swing.JLabel current = new javax.swing.JLabel();
javax.swing.JLabel goodLinksLabel = new javax.swing.JLabel();
javax.swing.JLabel badLinksLabel = new javax.swing.JLabel();
//}}

//{{DECLARE_MENUS
//}}

protected Thread backgroundThread;

protected Spider spider;

protected URL base;

protected int badLinksCount = 0;

protected int goodLinksCount = 0;

class SymAction implements java.awt.event.ActionListener {
    public void actionPerformed(java.awt.event.ActionEvent event)
    {
      Object object = event.getSource();
      if ( object == begin )
        begin_actionPerformed(event);
    }
}

void begin_actionPerformed(java.awt.event.ActionEvent event)
{
    if ( backgroundThread==null ) {
      begin.setLabel("Cancel");
      backgroundThread = new Thread(this);
      backgroundThread.start();
      goodLinksCount=0;
      badLinksCount=0;
    } else {
      spider.cancel();
    }

}

public void run()
{
    try {
      errors.setText("");
      spider = new Spider(this);
      spider.clear();
      base = new URL(url.getText());
      spider.addURL(base);
      spider.begin();
      Runnable doLater = new Runnable()
      {
        public void run()
        {
          begin.setText("Begin");
        }
      };
      SwingUtilities.invokeLater(doLater);
      backgroundThread=null;

    } catch ( MalformedURLException e ) {
      UpdateErrors err = new UpdateErrors();
      err.msg = "Bad address.";
      SwingUtilities.invokeLater(err);

    }
}

public boolean spiderFoundURL(URL base,URL url)
{
    UpdateCurrentStats cs = new UpdateCurrentStats();
    cs.msg = url.toString();
    SwingUtilities.invokeLater(cs);

    if ( !checkLink(url) ) {
      UpdateErrors err = new UpdateErrors();
      err.msg = url+"(on page " + base + ")\n";
      SwingUtilities.invokeLater(err);
      badLinksCount++;
      return false;
    }

    goodLinksCount++;
    if ( !url.getHost().equalsIgnoreCase(base.getHost()) )
      return false;
    else
      return true;
}

public void spiderURLError(URL url)
{
}

protected boolean checkLink(URL url)
{
    try {
      URLConnection connection = url.openConnection();
      connection.connect();
      return true;
    } catch ( IOException e ) {
      return false;
    }
}

public void spiderFoundEMail(String email)
{
}

class UpdateErrors implements Runnable {
    public String msg;
    public void run()
    {
      errors.append(msg);
    }
}

class UpdateCurrentStats implements Runnable {
    public String msg;
    public void run()
    {
      current.setText("Currently Processing: " + msg );
      goodLinksLabel.setText("Good Links: " + goodLinksCount);
      badLinksLabel.setText("Bad Links: " + badLinksCount);
    }
}
}

2.ISpiderReportable .java

import java.net.*;

interface ISpiderReportable {
public boolean spiderFoundURL(URL base,URL url);
public void spiderURLError(URL url);
public void spiderFoundEMail(String email);
}

3.Spider .java

import java.util.*;
       import java.net.*;
       import java.io.*;
       import javax.swing.text.*;
       import javax.swing.text.html.*;

public class Spider {

protected Collection workloadError = new ArrayList(3);

protected Collection workloadWaiting = new ArrayList(3);

protected Collection workloadProcessed = new ArrayList(3);

protected ISpiderReportable report;

protected boolean cancel = false;

public Spider(ISpiderReportable report)
{
    this.report = report;
}

public Collection getWorkloadError()
{
    return workloadError;
}

public Collection getWorkloadWaiting()
{
    return workloadWaiting;
}

public Collection getWorkloadProcessed()
{
    return workloadProcessed;
}

public void clear()
{
    getWorkloadError().clear();
    getWorkloadWaiting().clear();
    getWorkloadProcessed().clear();
}

public void cancel()
{
    cancel = true;
}

public void addURL(URL url)
{
    if ( getWorkloadWaiting().contains(url) )
      return;
    if ( getWorkloadError().contains(url) )
      return;
    if ( getWorkloadProcessed().contains(url) )
      return;
    log("Adding to workload: " + url );
    getWorkloadWaiting().add(url);
}

public void processURL(URL url)
{
    try {
      log("Processing: " + url );
      // get the URL's contents
      URLConnection connection = url.openConnection();
      if ( (connection.getContentType()!=null) &&
           !connection.getContentType().toLowerCase().startsWith("text/") ) {
        getWorkloadWaiting().remove(url);
        getWorkloadProcessed().add(url);
        log("Not processing because content type is: " +
             connection.getContentType() );
        return;
      }

      // read the URL
      InputStream is = connection.getInputStream();
      Reader r = new InputStreamReader(is);
      // parse the URL
      HTMLEditorKit.Parser parse = new HTMLParse().getParser();
      parse.parse(r,new Parser(url),true);
    } catch ( IOException e ) {
      getWorkloadWaiting().remove(url);
      getWorkloadError().add(url);
      log("Error: " + url );
      report.spiderURLError(url);
      return;
    }
    // mark URL as complete
    getWorkloadWaiting().remove(url);
    getWorkloadProcessed().add(url);
    log("Complete: " + url );

}

public void begin()
{
    cancel = false;
    while ( !getWorkloadWaiting().isEmpty() && !cancel ) {
      Object list[] = getWorkloadWaiting().toArray();
      for ( int i=0;(i<list.length)&&!cancel;i++ )
        processURL((URL)list[i]);
    }
}

protected class Parser
extends HTMLEditorKit.ParserCallback {
    protected URL base;

    public Parser(URL base)
    {
      this.base = base;
    }

    public void handleSimpleTag(HTML.Tag t,
                                MutableAttributeSet a,int pos)
    {
      String href = (String)a.getAttribute(HTML.Attribute.HREF);

      if( (href==null) && (t==HTML.Tag.FRAME) )
        href = (String)a.getAttribute(HTML.Attribute.SRC);

      if ( href==null )
        return;

      int i = href.indexOf('#');
      if ( i!=-1 )
        href = href.substring(0,i);

      if ( href.toLowerCase().startsWith("mailto:") ) {
        report.spiderFoundEMail(href);
        return;
      }

      handleLink(base,href);
    }

    public void handleStartTag(HTML.Tag t,
                               MutableAttributeSet a,int pos)
    {
      handleSimpleTag(t,a,pos);    // handle the same way

    }

    protected void handleLink(URL base,String str)
    {
      try {
        URL url = new URL(base,str);
        if ( report.spiderFoundURL(base,url) )
          addURL(url);
      } catch ( MalformedURLException e ) {
        log("Found malformed URL: " + str );
      }
    }
}

public void log(String entry)
{
    System.out.println( (new Date()) + ":" + entry );
}
}

4.HTMLParse .java

import javax.swing.text.html.*;

public class HTMLParse extends HTMLEditorKit {

public HTMLEditorKit.Parser getParser()
{
    return super.getParser();
}
}

解决Spring Boot中Chrome浏览器Session ID频繁变动的问题遥不可及~~斌 spring boot chrome 后端
解决SpringBoot中Chrome浏览器SessionID频繁变动的问题在使用SpringBoot实现RedisSession后，Chrome内核的浏览器（如Chrome、Edge等）可能会出现SessionID频繁变动的问题，而IE浏览器则表现正常。这通常与浏览器对Cookie的处理机制以及SpringSession的配置有关。本文将详细分析问题的原因，并提供相应的解决方案。问题原因分析1.
c++基础冰凉的保温瓶 c++开发 c++
extern关键字https://www.cnblogs.com/honernan/p/13431431.html定义和声明在介绍extern之前，我们需要了解一下变量的声明和定义。变量的声明指向程序表名变量的类型和名字，即使得名字为程序所知，一个文件如果想使用别处定义的名字则必须包含对那个名字的声明。而变量的定义指申请存储空间，并将其与变量名相关联，除此之外，还可以为变量指定初始值。在程序中变量
Java、Python、PHP、Go：网站开发语言全维度对比与选择指南生信天地开发语言 java python
在数字化转型浪潮中，网站开发技术的选择直接影响着项目的成败。Java、Python、PHP、Go四门语言凭借各自特性，在不同场景中展现出独特的竞争力。根据Statista2024年开发者调查报告，Java仍以34%的企业级应用占比位居榜首，而Go以27%的增速成为云原生领域新宠。本文基于技术特性、行业案例及发展趋势，深度解析四大语言的优劣势，助您做出精准技术选型。一、性能与并发能力：高负载场景的生
面试中JVM常被问到的问题以及对应的答案酷爱码经验分享面试 jvm 职场和发展
在面试中，关于JVM常被问到的问题以及对应的答案可能包括：什么是JVM？它的作用是什么？答：JVM是Java虚拟机的缩写，是Java程序运行的环境。它负责将Java源代码编译成字节码并运行在不同平台上。请解释一下JVM的内存结构。答：JVM内存结构主要包括堆内存、方法区、虚拟机栈、本地方法栈和程序计数器等部分。什么是Java的垃圾回收机制？答：Java的垃圾回收机制是通过不再被引用的对象由垃圾收集
Java入门第72课——String字符串基本操作猴子学编程 Java零基础课程 Java字符串 String StringBuilder
1.1String及其常用API1.1.1String是不可变对象·java.lang.String使用了final修饰，不能被继承；·字符串底层封装了字符数组及针对字符数组的操作算法；·字符串一旦创建，对象永远无法改变，但字符串引用可以重新赋值；·Java字符串在内存中采用Unicode编码方式，任何一个字符对应两个字节的定长编码。1.1.2String常量池·Java为了提高性能，静态字符串(
Springboot乐动健身房管理系统6xl64计算机毕业设计-课程设计-期末作业-毕设程序代做含宇网络 spring boot java 后端
Springboot乐动健身房管理系统6xl64计算机毕业设计-课程设计-期末作业-毕设程序代做【免费赠送源码】Springboot乐动健身房管理系统6xl64计算机毕业设计-课程设计-期末作业-毕设程序代做本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、
Java XML与JSON相互转换详解我真的不想做程序员 java java xml json 开发语言后端数据结构
目录一、为什么需要XML与JSON转换二、使用Jackson库进行转换1.添加依赖2.XML转JSON3.JSON转XML三、注意事项在现代软件开发中，数据格式的转换是一项常见的任务，特别是在处理不同系统或服务之间的数据交换时。XML（可扩展标记语言）和JSON（JavaScript对象表示法）是两种广泛使用的数据格式。本文将深入探讨如何在Java中实现XML与JSON之间的相互转换，并提供完整的
Java Stream 流的介绍吱屋猪_ java
介绍在Java8中，引入了StreamAPI，它为处理集合（如List、Set等）提供了一种更简洁、声明式的方式。Stream流的设计目标是支持对数据集合的高效操作，尤其是能够进行链式操作、并行处理等，极大地提升了代码的可读性和可维护性。本文将介绍JavaStream流的基础概念、常用操作以及如何利用Stream进行集合数据处理。1.什么是Stream流Stream是Java8引入的一个新的类，它
当 Selenium 的 click() /send_keys()等方法失效时：JavaScript 在 UI 自动化测试中的神奇用法做测试的小薄测试高阶 selenium javascript ui 自动化测试
引言在使用Selenium进行WebUI自动化测试时，我们通常依赖Selenium提供的原生方法（如click()、send_keys()等）来操作页面元素。然而，在某些复杂场景下，这些方法可能会失效。例如：元素被遮挡或隐藏。页面加载延迟导致元素无法正常交互。某些特殊的动态行为无法通过Selenium原生方法触发。这时，JavaScript就成为了我们的“救星”。通过driver.execute_
做个简易的计算器酷小亚 java基础面向对象
使用多态实现计算器的加减乘除，根据运算符不同实例化不同子类进行计算（运算符可键盘接收输入）例如：加法有num1、num2属性，方法：计算求和减法有num1、num2属性，方法：计算求差乘法有num1、num2属性，方法：计算求乘除法有num1、num2属性，方法：计算求除先看效果图：代码如下：packagecom_03.jin;importjava.util.Scanner;/***使用多态实现计
Spring基本使用沉下心来学技术 spring java 后端
Spring是什么？Spring是一个开源框架，它由RodJohnson创建，于2003年发布。Spring框架的主要目标是简化Java企业级应用的开发，通过提供一组全面的解决方案，如依赖注入、控制反转（IOC）、面向切面编程（AOP）、事务管理等，使得开发者能够更加专注于业务逻辑的实现，而不是底层的细节。官网：https://spring.io/projects/spring-framework
Pytest项目_day01（HTTP接口）丿罗小黑 Pytest pytest http 网络协议
HTTPHTTP是一个协议（服务器传输超文本到浏览器的传送协议），是基于TCP/IP通信协议来传输数据（HTML文件，图片文件，查询结果等）。访问域名例如www.baidu.com就是百度的域名，我们想要访问百度，就需要使用DNS，来将www.baidu.com域名解析为ip地址。随后客户端向服务端发起TCP请求，三次握手进行连接，三次握手如下：客户端向服务端说：你准备好了吗，我要发送请求了服务端
Java创造型模式之原型模式详解菜就多练少说设计模式 java 开发语言
设计模式是面向对象设计中的一种标准方法，用于解决常见的设计问题。原型设计模式（PrototypePattern）是23种经典设计模式之一，属于创建型模式，它允许通过复制现有对象来创建新对象，而不是通过构造函数或工厂方法来创建。这样，开发者可以在运行时通过复制原型对象来快速生成新的对象，极大地提高了程序的灵活性和性能。本文将深入讲解Java中的原型设计模式，解释其概念、使用场景、以及如何在Java中
高级java每日一道面试题-2025年3月06日-微服务篇[Eureka篇]-Eureka服务注册与发现是什么? java我跟你拼了 java每日一道面试题 java 微服务 eureka
如果有遗漏,评论区告诉我进行补充面试官:Eureka服务注册与发现是什么我回答:根据你提供的详细解析，结合之前的回答，我们可以更加全面地理解Eureka服务注册与发现机制，并补充一些关键点，特别是针对面试准备的内容。一、服务注册（ServiceRegistration）核心机制：当服务提供者启动时，它会通过EurekaClient向EurekaServer发送元数据。这些元数据包括但不限于IP地址
==操作符、equals方法和hashcode是什么？它们之前有什么区别？小九没绝活 Java基础 java 开发语言 java-ee
在Java中，==、equals()和hashCode()是用于对象比较和哈希管理的核心机制，但它们的作用和适用场景有本质区别。以下是它们的详细说明和对比：一.==操作符作用基本数据类型：比较两个变量的值是否相等对象引用：比较两个对象的内存地址是否相同（即是否指向同一个对象）特点不可重写直接基于底层内存或值进行比较示例inta=10;intb=10;System.out.println(a==b)
oracle数据库转mysql数据库一直想成为大神的菜鸟数据库 oracle mysql
1.删除oracle相关配置1.1删除pom中的oracle依赖1.2删除有关@Configuration中oracle配置2.驱动引入引入mysql依赖mysqlmysql-connector-java8.0.13org.springframework.bootspring-boot-starter-jdbc3.配置文件更改spring:datasource:druid:url:jdbc:mys
Java高级编程深度解析：JVM底层原理、设计模式与Java 8+新特性实战幼儿园扛把子\ jdk java java 开发语言
Java语言高级（面向高级开发者）文章目录Java语言高级（面向高级开发者）1.JVM内存管理1.1内存区域1.2垃圾回收（GC）2.并发编程进阶2.1线程池2.2CAS与原子类3.设计模式3.1创建型模式3.2结构型模式4.注解与序列化4.1自定义注解4.2序列化5.Java8+新特性5.1Lambda表达式5.2StreamAPI6.总结1.JVM内存管理1.1内存区域区域作用特点堆（Heap
大语言模型的训练数据清洗策略 gs80140 AI python
目录大语言模型的训练数据清洗策略1.数据去重与标准化问题解决方案示例代码（Python实现数据去重）：2.过滤有害内容问题解决方案示例代码（基于关键词过滤有害内容）：3.纠正数据不均衡问题解决方案示例代码（欠采样非均衡数据）：4.识别和纠正刻板印象问题解决方案示例代码（简单的数据增强）：5.处理低质量与无关数据问题解决方案示例代码（去除HTML标签）：6.处理时效性数据问题解决方案示例代码（基于时
Spring Boot Starter 设计原理与实战：打造企业级自定义启动器 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBootStarter设计原理与实战：打造企业级自定义启动器一、引言在当今的企业级Ja
【ChatGPT】如何选择不同版本的Java 南天归鴻 java
下面提供一份综合多方专业平台（如Oracle、InfoWorld、DZone、AdoptOpenJDK、RedHat等）信息整理的Java版本推荐报告，数据截止至2025年3月18日。下文将对“最新版本”、“稳定的最新版本”、“最稳定的版本”以及“市面上最常用的版本”进行详细对比，并从版本特性、优势、劣势、学习/实验需求、企业生产需求、兼容性与安全性等角度进行分析，供各类用户参考。一、背景说明Ja
Java JDK代理、CGLIB、AspectJ代理分析比较骚年编程去 JAVA之美 spring java aop 动态代理 ASPECTJ
前言什么是代理,在DesignpatternsInjava这个本书中是这样描述的，简单的说就是为某个对象提供一个代理，以控制对这个对象的访问。在不修改源代码的基础上做方法增强,代理是一种设计模式，又简单的分为两种。静态代理:代理类和委托类在代码运行前关系就确定了,也就是说在代理类的代码一开始就已经存在了。动态代理:动态代理类的字节码在程序运行时的时候生成。静态代理先来看一个静态代理的例子，Calc
用VSCode做前端开发北子ALF 杂谈 vscode ide 编辑器
vscode写前端和记markdown还是很好用的，虽然在C++,Java和Python大型项目开发的体验不如vs,idea和pycharm自动生成html骨架打个感叹号预览网页：liveserver插件
超全Java入门学习路线指南 Javaaaaaaaaaaa13 java 开发语言前端 spring spring boot eclipse tomcat
Java基础入门Java高级阶段数据库和JDBCHtml&JavascriptJsp&ServletStruts2框架讲解Spring框架讲解Hibernate框架讲解流行技术学习1、Java基础入门1、Java入门基础如果你没有任何的编程基础，那么本栏目的内容对你来说是至关重要的。打好基础，以后学习就会一帆风顺了。我们会先讲解了Java程序的开发环境的搭建、编写流程、工作原理等内容，接着学习有关
网络安全入门教程（非常详细）从零基础入门到精通，看完这一篇就够了白帽黑客坤哥 web安全安全网络网络安全物联网
href="https://csdnimg.cn/release/blogv2/dist/mdeditor/css/editerView/kdoc_html_views-1a98987dfd.css"rel="stylesheet"/>href="https://csdnimg.cn/release/blogv2/dist/mdeditor/css/editerView/ck_htmledit_v
WebRTC 介绍 KillFuckBugs webrtc
WebRTC简介WebRTC（WebRealTimeCommunication，网页实时通信）是一个开源项目和技术标准，旨在为浏览器和应用程序提供实时通信功能，无需额外的插件或第三方软件。它最初由Google在2011年发起，现由W3C（万维网联盟）和IETF（互联网工程任务组）共同维护和标准化。WebRTC的核心目标是实现低延迟、高质量的音视频通信以及点对点数据传输，广泛应用于视频会议、实时聊天
Tomcat新手入门指南：从零开始安装与基本配置金枪鱼net tomcat
Tomcat新手入门指南：从零开始安装与基本配置Tomcat是一个广泛使用的Javaservlet容器，用于运行Web应用服务器。它将JavaBean转换为Servlet，并作为JVM的一个虚拟进程运行。以下是一步一步的教程，帮助您快速安装和配置Tomcat。第一步：准备环境安装JavaDevelopmentKit(JDK)打开命令提示符或Terminal。输入以下命令并按回车键：brewinst
线程协作全攻略：5大核心机制破解并发编程难题程序猿小白菜后端java生态圈线程 java 线程协作
引言：从生产者-消费者问题看线程协作本质在电商订单处理系统中，每秒需处理数万个订单的创建与物流信息更新。当生产者线程与消费者线程因处理速度差异导致系统吞吐量骤降时，如何实现高效协作成为关键。本文将揭秘Java线程协作的五大核心机制，并通过工业级案例展示其应用场景。一、基础同步机制1.1等待通知机制（Wait/Notify）//经典生产者实现publicsynchronizedvoidproduce
Spring Boot 配置属性 (Configuration Properties) 详解：优雅地管理应用配置无眠_ spring boot 前端后端
引言SpringBoot的配置属性(ConfigurationProperties)是其另一个核心特性，它提供了一种类型安全、结构化的方式来管理应用的配置信息。与自动配置相辅相成，配置属性允许开发者以声明式的方式将外部配置(如properties文件、YAML文件、环境变量等)绑定到Java对象，从而简化配置读取和使用，提高代码的可读性和可维护性。本文将深入解析SpringBoot配置属性的原理、
Spring Boot - Spring Boot 静态资源映射（默认静态资源映射、自定义静态资源映射）我命由我12345 Java -简化库与框架编程 spring boot 后端 java java-ee spring intellij-idea intellij idea
一、静态资源映射在SpringBoot中，静态资源的映射是指将特定的URL路径与静态资源关联起来静态资源有例如，HTML、CSS、JS、图片等这使得客户端可以通过URL路径访问这些资源二、默认静态资源映射概述SpringBoot默认会将以下目录中的文件映射为静态资源classpath:/static/classpath:/public/classpath:/resources/classpath:
JavaScript 性能优化实战【详细指南】 AI筑梦师 JavaScript javascript 性能优化开发语言
#JavaScript性能优化实战#JavaScript性能优化实战JavaScript作为现代Web开发的核心技术，其性能优化涉及多个层面，包括计算效率、DOM操作、异步处理、内存管理、网络请求优化等。随着Web发展，越来越多的新技术（如WebAssembly、OffscreenCanvas、StreamsAPI、V8TurboFan优化等）正在提升JavaScript的性能。本指南涵盖从基础优
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本

网络爬虫（Spider）Java实现原理

你可能感兴趣的:(java,html,浏览器,swing,网络协议)