baser

JAVA实现网络爬虫

简介

　　“网络蜘蛛”或者说“网络爬虫”，是一种能访问网站并跟踪链接的程序，通过它，可快速地画出一个网站所包含的网页地图信息。本文主要讲述如何使用Java编程来构建一个“蜘蛛”，我们会先以一个可复用的蜘蛛类包装一个基本的“蜘蛛”，并在示例程序中演示如何创建一个特定的“蜘蛛”来扫描相关网站并找出死链接。

　　Java语言在此非常适合构建一个“蜘蛛”程序，其内建了对HTTP协议的支持，通过它可以传输大部分的网页信息;其还内建了一个HTML解析器，正是这两个原因使Java语言成为本文构建“蜘蛛”程序的首选。

　　使用“蜘蛛”

　　文章后面例1的示例程序，将会扫描一个网站，并寻找死链接。使用这个程序时需先输入一个URL并单击“Begin”按钮，程序开始之后，“Begin”按钮会变成“Cancel”按钮。在程序扫描网站期间，会在“Cancel”按钮之下显示进度，且在检查当前网页时，也会显示相关正常链接与死链接的数目，死链接将显示在程序底部的滚动文本框中。单击“Cancel”按钮会停止扫描过程，之后可以输入一个新的URL;如果期间没有单击“Cancel”，程序将会一直运行直到查找完所有网页，此后，“Cancel”按钮会再次变回“Begin”，表示程序已停止。

　　下面将演示示例程序是如何与可复用“Spider”类交互的，示例程序包含在例1的CheckLinks类中，这个类实现了ISpiderReportable接口，如例2所示，正是通过这个接口，蜘蛛类才能与示例程序相交互。在这个接口中，定义了三个方法：第一个方法是“spiderFoundURL”，它在每次程序定位一个URL时被调用，如果方法返回true，表示程序应继续执行下去并找出其中的链接;第二个方法是“spiderURLError”，它在每次程序检测URL导致错误时被调用(如“404 页面未找到”);第三个方法是“spiderFoundEMail”，它在每次发现电子邮件地址时被调用。有了这三个方法，Spider类就能把相关信息反馈给创建它的程序了。

　　在begin方法被调用后，“蜘蛛”就开始工作了;为允许程序重绘其用户界面，“蜘蛛”是作为一个单独的线程启动的。点击“Begin”按钮会开始这个后台线程，当后台线程运行之后，又会调用“CheckLinks”类的run方法，而run方法是由Spider对象实例化时启动的，如下所示：

　　spider = new Spider(this);

　　spider.clear();

　　base = new URL(url.getText());

　　spider.addURL(base);

　　spider.begin();

　　首先，一个新的Spider对象被实例化，在此，需要传递一个“ISpiderReportable”对象给Spider对象的构造函数，因为“CheckLinks”类实现了“ISpiderReportable”接口，只需简单地把它作为当前对象(可由关键字this表示)传递给构造函数即可;其次，在程序中维护了一个其访问过的URL列表，而“clear”方法的调用则是为了确保程序开始时URL列表为空，程序开始运行之前必须添加一个URL到它的待处理列表中，此时用户输入的URL则是添加到列表中的第一个，程序就由扫描这个网页开始，并找到与这个起始URL相链接的其他页面;最后，调用“begin”方法开始运行“蜘蛛”，这个方法直到“蜘蛛”工作完毕或用户取消才会返回。

　　当“蜘蛛”运行时，可以调用由“ISpiderReportable”接口实现的三个方法来报告程序当前状态，程序的大部分工作都是由“spiderFoundURL”方法来完成的，当“蜘蛛”发现一个新的URL时，它首先检查其是否有效，如果这个URL导致一个错误，就会把它当作一个死链接;如果链接有效，就会继续检查它是否在一个不同的服务器上，如果链接在同一服务器上，“spiderFoundURL”返回true，表示“蜘蛛”应继续跟踪这个URL并找出其他链接，如果链接在另外的服务器上，就不会扫描是否还有其他链接，因为这会导致“蜘蛛”不断地浏览Internet，寻找更多、更多的网站，所以，示例程序只会查找用户指定网站上的链接。

　　构造Spider类

　　前面已经讲了如何使用Spider类，请看例3中的代码。使用Spider类及“ISpiderReportable”接口能方便地为某一程序添加“蜘蛛”功能，下面继续讲解Spider类是怎样工作的。

　　Spider类必须保持对其访问过的URL的跟踪，这样做的目的是为了确保“蜘蛛”不会访问同一URL一次以上;进一步来说，“蜘蛛”必须把URL分成三组，第一组存储在“workloadWaiting”属性中，包含了一个未处理的URL列表，“蜘蛛”要访问的第一个URL也存在其中;第二组存储在“workloadProcessed”中，它是“蜘蛛”已经处理过且无需再次访问的URL;第三组存储在“workloadError”中，包含了发生错误的URL。

　　Begin方法包含了Spider类的主循环，其一直重复遍历“workloadWaiting”，并处理其中的每一个页面，当然我们也想到了，在这些页面被处理时，很可能有其他的URL添加到“workloadWaiting”中，所以，begin方法一直继续此过程，直到调用Spider类的cancel方法，或“workloadWaiting”中已不再剩有URL。这个过程如下：

　　cancel = false;

　　while ( !getWorkloadWaiting().isEmpty() && !cancel ) {

　　Object list[] = getWorkloadWaiting().toArray();

　　for ( int i=0;(i

　　processURL((URL)list[i]);

　　}

　　当上述代码遍历“workloadWaiting”时，它把每个需处理的URL都传递给“processURL”方法，而这个方法才是真正读取并解析URL中HTML信息的。

　　读取并解析HTML

　　Java同时支持访问URL内容及解析HTML，而这正是“processURL”方法要做的。在Java中读取URL内容相对还比较简单，下面就是“processURL”方法实现此功能的代码：

　　URLConnection connection = url.openConnection();

　　if ( (connection.getContentType()!=null) &&

　　!connection.getContentType().toLowerCase()

　　.startsWith("text/") ) {

　　getWorkloadWaiting().remove(url);

　　getWorkloadProcessed().add(url);

　　log("Not processing because content type is: " +

　　connection.getContentType() );

　　return;

　　}

　　首先，为每个传递进来的变量url中存储的URL构造一个“URLConnection”对象，因为网站上会有多种类型的文档，而“蜘蛛”只对那些包含HTML，尤其是基于文本的文档感兴趣。前述代码是为了确保文档内容以“text/”打头，如果文档类型为非文本，会从等待区移除此URL，并把它添加到已处理区，这也是为了保证不会再次访问此URL。

　　在对特定URL建立连接之后，接下来就要解析其内容了。下面的代码打开了URL连接，并读取内容：

　　InputStream is = connection.getInputStream();

　　Reader r = new InputStreamReader(is);

　　现在，我们有了一个Reader对象，可以用它来读取此URL的内容，对本文中的“蜘蛛”来说，只需简单地把其内容传递给HTML解析器就可以了。本例中使用的HTML解析器为Swing HTML解析器，其由Java内置，但由于Java对HTML解析的支持力度不够，所以必须重载一个类来实现对HTML解析器的访问，这就是为什么我们要调用“HTMLEditorKit”类中的“getParser”方法。但不幸的是，Sun公司把这个方法置为protected，唯一的解决办法就是创建自己的类并重载“getParser”方法，并把它置为public，这由“HTMLParse”类来实现，请看例4：

　　import javax.swing.text.html.*;

　　public class HTMLParse extends HTMLEditorKit {

　　public HTMLEditorKit.Parser getParser()

　　{

　　return super.getParser();

　　}

　　这个类用在Spider类的“processURL”方法中，我们也会看到，Reader对象会用于读取传递到“HTMLEditorKit.Parser”中网页的内容：

　　HTMLEditorKit.Parser parse = new HTMLParse().getParser();

　　parse.parse(r,new Parser(url),true);

　　请留意，这里又构造了一个新的Parser类，这个Parser类是一个Spider类中的内嵌类，而且还是一个回调类，它包含了对应于每种HTML tag将要调用的特定方法。在本文中，我们只需关心两类回调函数，它们分别对应一个简单tag(即不带结束tag的tag，如<br>)和一个开始tag，这两类回调函数名为“handleSimpleTag”和“handleStartTag”。因为每种的处理过程都是一样的，所以“handleStartTag”方法仅是简单地调用“handleSimpleTag”，而“handleSimpleTag”则会负责从文档中取出超链接，这些超链接将会用于定位“蜘蛛”要访问的其他页面。在当前tag被解析时，“handleSimpleTag”会检查是否存在一个“href”或超文本引用：

　　String href = (String)a.getAttribute(HTML.Attribute.HREF);

　　if( (href==null) && (t==HTML.Tag.FRAME) )

　　href = (String)a.getAttribute(HTML.Attribute.SRC);

　　if ( href==null )

　　return;

　　如果不存在“href”属性，会继续检查当前tag是否为一个Frame，Frame会使用一个“src”属性指向其他页面，一个典型的超链接通常为以下形式：

　　<a href="linkedpage.html">Click Here</a>

　　上面链接中的“href”属性指向其链接到的页面，但是“linkedpage.html”不是一个地址，它只是指定了这个Web服务器上一个页面上的某处，这称为相对URL，相对URL必须被解析为绝对URL，而这由以下代码完成：

　　URL url = new URL(base,str);

　　这又会构造一个URL，str为相对URL，base为这个URL上的页面，这种形式的URL类构造函数可构造一个绝对URL。在URL变为正确的绝对形式之后，通过检查它是否在等待区，来确认此URL是否已经被处理过。如果此URL没有被处理过，它会添加到等待区，之后，它会像其他URL一样被处理。

　　例1：查找死链接(ChcekLinks.java)

　　import java.awt.*;

　　import javax.swing.*;

　　import java.net.*;

　　import java.io.*;

　　public class CheckLinks extends javax.swing.JFrame implements

　　Runnable,ISpiderReportable {

　　public CheckLinks()

　　{

　　//{{INIT_CONTROLS

　　setTitle("找到死链接");

　　getContentPane().setLayout(null);

　　setSize(405,288);

　　setVisible(false);

　　label1.setText("输入一个URL：");

　　getContentPane().add(label1);

　　label1.setBounds(12,12,84,12);

　　begin.setText("Begin");

　　begin.setActionCommand("Begin");

　　getContentPane().add(begin);

　　begin.setBounds(12,36,84,24);

　　getContentPane().add(url);

　　url.setBounds(108,36,288,24);

　　errorScroll.setAutoscrolls(true);

　　errorScroll.setHorizontalScrollBarPolicy(javax.swing.

　　ScrollPaneConstants.HORIZONTAL_SCROLLBAR_ALWAYS);

　　errorScroll.setVerticalScrollBarPolicy(javax.swing.

　　ScrollPaneConstants.VERTICAL_SCROLLBAR_ALWAYS);

　　errorScroll.setOpaque(true);

　　getContentPane().add(errorScroll);

　　errorScroll.setBounds(12,120,384,156);

　　errors.setEditable(false);

　　errorScroll.getViewport().add(errors);

　　errors.setBounds(0,0,366,138);

　　current.setText("当前处理进度：");

　　getContentPane().add(current);

　　current.setBounds(12,72,384,12);

　　goodLinksLabel.setText("正常链接:0");

　　getContentPane().add(goodLinksLabel);

　　goodLinksLabel.setBounds(12,96,192,12);

　　badLinksLabel.setText("死链接:0");

　　getContentPane().add(badLinksLabel);

　　badLinksLabel.setBounds(216,96,96,12);

　　//}}

　　//{{INIT_MENUS

　　//}}

　　//{{REGISTER_LISTENERS

　　SymAction lSymAction = new SymAction();

　　begin.addActionListener(lSymAction);

　　//}}

　　}

　　/**

　　*参数args未使用

　　static public void main(String args[])

　　{

　　(new CheckLinks()).setVisible(true);

　　}

　　/**

　　*添加通知

　　public void addNotify()

　　{

　　//记录窗口尺寸并调用父类的addNotify.

　　Dimension size = getSize();

　　super.addNotify();

　　if ( frameSizeAdjusted )

　　return;

　　frameSizeAdjusted = true;

　　//根据菜单栏等调整Frame尺寸

　　Insets insets = getInsets();

　　javax.swing.JMenuBar menuBar = getRootPane().getJMenuBar();

　　int menuBarHeight = 0;

　　if ( menuBar != null )

　　menuBarHeight = menuBar.getPreferredSize().height;

　　setSize(insets.left + insets.right + size.width, insets.top +

　　insets.bottom + size.height +

　　menuBarHeight);

　　}

　　boolean frameSizeAdjusted = false;

　　//{{DECLARE_CONTROLS

　　javax.swing.JLabel label1 = new javax.swing.JLabel();

　　javax.swing.JButton begin = new javax.swing.JButton();

　　javax.swing.JTextField url = new javax.swing.JTextField();

　　javax.swing.JScrollPane errorScroll =

　　new javax.swing.JScrollPane();

　　/**

　　*存储错误信息

　　javax.swing.JTextArea errors = new javax.swing.JTextArea();

　　javax.swing.JLabel current = new javax.swing.JLabel();

　　javax.swing.JLabel goodLinksLabel = new javax.swing.JLabel();

　　javax.swing.JLabel badLinksLabel = new javax.swing.JLabel();

　　//}}

　　//{{DECLARE_MENUS

　　//}}

　　/**

　　*后台蜘蛛线程

　　protected Thread backgroundThread;

　　protected Spider spider;

　　protected URL base;

　　protected int badLinksCount = 0;

　　protected int goodLinksCount = 0;

　　/**

　　*用于分发事件的内部类

　　class SymAction implements java.awt.event.ActionListener {

　　public void actionPerformed(java.awt.event.ActionEvent event)

　　{

　　Object object = event.getSource();

　　if ( object == begin )

　　begin_actionPerformed(event);

　　}

　　/**

　　*当begin或cancel按钮被点击时调用

　　*参数event与按钮相连

　　void begin_actionPerformed(java.awt.event.ActionEvent event)

　　{

　　if ( backgroundThread==null ) {

　　begin.setLabel("Cancel");

　　backgroundThread = new Thread(this);

　　backgroundThread.start();

　　goodLinksCount=0;

　　badLinksCount=0;

　　} else {

　　spider.cancel();

　　}

　　/**

　　*执行后台线程操作

　　public void run()

　　{

　　try {

　　errors.setText("");

　　spider = new Spider(this);

　　spider.clear();

　　base = new URL(url.getText());

　　spider.addURL(base);

　　spider.begin();

　　Runnable doLater = new Runnable()

　　{

　　public void run()

　　{

　　begin.setText("Begin");

　　}

　　};

　　SwingUtilities.invokeLater(doLater);

　　backgroundThread=null;

　　} catch ( MalformedURLException e ) {

　　UpdateErrors err = new UpdateErrors();

　　err.msg = "错误地址。";

　　SwingUtilities.invokeLater(err);

　　}

　　/**

　　*当找到某一URL时由蜘蛛调用，在此验证链接。

　　*参数base是找到链接时的页面

　　*参数url是链接地址

　　public boolean spiderFoundURL(URL base,URL url)

　　{

　　UpdateCurrentStats cs = new UpdateCurrentStats();

　　cs.msg = url.toString();

　　SwingUtilities.invokeLater(cs);

　　if ( !checkLink(url) ) {

　　UpdateErrors err = new UpdateErrors();

　　err.msg = url+"(on page " + base + ")\n";

　　SwingUtilities.invokeLater(err);

　　badLinksCount++;

　　return false;

　　}

　　goodLinksCount++;

　　if ( !url.getHost().equalsIgnoreCase(base.getHost()) )

　　return false;

　　else

　　return true;

　　}

　　/**

　　*当发现URL错误时调用

　　*参数url是导致错误的URL

　　public void spiderURLError(URL url)

　　{

　　}

　　/**

　　*由内部调用检查链接是否有效

　　*参数url是被检查的链接

　　*返回True表示链接正常有效

　　protected boolean checkLink(URL url)

　　{

　　try {

　　URLConnection connection = url.openConnection();

　　connection.connect();

　　return true;

　　} catch ( IOException e ) {

　　return false;

　　}

　　/**

　　*当蜘蛛找到电子邮件地址时调用

　　*参数email为找到的电子邮件地址

　　public void spiderFoundEMail(String email)

　　{

　　}

　　/**

　　*以线程安全方式更新错误信息的内部类

　　class UpdateErrors implements Runnable {

　　public String msg;

　　public void run()

　　{

　　errors.append(msg);

　　}

　　/**

　　*以线程安全方式更新当前状态信息

　　class UpdateCurrentStats implements Runnable {

　　public String msg;

　　public void run()

　　{

　　current.setText("当前进度：" + msg );

　　goodLinksLabel.setText("正常链接：" + goodLinksCount);

　　badLinksLabel.setText("死链接：" + badLinksCount);

　　}

　　例2：报告蜘蛛事件(ISpiderReportable.java)

　　import java.net.*;

　　interface ISpiderReportable {

　　public boolean spiderFoundURL(URL base,URL url);

　　public void spiderURLError(URL url);

　　public void spiderFoundEMail(String email);

　　}

　　例3：可复用的蜘蛛类(Spider.java)

　　import java.util.*;

　　import java.net.*;

　　import java.io.*;

　　import javax.swing.text.*;

　　import javax.swing.text.html.*;

　　public class Spider {

　　/**

　　*导致错误的URL集合

　　protected Collection workloadError = new ArrayList(3);

　　/**

　　*等待区URL集合

　　protected Collection workloadWaiting = new ArrayList(3);

　　/**

　　*处理过的URL集合

　　protected Collection workloadProcessed = new ArrayList(3);

　　protected ISpiderReportable report;

　　/**

　　*表明处理过程是否应取消的标志

　　protected boolean cancel = false;

　　/**

　　*构造函数

　　*参数report为实现了ISpiderReportable接口的类

　　public Spider(ISpiderReportable report)

　　{

　　this.report = report;

　　}

　　/**

　　*获取导致错误的URL

　　public Collection getWorkloadError()

　　{

　　return workloadError;

　　}

　　/**

　　*获取在等待的URL

　　*应添加至少一个URL到此集合以启动蜘蛛

　　public Collection getWorkloadWaiting()

　　{

　　return workloadWaiting;

　　}

　　/**

　　*获取被处理过的URL

　　public Collection getWorkloadProcessed()

　　{

　　return workloadProcessed;

　　}

　　/**

　　*清空所有

　　public void clear()

　　{

　　getWorkloadError().clear();

　　getWorkloadWaiting().clear();

　　getWorkloadProcessed().clear();

　　}

　　/**

　　*设置一标志，使begin方法在完成之前返回

　　public void cancel()

　　{

　　cancel = true;

　　}

　　public void addURL(URL url)

　　{

　　if ( getWorkloadWaiting().contains(url) )

　　return;

　　if ( getWorkloadError().contains(url) )

　　return;

　　if ( getWorkloadProcessed().contains(url) )

　　return;

　　log("正添加到工作区：" + url );

　　getWorkloadWaiting().add(url);

　　}

　　public void processURL(URL url)

　　{

　　try {

　　log("正在处理：" + url );

　　//获取URL的内容

　　URLConnection connection = url.openConnection();

　　if ( (connection.getContentType()!=null) &&

　　!connection.getContentType().toLowerCase().s

　　tartsWith("text/") ) {

　　getWorkloadWaiting().remove(url);

　　getWorkloadProcessed().add(url);

　　log("不会进行正理，因为类型为：" +

　　connection.getContentType() );

　　return;

　　}

　　//读取URL

　　InputStream is = connection.getInputStream();

　　Reader r = new InputStreamReader(is);

　　//解析URL

　　HTMLEditorKit.Parser parse = new HTMLParse().getParser();

　　parse.parse(r,new Parser(url),true);

　　} catch ( IOException e ) {

　　getWorkloadWaiting().remove(url);

　　getWorkloadError().add(url);

　　log("错误：" + url );

　　report.spiderURLError(url);

　　return;

　　}

　　//标记此URL已完成

　　getWorkloadWaiting().remove(url);

　　getWorkloadProcessed().add(url);

　　log("已完成：" + url );

　　}

　　public void begin()

　　{

　　cancel = false;

　　while ( !getWorkloadWaiting().isEmpty() && !cancel ) {

　　Object list[] = getWorkloadWaiting().toArray();

　　for ( int i=0;(i

　　processURL((URL)list[i]);

　　}

　　/**

　　*HTML解析器回调函数

　　protected class Parser

　　extends HTMLEditorKit.ParserCallback {

　　protected URL base;

　　public Parser(URL base)

　　{

　　this.base = base;

　　}

　　public void handleSimpleTag(HTML.Tag t,

　　MutableAttributeSet a,int pos)

　　{

　　String href = (String)a.getAttribute(HTML.Attribute.HREF);

　　if( (href==null) && (t==HTML.Tag.FRAME) )

　　href = (String)a.getAttribute(HTML.Attribute.SRC);

　　if ( href==null )

　　return;

　　int i = href.indexOf('#');

　　if ( i!=-1 )

　　href = href.substring(0,i);

　　if ( href.toLowerCase().startsWith("mailto:") ) {

　　report.spiderFoundEMail(href);

　　return;

　　}

　　handleLink(base,href);

　　}

　　public void handleStartTag(HTML.Tag t,

　　MutableAttributeSet a,int pos)

　　{

　　handleSimpleTag(t,a,pos);//以同样的方式处理

　　}

　　protected void handleLink(URL base,String str)

　　{

　　try {

　　URL url = new URL(base,str);

　　if ( report.spiderFoundURL(base,url) )

　　addURL(url);

　　} catch ( MalformedURLException e ) {

　　log("找到畸形URL：" + str );

　　}

　　/**

　　*由内部调用来记录信息

　　*仅是把日志写到标准输出

　　*参数entry为写到日志的信息

　　public void log(String entry)

　　{

　　System.out.println( (new Date()) + ":" + entry );

　　}

　　例4：解析HTML(HTMLParse.java)

　　import javax.swing.text.html.*;

　　public class HTMLParse extends HTMLEditorKit {

　　public HTMLEditorKit.Parser getParser()

　　{

　　return super.getParser();

　　}

你可能感兴趣的:(java,网络爬虫)

Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
JavaScript `Map` 和 `WeakMap`详细解释跳房子的前端 JavaScript 原生方法 javascript 前端开发语言
在JavaScript中，Map和WeakMap都是用于存储键值对的数据结构，但它们有一些关键的不同之处。MapMap是一种可以存储任意类型的键值对的集合。它保持了键值对的插入顺序，并且可以通过键快速查找对应的值。Map提供了一些非常有用的方法和属性来操作这些数据对：set(key,value):将一个键值对添加到Map中。如果键已经存在，则更新其对应的值。get(key):获取指定键的值。如果键
切换淘宝最新npm镜像源是 hai40587 npm 前端 node.js
切换淘宝最新npm镜像源是一个相对简单的过程，但首先需要明确当前淘宝npm镜像源的状态和最新的镜像地址。由于网络环境和服务更新，镜像源的具体地址可能会发生变化，因此，我将基于当前可获取的信息，提供一个通用的切换步骤，并附上最新的镜像地址（截至回答时）。一、了解npm镜像源npm（NodePackageManager）是JavaScript的包管理器，用于安装、更新和管理项目依赖。由于npm官方仓库
【Java】已解决：java.util.concurrent.CompletionException 屿小夏 java 开发语言
文章目录一、分析问题背景出现问题的场景代码片段二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决：java.util.concurrent.CompletionException一、分析问题背景在Java并发编程中，java.util.concurrent.CompletionException是一种常见的运行时异常，通常在使用CompletableFuture进行异步计算时出现
设计模式之建造者模式(通俗易懂--代码辅助理解【Java版】） ok!ko 设计模式设计模式建造者模式 java
文章目录设计模式概述1、建造者模式2、建造者模式使用场景3、优点4、缺点5、主要角色6、代码示例：1）实现要求2）UML图3)实现步骤：1）创建一个表示食物条目和食物包装的接口2）创建实现Packing接口的实体类3）创建实现Item接口的抽象类，该类提供了默认的功能4）创建扩展了Burger和ColdDrink的实体类5）创建一个Meal类，带有上面定义的Item对象6）创建一个MealBuil
java观察者模式 3213213333332132 java 设计模式游戏观察者模式
观察者模式——顾名思义，就是一个对象观察另一个对象，当被观察的对象发生变化时，观察者也会跟着变化。在日常中，我们配java环境变量时，设置一个JAVAHOME变量,这就是被观察者，使用了JAVAHOME变量的对象都是观察者，一旦JAVAHOME的路径改动，其他的也会跟着改动。这样的例子很多，我想用小时候玩的老鹰捉小鸡游戏来简单的描绘观察者模式。老鹰会变成观察者，母鸡和小鸡是
TFS RESTful API 模拟上传测试 ronin47
TFS RESTful API 模拟上传测试。　　细节参看这里：https://github.com/alibaba/nginx-tfs/blob/master/TFS_RESTful_API.markdown 模拟POST上传一个图片： curl --data-binary @/opt/tfs.png http
PHP常用设计模式单例, 工厂, 观察者, 责任链, 装饰, 策略,适配,桥接模式 dcj3sjt126com 设计模式 PHP
// 多态, 在JAVA中是这样用的, 其实在PHP当中可以自然消除, 因为参数是动态的, 你传什么过来都可以, 不限制类型, 直接调用类的方法 abstract class Tiger { public abstract function climb(); } class XTiger extends Tiger { public function climb()
hibernate 171815164 Hibernate
main,save Configuration conf =new Configuration().configure(); SessionFactory sf=conf.buildSessionFactory(); Session sess=sf.openSession(); Transaction tx=sess.beginTransaction(); News a=new
Ant实例分析 g21121 ant
下面是一个Ant构建文件的实例，通过这个实例我们可以很清楚的理顺构建一个项目的顺序及依赖关系，从而编写出更加合理的构建文件。下面是build.xml的代码： <?xml version="1
[简单]工作记录_接口返回405原因 53873039oycg 工作
最近调接口时候一直报错，错误信息是: responseCode:405 responseMsg:Method Not Allowed 接口请求方式Post.
关于java.lang.ClassNotFoundException 和 java.lang.NoClassDefFoundError 的区别程序员是怎么炼成的
真正完成类的加载工作是通过调用 defineClass来实现的；而启动类的加载过程是通过调用 loadClass来实现的；就是类加载器分为加载和定义 protected Class<?> findClass(String name) throws ClassNotFoundExcept
JDBC学习笔记-JDBC详细的操作流程 aijuans jdbc
所有的JDBC应用程序都具有下面的基本流程：　　1、加载数据库驱动并建立到数据库的连接。　　2、执行SQL语句。　　3、处理结果。　　4、从数据库断开连接释放资源。下面我们就来仔细看一看每一个步骤：其实按照上面所说每个阶段都可得单独拿出来写成一个独立的类方法文件。共别的应用来调用。 1、加载数据库驱动并建立到数据库的连接： Html代码 St
rome创建rss antonyup_2006 tomcat cms xml struts Opera
引用 1.RSS标准 RSS标准比较混乱，主要有以下3个系列 RSS 0.9x / 2.0 : RSS技术诞生于1999年的网景公司(Netscape)，其发布了一个0.9版本的规范。2001年，RSS技术标准的发展工作被Userland Software公司的戴夫温那(Dave Winer)所接手。陆续发布了0.9x的系列版本。当W3C小组发布RSS 1.0后，Dave W
html表格和表单基础百合不是茶 html 表格表单 meta 锚点
第一次用html来写东西,感觉压力山大,每次看见别人发的都是比较牛逼的再看看自己什么都还不会, html是一种标记语言,其实很简单都是固定的格式 _----------------------------------------表格和表单表格是html的重要组成部分,表格用在body里面的主要用法如下; <table> &
ibatis如何传入完整的sql语句 bijian1013 java sql ibatis
ibatis如何传入完整的sql语句？进一步说，String str ="select * from test_table"，我想把str传入ibatis中执行，是传递整条sql语句。解决办法： <
精通Oracle10编程SQL(14)开发动态SQL bijian1013 oracle 数据库 plsql
/* *开发动态SQL */ --使用EXECUTE IMMEDIATE处理DDL操作 CREATE OR REPLACE PROCEDURE drop_table(table_name varchar2) is sql_statement varchar2(100); begin sql_statement:='DROP TABLE '||table_name;
【Linux命令】Linux工作中常用命令 bit1129 linux命令
不断的总结工作中常用的Linux命令 1.查看端口被哪个进程占用通过这个命令可以得到占用8085端口的进程号，然后通过ps -ef|grep 进程号得到进程的详细信息 netstat -anp | grep 8085 察看进程ID对应的进程占用的端口号 netstat -anp | grep 进程ID &
优秀网站和文档收集白糖_ 网站
集成 Flex, Spring, Hibernate 构建应用程序性能测试工具-JMeter Hmtl5-IOCN网站 Oracle精简版教程网站鸟哥的linux私房菜 Jetty中文文档 50个jquery必备代码片段 swfobject.js检测flash版本号工具
angular.extend boyitech AngularJS angular.extend AngularJS API
angular.extend 复制src对象中的属性去dst对象中. 支持多个src对象. 如果你不想改变一个对象，你可以把dst设为空对象{}: var object = angular.extend({}, object1, object2). 注意: angular.extend不支持递归复制. 使用方法: angular.extend(dst, src); 参数:
java-谷歌面试题-设计方便提取中数的数据结构 bylijinnan java
网上找了一下这道题的解答，但都是提供思路，没有提供具体实现。其中使用大小堆这个思路看似简单，但实现起来要考虑很多。以下分别用排序数组和大小堆来实现。使用大小堆： import java.util.Arrays; public class MedianInHeap { /** * 题目：设计方便提取中数的数据结构 * 设计一个数据结构，其中包含两个函数，1.插
ajaxFileUpload 针对 ie jquery 1.7+不能使用问题修复版本 Chen.H ajaxFileUpload ie6 ie7 ie8 ie9
jQuery.extend({ handleError: function( s, xhr, status, e ) { // If a local callback was specified, fire it if ( s.error ) { s.error.call( s.context || s, xhr, status, e ); }
[机器人制造原则]机器人的电池和存储器必须可以替换 comsci 制造
机器人的身体随时随地可能被外来力量所破坏,但是如果机器人的存储器和电池可以更换,那么这个机器人的思维和记忆力就可以保存下来,即使身体受到伤害,在把存储器取下来安装到一个新的身体上之后,原有的性格和能力都可以继续维持..... 另外,如果一
Oracle Multitable INSERT 的用法 daizj oracle
转载Oracle笔记-Multitable INSERT 的用法 http://blog.chinaunix.net/uid-8504518-id-3310531.html 一、Insert基础用法语法： Insert Into 表名 (字段1,字段2,字段3...） Values (值1,
专访黑客历史学家George Dyson datamachine on
20世纪最具威力的两项发明——核弹和计算机出自同一时代、同一群年青人。可是，与大名鼎鼎的曼哈顿计划（第二次世界大战中美国原子弹研究计划）相比，计算机的起源显得默默无闻。出身计算机世家的历史学家George Dyson在其新书《图灵大教堂》（Turing’s Cathedral）中讲述了阿兰·图灵、约翰·冯·诺依曼等一帮子天才小子创造计算机及预见计算机未来
小学6年级英语单词背诵第一课 dcj3sjt126com english word
always 总是 rice 水稻，米饭 before 在...之前 live 生活，居住 usual 通常的 early 早的 begin 开始 month 月份 year 年 last 最后的 east 东方的 high 高的 far 远的 window 窗户 world 世界 than 比...更
在线IT教育和在线IT高端教育 dcj3sjt126com 教育
codecademy http://www.codecademy.com codeschool https://www.codeschool.com teamtreehouse http://teamtreehouse.com lynda http://www.lynda.com/ Coursera https://www.coursera.
Struts2 xml校验框架所定义的校验文件蕃薯耀 Struts2 xml校验 Struts2 xml校验框架 Struts2校验
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 15:54:59 星期六 http://fa
mac下安装rar和unrar命令 hanqunfeng mac
1.下载：http://www.rarlab.com/download.htm 选择 RAR 5.21 for Mac OS X 2.解压下载后的文件 tar -zxvf rarosx-5.2.1.tar 3.cd rar sudo install -c -o $USER unrar /bin #输入当前用户登录密码 sudo install -c -o $USER rar
三种将list转换为map的方法 jackyrong list
在本文中，介绍三种将list转换为map的方法： 1）传统方法假设有某个类如下 class Movie { private Integer rank; private String description; public Movie(Integer rank, String des
年轻程序员需要学习的5大经验 lampcy 工作 PHP 程序员
在过去的7年半时间里，我带过的软件实习生超过一打，也看到过数以百计的学生和毕业生的档案。我发现很多事情他们都需要学习。或许你会说，我说的不就是某种特定的技术、算法、数学，或者其他特定形式的知识吗？没错，这的确是需要学习的，但却并不是最重要的事情。他们需要学习的最重要的东西是“自我规范”。这些规范就是：尽可能地写出最简洁的代码；如果代码后期会因为改动而变得凌乱不堪就得重构；尽量删除没用的代码，并添加
评“女孩遭野蛮引产致终身不育 60万赔偿款1分未得”医腐深入骨髓 nannan408
先来看南方网的一则报道：再正常不过的结婚、生子，对于29岁的郑畅来说，却是一个永远也无法实现的梦想。从2010年到2015年，从24岁到29岁，一张张新旧不一的诊断书记录了她病情的同时，也清晰地记下了她人生的悲哀。　　粗暴手术让人发寒　　2010年7月，在酒店做服务员的郑畅发现自己怀孕了，可男朋友却联系不上。在没有和家人商量的情况下，她决定堕胎。　　12月5日，
使用jQuery为input输入框绑定回车键事件 VS 为a标签绑定click事件 Everyday都不同 jsp input 回车键绑定 click enter
假设如题所示的事件为同一个，必须先把该js函数抽离出来，该函数定义了监听的处理： function search() { //监听函数略...... } 为input框绑定回车事件，当用户在文本框中输入搜索关键字时，按回车键，即可触发search(): //回车绑定 $(".search").keydown(fun
EXT学习记录 tntxia ext
1. 准备（1）官网：http://www.sencha.com/ 里面有源代码和API文档下载。 EXT的域名已经从www.extjs.com改成了www.sencha.com ，但extjs这个域名会自动转到sencha上。（2）帮助文档：想要查看EXT的官方文档的话，可以去这里h
mybatis3的mapper文件报Referenced file contains errors xingguangsixian mybatis
最近使用mybatis.3.1.0时无意中碰到一个问题： The errors below were detected when validating the file "mybatis-3-mapper.dtd" via the file "account-mapper.xml". In most cases these errors can be d