reggergdsg

java实现的简单网页爬虫：Servlet + MySQL5.5

* * JavaSpier的目标：
*
* 1，我们要获取的是
* http://commons.apache.org/proper/commons-fileupload/apidocs/src-html/org/apache/commons/
* Apache org.apache.commons站点下的所有源代码文件，也就是最终的.html文件。
*,2，我们要对获取到的源代码网页，进行格式化处理，以java源代码的方式，保存到指定文件中。
* 3，每个.html页面保存到对应的.java文件中。这些文件都保存到电脑的指定目录下。
*
* JavaSpier 1.3版本我们实现了以下功能：
* 1，自动检索当前网址所在网页的HTML内容，并从中抽取所有的URL地址，然后保存到数据库中；
* 2，需要说明的是，这里保存的网址，有的是.html结尾的，有的是一个目录，比如.../fileupload/
* 3，在JavaSpier 1.3版本，我们并没有将网页内容保存到文件中，因为我们的目的是先获得所有的目标网址，然后统一处理；
*
*/

该系统，我们使用的servlet + MySQL5.5来实现的。

系统关键文件结构如下：

前台JSP页面：
/Spider/WebRoot/WEB-INF/spider/GetAllUrl_JavaSpider_1_3.jsp
/Spider/WebRoot/WEB-INF/spider/Error.jsp
/Spider/WebRoot/WEB-INF/spider/Success.jsp

后台java文件：
/Spider/src/com/spider/dao/JavaSpider_1_3_Dao.java                              Dao层接口
/Spider/src/com/spider/dao/impl/JavaSpider_1_3_DaoImpl.java             Dao层实现类

/Spider/src/com/spider/service/JavaSpider_1_3_Service.java                  Service层接口
/Spider/src/com/spider/service/impl/JavaSpider_1_3_ServiceImpl.java Service层实现类

/Spider/src/com/spider/servlet/GetAllUrl_JavaSpider_1_3_Servlet.java Servlet控制类

/Spider/src/com/spider/java/JavaSpiderBase_1_3.java                              爬虫核心接口
/Spider/src/com/spider/java/JavaSpider_1_3.java                            爬虫核心接口实现类
/Spider/src/com/spider/java/JavaSpider_1_3_URLParser.java             对网页中的链接进行处理的工具类，以行为单位，获取网页中的所有URL地址
/Spider/src/com/spider/java/JavaSpider_1_3_HTMLParser.java              对网页进行抽取的工具类，也就是去掉HTML标签，得到网页内容

配置文件：

/Spider/WebRoot/WEB-INF/web.xml

下面贴上所有文件的源代码，可能较多，大家耐心...

/Spider/WebRoot/WEB-INF/spider/GetAllUrl_JavaSpider_1_3.jsp

<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%>
<%
String path = request.getContextPath();
String basePath = request.getScheme()+"://"+request.getServerName()+":"+request.getServerPort()+path+"/";
%>

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
  <head>
    <base href="<%=basePath%>">
    <title>JavaSpider 抓取所有的目标网址，保存到数据库</title>
	<meta http-equiv="pragma" content="no-cache">
	<meta http-equiv="cache-control" content="no-cache">
	<meta http-equiv="expires" content="0">    
	<meta http-equiv="keywords" content="keyword1,keyword2,keyword3">
	<meta http-equiv="description" content="This is my page">
</head>
  
<body>
<div>
    <form class="STYLE-NAME" action="GetAllUrl_JavaSpider_1_3_Servlet" method="post">
    <label>
    <span>  JavaSpier 1.3版本</span>
    </label><br>
    <label>
    <span>  我们进行了以下改进：</span>
    </label><br>
    <label>
    <span>  1，从指定网页，抓取该网页中的所有的网址，保存到数据库</span>
    </label><br>
    <label>
    <span>  2，需要说明的是，这里保存的网址，有的是.html结尾的，有的是一个目录，比如.../fileupload/</span>
    </label><br>
    <label>
    <span>  3，比如下面这个网址，我们可以获取该网址下，所有的二级网址，并保存到数据库中...</span>
    </label><br>
    <label>
    <span>  http://commons.apache.org/proper/commons-fileupload/apidocs/src-html/org/apache/commons/fileupload/</span>
    </label><br>
    <label>
    <span>后缀级别level：</span>
    <input type="text" name="LEVEL">
    </label><br>
    <label>
    <span>请输入网址：</span>
    <input type="text" name="URL" id="">
    </label><br>
    <input type="submit" name="submit" id="" value="点击保存到数据库中">
    </form>
</div>
</body>
</html>

/Spider/WebRoot/WEB-INF/spider/Error.jsp

<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%>
<%
String path = request.getContextPath();
String basePath = request.getScheme()+"://"+request.getServerName()+":"+request.getServerPort()+path+"/";
%>

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
  <head>
    <base href="<%=basePath%>">
    
    <title>程序出现异常</title>
    
	<meta http-equiv="pragma" content="no-cache">
	<meta http-equiv="cache-control" content="no-cache">
	<meta http-equiv="expires" content="0">    
	<meta http-equiv="keywords" content="keyword1,keyword2,keyword3">
	<meta http-equiv="description" content="This is my page">
  </head>
<div>
    <form class="STYLE-NAME" action="">
    <label>
    <span>  程序出现异常</span>
    </label><br>
    <label>
    <span>  </span>
    </label><br>
    </form>
</div>
</html>

/Spider/WebRoot/WEB-INF/spider/Success.jsp

<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%>
<%@taglib prefix="c" uri="http://java.sun.com/jsp/jstl/core" %>
<%
String path = request.getContextPath();
String basePath = request.getScheme()+"://"+request.getServerName()+":"+request.getServerPort()+path+"/";
%>

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
  <head>
    <base href="<%=basePath%>">
    
    <title>文件保存成功</title>
    <meta http-equiv="pragma" content="no-cache">
    <meta http-equiv="cache-control" content="no-cache">
    <meta http-equiv="expires" content="0">    
    <meta http-equiv="keywords" content="keyword1,keyword2,keyword3">
    <meta http-equiv="description" content="This is my page">
  </head>
<div>
    <form class="STYLE-NAME" action="">
    <label>
    <span>  如果文件保存成功，则跳转到这个页面</span>
    </label><br>
    <label>
    <span>  </span>
    </label><br>
    </form>
</div>
<!-- 显示服务器端传递过来的提示信息message -->
<div>
<c:if test=""></c:if>
<c:out value="${request.message}"></c:out>
<label><span> A ${message}</span></label>

</div>
</html>

后台java文件：
/Spider/src/com/spider/dao/JavaSpider_1_3_Dao.java Dao层接口

package com.spider.dao;

import java.util.Map;
import com.spider.Model.Temp_url;
import com.spider.Model.Url;

public interface JavaSpider_1_3_Dao {
	//增
	public boolean saveToDatabase(Url url);
	//增
	public boolean saveToDatabase(Temp_url temp_url);
	//查
	public Map<Integer,String> getAllUrlsOfLevel(int level);
}

/Spider/src/com/spider/dao/impl/JavaSpider_1_3_DaoImpl.java Dao层实现类

ackage com.spider.dao.impl;

import java.sql.ResultSet;
import java.util.HashMap;
import java.util.Map;
import com.spider.Model.Temp_url;
import com.spider.Model.Url;
import com.spider.dao.JavaSpider_1_3_Dao;
import com.spider.util.JavaSpider_JDBC;

public class JavaSpider_1_3_DaoImpl implements JavaSpider_1_3_Dao {

    @Override
    public boolean saveToDatabase(Temp_url temp_url) {
        //创建数据库连接对象
        JavaSpider_JDBC JavaSpider_JDBC = new JavaSpider_JDBC();
        //定义一个Boolean类型的变量，用来表示数据库操作是否成功
        boolean flag = false;

        //用PreparedStatement
        String sql = "insert into temp_url(id,url,level) values(null,?,?)";

        try{

            //调用dao层增加方法，把数据插入到数据库
            JavaSpider_JDBC.javaSpider_JDBC(sql);
            //执行数据库操作，如何执行预处理的SQL语句，请参考PreparedStatement源码，如下
            JavaSpider_JDBC.pst.setString(1, temp_url.getTempurl());
            JavaSpider_JDBC.pst.setInt(2, temp_url.getLevel());
            JavaSpider_JDBC.pst.execute();
            //测试输出
            System.out.println("数据库插入成功...");
            flag = true;
        }
        catch(Exception e){
            //测试输出
            System.out.println("数据库插入异常...");
            e.printStackTrace();
        }
        return flag;
    }

    @Override
    public boolean saveToDatabase(Url url) {
        //创建数据库连接对象
        JavaSpider_JDBC JavaSpider_JDBC = new JavaSpider_JDBC();
        //定义一个Boolean类型的变量，用来表示数据库操作是否成功
        boolean flag = false;

        //用PreparedStatement
        String sql = "insert into url(id,url,date) values(null,?,?)";
        
        try{

            //调用dao层增加方法，把数据插入到数据库
            JavaSpider_JDBC.javaSpider_JDBC(sql);
            //执行数据库操作，如何执行预处理的SQL语句，请参考PreparedStatement源码，如下
            JavaSpider_JDBC.pst.setString(1, url.getUrl());
            JavaSpider_JDBC.pst.setString(2, url.getDate());
            JavaSpider_JDBC.pst.execute();
            //测试输出
            System.out.println("数据库插入成功...");
            flag = true;
        }
        catch(Exception e){
            //测试输出
            System.out.println("数据库插入异常...");
            e.printStackTrace();
        }
        return flag;
    }

    @Override
    public Map<Integer, String> getAllUrlsOfLevel(int level) {
        //创建数据库连接对象
        JavaSpider_JDBC JavaSpider_JDBC = new JavaSpider_JDBC();
        //查询结果集
        ResultSet resultSet;
        //Map<Integer, String>
        Map<Integer, String> urls = new HashMap<Integer, String>();

        //用PreparedStatement
        String sql = "select url from temp_url where level=?";
        
        try{

            //调用dao层增加方法，把数据插入到数据库
            JavaSpider_JDBC.javaSpider_JDBC(sql);
            //执行数据库操作，如何执行预处理的SQL语句，请参考PreparedStatement源码，如下
            JavaSpider_JDBC.pst.setInt(1, level);
            resultSet = JavaSpider_JDBC.pst.executeQuery();
            //把查询结果保存到Map中
            int i = 1;
            while(resultSet.next()){
                urls.put(i-1, resultSet.getString("url"));
                System.out.println("dao测试：" + urls.get(i-1));
                i++;
            }
            
            //测试输出
            System.out.println("数据库插入成功...");
        }
        catch(Exception e){
            //测试输出
            System.out.println("数据库插入异常...");
            e.printStackTrace();
        }
        return urls;
    }
    
}

/Spider/src/com/spider/service/JavaSpider_1_3_Service.java Service层接口

package com.spider.service;

import java.util.Map;

import com.spider.Model.Temp_url;
import com.spider.Model.Url;

public interface JavaSpider_1_3_Service {
	//增
	public boolean saveToDatabase(Url url);
	//增
	public boolean saveToDatabase(Temp_url temp_url);
	//查
	public Map<Integer,String> getAllUrlsOfLevel(int level);
}

/Spider/src/com/spider/service/impl/JavaSpider_1_3_ServiceImpl.java Service层实现类

package com.spider.service.impl;

import java.util.HashMap;
import java.util.Map;
import com.spider.Model.Temp_url;
import com.spider.Model.Url;
import com.spider.dao.JavaSpider_1_3_Dao;
import com.spider.dao.impl.JavaSpider_1_3_DaoImpl;
import com.spider.service.JavaSpider_1_3_Service;

public class JavaSpider_1_3_ServiceImpl implements JavaSpider_1_3_Service {
	
	//定义Dao层接口对象
	JavaSpider_1_3_Dao javaSpider_1_3_Dao = new JavaSpider_1_3_DaoImpl(); 

	public JavaSpider_1_3_Dao getJavaSpider_1_3_Dao() {
		return javaSpider_1_3_Dao;
	}

	public void setJavaSpider_1_3_Dao(JavaSpider_1_3_Dao javaSpider_1_3_Dao) {
		this.javaSpider_1_3_Dao = javaSpider_1_3_Dao;
	}

	@Override
	public boolean saveToDatabase(Temp_url temp_url) {
		//定义一个Boolean类型的变量，用来表示数据库操作是否成功
		boolean flag = false;
		//
		flag = javaSpider_1_3_Dao.saveToDatabase(temp_url);

		return flag;
	}

	@Override
	public boolean saveToDatabase(Url url) {
		//定义一个Boolean类型的变量，用来表示数据库操作是否成功
		boolean flag = false;
		//
		flag = javaSpider_1_3_Dao.saveToDatabase(url);

		return flag;
	}

	@Override
	public Map<Integer, String> getAllUrlsOfLevel(int level) {
		
		Map<Integer, String> urls = new HashMap<Integer, String>();
		
		urls = javaSpider_1_3_Dao.getAllUrlsOfLevel(level);
		
		return urls;
	}
}

/Spider/src/com/spider/servlet/GetAllUrl_JavaSpider_1_3_Servlet.java Servlet控制类

package com.spider.servlet;

import java.io.IOException;
import java.text.SimpleDateFormat;
import java.util.Date;
import java.util.HashMap;
import java.util.Map;
import javax.servlet.ServletException;
import javax.servlet.http.HttpServlet;
import javax.servlet.http.HttpServletRequest;
import javax.servlet.http.HttpServletResponse;

import com.spider.Model.Temp_url;
import com.spider.java.JavaSpider_1_3;
import com.spider.service.JavaSpider_1_3_Service;
import com.spider.service.impl.JavaSpider_1_3_ServiceImpl;

@SuppressWarnings("serial")
public class GetAllUrl_JavaSpider_1_3_Servlet extends HttpServlet{
    
	//定义service层接口对象
	JavaSpider_1_3_Service javaSpider_1_3_Service = new JavaSpider_1_3_ServiceImpl();
	
	//setter、getter方法
	public JavaSpider_1_3_Service getJavaSpider_1_3_Service() {
		return javaSpider_1_3_Service;
	}
	public void setJavaSpider_1_3_Service(JavaSpider_1_3_Service javaSpider_1_3_Service) {
		this.javaSpider_1_3_Service = javaSpider_1_3_Service;
	}
	
	//实现doPost方法
	
	public void doPost(HttpServletRequest request,HttpServletResponse response) throws ServletException,IOException{
		
		//设置相应信息的编码方式
		response.setCharacterEncoding("UTF-8");
		//定义一个String类型的变量，用来表示用户输入的URL
		String URL = "";
		//定义一个String类型的变量，用来表示用户输入的URL
		int LEVEL = 0;
		//定义一个String类型的变量，用来表示返回客户端的提示信息
		String message = "";
		//生成url对象
		Temp_url url_temp = new Temp_url();
		//定义一个Map，用来封装所有的URL网址
		Map<Integer,String> urls = new HashMap<Integer,String>();
		//
		Map<Integer,String> urls_rs = new HashMap<Integer,String>();
		//定义一个Map，用来封装所有的url对象
		Map<Integer,Temp_url> url_entity = new HashMap<Integer,Temp_url>();
		//生成JavaSpider_1_3_URLParser对象
		JavaSpider_1_3 javaSpider_1_3 = new JavaSpider_1_3();
	        //生成日期对象
	        Date current_date = new Date();
	        //设置日期格式化样式为：yyyy-MM-dd
	        SimpleDateFormat  SimpleDateFormat = new SimpleDateFormat("yyyy-MM-dd");
	        //格式化当前日期
	        SimpleDateFormat.format(current_date.getTime());
		//url.setUrl(URL);
		//url.setDate(SimpleDateFormat.format(current_date.getTime()));
		//在request请求域中获取参数
	    LEVEL = Integer.parseInt(request.getParameter("LEVEL"));
		URL = request.getParameter("URL");
		//测试输出
		System.out.println("在servlet中接收到的用户输入的网址：" + URL);

		if(!"".equals(URL)){
			//测试输出
			System.out.println(" 在servlet中 ，!''.equals(URL)：如果URL不为空，进入if语句...");
		    //获取所有的URL网址
		    urls = javaSpider_1_3.getFormatCode_1_3(URL);
		    
		    //封装url实体
		    for(int i=0;i<urls.size();i++){
		    	url_temp.setTempurl(urls.get(i));
		    	url_temp.setLevel(LEVEL);
		    	url_entity.put(i, url_temp);
		    	//调用业务逻辑处理对象，完成数据保存到数据库的业务逻辑
		    	javaSpider_1_3_Service.saveToDatabase(url_entity.get(i));
		    }
				
			//调用业务逻辑处理对象，完成数据保存到数据库的业务逻辑
			//for(int j=0;j<url_entity.size();j++){
				//javaSpider_1_3_Service.saveToDatabase(url_entity.get(j));
			//}
				
			message = "文件保存完成...";
				
			//把信息保存到request请求域中，传递到客户端
			request.setAttribute("message", message);
				
			//跳转到SpiderIndex.jsp页面
			request.getRequestDispatcher("WEB-INF/spider/Success.jsp").forward(request, response);

		}
		
		else{
			urls_rs = javaSpider_1_3_Service.getAllUrlsOfLevel(LEVEL);
			
			
			
		    //封装url实体
		    for(int i=0;i<urls_rs.size();i++){
		    	//url_temp.setTempurl(urls_rs.get(i));
		    	//url_temp.setLevel(LEVEL);
		    	//url_entity.put(i, url_temp);
		    	
		    	urls = javaSpider_1_3.getFormatCode_1_3(urls_rs.get(i));
		    	//测试输出
		    	System.out.println("查询结果集中的网址 urls_rs.get(i) = " + urls_rs.get(i));
		    	System.out.println("新爬取的网址 urls.get(i) = " + urls.get(i));
		    	
		    	for(int j=0;j<urls.size();j++){
		    		url_temp.setTempurl(urls.get(j));
		    		url_temp.setLevel(LEVEL);
		    		url_entity.put(j, url_temp);
			    	//测试输出
			    	System.out.println("新抓取的网址 = " + urls.get(j));
		    		javaSpider_1_3_Service.saveToDatabase(url_entity.get(j));
		    	}
		    }
				
				message = "文件保存完成...";
				
				//把信息保存到request请求域中，传递到客户端
				request.setAttribute("message", message);
				
				//跳转到SpiderIndex.jsp页面
				request.getRequestDispatcher("WEB-INF/spider/Success.jsp").forward(request, response);
			
		}
	}
	

	//实现doGet方法
	public void doGet(HttpServletRequest request,HttpServletResponse response) throws ServletException,IOException{
		//设置相应信息的编码方式
		response.setCharacterEncoding("UTF-8");	
	}
	
}

/Spider/src/com/spider/java/JavaSpiderBase_1_3.java 爬虫核心接口

package com.spider.java;

import java.io.IOException;
import java.util.Map;
import org.apache.http.client.ClientProtocolException;

public interface JavaSpiderBase_1_3 {

    //带参数的方法 JavaSpider_1_3版本
    public Map<Integer,String> getFormatCode_1_3(String URL) throws ClientProtocolException, IOException;
}

/Spider/src/com/spider/java/JavaSpider_1_3.java 爬虫核心接口实现类

package com.spider.java;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.HashMap;
import java.util.Map;
import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.HttpStatus;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.HttpClient;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.DefaultHttpClient;

/*
 * JavaSpier 1.3版本 之 网页内容处理类public class JavaSpider_1_3
 * 我们进行了以下改进：
 * 1，增加自动搜索目标网页的功能，先实现把一个站点下的网址都保存起来的功能。
 * 2，把一个站点下的网址，都保存到数据库中；
 * 
 * 在网页内容处理类public class JavaSpider_1_3，我们主要进行网页的爬取和文件IO的业务逻辑；
 * 网页抽取的操作从这个类中剥离；
 */
@SuppressWarnings("deprecation")
public class JavaSpider_1_3 implements JavaSpiderBase_1_3{
	
	//定义一个String变量，用来表示新生成的文件的存放路径
	public static final String FILE_PATH = "E:\\uploadFiles\\";

	@Override
	public Map<Integer,String> getFormatCode_1_3(String URL) throws ClientProtocolException, IOException {
		
		//创建HttpClient
		HttpClient httpClient = new DefaultHttpClient();
		//获取HttpGet对象
		HttpGet httpGet = new HttpGet(URL);
		//
		@SuppressWarnings("unused")
		StringBuffer stringBuffer = new StringBuffer();
		//
		HttpResponse httpResoponse = httpClient.execute(httpGet);
		//
		BufferedReader bufferedReader;
		//定义一个Map，用来封装所有的URL
		Map<Integer,String> urls = new HashMap<Integer,String>();

		//生成JavaSpider_1_3_URLParser对象
		JavaSpider_1_3_URLParser javaSpider_1_3_URLParser = new JavaSpider_1_3_URLParser();
		
		if(HttpStatus.SC_OK == httpResoponse.getStatusLine().getStatusCode()){
			//
			HttpEntity httpEntity = httpResoponse.getEntity();
			//
			if(httpEntity != null){
				
				bufferedReader = new BufferedReader(new InputStreamReader(httpEntity.getContent(),"UTF-8"));
				
				//bufferedReader按行读取
				String line = "";
				
				//if(httpEntity.getContentLength() > 0 ){
				if(httpEntity.getContent() != null && httpEntity.getContentLength() > 0){

					stringBuffer = new StringBuffer((int) httpEntity.getContentLength());
					
					int z = 0;

					while((line = bufferedReader.readLine()) != null){

						//判断得到的目标网址是否为空
						if(!"".equals(javaSpider_1_3_URLParser.parserURL_2(line, URL))){
							
							//封装到数组中
							
							urls.put(z, javaSpider_1_3_URLParser.parserURL_2(line, URL));
							
							z++;
						}
					
					}
				}
				
				//如果httpEntity.getContent() != null && httpEntity.getContentLength() == -1
				else{
					//测试输出
					System.out.println("进入if...进入条件：httpEntity.getContent() != null || httpEntity.getContentLength() == -1");

					//stringBuffer = new StringBuffer((int) httpEntity.getContentLength());
					//把长度写死
					stringBuffer = new StringBuffer(1024);
					
					int z = 0;

					while((line = bufferedReader.readLine()) != null){
						
						//判断得到的目标网址是否为空
						if(!"".equals(javaSpider_1_3_URLParser.parserURL_2(line, URL))){
							
							//封装到数组中
							
							urls.put(z, javaSpider_1_3_URLParser.parserURL_2(line, URL));
							
							//System.out.println("在JavaSpider中测试输出获取到的所有网址：" + urls.get(z));
							
							z++;
						}
					
					}
				}
			}
			if(httpEntity != null){
				//
				httpEntity.consumeContent();
			}
		}
		
		//返回Map
		return urls;
	}
}

/Spider/src/com/spider/java/JavaSpider_1_3_URLParser.java 对网页中的链接进行处理的工具类，以行为单位，获取网页中的所有URL地址

package com.spider.java;

/*
 *  * JavaSpier的目标：
 * 
 * 1，我们要获取的是http://commons.apache.org/proper/commons-fileupload/apidocs/src-html/org/apache/commons/
 * Apache org.apache.commons站点下的所有源代码文件，也就是最终的.html文件。
 *,2，我们要对获取到的源代码网页，进行格式化处理，以java源代码的方式，保存到指定文件中。
 * 3，每个.html页面保存到对应的.java文件中。这些文件都保存到电脑的指定目录下。
 * 
 * JavaSpier 1.3版本 之 网页内容处理类public class JavaSpider_1_3_URLParser
 * 我们进行了以下改进：
 * 1，自动检索当前网址所在网页的HTML内容，并从中抽取所有的URL地址，然后保存到数据库中；
 * 2，需要说明的是，这里保存的网址，有的是.html结尾的，有的是一个目录，比如.../fileupload/
 * 3，在JavaSpier 1.3版本，我们并没有将网页内容保存到文件中，因为我们的目的是先获得所有的目标网址，然后统一处理；
 * 
 * 在网页A标签处理类public class JavaSpider_1_3_URLParser，
 * 我们对网页中的链接进行处理，返回目标网址；
 */
public class JavaSpider_1_3_URLParser {

	/**
	 * 第二种实现方法：
	 * 
     * 1，直接获取第一个A标签的起始位置，然后截取想要的属性，或者A标签； 
     * 2，然后从剩下的二级子串中，重复进行第一步的操作；
     * 3，以此类推，我们就可以获取所有的A标签了...
     * 
	 * 此方法需要接收以下几个参数：
	 * 1，当前页面的网址current_url，String类型；
	 * 2，当前需要处理的行line，String类型；
	 */
	public String parserURL_2(String line,String current_url){

	    //目标网址前缀  target_url_prefix
	    String target_url_prefix = "";
	    //目标网址
	    String target_url = "";
	    //目标网址后缀
	    String target_url_suffix = "";
	    
		/*
		 * 第一次抽取
		 */
	    
	    //定义一个int变量，用来表示第一个 A 标签起始位置的索引
	    int a_start = -100;
	    //定义一个int变量，用来表示第一个 A 标签的 href 属性起始位置的索引
	    int href_start = -100;
	    //定义一个int变量，用来表示第一个 A 标签的  第一个双引号 起始位置的索引
	    int double_start = -100;
		
		//定义一个String类型的变量，用来表示截取的子串，我们称之为一级子串
		String sub_String = "";
		//定义一个String类型的变量，用来表示截取的子串的子串，我们称之为二级子串
		String sub_sub_String = "";
		
		/*
		 * 首先对当前网址current_url进行处理，获得目标网址前缀
		 */
		int current_url_index = current_url.lastIndexOf("/");
		target_url_prefix = current_url.substring(0, current_url_index+1);
		//测试输出
		System.out.println("当前输入的URL ==== " + current_url);
		System.out.println("目标网址前缀 target_url_prefix ==== " + target_url_prefix);
		
		//获取第一个A标签的索引
		if(line.contains("<a")){
			
			a_start = line.indexOf("<a");
			sub_String = line.substring(a_start);
			//测试输出
			//System.out.println("一级子串  sub_String = " + sub_String);
			
			href_start = sub_String.indexOf("href=");
			sub_sub_String = sub_String.substring(href_start+6);
			//测试输出
			//System.out.println("二级子串  sub_sub_String = " + sub_sub_String);
			
			//如果二级子串非法，也就是href的第一位不是字母
			if(sub_sub_String.startsWith("?") || sub_sub_String.startsWith("/")){
				//测试输出
				System.out.println("非法网址，不保存！");
			}
			else{
				
				double_start = sub_sub_String.indexOf("\"");
				target_url_suffix = sub_sub_String.substring(0, double_start);
				//测试输出
				//System.out.println("目标网址后缀  target_url_suffix = " + target_url_suffix);
			}
		}
		
		//如果目标网址后缀  target_url_suffix 不为空
		if(!"".equals(target_url_suffix)){
			
		    //目标网址为 
		    target_url = target_url_prefix + target_url_suffix;
		    //测试输出
		    System.out.println("当前获得的目标网址为 target_url:" + target_url);
		
		}
		
		//返回目标网址
		return target_url;
	}
}

/Spider/src/com/spider/java/JavaSpider_1_3_HTMLParser.java 对网页进行抽取的工具类，也就是去掉HTML标签，得到网页内容

package com.spider.java;

public class JavaSpider_1_3_HTMLParser {
	//
	public String parserHTML(String line){
		
		//定义一个String类型的变量parseredLine，用来表示处理以后的line
		String parseredLine = "";
		//第一次抽取后的子串
		String subString = "";
		//第二次抽取后的子串
		String sub_subString = "";
		//第三次抽取后的子串
		String sub_sub_subString = "";
		int i = line.indexOf('<'); 
		int j = line.lastIndexOf('<');
		int k = line.indexOf('>');
		//int m = line.lastIndexOf('>');
		//1，如果字符<第一次出现的索引和最后一次出现的索引值相等，说明这一行，只有一对<></> 这种闭合的HTML标签；
		//此时只需要把这个标签删除掉就行，我们可以使用String类的subString方法截取我们需要的信息；
		if(i == j && i != -1){
			//这种情况下， 我们还要再判断，这个标签是不是位于行首；
			if(i == 0 ){
				//System.out.println(""); //简化处理
			}
			else{
				//System.out.println("");  //简化处理，暂时不考虑<br>这种单独的标签
			}
				
		}
		//如果字符< 第一次出现的索引和最后一次出现的索引值不相同，说明这一行，有2对<></>或者多对， 这样的闭合的HTML标签；
		//2，如果有2对闭合的HTML标签；此时我们需要删除这2对HTML标签；这里简化步骤，只考虑闭合标签位于首尾的情况；
		else if(i != j){
			//第一次抽取
			subString = line.substring(k+1, j);
			//第二次抽取
			//第二次抽取的时候，需要考虑2个标签的特殊情况，也就是title、link这种标签，虽然符合条件，但是不抽取这种值。
			int y = subString.lastIndexOf('<');
			int z = subString.indexOf('>');
			if(y > -1){
				//此时还要考虑只有3个HTML标签的特殊情况
				if(subString.contains("<title") || subString.contains("<link" )){
					sub_subString = subString.substring(z+1, y);
				}
				else{
					sub_subString = subString.substring(z+1, y);
					if(sub_subString != null && (sub_subString.startsWith("0") || sub_subString.startsWith("1") 
							|| sub_subString.startsWith("2") 
							|| sub_subString.startsWith("3") || sub_subString.startsWith("4") || sub_subString.startsWith("5")
							|| sub_subString.startsWith("6") || sub_subString.startsWith("7") || sub_subString.startsWith("8")
							|| sub_subString.startsWith("9"))){
					}
					else{
						System.out.println(sub_subString);
						parseredLine = sub_subString;
					}
				}
			}
			//第三次抽取
			int A = sub_subString.indexOf('<');
			int B = sub_subString.indexOf('>');
			int C = sub_subString.lastIndexOf('<');
			//如果A<0，说明没有HTML标签了；
			if(A < 0){
				//System.out.println("");
			}
			//如果A>0,说明还有HTML标签，此时需要判断是只有一个，还是有多个；
			else{
				//如果A = C，说明，只有一个HTML标签，此时还有三种情况，HTML标签在首，HTML标签居中，HTML标签在尾；
				if(A == C && A == 0){
					sub_sub_subString = sub_subString.substring(B+1, sub_subString.length());
					System.out.println(sub_sub_subString);
					parseredLine = sub_sub_subString;
				}
				else if(A == C && (B == sub_subString.length() - 1)){
					sub_sub_subString = sub_subString.substring(0, A);
					System.out.println(sub_sub_subString);
					parseredLine = sub_sub_subString;
				}
				else if(A == C && A != 0 && (B != sub_subString.length() - 1 )){
					//如果HTML标签居中，我们这时需要根据java的语法来判断，
					//此时还需要判断，我们需要抽取的内容在哪边，这时我们根据HTML标签内，有没有/来判断
					//如果书写规范的话，没有/，则我们需要抽取的内容在后边；否则在前边；
					//这种情况下，还要进行第四次抽取的判断；
						
					//如果开头是数字，可以判断我们需要抽取的代码在尾部
					if(sub_subString.substring(0, 1).matches("^[0-9]")){
						sub_sub_subString = sub_subString.substring(B+1,sub_subString.length());
						System.out.println(sub_sub_subString);
						parseredLine = sub_sub_subString;
					}
					else{
						sub_sub_subString = sub_subString.substring(0, A);
						System.out.println(sub_sub_subString);
						parseredLine = sub_sub_subString;
					}
				}
			}
		}
		return parseredLine;
	}
}

/Spider/src/com/spider/Model/Temp_url.java 实体类

package com.spider.Model;

public class Temp_url {
	/*
	 * 数据库名称：test
	 * 
	 * 表名称：temp_url
	 * 字段1，id，主键，auto_increment；
	 * 字段2，url，varchar(200) not null
	 * 字段3，level，int(4)，not null
	 * 
	 * 建表语句：
       create table temp_url(
       id int auto_increment primary key,
       url varchar(200) not null,
       level int(4) not null
       );
       
     * 测试数据
     * insert into url(id,url,date) values(null,"http://commons.apache.org/proper/commons-fileupload/apidocs/src-

html/org/apache/commons/fileupload/portlet/PortletFileUpload.html#line.51",now());
     * 
     * url字段长度50不够用，我们把长度修改为100
     * alter table url modify url varchar(200) not null;
     */

	//id，主键，自增长
	int id;
	//临时URL，不是有效的URL
	String tempurl;
	//时间，date
	int level;
	
	//setter、getter方法
	public int getId() {
		return id;
	}
	public void setId(int id) {
		this.id = id;
	}
	public String getTempurl() {
		return tempurl;
	}
	public void setTempurl(String tempurl) {
		this.tempurl = tempurl;
	}
	public int getLevel() {
		return level;
	}
	public void setLevel(int level) {
		this.level = level;
	}
	
}

配置文件：web.xml

<?xml version="1.0" encoding="UTF-8"?>
<web-app version="3.0" 
	xmlns="http://java.sun.com/xml/ns/javaee" 
	xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
	xsi:schemaLocation="http://java.sun.com/xml/ns/javaee 
	http://java.sun.com/xml/ns/javaee/web-app_3_0.xsd">
  <display-name>JavaSpider</display-name>	

<!-- 配置servlet 用于设置Servlet的注册名称和Servlet的完整类名-->

<!-- 抓取所有的目标网址，保存到数据库 -->
<servlet>
    <servlet-name>GetAllUrl_JavaSpider_1_3_Servlet</servlet-name>
    <servlet-class>com.spider.servlet.GetAllUrl_JavaSpider_1_3_Servlet</servlet-class>
</servlet>

<!-- 配置servlet-mapping 用于映射一个已注册的Servlet的一个对外访问路径-->
<!-- 注意：-->
<!--     1，url-pattern是对外访问路径，对应JSP页面的action的值-->
<!--     2，客户端发送的action请求，对应url-pattern斜杠后面的参数；-->
<!--     3，action请求找到url-pattern以后，根据servlet-name去找对应的servlet类；-->
<!--     4，servlet类接收到客户端的请求以后，开始处理请求；-->

<!-- 抓取所有的目标网址，保存到数据库 -->
<servlet-mapping>
    <servlet-name>GetAllUrl_JavaSpider_1_3_Servlet</servlet-name>
    <url-pattern>/GetAllUrl_JavaSpider_1_3_Servlet</url-pattern>
</servlet-mapping>

</web-app>

这是一个没有经过优化的，简单的爬虫，可以爬取指定站点的网页，并将链接保存到数据库中。后续还会更新更高版本...

你可能感兴趣的:(mysql,servlet,网络爬虫,javaweb开发)

spring boot 拦截器简单demo 测试开发小白变怪兽服务端 spring boot 后端 java
拦截器（Interceptor）与过滤器的区别特性过滤器（Filter）拦截器（Interceptor）所属规范Servlet规范（javax.servlet）SpringMVC框架（基于AOP实现）作用范围所有请求（包括静态资源）仅拦截Controller的请求执行时机在DispatcherServlet之前执行在Controller方法前后执行访问上下文无法直接获取Spring的Bean或注解
如何通过 Apache SeaTunnel 实现 MySQL 到 OceanBase的数据迁移同步 SeaTunnel apache mysql oceanbase
本文来源于OceanBase数据库官方博客，目前ApacheSeaTunnel2.3.9已支持本文提到的所有功能，故原文2.3.7已全部修改为2.3.9准备传输工具本方案采用ApacheSeaTunnel（简称SeaTunnel）进行MySQL到OceanBase的数据迁移和同步，出于对方案轻量性的考量，我们采用其内置的Zeta引擎来实现，包括全量同步、离线增量同步，以及CDC方案。运行环境准备自
【实操回顾】基于Apache SeaTunnel从MySQL同步到PostgreSQL——Demo方舟计划 SeaTunnel apache mysql postgresql
文章作者：马全才奥克斯集团大数据工程师编辑整理：国电南自赵鸿辉白鲸开源曾辉本文详细演示了如何通过ApacheSeaTunnel2.3.9实现**MySQL**到PostgreSQL的全量数据同步。非常感谢马全才老师花费业余时间为大家演示制作的Demo，也欢迎更多朋友贡献自己熟悉的同步场景，详细请参考社区Demo方舟活动：https://mp.weixin.qq.com/s/5gpiZZ0-8a4I
Servlet 点击计数器 lsx202406 开发语言
Servlet点击计数器引言随着互联网的快速发展，Web应用程序已成为人们日常生活中不可或缺的一部分。Servlet作为Java平台上用于开发Web应用程序的重要技术之一，已经广泛应用于各种Web项目中。本文将详细介绍Servlet点击计数器的实现方法，帮助读者更好地理解Servlet技术在实际开发中的应用。Servlet点击计数器概述Servlet点击计数器是一种用于记录Web页面点击次数的组件
基于oracle linux的 DBI/DBD 标准化安装文档(六) oracle
一、安装DBIDBI(DatabaseInterface)是perl连接数据库的接口。其是perl连接数据库的最优方法，他支持包括Orcale,Sybase,mysql,db2等绝大多数的数据库，下面将简要介绍其安装方法。1.1解压tar-zxvfDBI-1.616_901.tar.gz1.2安装依赖yuminstallperl-ExtUtils-CBuilderperl-ExtUtils-Mak
莫名锁表？ --- mysql的事务隔离级别程序员小软 mysql 数据库 java
前言系统响应超时系统访问数据库特别慢莫名提示锁等待超时数据库锁表事务长时间等锁，直到超时以上问题都可能是事务锁表导致的问题今天测试反馈系统批量处理莫名提示锁等待超时，再次操作查看数据库事务确实存在等锁情况，甚至死锁。刚开始是偶尔出现，后来一直就是死锁，导致其他操作也操作不了。刚开始发现数据库中操作插入的时候会进入锁等待怀疑是这张表中主键自增导致的锁表，于是将表改为指定主键，问题依然存在。后来想起来
MySQL数据库架构设计：分片与分区策略实战墨瑾轩一起学学数据库【一】mysql 数据库架构 adb
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣在数据库的魔法森林中，MySQL就像是一位智慧的老树精，而分片（Sharding）与分区（Partitioning）则是它手中的两把神秘钥匙，能够打开数据高效存储与快速检索的大门。今天，我们就一起踏上一场奇幻之旅，探索如何运用这两把钥匙，打造一个既强大又灵活的
MySQL探秘之旅：总体架构介绍互联网全栈架构 mysql 架构数据库
欢迎关注微信公众号：互联网全栈架构自从《吃透Redis系列》阅读量屡创新高之后，更加坚定了创作技术系列文章的决心，从而让朋友们获得更加体系化的知识。当然，这是一件非常不容易的事情，让每篇文章都能单独成篇且质量上乘，同时，把它们连起来以后又能构成一个体系，着实困难。但不管如何，我觉得这样的方向和做法没有问题，应该会受到大家的欢迎，那就迎难而上。上次做了一个统计，相对来说，大家对于MySQL的文章比较
超详细：数据库的基本架构 m0_74824661 面试学习路线阿里巴巴数据库架构
MySQL基础架构下面这个图是我给出的一个MySQL基础架构图，可以清楚的了解到SQL语句在MySQL的各个模块进行执行过程。然后MySQL可以分为两个部分，一个是server层，另一个是存储引擎。server层Server层涵盖了MySQL的大多数核心服务功能，以及所有的内置函数（如日期、时间、数学和加密函数等）。所有跨存储引擎的功能都在这一层实现，比如存储过程、触发器、视图等。Server层主
MYSQL8.0数据库误删除记录恢复 MYSQL8.0数据库崩溃恢复 MYSQL8.0数据库删除表恢复 caihuayuan5 面试题汇总与解析大数据 spring boot java 后端课程设计
数据类型MYSQL8.0数据大小242MB故障检测主机断电导致数据库崩溃,无法启动.修复结果收到文件后,修正不一致的地方，成功启动MYSQL8.0完成恢复客户验收数据成功。完成恢复。最新数据得以恢复.客户非常满意。友情提醒：重要数据一定要勤备份，遇到数据丢失数据损坏等问题，要第一时间联系专业人士。对于各类主流数据库，我们可以做最底层的数据恢复及数据修复，对于数据库的某些特定故障我们保证数据库100
Maven的继承和聚合百香果果ccc Maven maven hive java
Maven继承指的是，子项目继承父级Maven项目的配置信息（pom.xml）在父级pom.xml中，使用标签包裹的依赖，将会无条件传递给子级，与依赖范围无关com.alibabadruid1.2.8org.junit.jupiterjunit-jupiter-api5.10.2testjavax.servletjavax.servlet-api3.1.0provided在父级pom.xml中，使
python+MySQL+HTML实现自习室座位管理系统 IT小本本 python python mysql html
自习室座位管理系统项目介绍自习室座位管理系统是一个基于PythonFlask框架开发的Web应用，旨在提供高效、便捷的自习室座位预约和管理功能。该系统适用于学校图书馆、自习室等场所，帮助管理员有效管理座位资源，同时为学生提供便捷的座位预约服务。功能特点1、用户认证模块用户注册：学生可以注册账号，填写个人信息用户登录：支持学生和管理员登录找回密码：通过邮箱验证重置密码2、座位管理模块座位预约：学生可
基于oracle linux的 DBI/DBD 标准化安装文档(二) 文档
一、安装DBIDBI(DatabaseInterface)是perl连接数据库的接口。其是perl连接数据库的最优方法，他支持包括Orcale,Sybase,mysql,db2等绝大多数的数据库，下面将简要介绍其安装方法。1.1解压tar-zxvfDBI-1.616_901.tar.gz1.2安装依赖yuminstallperl-ExtUtils-CBuilderperl-ExtUtils-Mak
数据库：SQLite/MySQL/PostgreSQL 的破圈之战程序员
数据库类型对比维度SQLiteMySQLPostgreSQL类型嵌入式数据库关系型数据库管理系统(RDBMS)对象-关系型数据库(ORDBMS)架构无服务端，单文件存储客户端-服务器架构客户端-服务器架构事务支持ACID兼容（默认启用）ACID兼容（需使用InnoDB引擎）完整ACID兼容并发处理写操作全局锁行级锁+MVCC(InnoDB)多版本并发控制(MVCC)扩展性单机，适合轻量级应用支持主
MySQL：多表查询、笛卡尔积、内连接、外连接、子查询平安1113 MySQL mysql sql 数据库
多表查询同时查询多张表获取到需要的数据例如：查询到开发部有多少人，需要对部门表dept和员工表emp同时进行查询笛卡尔积对上图两张表进行查询select*fromemp,dept;左表中的数据分别和右表中的数据进行结合，查询出来的总记录为：左表记录数*右表记录数总记录数为6*3=18条清除笛卡尔积清除笛卡尔积需要使用等值连接，过滤掉不符合条件的数据select*fromemp,deptwhere<
【Mysql数据库第6章】MySQL的多表操作—多表联合查询、子查询、内外连接 KJ.JK 数据库 mysql 内连接外连接 mysql的子查询
文章目录往期精彩知识1、多表联合查询介绍2、交叉连接查询3、内连接查询4、外连接查询（1）外连接介绍（2）左外连接（3）右外连接（4）满外连接综合代码演示5、子查询（1）子查询的介绍和特点（2）子查询的关键字all关键字any和some关键字in关键字exists关键字6、自关联查询作者：KJ.JK往期精彩知识Spring中的创建对象的三种方式、第三方资源配置管理详细描述及使用（XML版完结篇）S
GBase8c aes_encrypt和aes_decrypt函数 keep__go GBase8c 数据库 gbase
在数据库中，aes_encrypt和aes_decrypt函数进行加解密时使用的块加密模式。GBase8c与MySQL的aes_encrypt和aes_decrypt函数区别：1、GBase8c中的初始化向量init_vector不能为空2、MySQL的加密模块block_encryption_mode为aes-128-ecb，GBase8c不支持aes-128-ecb，默认加密模块为aes-12
Spring Boot拦截器（Interceptor）与过滤器（Filter）深度解析：区别、实现与实战指南 chenOnlyOne spring boot 后端 java
SpringBoot拦截器（Interceptor）与过滤器（Filter）深度解析：区别、实现与实战指南一、核心概念对比1.本质区别维度过滤器（Filter）拦截器（Interceptor）规范层级Servlet规范（J2EE标准）SpringMVC框架机制作用范围所有请求（包括静态资源）只处理Controller请求依赖关系不依赖Spring容器完全集成SpringIOC容器执行顺序最先执行（
MYSQL数据备份与恢复（mysqldump）一诚学编程 mysql mysql 数据库 linux adb
MySQL备份之mysqldump表级别备份还原格式：mysqldump[OPTIONS]database[tables]实例：把db_user数据库中的tb_student数据表进行备份备份：#mysqldumpdb_usertb_student>/tmp/sqlbak/tb_student.sql-p还原：#mysql数据库名称/tmp/sqlbak/db_itheima.sql-p还原：#m
MySQL---DDL（3.17）秋凉づᐇ mysql oracle 数据库
1、DDL-数据库操作查询：查询所有数据库：SHOWDATABASES;查询当前数据库：SELECTDATABASE();创建:CREATEDATABASE[IFNOTEXISTS]数据库名[DEFAULTCHARSET字符集][COLLATE排序规则]；删除：DROPDATABASE[IFEXISTS]数据库名；使用：USE数据库名；2、DDL--表操作-查询查询当前数据库所有表：SHOWTAB
nodejs+mysql分页查询 m0_67987829 mysql 前端 node.js
router:（参数page,size）goodsRouter.get("/getList",getGoodsList)controllerasyncgetGoodsList(ctx,next){const{page,size}=ctx.query;//获取查询参数//将page和size转换为数字类型constparsedPage=parseInt(page);constparsedSize=p
sequelize + Nodejs + MySQL 的简单用法小公鸡卡哇伊呀~ mysql 数据库
HowtoUseSequelizeORMinNodeJS-Tutorial1Sequlize简介Sequelize是最流行的可以与Nodejs一起使用的一种关系数据库ORM(Object-relationalmapping对象关系映射)，Mongoose是MongoDB的ORM.Sequelize的作用，简单地说，就是避免在代码里写原生SQL语句，而是将这种语句改成JavaScript：不必再写类
MySQL0基础概念4 wqx951 mysql sql
MySQL体系结构概述1.MySQL系统的重要组件包括连接管理器、线程管理器、命令分发器。2.连接管理器负责接收用户请求，转交给线程管理器，验证用户访问。3.用户请求包括查询命令，这些命令由命令分发器处理，如交友、缓存、解析结果或记录用户行为。MySQL查询处理流程1.查询处理流程包括高速缓存查询、词法分析、语法分析、结果缓存检查和分析后结果处理。2.如果查询结果在缓存中，直接返回缓存结果；否则，
Java面试精选（1）:Spring，SpringMVC，SpringBoot，SpringCloud有什么区别和联系？ Java面试精选 spring java spring boot vue 编程语言
简单介绍Spring是一个轻量级的控制反转(IoC)和面向切面(AOP)的容器框架。Spring使你能够编写更干净、更可管理、并且更易于测试的代码。SpringMVC是Spring的一个模块，一个web框架。通过DispatcherServlet,ModelAndView和ViewResolver，开发web应用变得很容易。主要针对的是网站应用程序或者服务开发——URL路由、Session、模板引
基于oracle linux的 DBI/DBD 标准化安装文档(四) linux
一、安装DBIDBI(DatabaseInterface)是perl连接数据库的接口。其是perl连接数据库的最优方法，他支持包括Orcale,Sybase,mysql,db2等绝大多数的数据库，下面将简要介绍其安装方法。1.1解压tar-zxvfDBI-1.616_901.tar.gz1.2安装依赖yuminstallperl-ExtUtils-CBuilderperl-ExtUtils-Mak
mysql中json数组对象mybatis如何自动映射
需求:假如数据库某个表的一个字段是json数据类型,字段名是students,类型是,存的是json格式的学生数组,现要用一个List来接收,如何实现自动转换.1.实现TypeHandlerwhy?如果json字段存的是数组,直接使用"com.baomidou.mybatisplus.extension.handlers.FastjsonTypeHandler"会给你转成List类型;所以需要自己
wordpress导入mysql数据库文件的方法及注意事项 wodrpress资源分享 wordpress 数据库 mysql wordpress
WordPress是一个流行的开源内容管理系统，通常用于构建网站和博客。它使用MySQL数据库来存储和管理网站数据。在某些情况下，您可能需要将现有的MySQL数据库导入到新的WordPress安装中。本文将介绍如何导入MySQL数据库文件到WordPress以及需要注意的事项。一、备份现有数据库在进行任何数据库导入操作之前，强烈建议您先备份现有的数据库。这样可以确保在导入过程中出现问题时，您不会丢
doris:认证与鉴权概述向阳1218 大数据 doris
Doris的权限管理系统参照了MySQL的权限管理机制，做到了行级别细粒度的权限控制，基于角色的权限访问控制，并且支持白名单机制。名词解释用户标识UserIdentity在权限系统中，一个用户被识别为一个UserIdentity（用户标识）。用户标识由两部分组成：username和host。其中username为用户名，由英文大小写组成。host表示该用户链接来自的IP。UserIdentity以
【go从入门到精通】探秘struct结构体转json为什么需要首字母大写？前网易架构师-高司机 golang从入门到精通 golang json go 结构体首字母大写 golang从入门到精通 go从入门到精通
目录作者简介：问题抛出分析结论作者简介：高科，先后在IBMPlatformComputing从事网格计算，淘米网，网易从事游戏服务器开发，拥有丰富的C++，go等语言开发经验，mysql，mongo，redis等数据库，设计模式和网络库开发经验，对战棋类，回合制，moba类页游，手游有丰富的架构设计和开发经验。并且深耕深度学习和数据集训练，提供商业化的视觉人工智能检测和预警系统（煤矿，工厂，制造业
javaweb中@Component和@Mapper和@Service和@RestController这几个注解要加在哪?为什么? 瑞金彭于晏 maven java spring boot spring
在JavaWeb开发中特别是在使用Spring框架（包括SpringBoot）时，@Component、@Mapper、@Service、@RestController这些注解扮演着非常重要的角色，它们用于定义组件的类型，并帮助Spring框架进行自动装配和依赖注入。下面分别解释这些注解应该加在哪里以及为什么：1.@Component加在哪里：@Component可以加在任何类上，表示这个类是一个
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，