innerpeaceScorpio

Java写网络爬虫基础篇（一）

    最近项目中有涉及到爬虫功能，目前做的还比较基础的，主要是在前人的一些公用方法的基础之上，对一些正则表达式的运用，还未涉及到性能以及反爬虫机制，先记录下来，此篇主要是想记录一些通用的网页匹配的工具类，后面做得好了再写后续。
    爬虫：网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。（该释义来自百度百科，应该还比较好理解）
    写爬虫之前，首先我们需要分析要爬取的URL和网页结构。

列表URL结构分析
如下图是我们要爬取的一系列网页数据，我们需要爬取每一篇文章的部分内容


它是在输入框输入“饮食养生”关键词之后，呈现出的一个每页10条，一共100页的分页列表，我们再来看看每一页的URL的特点

我们看看每一页的网址：
第1页：

第2页：

第3页：

第100页：

我们可以很清晰地看出每一页的URL的规律，第1页的URL看起来似乎与其他有所不同，没有最后的&page=1，但实际上加上&page=1和不加都是一样的效果，因此我们在写正则表达式的时候只需把最后page=的“=”后面的数字匹配为1-100的整数即可。
网页结构分析

在网页上按F12查看网页源码，找到需要爬取部分的结构特点：

以上图来举例，我们需要爬取的部分是楼主发布的内容，如图中选中部分，右边就会显示该部分所在的网页结构，可以看到，每一楼发布的内容都是在一个”< tr> < /tr>”元素中

我们需要爬取的内容是第一个tr元素下的< div class=”content-body” >元素中，我们找的这个元素的特征一定要是唯一可识别的，在这个例子中，整个页面只有一个table元素，而每一个tr中也只有一个< div class=”content-body” >元素，因此我们定位在第一个tr元素下的class为content-body的div，这个是可以唯一识别的，分析完毕我们就可以开始写我们的爬虫规则了。

爬虫的思路：我们分两步，第一步访问每一页的URL得到一个页面，解析页面提取页面上每一条数据的URL；第二步再访问每一页提取出来的10个URL，得到这一页的10个网页，再解析网页内容，得到我们需要的内容部分。

接下来上代码：
这是我的目录结构

Links类

import java.util.HashSet;
import java.util.LinkedList;
import java.util.Set;

/*
*  Link主要功能;
*  1: 存储已经访问过的URL路径 和 待访问的URL 路径;
*/
public class Links
{

    // 已访问的 url 集合 已经访问过的 主要考虑 不能再重复了 使用set来保证不重复;
    private static Set visitedUrlSet = new HashSet();

    // 待访问的 url 集合 待访问的主要考虑 1:规定访问顺序;2:保证不提供重复的带访问地址;
    private static LinkedList unVisitedUrlQueue = new LinkedList();

    // 获得已经访问的 URL 数目
    public static int getVisitedUrlNum()
    {
        return visitedUrlSet.size();
    }

    // 添加到访问过的 URL
    public static void addVisitedUrlSet(String url)
    {
        visitedUrlSet.add(url);
    }

    // 移除访问过的 URL
    public static void removeVisitedUrlSet(String url)
    {
        visitedUrlSet.remove(url);
    }

    // 获得 待访问的 url 集合
    public static LinkedList getUnVisitedUrlQueue()
    {
        return unVisitedUrlQueue;
    }

    // 添加到待访问的集合中 保证每个 URL 只被访问一次
    public static void addUnvisitedUrlQueue(String url)
    {
        if (url != null && !url.trim().equals("")
                && !visitedUrlSet.contains(url)
                && !unVisitedUrlQueue.contains(url))
        {
            unVisitedUrlQueue.add(url);
        }
    }

    // 删除 待访问的url
    public static Object removeHeadOfUnVisitedUrlQueue()
    {
        return unVisitedUrlQueue.removeFirst();
    }

    // 判断未访问的 URL 队列中是否为空
    public static boolean unVisitedUrlQueueIsEmpty()
    {
        return unVisitedUrlQueue.isEmpty();
    }

}

LinkFilter类：主要是判断输入的URL是否是我们想要的格式，后面代码一看就清楚了

public interface LinkFilter
{
    public boolean accept(String url);
}

page包下的三个类
page类

import java.io.UnsupportedEncodingException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

import com.youge.admin.crawl.util.CharsetDetector;

/*
* page
*   1: 保存获取到的响应的相关内容;
* */
public class Page
{
    private byte[] content;
    private String html; // 网页源码字符串
    private Document doc;// 网页Dom文档
    private String charset;// 字符编码
    private String url;// url路径
    private String contentType;// 内容类型

    public Page(byte[] content, String url, String contentType)
    {
        this.content = content;
        this.url = url;
        this.contentType = contentType;
    }

    public String getCharset()
    {
        return charset;
    }

    public String getUrl()
    {
        return url;
    }

    public String getContentType()
    {
        return contentType;
    }

    public byte[] getContent()
    {
        return content;
    }

    /**
     * 返回网页的源码字符串
     *
     * @return 网页的源码字符串
     */
    public String getHtml()
    {
        if (html != null)
        {
            return html;
        }
        if (content == null)
        {
            return null;
        }
        if (charset == null)
        {
            charset = CharsetDetector.guessEncoding(content); // 根据内容来猜测 字符编码
        }
        try
        {
            this.html = new String(content, charset);
            return html;
        }
        catch (UnsupportedEncodingException ex)
        {
            ex.printStackTrace();
            return null;
        }
    }

    /*
     * 得到文档
     */
    public Document getDoc()
    {
        if (doc != null)
        {
            return doc;
        }
        try
        {
            this.doc = Jsoup.parse(getHtml(), url);
            return doc;
        }
        catch (Exception ex)
        {
            ex.printStackTrace();
            return null;
        }
    }
}

PageParserTool类

import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.util.ArrayList;
import java.util.HashSet;
import java.util.Iterator;
import java.util.Set;

public class PageParserTool {


    /* 通过选择器来选取页面的 */
    public static Elements select(Page page , String cssSelector) {
        return page.getDoc().select(cssSelector);
    }

    /*
     *  通过css选择器来得到指定元素;
     *
     *  */
    public static Element select(Page page , String cssSelector, int index) {
        Elements eles = select(page , cssSelector);
        int realIndex = index;
        if (index < 0) {
            realIndex = eles.size() + index;
        }
        return eles.get(realIndex);
    }


    /**
     * 获取满足选择器的元素中的链接 选择器cssSelector必须定位到具体的超链接
     * 例如我们想抽取id为content的div中的所有超链接，这里
     * 就要将cssSelector定义为div[id=content] a
     *  放入set 中 防止重复；
     * @param cssSelector
     * @return
     */
    public static  Set getLinks(Page page ,String cssSelector) {
        Set links  = new HashSet() ;
        Elements es = select(page , cssSelector);
        Iterator iterator  = es.iterator();
        while(iterator.hasNext()) {
            Element element = (Element) iterator.next();
            if ( element.hasAttr("href") ) {
                links.add(element.attr("abs:href"));
            }else if( element.hasAttr("src") ){
                links.add(element.attr("abs:src"));
            }
        }
        return links;
    }



    /**
     * 获取网页中满足指定css选择器的所有元素的指定属性的集合
     * 例如通过getAttrs("img[src]","abs:src")可获取网页中所有图片的链接
     * @param cssSelector
     * @param attrName
     * @return
     */
    public static ArrayList getAttrs(Page page , String cssSelector, String attrName) {
        ArrayList result = new ArrayList();
        Elements eles = select(page ,cssSelector);
        for (Element ele : eles) {
            if (ele.hasAttr(attrName)) {
                result.add(ele.attr(attrName));
            }
        }
        return result;
    }
}

RequestAndResponseTool类

import java.io.IOException;
import java.net.URLEncoder;

import org.apache.commons.httpclient.DefaultHttpMethodRetryHandler;
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.HttpException;
import org.apache.commons.httpclient.HttpStatus;
import org.apache.commons.httpclient.methods.GetMethod;
import org.apache.commons.httpclient.params.HttpMethodParams;

public class RequestAndResponseTool
{

    public static Page sendRequstAndGetResponse(String url)
    {
        Page page = null;
        // 1.生成 HttpClinet 对象并设置参数
        HttpClient httpClient = new HttpClient();
        // 设置 HTTP 连接超时 5s
        httpClient.getHttpConnectionManager().getParams()
                .setConnectionTimeout(5000);
        // 2.生成 GetMethod 对象并设置参数
        GetMethod getMethod;
        if (url.contains("?"))
        {
            String[] tempUrl = url.split("\\?");
            getMethod = new GetMethod(
                    tempUrl[0] + "?" + URLEncoder.encode(tempUrl[1]));
        }
        else
        {
            getMethod = new GetMethod(url);
        }
        // 设置 get 请求超时 5s
        getMethod.getParams().setParameter(HttpMethodParams.SO_TIMEOUT, 5000);
        // 设置请求重试处理
        getMethod.getParams().setParameter(HttpMethodParams.RETRY_HANDLER,
                new DefaultHttpMethodRetryHandler());
        // 3.执行 HTTP GET 请求
        try
        {
            int statusCode = httpClient.executeMethod(getMethod);
            // 判断访问的状态码
            if (statusCode != HttpStatus.SC_OK)
            {
                System.err
                        .println("Method failed: " + getMethod.getStatusLine());
            }
            // 4.处理 HTTP 响应内容
            byte[] responseBody = getMethod.getResponseBody();// 读取为字节 数组
            String contentType = getMethod.getResponseHeader("Content-Type")
                    .getValue(); // 得到当前返回类型
            page = new Page(responseBody, url, contentType); // 封装成为页面
        }
        catch (HttpException e)
        {
            // 发生致命的异常，可能是协议不对或者返回的内容有问题
            System.out.println("Please check your provided http address!");
            e.printStackTrace();
        }
        catch (IOException e)
        {
            // 发生网络异常
            e.printStackTrace();
        }
        finally
        {
            // 释放连接
            getMethod.releaseConnection();
        }
        return page;
    }

    public static Page sendRequstAndGetResponse(String url, String param)
    {
        Page page = null;
        // 1.生成 HttpClinet 对象并设置参数
        HttpClient httpClient = new HttpClient();
        // 设置 HTTP 连接超时 5s
        httpClient.getHttpConnectionManager().getParams()
                .setConnectionTimeout(5000);
        // 2.生成 GetMethod 对象并设置参数
        String newParam = URLEncoder.encode(param);
        GetMethod getMethod = new GetMethod(url + "?" + newParam);
        // 设置 get 请求超时 5s
        getMethod.getParams().setParameter(HttpMethodParams.SO_TIMEOUT, 5000);
        // 设置请求重试处理
        getMethod.getParams().setParameter(HttpMethodParams.RETRY_HANDLER,
                new DefaultHttpMethodRetryHandler());
        // 3.执行 HTTP GET 请求
        try
        {
            int statusCode = httpClient.executeMethod(getMethod);
            // 判断访问的状态码
            if (statusCode != HttpStatus.SC_OK)
            {
                System.err
                        .println("Method failed: " + getMethod.getStatusLine());
            }
            // 4.处理 HTTP 响应内容
            byte[] responseBody = getMethod.getResponseBody();// 读取为字节 数组
            String contentType = getMethod.getResponseHeader("Content-Type")
                    .getValue(); // 得到当前返回类型
            page = new Page(responseBody, url, contentType); // 封装成为页面
        }
        catch (HttpException e)
        {
            // 发生致命的异常，可能是协议不对或者返回的内容有问题
            System.out.println("Please check your provided http address!");
            e.printStackTrace();
        }
        catch (IOException e)
        {
            // 发生网络异常
            e.printStackTrace();
        }
        finally
        {
            // 释放连接
            getMethod.releaseConnection();
        }
        return page;
    }
}

util包下的几个类
CharsetDetector类

import org.mozilla.universalchardet.UniversalDetector;

import java.io.UnsupportedEncodingException;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * 字符集自动检测
 *
 * @author hu
 */
public class CharsetDetector {

    //从Nutch借鉴的网页编码检测代码
    private static final int CHUNK_SIZE = 2000;

    private static Pattern metaPattern = Pattern.compile(
            "]*http-equiv=(\"|')?content-type(\"|')?[^>]*)>",
            Pattern.CASE_INSENSITIVE);
    private static Pattern charsetPattern = Pattern.compile(
            "charset=\\s*([a-z][_\\-0-9a-z]*)", Pattern.CASE_INSENSITIVE);
    private static Pattern charsetPatternHTML5 = Pattern.compile(
            "]*>",
            Pattern.CASE_INSENSITIVE);

    //从Nutch借鉴的网页编码检测代码
    private static String guessEncodingByNutch(byte[] content) {
        int length = Math.min(content.length, CHUNK_SIZE);

        String str = "";
        try {
            str = new String(content, "ascii");
        } catch (UnsupportedEncodingException e) {
            return null;
        }

        Matcher metaMatcher = metaPattern.matcher(str);
        String encoding = null;
        if (metaMatcher.find()) {
            Matcher charsetMatcher = charsetPattern.matcher(metaMatcher.group(1));
            if (charsetMatcher.find()) {
                encoding = new String(charsetMatcher.group(1));
            }
        }
        if (encoding == null) {
            metaMatcher = charsetPatternHTML5.matcher(str);
            if (metaMatcher.find()) {
                encoding = new String(metaMatcher.group(1));
            }
        }
        if (encoding == null) {
            if (length >= 3 && content[0] == (byte) 0xEF
                    && content[1] == (byte) 0xBB && content[2] == (byte) 0xBF) {
                encoding = "UTF-8";
            } else if (length >= 2) {
                if (content[0] == (byte) 0xFF && content[1] == (byte) 0xFE) {
                    encoding = "UTF-16LE";
                } else if (content[0] == (byte) 0xFE
                        && content[1] == (byte) 0xFF) {
                    encoding = "UTF-16BE";
                }
            }
        }

        return encoding;
    }

    /**
     * 根据字节数组，猜测可能的字符集，如果检测失败，返回utf-8
     *
     * @param bytes 待检测的字节数组
     * @return 可能的字符集，如果检测失败，返回utf-8
     */
    public static String guessEncodingByMozilla(byte[] bytes) {
        String DEFAULT_ENCODING = "UTF-8";
        UniversalDetector detector = new UniversalDetector(null);
        detector.handleData(bytes, 0, bytes.length);
        detector.dataEnd();
        String encoding = detector.getDetectedCharset();
        detector.reset();
        if (encoding == null) {
            encoding = DEFAULT_ENCODING;
        }
        return encoding;
    }

    /**
     * 根据字节数组，猜测可能的字符集，如果检测失败，返回utf-8
     * @param content 待检测的字节数组
     * @return 可能的字符集，如果检测失败，返回utf-8
     */
    public static String guessEncoding(byte[] content) {
        String encoding;
        try {
            encoding = guessEncodingByNutch(content);
        } catch (Exception ex) {
            return guessEncodingByMozilla(content);
        }

        if (encoding == null) {
            encoding = guessEncodingByMozilla(content);
            return encoding;
        } else {
            return encoding;
        }
    }
}

HtmlRegexpUtil类（这是在网上百度的一个util类，有很多方法没有用上，在此基础上我作了一下改动，用上的也就一两个）

import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**  
 *   
 * Title: HTML相关的正则表达式工具类  
 *   
 *   
 * Description: 包括过滤HTML标记，转换HTML标记，替换特定HTML标记  
 *   
 *   
 * Copyright: Copyright (c) 2006  
 *   
 *   
 * @author hejian  
 * @version 1.0  
 * @createtime 2006-10-16  
 */

public class HtmlRegexpUtil
{
    public final static String regxpForHtml = "<([^>]*)>"; // 过滤所有以<开头，以>结尾的标签

    public final static String regxpForImgTag = "<\\s*img\\s*([^>]*)\\s*>"; // 找出IMG标签

    public final static String regxpForImaTagSrcAttrib = "src=\"([^\"]+)\""; // 找出IMG标签的SRC属性

    public final static String regxpForArticleTag = "<\\s*article\\s*([^>]*)\\s*>"; // 找出article标签

    public final static String regxpForSpanTag = "<\\s*span\\s*([^>]*)\\s*>"; // 找出span标签

    public final static String regxpForPTag = "<\\s*p\\s*([^>]*)\\s*>"; // 找出p标签

    public final static String regxpForATag = "<\\s*a\\s*([^>]*)\\s*>"; // 找出a标签

    public final static String regxpForStrongTag = "<\\s*strong\\s*([^>]*)\\s*>"; // 找出strong标签

    /**  
     *   
     */
    public HtmlRegexpUtil()
    {
        // TODO Auto-generated constructor stub
    }

    /**  
     *   
     * 基本功能：替换标记以正常显示  （没用上）
     *   
     *   
     * @param input  
     * @return String  
     */
    public String replaceTag(String input)
    {
        if (!hasSpecialChars(input))
        {
            return input;
        }
        StringBuffer filtered = new StringBuffer(input.length());
        char c;
        for (int i = 0; i <= input.length() - 1; i++)
        {
            c = input.charAt(i);
            switch (c)
            {
            case '<':
                filtered.append("<");
                break;
            case '>':
                filtered.append(">");
                break;
            case '"':
                filtered.append(""");
                break;
            case '&':
                filtered.append("&");
                break;
            default:
                filtered.append(c);
            }

        }
        return (filtered.toString());
    }

    /**  
     *   
     * 基本功能：判断标记是否存在  
     * 
  
     *   
     * @param input  
     * @return boolean  
     */
    public boolean hasSpecialChars(String input)
    {
        boolean flag = false;
        if ((input != null) && (input.length() > 0))
        {
            char c;
            for (int i = 0; i <= input.length() - 1; i++)
            {
                c = input.charAt(i);
                switch (c)
                {
                case '>':
                    flag = true;
                    break;
                case '<':
                    flag = true;
                    break;
                case '"':
                    flag = true;
                    break;
                case '&':
                    flag = true;
                    break;
                }
            }
        }
        return flag;
    }

    /**  
     *   
     * 基本功能：过滤所有以"<"开头以">"结尾的标签  （没用上）
     * 
  
     *   
     * @param str  
     * @return String  
     */
    public static String filterHtml(String str)
    {
        Pattern pattern = Pattern.compile(regxpForHtml);
        Matcher matcher = pattern.matcher(str);
        StringBuffer sb = new StringBuffer();
        boolean result1 = matcher.find();
        while (result1)
        {
            matcher.appendReplacement(sb, "");
            result1 = matcher.find();
        }
        matcher.appendTail(sb);
        return sb.toString();
    }

    /**  
     *   
     * 基本功能：过滤指定标签  （没用上）
     * 
  
     *   
     * @param str  
     * @param tag  
     *            指定标签  
     * @return String  
     */
    public static String fiterHtmlTag(String str, String tag)
    {
        String regxp = "<\\s*" + tag + "\\s*([^>]*)\\s*>";
        Pattern pattern = Pattern.compile(regxp);
        Matcher matcher = pattern.matcher(str);
        StringBuffer sb = new StringBuffer();
        boolean result1 = matcher.find();
        while (result1)
        {
            matcher.appendReplacement(sb, "");
            result1 = matcher.find();
        }
        matcher.appendTail(sb);
        return sb.toString();
    }

    /**  
     *   
     * 基本功能：替换指定的标签  （没用上）
     *   
     *   
     * @param str  
     * @param beforeTag  
     *            要替换的标签  
     * @param tagAttrib  
     *            要替换的标签属性值  
     * @param startTag  
     *            新标签开始标记  
     * @param endTag  
     *            新标签结束标记  
     * @return String  
     * @如：替换img标签的src属性值为[img]属性值[/img]  
     */
    public static String replaceHtmlTag(String str, String beforeTag,
            String tagAttrib, String startTag, String endTag)
    {
        String regxpForTag = "<\\s*" + beforeTag + "\\s+([^>]*)\\s*>";
        String regxpForTagAttrib = tagAttrib + "=\"([^\"]+)\"";
        Pattern patternForTag = Pattern.compile(regxpForTag);
        Pattern patternForAttrib = Pattern.compile(regxpForTagAttrib);
        Matcher matcherForTag = patternForTag.matcher(str);
        StringBuffer sb = new StringBuffer();
        boolean result = matcherForTag.find();
        while (result)
        {
            StringBuffer sbreplace = new StringBuffer();
            Matcher matcherForAttrib = patternForAttrib
                    .matcher(matcherForTag.group(1));
            if (matcherForAttrib.find())
            {
                matcherForAttrib.appendReplacement(sbreplace,
                        startTag + matcherForAttrib.group(1) + endTag);
            }
            matcherForTag.appendReplacement(sb, sbreplace.toString());
            result = matcherForTag.find();
        }
        matcherForTag.appendTail(sb);
        return sb.toString();
    }

    /**
     * 
    * @Title: removeAllTagAttr
    * @Description: 移除指定标签的所有属性（我改动之后的方法）
    * @author cjl
    * @param content 源内容
    * @param tagName 标签名称
    * @return
    * @throws
     */
    public static String removeAllTagAttr(String content, String tagName)
    {
        String newContent = content.replaceAll(
                "<" + tagName + "\\s[\\s\\S].*?>", "<" + tagName + ">");
        return newContent;
    }

    /**
     * 获取指定HTML标签的指定属性的值列表（我改动之后的方法）
     * @param source 要匹配的源文本
     * @param element 标签名称
     * @param attr 标签的属性名称
     * @return 属性值列表
     */
    public static List getAttrContentList(String source, String element,
            String attr)
    {
        // 匹配所有img标签 
        List result = new ArrayList();
        String reg = "(<)" + element + "[\\s\\S].*?" + attr
                + "=\"([\\s\\S].*?)\"[\\s\\S].*?>";
        Matcher m = Pattern.compile(reg).matcher(source);
        while (m.find())
        {
            String r = m.group(2);
            result.add(r);
        }
        return result;
    }

    /**
     * 
    * @Title: removeImgWidthAttr
    * @Description: 移除img标签的max-width或width属性（我改动之后的方法）
    * @author cjl
    * @param content
    * @return
    * @throws
    * @date 2018-02-18 21:49
     */
    public static String removeImgWidthAttr(String content)
    {
        // width="[\s\S].*?"|max-width="[\s\S].*?"
        String newContent = content.replaceAll(
                "width=\"[\\s\\S].*?\"|max-width=\"[\\s\\S].*?\"", "");
        return newContent;
    }

    public static String removeImgStyleAttr(String content)
    {
        // width="[\s\S].*?"|max-width="[\s\S].*?"
        String newContent = content.replaceAll("style=\"[\\s\\S].*?\"", "");
        return newContent;
    }

    /**
     * 
    * @Title: getAttrContent
    * @Description: 找到指定属性值
    * @param source
    * @param element
    * @param attr
    * @return
    * @throws
     */
    public static String getAttrContent(String source, String element,
            String attr)
    {
        // 匹配所有img标签 
        List result = new ArrayList();
        String reg = "(<)" + element + "[\\s\\S].*?" + attr
                + "=\"([\\s\\S].*?)\"[\\s\\S]*.*?>";
        Matcher m = Pattern.compile(reg).matcher(source);
        while (m.find())
        {
            String r = m.group(2);
            result.add(r);
        }
        return result.get(0);
    }

    public static void main(String[] args)
    {
        String source = " ";
        System.out.println(HtmlRegexpUtil.getAttrContent(source, "img", "src"));
    }
}

J1healthUtil类（这个类是根据我们项目的业务需求编写的特定的类）

package com.youge.admin.crawl.util;

import java.util.List;

import org.springframework.stereotype.Service;

/**
 * 
* @ClassName: JianYiUtil
* @Description: 健一健康(http://www.j1health.com)文章处理util
* @author cjl
* @date 2018年4月12日 下午2:27:52
*
 */
@Service
public class J1healthUtil
{
    /**
    * 
    * @Title: analyzeArticle
    * @Description: 移除article、span标签,移除p、img（除了src）标签属性,img的url拼接完整
    * @author cjl
    * @param content
    * @return
    */
    public String analyzeArticle(String content)
    {
        HtmlRegexpUtil htmlRegexpUtil = new HtmlRegexpUtil();
        String newContent = "";
        // 1.移除div、span标签
        if (htmlRegexpUtil.hasSpecialChars(HtmlRegexpUtil.regxpForArticleTag))
        {
            newContent = HtmlRegexpUtil.fiterHtmlTag(
                    HtmlRegexpUtil.fiterHtmlTag(content, "div"), "/div");
        }
        if (htmlRegexpUtil.hasSpecialChars(HtmlRegexpUtil.regxpForSpanTag))
        {
            newContent = HtmlRegexpUtil.fiterHtmlTag(
                    HtmlRegexpUtil.fiterHtmlTag(newContent, "span"), "/span");
        }
        // 2.移除p、img（除了src）、strong 标签属性;
        if (htmlRegexpUtil.hasSpecialChars(HtmlRegexpUtil.regxpForPTag))
        {
            newContent = HtmlRegexpUtil.removeAllTagAttr(newContent, "p");
        }
        if (htmlRegexpUtil.hasSpecialChars(HtmlRegexpUtil.regxpForImgTag))
        {
            newContent = HtmlRegexpUtil.removeImgStyleAttr(newContent);
            // 3.判断img的url是否需要拼接完整;
            newContent = newContent.replaceAll("src=\"//", "src=\"http://");
        }
        if (htmlRegexpUtil.hasSpecialChars(HtmlRegexpUtil.regxpForStrongTag))
        {
            newContent = HtmlRegexpUtil.removeAllTagAttr(newContent, "strong");
        }
        return newContent.trim();
    }

    /**
    * 
    * @Title: getImgSrcList
    * @Description: 获取img的src属性值列表
    * @author cjl
    * @param newContent
    * @return
    * @date 2018-02-19 00:55
    */
    public static List getImgSrcList(String newContent)
    {
        List imgSrcList = HtmlRegexpUtil.getAttrContentList(newContent,
                "img", "src");
        return imgSrcList;
    }

}

以上是用到的一些辅助类，下面是爬取逻辑的代码，我省略了一些具体的业务上的代码，具体你要爬取哪些内容取决于你的需求，主要是看一下解析网页提取需要的元素部分，我这里也只是作为参考（注释中的一级表也就是前面说的所有列表的URL，二级表则是每个URL对应的网页数据表）

import java.io.UnsupportedEncodingException;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

import javax.annotation.Resource;

import org.jsoup.select.Elements;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Service;

import com.youge.admin.crawl.link.LinkFilter;
import com.youge.admin.crawl.link.Links;
import com.youge.admin.crawl.page.Page;
import com.youge.admin.crawl.page.PageParserTool;
import com.youge.admin.crawl.page.RequestAndResponseTool;
import com.youge.admin.crawl.util.J1healthUtil;
import com.youge.admin.crawl.util.SouhuUtil;
import com.youge.service.pg.article.ArticleContentService;
import com.youge.service.pg.article.ArticleUrlService;
import com.youge.service.pg.article.ChannelSpiderKeywordsService;
import com.youge.service.pg.article.ChannelSpiderKeywordsSourceService;
import com.youge.util.IdWorker;

/**
 * 
* @ClassName: J1healthCrawler
* @Description: 健一健康爬虫
* @author cjl
* @date 2018年4月12日 上午12:04:48
*
 */
@Service
public class J1healthCrawler
{
    @Autowired
    private ArticleUrlService articleUrlService;
    @Autowired
    private ArticleContentService articleContentService;
    @Autowired
    private J1healthUtil jianYiUtil;
    @Resource
    private ChannelSpiderKeywordsService channelSpiderKeywordsService;
    @Resource
    private ChannelSpiderKeywordsSourceService channelSpiderKeywordsSourceService;

    /**
     * 使用种子初始化 URL 队列
     *
     * @param seeds 种子 URL
     * @return
     */
    private void initCrawlerWithSeeds(String[] seeds)
    {
        for (int i = 0; i < seeds.length; i++)
        {
            Links.addUnvisitedUrlQueue(seeds[i]);
        }
    }

    /**
     * 
    * @Title: crawl
    * @Description: 抓取
    * @author cjl
    * @param seeds
    * @date 2018-02-11 10:30
     */
    public void crawl(String[] seeds)
    {

        // 1.初始化url队列
        initCrawlerWithSeeds(seeds);

        // 2.过滤http开头的url
        @SuppressWarnings("unused")
        LinkFilter filter = new LinkFilter()
        {
            public boolean accept(String url)
            {
                if (url.startsWith("http://www.j1health.com/search"))
                    return true;
                else
                    return false;
            }
        };

        // 3.通过url得到网页内容
        while (!Links.unVisitedUrlQueueIsEmpty())
        {
            // 从种子队列中先取第一个url
            String visitUrl = (String) Links.removeHeadOfUnVisitedUrlQueue();
            if (visitUrl == null)
            {
                continue;
            }

            // 根据URL得到page;
            Page page = RequestAndResponseTool
                    .sendRequstAndGetResponse(visitUrl);

            // 对page进行处理： 访问DOM的某个标签
            // 4.分析网页内容，得到文章列表，存入数据库
            Elements titleElements = PageParserTool.select(page,
                    "ul.search-list div.search-item-title a");
            List articleUrls = new ArrayList();
            List titles = new ArrayList();
            // 文章url一级表信息存库
            Map articleUrlMap = new HashMap();
            if (!titleElements.isEmpty())
            {
                titles = titleElements.eachText();
                articleUrls = titleElements.eachAttr("href");
            }

            // 取单条记录
            for (int i = 0; i < titles.size(); i++)
            {
                articleUrlMap.put("title", titles.get(i));
                articleUrlMap.put("articleUrl", articleUrls.get(i));
                articleUrlMap.put("source", "健一健康");
                articleUrlService.addArticleUrl(articleUrlMap);
            }
            // 将访问过的url放入已访问队列中
            Links.addVisitedUrlSet(visitUrl);
        }
    }

    /**
     * 
    * @Description: 根据文章一级表信息抓取二级表信息
    * @author cjl
    * @date 2018-04-12 17:41
     */
    public void crawlArticleContent()
    {

        Map paramsMap = new HashMap();
        paramsMap.put("isAnalysed", 0);
        // 1.查询所有未被解析过的文章信息
        // 从一级表得到id，url，title，source,根据url得到文章content,存入二级表
        cn.magicbeans.pagination.Page> articleUrls = articleUrlService
                .selectArticleList(null, paramsMap);
        if (articleUrls != null)
        {
            List> articleUrlList = articleUrls.getContent();
            for (Map map : articleUrlList)
            {
                Map articleContentMap = new HashMap();
                // 2.通过文章url列表得到文章详情内容，存入数据库
                // 根据URL得到page;
                Page contentPage = RequestAndResponseTool
                        .sendRequstAndGetResponse(map.get("articleUrl") + "");
                // 对page进行处理： 访问DOM的某个标签
                Elements contentElements = PageParserTool.select(contentPage,
                        "tbody tr td.handle div.content-body");
                Elements authorElements = PageParserTool.select(contentPage,
                        "tbody h5 a");
                if (null != authorElements)
                {
                    String author = authorElements.eachText().get(0);
                    articleContentMap.put("author", author);
                }
                String newContent = jianYiUtil
                        .analyzeArticle(contentElements.get(0).toString());
                List imgSrcList = SouhuUtil.getImgSrcList(newContent);
                // 文章详细信息二级表信息存库
                try
                {
                    articleContentMap.put("content",
                            new String(newContent.getBytes("utf-8"), "utf-8"));
                }
                catch (UnsupportedEncodingException e)
                {
                    e.printStackTrace();
                }
                articleContentMap.put("articleCode", IdWorker.getUniqueId());
                articleContentMap.put("articleUrlId", (int) map.get("id"));
                articleContentMap.put("title", map.get("title"));
                articleContentMap.put("source", map.get("source"));
                articleContentMap.put("contentType", contentType);
                articleContentMap.put("type", type);
                articleContentService.addArticleContent(articleContentMap);
            }
        }
    }

    public static void main(String[] args)
    {
        J1healthCrawler crawler = new J1healthCrawler();
        crawler.crawl(new String[]
        { "http://www.j1health.com/search/topic?keyword=%E9%A5%AE%E9%A3%9F%20%E5%85%BB%E7%94%9F&page=1" });
        crawler.crawlArticleContent();
    }

}

我们在调用的时候传入种子URL队列即可，比如：

@Controller
@RequestMapping("/j1healthCrawler")
public class CrawlerJ1healthController
{
    @Resource
    private J1healthCrawler j1healthCrawler;

    /**
     * 
    * @Description: 爬取
    * @author cjl
     */
    @RequestMapping("/crawl")
    @ResponseBody
    public void crawl(String[] seeds)
    {
        String[] seeds2 = new String[100];
        int j = -1;
        //种子URL队列
        for (int i = 1; i <= 100; i++)
        {
            seeds2[++j] = "http://www.j1health.com/search/topic?keyword=饮食 养生&page="
                    + i;
        }

        j1healthCrawler.crawl(seeds2);
        j1healthCrawler.crawlArticleContent();
    }

至此，一个简单的爬虫基本完成，在此过程中，有一个需要注意的细节，如下图，我们在访问URL的时候，需要对URL中的中文进行处理，否则会报错

这个爬虫的例子里面，能够通用的应该就是提取元素的部分了，但还是要根据具体的业务需求来定制自己的util类，最后的种子URL队列本来是准备写成正则来表示1-100的整数数字，不过没写出来，因为赶时间，就写成了这种笨办法来实现。

你可能感兴趣的:(网络爬虫)

爬虫的精准识别：基于 User-Agent 的正则实现 Small踢倒coffee_氕氘氚经验分享笔记
##摘要随着互联网技术的飞速发展，网络爬虫在数据采集、搜索引擎优化等领域的应用日益广泛。然而，恶意爬虫的存在也给网站安全和数据隐私带来了严重威胁。因此，精准识别爬虫行为成为网络安全领域的重要课题。本文提出了一种基于User-Agent正则表达式的爬虫识别方法，通过分析User-Agent字符串的特征，构建正则表达式规则，实现对爬虫的精准识别。实验结果表明，该方法具有较高的识别准确率和较低的误报率，
Python全栈开发爬虫+自动化办公+数据分析教程 jijihusong006 程序 python 爬虫自动化
以下是一份系统化的Python全栈开发综合教程，涵盖Web开发、网络爬虫、自动化办公和数据分析四大核心领域，采用模块化结构进行深度技术解析：Python全栈开发综合实战教程1、Python全栈开发教程、+爬虫+自动化办公+数据分析课程https://pan.quark.cn/s/9bbb9c39e9652、传送资料库查询https://link3.cc/aa99第一部分全栈开发体系1.1技术架构全
Python爬虫学习笔记_DAY_26_Python爬虫之requests库的安装与基本使用【Python爬虫】_requests库ip 苹果Android开发组程序员 python 爬虫学习
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
6个必备的 Node 网络爬虫库 zz_jesse 爬虫
作为一名程序员，你是否曾遇到过需要从各大网站提取数据的需求？随着互联网的快速扩展，能够高效地进行网络爬虫已经成为企业、研究人员以及个人的一项重要技能。在这个数据为王的时代，如何利用JavaScript和Node.js来实现高效的数据抓取，是每一个开发者都应该掌握的技巧。网络爬虫，即从网站提取数据的过程，已经成为各行各业的重要工具。而JavaScript和Node.js因其强大的功能和丰富的库，成为
Python爬虫：从人民网提取视频链接的完整指南小白学大数据 python python 爬虫音视频开发语言大数据
无论是用于数据分析、内容提取还是资源收集，Python爬虫都因其高效性和易用性而备受开发者青睐。本文将通过一个实际案例——从人民网提取视频链接，详细介绍如何使用Python构建一个完整的爬虫程序。我们将涵盖从基础的网络请求到HTML解析，再到最终提取视频链接的全过程。一、爬虫技术概述网络爬虫（WebCrawler）是一种自动化的程序，用于在互联网上浏览网页并收集信息。它通过模拟浏览器的行为，发送H
Python网络爬虫实战：抓取猫眼TOP100电影信息莱财一哥
本文还有配套的精品资源，点击获取简介：在Python中，Web爬虫是获取互联网数据的关键技能。本教程将指导如何结合使用requests库和正则表达式来从猫眼电影网站的TOP100榜单中抓取电影信息。首先通过requests库发送HTTP请求获取网页内容，然后运用正则表达式提取电影名和评分等信息。在进行网络爬虫时，遵守robots.txt规则，设置请求延时，并考虑处理网站的反爬虫策略。对于更复杂的网
探秘Python电影票数据爬虫：Maoyan Spider 仰北帅Bobbie
探秘Python电影票数据爬虫：MaoyanSpider去发现同类优质开源项目:https://gitcode.com/在大数据和数据分析的世界里，高效的数据获取是第一步。对于电影爱好者或者市场研究者，了解实时的电影票务信息无疑极具价值。今天，我们要推荐一个开源的Python项目——，这是一个针对猫眼电影平台的网络爬虫，它可以帮助你轻松抓取电影信息、场次、票价等关键数据。项目简介MaoyanSpi
【爬虫实战】python入门爬取猫眼电影排行进击的C语言爬虫自动化网络
爬虫爬虫概述应用场景：1、抓取特定网站或应用的内容，提取出有价值的信息。2、模拟用户在浏览器或应用中的操作，实现自动化流程。爬虫是什么专业术语：网络爬虫（又称网页蜘蛛、网络机器人）网络爬虫是一种自动按照特定规则抓取网页信息的程序或脚本。爬虫起源随着网络的迅猛发展，万维网成为海量信息的载体，如何有效地提取和利用这些信息成为一项巨大挑战。搜索引擎如Yahoo、Google、百度等，作为帮助人们检索信息
requests入门以及requests库实例和with,os的解释（Python网络爬虫和信息提取）眸生 Python爬虫 python 爬虫开发语言笔记
导学定向网络数据爬取和网页解析的基本能力requests入门安装方法首先cmdpipinstallrequests然后打开idle测试**>>>importrequests>>>r=requests.get("http://www.baidu.com")>>>r.status_code200>>>r.encoding='utf-8'>>>r.text**requests库的7个主要方法reques
第八课：Scrapy框架入门：工业级爬虫开发 deming_su Python scrapy 爬虫 python
在当今大数据时代，数据抓取已成为信息获取的重要手段。Scrapy作为一个基于Python的开源网络爬虫框架，凭借其高效、灵活的特性，在工业级爬虫开发中占据重要地位。本文将详细介绍Scrapy框架的基本架构、工作流程、关键组件（如Spider类与ItemPipeline）以及中间件机制，并通过一个电商产品爬虫案例，展示如何使用Scrapy框架进行数据抓取。1.Scrapy架构与工作流程Scrapy架
《Python实战进阶》No20: 网络爬虫开发：Scrapy框架详解带娃的IT创业者 Python实战进阶 python 爬虫 scrapy
No20:网络爬虫开发：Scrapy框架详解摘要本文深入解析Scrapy核心架构，通过中间件链式处理、布隆过滤器增量爬取、Splash动态渲染、分布式指纹策略四大核心技术，结合政府数据爬取与动态API逆向工程实战案例，构建企业级爬虫系统。提供完整代码与运行结果，包含法律合规设计与反爬对抗方案。Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中
Python简介 Gao_xu_sheng python 开发语言
Python前言Python一直是一门优秀的编程语言，不仅简洁、易用，而且功能强大，它能做到的事情太多了，既可用于开发桌面应用，也可用于做网络编程，网络爬虫，还有很重要的领域就是AI大模型开发。近年来，随着人工智能（AI）和机器学习（ML）领域的迅猛发展，Python在这些前沿技术中扮演了至关重要的角色，特别是在构建和训练大规模机器学习方面。Python拥有丰富的库和框架，这些工具极大地促进了AI
Python从入门到精通系列专栏文章导航站 hacker707 Python从入门到精通 python 开发语言
Python从入门到精通系列专栏文章导航站专栏导读Part1✨零基础入门篇专栏导读本文是Python从入门到精通的文章导航站。专栏分为零基础入门篇、模块篇、网络爬虫篇、Web开发篇、办公自动化篇、数据分析篇…为了方便专栏订阅者更方便的阅读专栏文章，点击链接即可跳转到具体文章，欢迎订阅持续更新…专栏限时一个月(5.8~6.8)重磅福利专栏订阅者再邀请10人订阅即可获得清华大学出版社书单图书任选一本(
python爬虫是什么架构_Python爬虫是什么?常用框架有哪些? weixin_39596090 python爬虫是什么架构
大家都知道python是一门多岗位编程语言，学习python之后可以从事的岗位有很多，python爬虫便在其中，不过很多人对python不是很了解，所以也不知道python爬虫是什么，接下来带着你的疑问小编为大家介绍一下。Python是一门非常适合开发网络爬虫的编程语言，相比于其他静态编程语言，Python抓取网页文档的接口更简洁;相比于其他动态脚本语言，Python的urllib2包提供了较为完
Python与数据可视化案例：电影评分可视化 master_chenchengg python python 办公效率 python开发 IT
Python与数据可视化案例：电影评分可视化电影评分数据的魅力：为什么可视化很重要数据收集：如何获取电影评分数据使用API接口网络爬虫技术数据清洗与预处理：让数据变得干净整洁可视化实战：用Matplotlib和Seaborn绘制电影评分图表电影评分数据的魅力：为什么可视化很重要对于电影爱好者而言，电影评分不仅仅是数字那么简单，它承载着无数影迷的期待与梦想。想象一下，当你站在电影院门口，面对琳琅满目
使用PHP爬虫获取1688商品分类：实战案例指南数据小爬虫@ php 爬虫开发语言
在电商领域，商品分类信息是商家进行市场调研、选品分析和竞争情报收集的重要基础。1688作为国内领先的B2B电商平台，提供了丰富且详细的商品分类数据。通过PHP爬虫技术，我们可以高效地获取这些分类信息，为商业决策提供有力支持。一、为什么选择PHP爬虫？PHP是一种广泛使用的服务器端脚本语言，特别适合用于Web开发和网络爬虫。它具有强大的网络请求和HTML解析能力，能够轻松实现从网页中提取数据的功能。
awesome python 中文版相见恨晚！(pythonNB的第三方资源库) weixin_30788731
AwesomePython中文版来啦！原文链接：Python资源大全内容包括：Web框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处理、自然语言处理、机器学习、日志、代码分析等。GitHub-jobbole/awesome-python-cn:Python资源大全中文版环境管理管理Python版本和环境的工具p–非常简单的交互式python版本管理工具。pyenv–简单
2024年Python最新蓝桥杯基础练习全解答案+解析共17题 python，三年经验Python开发面经总结 2401_84139963 程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
解析Python网络爬虫：核心技术、Scrapy框架、分布式爬虫（期末重点题目）一口酪 python scrapy
第一章网络爬虫又称网页蜘蛛或（网络机器人）网络爬虫能够按照一定的（规则），自动请求万维网站并提取网络数据爬虫是手动请求万维网网站且提取网页数据的程序。（×）爬虫爬取的是网站后台的数据。（×）通用爬虫用于将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。（√）简答题：简述通用爬虫和聚焦爬虫。1.通用爬虫又称全网爬虫，主要用于将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。聚焦网络爬
Python爬虫实战：四个常见案例详解！ Python_trys python 爬虫开发语言 Python基础编程语言 Python爬虫 Python入门
包含编程籽料、学习路线图、爬虫代码、安装包等！【点击这里领取！】网络爬虫是数据采集的重要工具，Python凭借其丰富的库和简洁的语法，成为了爬虫开发的首选语言。本文将详细介绍四个常见的Python爬虫实战案例，帮助你从入门到精通。目录案例一：静态网页数据抓取案例二：动态网页数据抓取案例三：模拟登录与表单提交案例四：数据存储与导出1.环境准备在开始之前，确保你已经安装了以下Python库：pipin
基于Python零基础制作一个自己的爬虫程序与光同尘大道至简 python 爬虫开发语言青少年编程 visual studio code github html5
此博客为一个详细的Python爬虫教程，从基础知识到完整实现，包括爬取网页内容、解析数据、存储数据、使用代理、反反爬策略等。稍后会提供完整的教程供你参考。1.爬虫基础什么是爬虫：网络爬虫（WebCrawler），又称网络蜘蛛（Spider），是一种自动化脚本或程序，用于按照一定规则批量获取网页数据。爬虫通过模拟浏览器行为向目标网站发送HTTP请求，获取网页的HTML源码，然后解析并提取所需的信息。
【Python 开发网络爬虫抓取客户订单网站数据】局外人_Jia python 爬虫数据库开发语言字符串正则表达式
以下是使用Python开发网络爬虫抓取客户订单网站数据的完整指南，包含技术实现、注意事项和法律合规性说明：一、准备工作：法律与合规性确认合法性：检查目标网站的robots.txt文件（如https://example.com/robots.txt）。确保遵守网站的《服务条款》（TermsofService）。如果涉及用户隐私数据（如订单详情），需获得明确授权。推荐替代方案：优先使用网站提供的API
基于python的网络爬虫爬取天气数据及可视化分析 Soft_Leader python 爬虫开发语言
要创建一个基于Python的网络爬虫来爬取天气数据并进行可视化分析，我们可以采用以下几个步骤来实现：1.选择数据源首先，需要确定一个可靠的天气数据源。常用的有OpenWeatherMap、WeatherAPI、Weatherstack等。这些API通常需要注册并获取一个API密钥（APIKey）来使用。2.安装必要的库我们将使用requests库来发送HTTP请求，pandas来处理数据，matp
Python网络爬虫技术：现代应用、对抗策略与伦理边界自学不成才 python 爬虫开发语言
版权声明：本文仅供学术研究和技术探讨使用。在实践中应用本文技术时，请遵守相关法律法规、网站使用条款和道德准则。作者不对读者使用本文内容产生的任何后果负责。未经授权，请勿转载或用于商业用途。引言随着互联网数据量呈指数级增长，网络爬虫技术在数据采集、市场分析、学术研究等领域扮演着越来越重要的角色。Python凭借其简洁的语法和丰富的库生态，已成为网络爬虫开发的首选语言。然而，当今网络环境下，爬虫开发者
开源AI网络爬虫工具Crawl4AI m0_74823983 面试学习路线阿里巴巴人工智能爬虫
引言在信息化时代，网络爬虫作为从互联网中提取信息的重要工具，扮演着至关重要的角色。Crawl4AI作为一款开源AI网络爬虫工具，凭借其功能强大和易用性，受到了广泛关注。本文将详细探讨Crawl4AI的定义、特点、优势，以及其具体使用和效果。一、Crawl4AI是什么？1.1定义与背景Crawl4AI是一款开源的网络爬虫框架，旨在利用人工智能技术，从互联网上自动抓取并分析数据。它不仅能处理常规的网页
Python网络爬虫：从原理到实践的全面解析九月 linux python 网络爬虫爬虫
1.什么是Python爬虫？Python网络爬虫是一种通过Python编写的自动化程序，用于从互联网上的网页、数据库或服务器中提取结构化数据。其核心功能是模拟人类浏览网页的行为，按照预设规则遍历目标网站，抓取文本、图片、链接等信息。爬虫也被称为“网页蜘蛛”或“网络机器人”，广泛应用于搜索引擎索引构建、数据挖掘等领域。2.Python爬虫的运作机制爬虫的工作流程可分为以下步骤：发送请求：通过HTTP
Python网络爬虫：从原理到实践的全面解析九月 python 爬虫开发语言网络爬虫
在信息爆炸的时代，Python网络爬虫已成为获取和分析网络数据的核心技术。它不仅能够自动化采集海量网页信息，还能通过数据挖掘创造商业价值。本文将系统讲解Python爬虫的核心概念、技术实现、应用场景及法律边界，为读者构建完整的知识框架。一、什么是Python网络爬虫？Python网络爬虫是一种自动化脚本程序，通过模拟浏览器行为访问网页，按照预设规则抓取目标数据。其核心原理是：发送HTTP请求：向目
网络爬虫全解析网安-轩逸爬虫 web安全网络安全
1.网络爬虫的认识网络爬虫是自动从互联网定向或不定向地采集信息地一种程序工具。网络爬虫分为很多类别，常见的有批量型网络爬虫、增量型网络爬虫（通用爬虫）、垂直网络爬虫（聚焦爬虫）。2.网络爬虫的工作原理通用爬虫：首先给定初始URL，爬虫会自动获取这个URL上的所有URL并将已经在爬取的地址存放在已爬取列表中。将新的URL放在队列并依次读取新的URL，依次判读是否满足所设置的停止获取的条件。聚焦爬虫：
Python大数据处理实验报告（三）小李独爱秋 python 开发语言 pycharm 大数据
实验目的本次实验的目的是练习使用Python编程语言和相关库进行网络爬虫和数据处理任务。具体来说，您将学习以下内容：使用Python中的requests库和BeautifulSoup库来爬取当当网某一本书的网页内容，并将其保存为html格式文件。学习使用Python中的requests库和正则表达式来爬取豆瓣网上某本书的前50条短评内容，并计算评分的平均值。了解如何使用Python中的reques
数据界的达克摩斯之剑----深入浅出带你理解网络爬虫(First) web18285997089 面试学习路线阿里巴巴爬虫
目录一.引言二.网络爬虫产生的背景三.爬虫背后的相关技术和原理1.插入URL的概念解析2.常见的几种URL格式四.网络爬虫的分类1.通用网络爬虫2.增量式网络爬虫3.DeepWeb爬虫一.引言网络爬虫是一种自动获取网页内容的程序或技术。它就像一只“小蜘蛛”，在互联网上爬行，抓取各种信息。想象一下，网络就像一张大网，上面有无数的网页，而爬虫就是在这张网上穿梭的“小虫子”。它可以根据预设的规则和目标，
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache

Java写网络爬虫基础篇（一）

爬虫的思路： 我们分两步，第一步访问每一页的URL得到一个页面，解析页面提取页面上每一条数据的URL；第二步再访问每一页提取出来的10个URL，得到这一页的10个网页，再解析网页内容，得到我们需要的内容部分。

你可能感兴趣的:(网络爬虫)

爬虫的思路：我们分两步，第一步访问每一页的URL得到一个页面，解析页面提取页面上每一条数据的URL；第二步再访问每一页提取出来的10个URL，得到这一页的10个网页，再解析网页内容，得到我们需要的内容部分。