中国凉茶

用HtmlParser 写个简单的 news爬虫

有一段时间没写博客了，这几天回到学校我同学要赶着交毕业设计，让我帮他写个爬虫，专门抓搜狐的新闻，我用过爬虫，但是从来没有自己写过爬虫，于是Google了一下，找到了一篇不错的文章：使用 HttpClient 和 HtmlParser 实现简易爬虫 . 参考里面的代码，自己写了个简易的搜狐新闻爬虫。

爬虫的主要工做就是到搜狐的新闻首页上去抓取新闻，然后将新闻添加到数据库中。
代码其实很简单的：
LinkParser.java

import com.sohu.SohuNews;
import java.util.HashSet;
import java.util.Set;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.filters.OrFilter;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;

/**
 *  这个类是用来搜集新闻链接地址的。将符合正则表达式的URL添加到URL数组中。
 * @author guanminglin
 */
public class LinkParser {
    // 获取一个网站上的链接,filter 用来过滤链接

    public static Set<String> extracLinks(String url, LinkFilter filter) {

        Set<String> links = new HashSet<String>();
        try {
            Parser parser = new Parser(url);
            parser.setEncoding("gb2312");
            // 过滤 <frame >标签的 filter，用来提取 frame 标签里的 src 属性所表示的链接
            NodeFilter frameFilter = new NodeFilter() {

                public boolean accept(Node node) {
                    if (node.getText().startsWith("frame src=")) {
                        return true;
                    } else {
                        return false;
                    }
                }
            };
            // OrFilter 来设置过滤 <a> 标签，和 <frame> 标签
            OrFilter linkFilter = new OrFilter(new NodeClassFilter(
                    LinkTag.class), frameFilter);
            // 得到所有经过过滤的标签
            NodeList list = parser.extractAllNodesThatMatch(linkFilter);
            for (int i = 0; i < list.size(); i++) {
                Node tag = list.elementAt(i);
                if (tag instanceof LinkTag)// <a> 标签
                {
                    LinkTag link = (LinkTag) tag;
                    String linkUrl = link.getLink();// url
                    if (filter.accept(linkUrl)) {
                        links.add(linkUrl);
                    }
                } else// <frame> 标签
                {
                    // 提取 frame 里 src 属性的链接如 <frame src="test.html"/>
                    String frame = tag.getText();
                    int start = frame.indexOf("src=");
                    frame = frame.substring(start);
                    int end = frame.indexOf(" ");
                    if (end == -1) {
                        end = frame.indexOf(">");
                    }
                    String frameUrl = frame.substring(5, end - 1);
                    if (filter.accept(frameUrl)) {
                        links.add(frameUrl);
                    }
                }
            }
        } catch (ParserException e) {
            e.printStackTrace();
        }
        return links;
    }

    public void doParser(String url) {
        SohuNews news = new SohuNews();
        Set<String> links = LinkParser.extracLinks(
                url, new LinkFilter() {
            //提取以 http://news.sohu.com 开头的链接

            public boolean accept(String url) {
                if (url.matches("http://news.sohu.com/[\\d]+/n[\\d]+.shtml")) {
                    return true;
                } else {
                    return false;
                }
            }
        });
        //循环迭代出连接，然后提取该连接中的新闻。
        for (String link : links) {
            System.out.println(link);
            news.parser(link); //解析连接
            
        }
    }

    //测试主页新闻，可以得到主页上所有符合要求的网页地址，并进行访问。
    public static void main(String[] args) {
        String url = "http://news.sohu.com/";
        LinkParser parser = new LinkParser();
        parser.doParser(url);

    }
}

上面这段带码比较简单，就是用来提取 http://news.sohu.com 上面的新闻连接，格式类似这样：http://news.sohu.com/20090518/n264012864.shtml
所以写了一小段的正则表达式来匹配他：

Set<String> links = LinkParser.extracLinks(
                url, new LinkFilter() {
            //提取以 http://news.sohu.com 开头的链接

            public boolean accept(String url) {
                if (url.matches("http://news.sohu.com/[\\d]+/n[\\d]+.shtml")) {
                    return true;
                } else {
                    return false;
                }
            }
        });

还有一个核心类就是用来解析搜狐新闻的类，该类用于重网页中提取出新闻，然后将新闻添加到数据库中。代码中还用到了一个NewsBean
这段代码就不贴出来了，很简单的POJO 代码。核心代码都在下面。
SohuNews.java

import com.sohu.bean.NewsBean;
import com.sohu.db.ConnectionManager;
import java.util.ArrayList;
import java.util.List;
import java.util.logging.Level;
import java.util.logging.Logger;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.beans.StringBean;
import org.htmlparser.filters.AndFilter;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.tags.Div;
import org.htmlparser.tags.HeadingTag;
import org.htmlparser.tags.Span;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;

import java.sql.PreparedStatement;
import java.sql.SQLException;

/**
 * 用于对搜狐网站上的新闻进行抓取
 * @author guanminglin <guanminglin@gmail.com>
 */
public class SohuNews {

    private Parser parser = null;   //用于分析网页的分析器。
    private List newsList = new ArrayList();    //暂存新闻的List；
    private NewsBean bean = new NewsBean();
    private ConnectionManager manager = null;    //数据库连接管理器。
    private PreparedStatement pstmt = null;

    public SohuNews() {
    }

    /**
     * 获得一条完整的新闻。
     * @param newsBean
     * @return
     */
    public List getNewsList(final NewsBean newsBean) {
        List list = new ArrayList();
        String newstitle = newsBean.getNewsTitle();
        String newsauthor = newsBean.getNewsAuthor();
        String newscontent = newsBean.getNewsContent();
        String newsdate = newsBean.getNewsDate();
        list.add(newstitle);
        list.add(newsauthor);
        list.add(newscontent);
        list.add(newsdate);
        return list;
    }

    /**
     *  设置新闻对象，让新闻对象里有新闻数据
     * @param newsTitle 新闻标题
     * @param newsauthor  新闻作者
     * @param newsContent 新闻内容
     * @param newsDate  新闻日期
     * @param url  新闻链接
     */
    public void setNews(String newsTitle, String newsauthor, String newsContent, String newsDate, String url) {
        bean.setNewsTitle(newsTitle);
        bean.setNewsAuthor(newsauthor);
        bean.setNewsContent(newsContent);
        bean.setNewsDate(newsDate);
        bean.setNewsURL(url);
    }

    /**
     * 该方法用于将新闻添加到数据库中。
     */
    protected void newsToDataBase() {

        //建立一个线程用来执行将新闻插入到数据库中。
        Thread thread = new Thread(new Runnable() {

            public void run() {
                boolean sucess = saveToDB(bean);
                if (sucess != false) {
                    System.out.println("插入数据失败");
                }
            }
        });
        thread.start();
    }

    /**
     * 将新闻插入到数据库中
     * @param bean
     * @return
     */
    public boolean saveToDB(NewsBean bean) {
        boolean flag = true;
        String sql = "insert into news(newstitle,newsauthor,newscontent,newsurl,newsdate) values(?,?,?,?,?)";
        manager = new ConnectionManager();
        String titleLength = bean.getNewsTitle();
        if (titleLength.length() > 60) {  //标题太长的新闻不要。
            return flag;
        }
        try {
            pstmt = manager.getConnection().prepareStatement(sql);
            pstmt.setString(1, bean.getNewsTitle());
            pstmt.setString(2, bean.getNewsAuthor());
            pstmt.setString(3, bean.getNewsContent());
            pstmt.setString(4, bean.getNewsURL());
            pstmt.setString(5, bean.getNewsDate());
            flag = pstmt.execute();

        } catch (SQLException ex) {
            Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
        } finally {
            try {
                pstmt.close();
                manager.close();
            } catch (SQLException ex) {
                Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
            }

        }
        return flag;
    }

    /**
     * 获得新闻的标题
     * @param titleFilter
     * @param parser
     * @return
     */
    private String getTitle(NodeFilter titleFilter, Parser parser) {
        String titleName = "";
        try {

            NodeList titleNodeList = (NodeList) parser.parse(titleFilter);
            for (int i = 0; i < titleNodeList.size(); i++) {
                HeadingTag title = (HeadingTag) titleNodeList.elementAt(i);
                titleName = title.getStringText();
            }

        } catch (ParserException ex) {
            Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
        }
        return titleName;
    }

    /**
     * 获得新闻的责任编辑，也就是作者。
     * @param newsauthorFilter
     * @param parser
     * @return
     */
    private String getNewsAuthor(NodeFilter newsauthorFilter, Parser parser) {
        String newsAuthor = "";
        try {
            NodeList authorList = (NodeList) parser.parse(newsauthorFilter);
            for (int i = 0; i < authorList.size(); i++) {
                Div authorSpan = (Div) authorList.elementAt(i);
                newsAuthor = authorSpan.getStringText();
            }

        } catch (ParserException ex) {
            Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
        }
        return newsAuthor;

    }

    /*
     * 获得新闻的日期
     */
    private String getNewsDate(NodeFilter dateFilter, Parser parser) {
        String newsDate = null;
        try {
            NodeList dateList = (NodeList) parser.parse(dateFilter);
            for (int i = 0; i < dateList.size(); i++) {
                Span dateTag = (Span) dateList.elementAt(i);
                newsDate = dateTag.getStringText();
            }
        } catch (ParserException ex) {
            Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
        }

        return newsDate;
    }

    /**
     * 获取新闻的内容
     * @param newsContentFilter
     * @param parser
     * @return  content 新闻内容
     */
    private String getNewsContent(NodeFilter newsContentFilter, Parser parser) {
        String content = null;
        StringBuilder builder = new StringBuilder();


        try {
            NodeList newsContentList = (NodeList) parser.parse(newsContentFilter);
            for (int i = 0; i < newsContentList.size(); i++) {
                Div newsContenTag = (Div) newsContentList.elementAt(i);
                builder = builder.append(newsContenTag.getStringText());
            }
            content = builder.toString();  //转换为String 类型。
            if (content != null) {
                parser.reset();
                parser = Parser.createParser(content, "gb2312");
                StringBean sb = new StringBean();
                sb.setCollapse(true);
                parser.visitAllNodesWith(sb);
                content = sb.getStrings();
//                String s = "\";} else{ document.getElementById('TurnAD444').innerHTML = \"\";} } showTurnAD444(intTurnAD444); }catch(e){}";
               
                content = content.replaceAll("\\\".*[a-z].*\\}", "");
             
                content = content.replace("[我来说两句]", "");


            } else {
               System.out.println("没有得到新闻内容！");
            }

        } catch (ParserException ex) {
            Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
        }

        return content;
    }

    /**
     * 根据提供的URL，获取此URL对应网页所有的纯文本信息，次方法得到的信息不是很纯，
     *常常会得到我们不想要的数据。不过如果你只是想得到某个URL 里的所有纯文本信息，该方法还是很好用的。
     * @param url 提供的URL链接
     * @return RL对应网页的纯文本信息
     * @throws ParserException
     * @deprecated 该方法被 getNewsContent()替代。
     */
    @Deprecated
    public String getText(String url) throws ParserException {
        StringBean sb = new StringBean();

        //设置不需要得到页面所包含的链接信息
        sb.setLinks(false);
        //设置将不间断空格由正规空格所替代
        sb.setReplaceNonBreakingSpaces(true);
        //设置将一序列空格由一个单一空格所代替
        sb.setCollapse(true);
        //传入要解析的URL
        sb.setURL(url);

        //返回解析后的网页纯文本信息
        return sb.getStrings();
    }

    /**
     * 对新闻URL进行解析提取新闻，同时将新闻插入到数据库中。
     * @param content
     */
    public void parser(String url) {
        try {
            parser = new Parser(url);
            NodeFilter titleFilter = new TagNameFilter("h1");
            NodeFilter contentFilter = new AndFilter(new TagNameFilter("div"), new HasAttributeFilter("id", "sohu_content"));
            NodeFilter newsdateFilter = new AndFilter(new TagNameFilter("span"), new HasAttributeFilter("class", "c"));
            NodeFilter newsauthorFilter = new AndFilter(new TagNameFilter("div"), new HasAttributeFilter("class", "editUsr"));
            String newsTitle = getTitle(titleFilter, parser);
            parser.reset();   //记得每次用完parser后，要重置一次parser。要不然就得不到我们想要的内容了。
            String newsContent = getNewsContent(contentFilter, parser);
            System.out.println(newsContent);   //输出新闻的内容，查看是否符合要求
            parser.reset();
            String newsDate = getNewsDate(newsdateFilter, parser);
            parser.reset();
            String newsauthor = getNewsAuthor(newsauthorFilter, parser);

            //先设置新闻对象，让新闻对象里有新闻内容。
            setN             ews(newsTitle, newsauthor, newsContent, newsDate, url);
//将新闻添加到数据中。
            this.newsToDataBase();
            
        } catch (ParserException ex) {
            Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
        }
    }

    //单个文件测试网页
    public static void main(String[] args) {
        SohuNews news = new SohuNews();
        news.parser("http://news.sohu.com/20090518/n264012864.shtml");   
    }
}

存放新闻的数据库用的是MySql 建表语句如下：（其实不用数据库也可以的，在SohuNews类中注释掉那行红色的代码就可以了，所有得到的新闻都会在后台打印的。

CREATE DATABASE IF NOT EXISTS sohunews;
USE sohunews;

--
-- Definition of table `news`
--

DROP TABLE IF EXISTS `news`;
CREATE TABLE `news` (
  `newsid` int(11) NOT NULL auto_increment,
  `newstitle` varchar(60) NOT NULL,
  `newsauthor` varchar(20) NOT NULL,
  `newscontent` text NOT NULL,
  `newsurl` char(130) NOT NULL,
  `newsdate` varchar(24) NOT NULL,
  PRIMARY KEY  (`newsid`)
) ENGINE=InnoDB  DEFAULT CHARSET=utf8;

以上的代码写的很粗糙，项目中使用到了HtmlParser工具包，如果需要可以到http://sourceforge.net/projects/htmlparser 网站上下载。如果有需要这个

这篇文章只是一篇抛砖引玉的文章，希望懂爬虫的你能够给点意见，大家交流交流！！
http://www.blogjava.net/Files/gml520/Sohu.zip

Mapper.xml中的resultType与parameterType与resultMap suimeng6 xml mybatis mysql
resultType在MyBatis中，resultType是一个在、、、这类SQL映射标签中使用的属性，它指定了SQL查询返回结果应该被映射成的Java类型。该Java类型可以是一个简单的基础数据类型（例如Integer、String等），也可以是一个复杂的JavaBean对象，通常用于封装多个属性的值。目的是让MyBatis知道如何将SQL查询得到的数据行转换成Java对象。MyBatis会根
ubuntu下kafka详细安装指导万才博客 kafka ubuntu
安装kafka之前的准备工作首先需要安装Javasdksudoaptinstallopenjdk-8-jdk#安装特定版本的jdk，这里安装的是jdk1.8sudoaptinstalldefault-jdk#安装默认版本jdk安装完成后验证java-version配置Java环境变量exportJAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-**********
Java 第十一届蓝桥杯省模拟赛 19000互质的个数南墙算法练习题 Java 19000互质的个数暴力
问题描述不超过19000的正整数中，与19000互质的数的个数是多少？答案提交这是一道结果填空的题，你只需要算出结果后提交即可。本题的结果为一个整数，在提交答案时只填写这个整数，填写多余的内容将无法得分。因为19000的因子为2519所以只需要判断最大公约数没有这些的就可以package蓝桥杯省模拟赛_高职组;publicclass互质数{//7200publicstaticvoidmain(St
毕业设计：python美食数据采集推荐可视化系统 Django框架 scrapy爬虫框架 Echarts可视化下厨房网站大数据✅ Q_2564007092 python 课程设计美食
毕业设计：python美食数据采集推荐可视化系统Django框架scrapy爬虫框架Echarts可视化下厨房网站大数据✅1、项目介绍技术栈：Python语言、Django框架、scrapy爬虫框架、Echarts可视化、下厨房网站爬虫数据1）数据采集：本应用采集目前的下厨房网站(https://www.xiachufang.com/)的食谱内容，对本周最受欢迎的食谱和新秀食谱进行爬取，对采集获得
全国增值税发票查验接口平台-JavaScript发票验真api示例翔云API 人工智能 api ocr 开发语言自动化小程序运维
全国增值税发票查验接口平台旨在优化纳税服务，加强企业发票管理，确保税收工作的准确性。企业财务可以通过发票查验接口方便快捷的验证增值税发票管理系统开具发票的真伪，以实现发票的自动化管理，减少人工操作失误，提高识别、录入、查验的准确性和工作效率，从而有效防止税务欺诈和逃税行为的发生。该平台支持增值税专用发票、增值税普通发票、机动车销售统一发票以及增值税电子普通发票等多种类型的发票查验。无论是个人还是企
编程自学指南：java程序设计开发，HTTPS 与认证授权进阶， HTTPS 的核心原理与加密机制，HTTPS 的配置流程与证书管理，认证与授权的核心概念与实现方式 zl515035644 java自学指南 #JavaWEB开发 java https 开发语言
编程自学指南：java程序设计开发，HTTPS与认证授权进阶一、课程信息学习目标理解HTTPS的核心原理与加密机制掌握HTTPS的配置流程与证书管理掌握认证与授权的核心概念与实现方式能在项目中集成HTTPS与安全框架二、课程导入：HTTP的不安全因素快递运输类比协议运输方式安全风险HTTP普通快递中途被拆包、篡改（明文传输）HTTPS加密快递（锁+钥匙）只有收件人能打开（加密+认证）三、HTTPS
使用Python爬虫抓取商品库存信息 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 selenium 数据分析
一、引言在电子商务网站上，商品库存信息是非常重要的数据。对于商家而言，实时监控商品库存可以帮助管理供应链，及时补货；对于消费者来说，查看商品是否有库存是购物决策的重要因素。因此，抓取商品库存信息对于电商分析、竞争分析、产品需求预测等都有着重要作用。本文将介绍如何使用Python爬虫抓取商品库存信息，涵盖爬虫技术的应用，动态网页的抓取，反爬虫机制的应对，数据清洗与存储等内容。我们将使用request
使用Python爬虫按图搜索1688商品（拍立淘） API小爬虫 python 爬虫图搜索算法
在电商领域，按图搜索商品（如1688的“拍立淘”功能）已成为一种非常实用的功能，尤其适合用户通过图片快速查找相似商品。1688开放平台提供了按图搜索商品的API接口，允许开发者通过图片获取相关的商品信息。本文将详细介绍如何使用Python爬虫技术调用1688的按图搜索API接口，并解析返回的数据。一、准备工作1.注册1688开放平台账号首先，你需要在1688开放平台注册一个开发者账号，并申请相应的
检查指定的IP地址和端口号是否可以连接努力的搬砖人. java 后端经验分享
是的，Socket类可以直接用来检查指定的IP地址和端口号是否可以连接。以下是一个简单的Java代码示例，展示如何使用Socket类来检查连接是否可用：importjava.net.Socket;importjava.net.UnknownHostException;publicclassNetworkChecker{publicbooleancheckConnection(StringipAdd
java 面试八股文迷失的星星。 java 开发语言面试
一、Java基础篇1.接口和抽象类的区别相似点：（1）接口和抽象类都不能被实例化（2）实现接口或继承抽象类的普通子类都必须实现这些抽象方法不同点：（1）抽象类可以包含普通方法和代码块，接口里只能包含抽象方法，静态方法和默认方法，（2）抽象类可以有构造方法，而接口没有（3）抽象类中的成员变量可以是各种类型的，接口的成员变量只能是publicstaticfinal类型的，并且必须赋值2.重载和重写的区
Java全栈面试宝典：JVM与Spring核心模块深度解析 Aphelios380 面试算法 java 面试 jvm spring 开发语言
目录一、JVM核心机制进阶问题10：元空间vs永久代：内存管理的代际革命技术演进对比表技术演进关键点问题11：JVM性能调优三剑客参数解析核心参数详解问题12：堆与栈的六大核心差异内存结构对比图二、Spring框架全景解析Spring核心价值三大支柱Spring模块架构全景图核心模块矩阵模块依赖关系Spring高频面试题集锦1.Spring的核心功能是什么？2.Spring中常用的设计模式？3.S
Java 基础入门代码示例解析 Aphelios380 java 学习 RBAC
在Java编程的学习过程中，理解函数（方法）的使用以及简单系统功能的实现是非常重要的基础。本文将对一系列Java代码进行详细解析，这些代码涵盖了菜单驱动的功能选择、数据查询以及简单的RBAC（基于角色的访问控制）系统模拟等内容。目录一、三国群英系统功能实现二、数字操作功能实现三、人物信息查询功能实现四、RBAC系统模拟实现因为上篇全是RBAC系统&Java的概念，太空洞，所以补充了这篇关于RBAC
C# Blazor Full-Stack架构前后端开发详解老胖闲聊 C#c#架构开发语言
Blazor是微软推出的一个基于C#和.NET的前端框架，允许开发者使用C#代替JavaScript来构建交互式Web应用。BlazorFull-Stack是指将Blazor前端与ASP.NETCore后端结合，形成一个完整的全栈开发解决方案。以下是对BlazorFull-Stack的发展历史、应用领域、开发工具和工作原理的详细讲解。一、发展历史1.1Blazor的起源2018年：Blazor首次
Java中的NoSQL数据库应用与优化省赚客app开发者 java nosql 开发语言
Java中的NoSQL数据库应用与优化大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将探讨Java中的NoSQL数据库应用与优化。NoSQL数据库因其灵活性、高性能和扩展性，已经成为现代应用程序中不可或缺的一部分。与传统的关系型数据库相比，NoSQL数据库能够处理大规模的数据和高并发请求，并且支持各种数据模型，如文档、键值、列族和图数据库。本文将介绍常见的
Java 前端与后端交互：解锁 RESTful API 设计的秘密小鹿( ﹡ˆoˆ﹡ ) Java java 安全 python Java
引言随着互联网技术的快速发展，前后端分离已经成为现代Web开发的主流趋势之一。在这个过程中，RESTfulAPI成为了连接前端界面与后端数据处理的重要桥梁。作为一位拥有20年实战经验的编码专家，我见证了RESTfulAPI在不同场景中的广泛应用，从简单的数据查询到复杂的业务逻辑处理，无不体现出它的强大与灵活。本文将带你深入了解Java在前后端交互中如何运用RESTfulAPI设计，不仅适合初学者入
java 字符串中的数字加1的方法如001 加1到999 计算方法 java-王森 java 前端开发语言
123456DecimalFormatdecimalFormat=newDecimalFormat("000");//字符串数字的位数Stringcode="aaa001";//字符串Stringcodenew=code.substring(3,code.length());//截取字符中的数字inti=Integer.parseInt(codenew)+1;Stringk=decimalForm
AI对前端开发的冲击更直接？后端开发的AI替代阻力更大？后端开发因技术门槛更高，岗位稳定性略优于前端。南北极之间人工智能前端
基于参考资料和行业现状，前端开发在短期内比后端开发更容易受到AI冲击，但两者均不会被完全取代。以下是具体分析（附参考资料引用）：一、AI对前端开发的冲击更直接自动化程度高：低代码工具（如FigmaAI、Webflow）可通过拖拽生成页面，替代基础布局和组件开发。代码生成工具（如GitHubCopilot、通义灵码）能根据自然语言描述生成HTML/CSS/JavaScript代码，替代30%-50%
Java Collection API增强功能系列之二 List.of、Set.of、Map.of 茶本无香 java list 开发语言
Java9集合工厂方法：用List.of、Set.of、Map.of创建安全不可变集合Java9引入了革命性的集合工厂方法List.of、Set.of和Map.of，彻底改变了开发者创建小型不可变集合的方式。这些方法不仅语法简洁，还在安全性和性能上实现了质的飞跃。本文将深入解析这些工厂方法的核心特性，并通过对比传统方式，展示其在实际开发中的优势。一、新工厂方法概览1.方法家族方法签名说明示例Lis
Java基础 3.28 anlogic java java
1.二维数组从形式上定义看int[][]原来的一维数组的每个元素是一维数组，就构成了二维数组intarr[][]={{0,0,0,0},{0,1,1,1},{0,0,0,0},{0,1,1,1}};关于二维数组的关键概念二维数组的元素个数为arr.length二维数组的每个元素是一堆数组，所有如果需要得到每个一维数组的值还需要再次遍历如果我们要访问第（i+1）个一维数组的第（j+1）个值arr[i
后端开发基础：语言选择与 RESTful API 设计风亦辰739 前后端开发全栈指南 restful 后端
在Web开发中，后端（Backend）负责数据存储、业务逻辑处理、权限管理以及与前端（Frontend）的交互。本文将介绍主流后端开发语言及其适用场景，并详细解析RESTfulAPI设计原则，帮助开发者构建高效、规范的后端服务。一、后端开发语言选择后端开发语言决定了系统的可扩展性、性能和维护成本。当前流行的后端语言包括Java、Python和Node.js，它们各自适用于不同的开发场景。1.Jav
java导出/解析excel 深圳厨神 java excel 开发语言
本文有三个方法：1，导出excel模板，只有表头2，导出excel，将数据导出为excel3，解析excelpackagecom.hebi.util;importorg.apache.poi.hssf.usermodel.HSSFCell;importorg.apache.poi.hssf.usermodel.HSSFCellStyle;importorg.apache.poi.hssf.user
php 智能推荐系统架构,互联网智能推荐系统架构设计.docx 风格编码工 php 智能推荐系统架构
互联网智能推荐系统架构设计一，题记58同城智能推荐系统大约诞生于2014年(C++实现)，该套系统先后经历了招聘、房产、二手车、黄页和二手物品等产品线的推荐业务迭代，但该系统耦合性高，难以适应推荐策略的快速迭代。58同城APP猜你喜欢推荐和推送项目在2016年快速迭代，产出了一套基于微服务架构的推荐系统(Java实现)，该系统稳定、高性能且耦合性低，支持推荐策略的快速迭代，大大提高了推荐业务的迭代
Canvas 示例：4种超炫的网站动画背景效果「已注销」前端 css3 html5 canvas
今天，我们想分享一些动画背景的灵感。全屏背景图片的网站头部是最新的网页设计趋势，已经持续了一段时间。最近人们一直在转向动画添加更多的视觉兴趣到他们的网站中，在这里我们想向您分享几个使用JavaScript和Canvas创建不同页眉的动画示例。在线演示立即下载您可能感兴趣的相关文章网站开发中很有用的jQuery效果【附源码】分享35个让人惊讶的CSS3动画效果演示十分惊艳的8个HTML5&JavaS
Canvas渲染管线解析：从API调用到像素落地的全过程沐土Arvin 信息可视化前端 javascript html css
1.Canvas基本定义★了解Canvas是HTML5提供的一个通过JavaScript来绘制图形的元素。它提供了一个空白的绘图区域，开发者可以使用JavaScript脚本在其中绘制各种图形、动画、游戏画面等。2.Canvas使用场景★了解数据可视化：绘制图表、图形等游戏开发：HTML5游戏图像处理：滤镜、像素操作动画效果：创建动态视觉效果交互式图形：绘图应用、设计工具教育演示：数学函数可视化等3
Java版工程行业管理系统源码-专业的工程管理软件- 工程项目各模块及其功能点清单 m0_72864708 java 工程行业管理系统源码企业工程管理系统源码工程管理系统
工程项目管理系统的技术革新与数字化转型随着科技的飞速发展，工程项目管理领域正经历着前所未有的变革。在这个变革中，一款先进的工程项目管理软件应运而生，它不仅提升了项目管理的效率和质量，更推动了企业数字化转型的进程。这款工程项目管理软件采用了Vue、Uniapp、Layui等前沿技术框架，构建了一个覆盖项目全生命周期的综合管理平台。从项目策划决策、规划设计，到施工建设、竣工交付，再到总结评估和运维运营
SpringBoot安全升级指南：运用ENC加密强化配置文件防护 java我跟你拼了 java每日一道面试题 spring boot 安全后端
使用Jasypt加密SpringBoot配置中的敏感信息在开发应用程序时，保护敏感信息如数据库密码、API密钥等是非常重要的。SpringBoot提供了多种方式来处理配置文件中的敏感数据，其中一种有效的方法是使用Jasypt（JavaSimplifiedEncryption）。本文将介绍如何使用Jasypt来加密和解密SpringBoot应用程序中的敏感信息，并提供一个简单的命令行工具用于生成加密
【华为OD技术面试真题精选 - 技术面】- Java八股文全题库（13）算法大师华为od 面试 java
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录1.什么是jvmJVM（Java虚拟机）是一个可以执行Java字节码的抽象机器。它是Java运行时环境的一部分，主要负责解释执行编译后的Java程序代码，提供一个平台无关的运行环境，使得Java程序可以在多种操作系统上运行而无需修改。JVM是Java语言的核心部分，使得Java具有“一次编写，
java面试题-微服务篇小黑是个程序员 java 微服务开发语言
一、SpringCloud组件有哪些Nacos注册中心，Ribbon负载均衡，Feign远程调用，sentinel服务熔断，Gateway网关二、服务注册和服务发现是什么意思服务注册：服务提供者需要把自己的信息注册到注册中心，由注册中心保存这些信息，比如ip地址，端口号，服务名称等。服务发现：消费者向注册中心拉取服务列表信息，如果服务有集群，，则消费者会利用负载均衡算法，选择一个发起调用。服务监控
黑客技术学习第5天基础入门-APP应用&微信小程序&原生态开发&H5+Vue技术&封装打包&反编译抓包点代码新手Rock Lee web安全安全网络安全
1、基础入门-APP应用-开发架构安全问题2、基础入门-小程序应用-开发架构安全问题#APP应用开发架构：1、原生开发安卓一般使用java语言开发，当然现在也有kotlin语言进行开发。如何开发就涉及到具体编程了，这里就不详说了。简单描述就是使用安卓提供的一系列控件来实现页面，复杂点的页面可以通过自定义控件来实现。2、使用H5语言开发使用H5开发的好处有很多，可多端复用，比如浏览器端，ios端，当
Python 爬虫实战：就业市场趋势数据抓取与行业洞察西攻城狮北 python 爬虫开发语言
作为一名对就业市场和数据分析充满热情的内容创作者，我决定利用Python爬虫技术抓取就业市场数据，并进行深入分析。这对于求职者、人力资源从业者以及行业研究者来说，是一个极具价值的探索。一、项目背景在当今竞争激烈的就业市场中，了解行业趋势、职位需求和薪资水平对于求职者和雇主都至关重要。通过爬虫技术，我们可以自动化地从招聘网站获取这些信息，并进行进一步的分析。二、技术选型在本项目中，我们将使用以下Py
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY NODEXY@2014.8.12 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa

用HtmlParser 写个简单的 news爬虫

你可能感兴趣的:(java,爬虫,thread.news)