从HTML文件中抽取正文的简单方案试验结果 - hzxdark - ITeye技术网站

一、简介
本文是根据alexjc的<The Easy Way to Extract Useful Text from Arbitrary HTML>一文进行实验的结果。原文见：
http://ai-depot.com/articles/the-easy-way-to-extract-useful-text-from-arbitrary-html/
——alexjc原文

http://blog.csdn.net/lanphaday/archive/2007/08/13/1741185.aspx
——恋花蝶翻译的中英对照版本

该文章主要内容是讲述如何利用正文相对于其他文本，正文文本与生成该正文所需的html字节码的比值较大的规律，利用神经网络识别出正文过滤过滤广告的效果。主要设计如下：

1. 解析HTML代码并记下处理的字节数。
2. 以行或段的形式保存解析输出的文本。
3. 统计每一行文本相应的HTML代码的字节数
4. 通过计算文本相对于字节数的比率来获取文本密度
5. 最后用神经网络来决定这一行是不是正文的一部分。

二、设计方案
本实验相对原本alexjc设计方案有几点修改：

1. 用RPROP（弹性BP网络）代替原文的感知器;
2. 由于原文并没有把文本长度、html字节长度做归一化，所以不采用原始文本长度、html字节长度作为特征值。相对的，对归一化后的文本长度、html字节长度，以及前向后向N行等各种组合进行试验。
3. 试验文本为任意在网上选取的10个网页，见附件。
4. 原文并没有提及，如何定义一行文本是否正文，所以这里定义了几个正文类型：
a) 内容型正文，特征是有长的连续文字段，定义这些文字段为正文；
b) 论坛型，有短的不连续的文字段，定义这些文字段为正文；
c) 论坛帖子列表型（部分试验将会对这类型进行训练查看效果，对于论坛帖子列表是否属于正文这里不做讨论……），帖子标题为正文；
d) 首页型，定义为没有正文（厄，谁能说出，新浪首页哪些是正文？）

实验环境：
1. 语言：JAVA，JRE1.5
2. 操作系统：windows xp

三、实验过程：
1. 设计实现一个三层RPROP网络（令人惊讶的是，居然在这个领域没有人写一个开源的组件，apache等的开源巨头们都对neural network不感兴趣么？）。

/*
*初始化RPROP对象
*
*本函数用于创建训练前的RPROP对象
*参数：
* int in_num 输入层个数；
* int hidden_unit_num 隐含层节点个数
* int out_num 输出层个数
*
*/
public RPROP(int in_num, int hidden_unit_num, int out_num)

/*
*初始化RPROP对象
*
*本函数用于创建训练后的RPROP对象
*参数：
* int in_num 输入层个数；
* int hidden_unit_num 隐含层节点个数
* int out_num 输出层个数
* double[][] w1 隐含层权重
* double[][] w2 输出层权重
* double[] b1 隐含层偏离值
* double[] b2 输出层偏离值
*/
public RPROP(int in_num, int hidden_unit_num, int out_num, double[][] w1, double[][] w2, double[] b1, double[] b2)

/*
*计算输出结果
*
*参数：
* double[] p 输入参数
*返回值：
* double[] 输出结果
*/
public double[] output(double[] p)

/*
*训练
*
*参数：
* double[][] p
* 训练样本集
* double[][][] t
* 期望结果集, t[i][j][0] 期望结果, t[i][j][1]误差放大系数
* double goal
* 目标误差，注意，本网络用的是“方差”作为误差判断条件
* int epochs
* 训练最大次数
*/
public void train(double[][] p, double[][][] t, double goal,int epochs)
对于这个实现，有兴趣的朋友在本文最后下载附件。

2. 选取特征值
在实验中，笔者尝试了各种特征值组合：
1) 文本密度，文本长度，html字节码长度，前后各一行的同样数值；（原文设定）
2) 文本密度，文本长度倒数（归一化），前后各两行的同样数值；
3) 文本所在的html的链接密度（全文文本长度/总链接数，用于加强判断文本类型），文本密度，文本长度/5000（归一化，大于1的当1处理，下文简称为文本长度2），前后两行相同的数值；
4) 文本所在的html的链接密度，文本密度，文本长度2，前后两行相同的数值；
5) 文本所在的html的链接密度，文本密度，文本长度2，前后一行相同的数值；
6) 文本所在的html的链接密度，文本密度，文本长度2，前一行是否正文；

并规定，网络输出结果0为非正文，1为正文。

在训练过程中，发现训练过的网络命中率大部分落在0值部分，这是由于论坛这种短文段类型的网页会导致0值过多，训练时对0值过拟合。为了避免这一点，对某一篇网页的某一行的误差乘以该网页的0值与1值数量的比值。

3. 训练集获取
见附件。这是在笔者常浏览的网页中任意抽取的10个网页。对于期望输出的定义见上文。

四、实验结果
1. 1～5的实验，任意抽取部分样本集作为训练集，对于训练集拟合的很好，但对于测试集的表现却非常糟糕（请原谅笔者并没有记录实验数据）；

这部分结果表明，以文本密度作为判断是否正文的特征值是有问题的。观察样本集的数据可以发现，即使是内容型的大段文字，也有可能文本密度很低——为了让网页变得更漂亮美观，现在有很多网站都对文字内容加了大段大段修饰用html代码……
鉴于这一点，笔者最终放弃文本密度作为特征值。而考虑到广告都是带链接的文本，相对的正文连接数则比较少，所以笔者认为，用文本长度/链接数作为特征值或许会是一个更好的选择。

2. 6的实验，表现意外的非常的好（好到差点让笔者以为终于找到完美的解决方案……）
确实，即使是在测试集部分的表现也惊人好，但实际上有一个问题：每一行的计算受上一行计算的结果影响。测试集是事先定义每一行的上一行的结果，但在实际使用时，上一行的结果是实时计算出来的，所以就会出现，在某一行出错，导致后面的结果全部出错的情况……

至此，假如仍然坚持神经网络的解决方案，或许，采用：
文本长度，文本长度链接数，上一行的结果做特征值，采用三个弱分类器的ada-boost组合分类或许会是一个好的选择。
除此之外，实际上对正文的定义对结果也是有很大的影响。实际上，假如能根据数据化的东西定义某一个类别，那么对于该类别的划分，或许其实已经是可预知的，不如直接设计阈值处理。

笔者的实验则到此为止，并放弃了神经网络这个解决方案——直接采用这些特征值进行阈值判断，并对一些特殊部分设定过滤规则，这似乎比神经网络的表现来的简单、有效……

如果有哪位朋友感兴趣，并用ada-boost进行实验，笔者将非常期待这位朋友来交流下心得：）

附件：
neralNetwork.rar 源代码
res.rar 训练集

关于html文本抽取部分，这里用的是HtmlParser，这里修改的代码就不贴出来了，有兴趣的朋友可以去：
http://htmlparser.sourceforge.net/
看看。

目前互联网上公布出来的正文提取算法，大家可以综合比较下，一起来测试下哪个更好用。词网--北京词网科技有限公司 http://demo.cikuu.com/cgi-bin/cgi-contex 猎兔网页正文提取 http://www.lietu.com/extract/ PHP版网页正文提取 http://www.woniu.us/get_content_demo/ 网页正文提取分析(DEMO) http://61.128.196.27/txt 个人认为http://61.128.196.27/txt 这个提取最牛，基本上无论什么页面都能提取出来，而且能有效的保持原文风格、图片、链接。

http://code.google.com/p/joyhtml/
看看这个效果不错
http://www.likeshow.net/article.asp?id=92
我一年前写的玩意虽然不完善但尚可用之在新闻和BLOG 论坛提取上提取的正文对于BLOG和BBS包含评论及回复具体原理也写很清楚了
如题，想从html源码中提取正文内容，<P></P>之间的内容，但是<P>的写法不规则。除了正则表达式的方法，还有其它的提取方法吗？谢谢！
最新下载
在线演示和最新下载：
http://www.shoula.net/ParseContent

http://www.pudn.com/downloads152/sourcecode/internet/search_engine/detail668443.html

Google Code开源网页正文提取cx-extractor2010-05-19 12:31基于行块分布函数的通用网页正文抽取：线性时间、不建DOM树、与HTML标签无关
简述：
对于Web信息检索来说，网页正文抽取是后续处理的关键。虽然使用正则表达式可以准确的抽取某一固定格式的页面，但面对形形色色的HTML，使用规则处理难免捉襟见肘。能不能高效、准确的将一个页面的正文抽取出来，并做到在大规模网页范围内通用，这是一个直接关系上层应用的难题。
作者提出了《基于行块分布函数的通用网页正文抽取算法》，首次将网页正文抽取问题转化为求页面的行块分布函数，这种方法不用建立Dom树，不被病态HTML所累（事实上与HTML标签完全无关）。通过在线性时间内建立的行块分布函数图，直接准确定位网页正文。同时采用了统计与规则相结合的方法来处理通用性问题。作者相信简单的事情总应该用最简单的办法来解决这一亘古不变的道理。整个算法实现不足百行代码。但量不在多，在法。
项目网址：http://code.google.com/p/cx-extractor/
算法描述：基于行块分布函数的网页正文抽取算法.pdf
欢迎大家提出意见~

http://www.ngiv.cn/post/204.html
VIPS算法对搜索引擎的意义
http://blog.csdn.net/tingya/archive/2006/02/18/601954.aspx

基于视觉的Web页面分页算法VIPS的实现源代码下载
http://blog.csdn.net/tingya/archive/2006/04/28/694651.aspx
作者信息：飞跃,javascript教程-技术之家博客的博主

http://www.madcn.net/?p=791

我这里有个开源的项目，还不错，你上googlecode搜索joyhtml。
http://gfnpad.blogspot.com/2009/11/blog-post.html
下面几个是一些开源的程序：
1.一个python的基于文本密度的程序：
http://ai-depot.com/articles/the-easy-way-to-extract-useful-text-from-arbitrary-html/
ps：里面有bug，要稍加改动。另外，对于没有对html注释部分进行处理
2.Java 开源项目： Gate
http://gate.ac.uk/

其实可以利用Dhmtl对象进行编程分析，已获得所要的数据文件，详细请看我的程序
http://www.vbgood.com/thread-94788-1-1.html
http://download.csdn.net/source/568439

一．标题块
l 分块节点：td，div，h，span
l 一般位于Head/Title的位置
l 当前单元含有<h1>-<h3>，<b>，<i>，<strong>等标签
l 样式，一般class包含title，head等字符
l 文字长度，一般大于3个字符，小于35个字符

二．发表时间块
l 分块节点：td，div， span
l 文字长度，一般小于50个字符
l 包含日期格式（2010-08-09）的字符串
l 包含以下关键字：来源，发表

三．主题块
l 分块节点：td，div
l HTML网页中有一些特殊标签，通常只出现在网页主题块中，如<P><BR>等。因此，主题块中往往包含着特殊标签。
l 主题块内容含有较多的句子，因此具有较多逗号、句号等标点符号（>5）。
l 若从信息量角度考虑，主题块一般是含有较多文字信息。
l 主题块的标签密度=1000*标签数/文字数应在小于一个范围。
l 主题块的文本密度=len(文本)/len(HTML代码) 较大
l 不应该包含 “上一篇”，“下一篇”
l 包含以下字符串的内容块，判定为包含版权信息，需减权：“ICP备04000001号”，“版权所有”，“Copyright”
l 主题块序号在标题块之下
l 主题块序号在发表时间块之下
l 主题块序号在相关链接块之上

四．相关链接块
l 分块节点：td，div
l 文字应为“相关链接”、“相关新闻”、“相关报道”等敏感词，且连接比例很高。
l 链接数小于20

实现：
根据以上信息块特征，采用特征提权算法，C#（3.5）编程实现，命名为QD正文提取组件。经测试，对Html格式规范的以文字为主的内容页，正确提取率在85%以上，各大门户的新闻页面在95%以上。例子下载(需要安装Microsoft .NET Framework 3.5)

注：QD正文提取组件不开源，需要源码的朋友可选择付费获取。

这时挑选出的正文一般也就是到位了，但是问题是很可能在头尾残留了一些块广告。我认为这些块广告与正文中广告有很大的不同。这些广告的马脚就是其父节点，它们的父节点要么也包含了正文所在区域，也就是和正文平级，要么本身就是正文所在区域的一个子节点，很难是正文节点本身的。那么对疑似正文节点进行一次扫描，剔除那些父节点文字内容过大（包含了广告以及正文，即和正文平级）的块，也剔除那些父节点文字内容过小的块。
经过这样的处理，得到的内容基本上就是我们需要的正文了。下面就是要提取标题。
在代表整个网页的document中扫描一次，寻找那些有font字体的，strong的，h1的，title的节点，提取他们的信息。然后将得到的文字内容分词，查验分出来的词有多少是被正文包含的，包含最多的一半就是标题。但是这里要注意，有时候找到的节点本身是正文节点的子节点，那么无论怎么分，分出来都是完全包含的，所以要剔除那些本身是正文一部分的疑似标题。这样做对大部分网页也是有效了，但是对仅有的标题就在正文节点里的那些页面，目前为止我还没有特别好的想法。
这些日子也研究了一些别人的论文，有很多思想都非常好，也有很多人想到用马尔科夫，人工神经来训练。也许以后我会考虑用用看吧。现在这样也还可以，呵呵。
?
这个算法我也写了一下，不过是用C++写的。
我不太懂楼上讨论的分页是什么意思，我通过分析dom树然后用文中提到的规则进行dom结点处理以及后续的处理。
我主要是想把网页中的内容按网页框架分开，把正文部分合在一起，然后用贝叶斯决策计算正文特征支持率
提取网页内容。
现在VIPS基本写完。
但是却也发现了些问题，
比如说有些结点的坐标提取出来会有提取不出分隔条，这是因为有少数坐标有些重叠。这里涉及到一个坐标的确定问题。
然后是结点分割规则问题，现在的页面是大部分是通过DIV来组织页面。而VIPS似乎更合适TABLE组织的页面，我试过用TABLE组织的页面，分得相当不错。
另外，TINYA上面的翻译似乎改了些规则，还有部分翻译不是很准确。比如虚拟文本的定义部分与原文有些出入，不知道TINYA有没有注意到。
最后，很感谢TINYA 对这个算法的介绍。
另外，有对这个算法感兴趣的朋友希望能大家一起讨论下
我的QQ：24888086
msn:[email protected]

本文来自CSDN博客，转载请标明出处：http://blog.csdn.net/tingya/archive/2006/02/18/601836.aspx
http://www.hackhome.com/InfoView/Article_119867.html

阅读全文……

设计模式之代理模式缘来是庄设计模式代理模式 java
目录定义结构适用场景使用实例定义代理对象作为客户端和真实对象之间的中介，替代真实对象处理请求，实现对访问的控制和功能增强。客户端通过代理间接操作真实对象，二者通常实现相同接口。结构适用场景1）远程代理为一个对象在不同的地址空间提供局部代表2）虚拟代理根据需要创建开销很大的对象3）安全代理控制对原始对象的访问4）日志代理记录操作行为使用实例这里以日志代理为例，说明java中代理的几种方式。1、静态代
JVM中的各类引用
JVM中的各类引用欢迎来到我的博客：TWind的博客我的CSDN:：Thanwind-CSDN博客我的掘金：Thanwinde的个人主页对象众所不周知，Java中基本所有的对象都是分配在堆内存之中的，除开基本数据类型在栈帧中以外，其他的对象全部都分配在堆中众所不周知，堆内存是JVM中十分重要的一个区域，以至于想尽办法的开发出更加有效率，精巧的GC来回收这一部分的空间你new了一个引用类型的对象之后
在 Spring 的世界里，Bean 到底是什么？它和一个普通的 Java 对象（POJO）有什么区别和联系？
Bean到底是什么？在Spring的世界里，一个Bean是一个由SpringIoC容器实例化、组装、和管理的对象。简单来说，它不再是一个普通的、孤立的对象，而是一个被“收编”进Spring大家庭、有“户口”、接受统一管理的“公民”。这个“管理”意味着什么？它的创建不归你管：你不用再写newMyService()，Spring容器会帮你创建。它的依赖不归你管：它需要什么其他对象（比如MyReposi
Word控件Spire.Doc 【段落处理】教程(十二)：如何在 C# 中管理 word 文档的分页
当我们要管理段落的分页时，我们可以直接插入分页符。但是后来我们可能会发现很难在分页符上方添加或删除文本，然后我们必须删除整个分页符。使用Microsoftword，我们还可以使用段落对话框来管理word段落的灵活分页，如下所示：Spire.Docfor.NET最新下载https://www.evget.com/product/3368/download我们已经向您展示了如何在word文档中插入分页
JVM 中的完整 GC 流程一叶飘零_sweeeet java jvm java 开发语言
一、引言在Java应用程序的运行过程中，垃圾回收是一个至关重要的环节。它负责自动管理内存，回收不再被使用的对象，以确保应用程序的稳定运行。了解JVM中一次完整的GC流程对于优化Java应用的性能、减少内存占用以及避免内存泄漏至关重要。本文将深入探讨JVM中的GC流程。二、JVM内存结构概述（一）堆内存新生代（YoungGeneration）Eden区：新创建的对象首先分配在Eden区。Surviv
Ajax 入门凌冰_ JS ajax 前端 javascript
一、Ajax概念Ajax（AsynchronousJavaScriptandXML）是一种在不刷新整个页面的情况下，与服务器进行异步通信并更新部分网页的技术。尽管名称中包含“XML”，但现代Ajax更多使用JSON作为数据格式。二、核心概念异步通信：无需刷新整个页面，可在后台与服务器交换数据。核心技术：XMLHttpRequest（XHR）：原生JavaScriptAPI（旧版）FetchAPI：
【JVM】运行期的优化编程芝士 JVM
即时编译解释器与编译器Java程序最初是通过解释器进行解释执行的，当虚拟机发现某个方法或代码块的运行特别频繁时，就会把这些代码认定为“热点代码”（HotSpotCode）。为了提高热点代码的执行效率，在运行时，虚拟机将会把这些代码编译成与本地平台相关的机器码，并进行各种层次的优化，完成这个任务的编译器称为即时编译器（JustInTimeCompiler，简称JIT编译器）。即时编译器与解释器的区别
10、java语法糖
编译期处理：语法糖（即java编译器把。java的源码编译成。class字节码的过程中，自动生成和转换的一些代码，主要是为了减轻程序员的负担，算是java编译器给我们的一个额外福利-给糖吃）默认构造器：调用父类Object的无参构造方法自动拆装箱：基本类型和包装类型之间的来回转换（jdk5以后）泛型集合取值：泛型也是在jdk5开始加入的特性，但java在编译泛型代码后会执行泛型擦除的动作，即泛型信
7、垃圾回收调优很小心的小新 jvm java 笔记垃圾回收调优
查看虚拟机参数：java-XX：PrintFlagsFinal-verson｜findstr“GC”调优领域：内存锁竞争cpu占用io确定目标：低延迟还是高吞吐量，选择适合的回收器响应时间优先：CMS、G1，ZGC高吞吐量：PArallelGC最快的GC是不发生GC查看FullGC前后的内存占用，考虑下面几个问题数据是不是太多了resultSet=statement。executeQuery（“s
GraalVM 与 JVM：深度对比分析 twinsshehp jvm
在现代Java开发中，GraalVM和传统的JVM（JavaVirtualMachine）是两个非常重要的运行时环境。本文将从概念讲解、应用场景区分、优缺点分析、多线程影响以及GraalVM缺少的JDK功能等多个维度进行深入对比，帮助开发者全面理解两者的技术差异和适用场景。一、概念讲解1.JVM（JavaVirtualMachine）JVM是Java运行的核心，负责执行字节码并管理程序的生命周期。
java 线程状态和线程池状态 @ chen Java基础 java
在Java中，线程状态（ThreadState）和线程池状态（ThreadPoolState）是两个不同维度的概念。下面分别详细说明：一、Java线程状态（Thread.State）Java线程状态定义在java.lang.Thread.State枚举中，共6种状态：状态说明NEW线程已创建但未启动（未调用start()方法）。RUNNABLE线程正在运行或等待操作系统资源（如CPU）。包含两个子
PHP基本语法（基础篇）
PHP脚本可以放在服务器上执行，然后将纯HTML结果发送回浏览器PHP是一门弱类型语句1、php标记PHP脚本可以放在文档的任何位置，以结束：php文件默认文件扩展名“.php”PHP文件通常包含HTML标签和一些PHP脚本代码,例如：myfirstphppage如果文件是纯PHP代码，最好在文件末尾删除PHP结束标记有两种在浏览器输出文本的指令：echo和print2、指令分隔符每个语句后用分号
深入理解JVM - 编译期/运行期优化 json_it学习笔记深入理解JVM 编译优化虚拟机
----------------------------编译期优化--------------------------------------1、概述（编译期）Java语言的“编译期”其实是一段“不确定”的操作过程，因为它可能是指一个前端编译器（Javac编译器）把Java文件转变为class文件的过程；也可能是指虚拟机的后端运行期编译器（JIT编译器）把字节码转变为机器码的过程；还可能是指使用静
前端WebSocket协议压缩优化前端视界前端艺匠馆前端 websocket 网络协议 ai
前端WebSocket协议压缩优化关键词：前端、WebSocket协议、压缩优化、数据传输、性能提升摘要：本文围绕前端WebSocket协议的压缩优化展开，详细介绍了WebSocket协议的基本概念，分析了进行压缩优化的原因和好处。通过生动的比喻和通俗易懂的语言解释了相关核心概念，阐述了核心概念之间的关系，并给出了核心概念原理和架构的文本示意图与Mermaid流程图。同时，详细讲解了压缩优化的核心
JAVA自定义注解以及应用布朗克168 java小知识集锦 java 注解自定义注解
目录一、简单介绍1、什么是Java自定义注解2、自定义注解的定义语法二、Java代码中如何使用1、使用自定义注解2、通过反射访问自定义注解三、如何在springboot项目应用1、创建自定义注解2、创建切面类（Aspect）来处理注解3、在控制器（Controller）或服务（Service）方法中使用自定义注解一、简单介绍1、什么是Java自定义注解注解（Annotation）是Java5.0引
使用Puppeteer抓取动态网页的完整指南
当遇到React/Vue等现代前端框架构建的SPA（单页应用）时，传统爬虫无法获取JavaScript动态渲染的内容。本文将教你使用Puppeteer破解这个难题，实现真正的动态网页抓取。我们开始准备环境1.安装Node.js版本至少要在14以上才行哦2.初始化开发项目的命令在这里mkdirpuppeteer-crawler&&cdpuppeteer-crawlernpminit-y3.在项目里边
用自定义注解解决excel动态表头导出的问题 Java知识技术分享 java技术 excel java intellij-idea 数据库
导入的excel有固定表头+动态表头如何解决自定义注解：importjava.lang.annotation.*;/***自定义注解，用于动态生成excel表头*/@Target(ElementType.FIELD)@Retention(RetentionPolicy.RUNTIME)public@interfaceFieldLabel{//字段中文Stringlabel();//字段顺序into
如何短时间内学会软件测试，从事软件测试工作？
计算机专业背景学习软件测试并找到工作是一条相对清晰的路径，以下是系统化的学习规划和求职建议：一、明确学习方向（选对赛道）软件测试分为多个方向，建议根据兴趣和市场需求选择：功能测试：适合入门，掌握测试基础理论和流程（薪资6-10k）。自动化测试：需求量大，需掌握Python/Java、Selenium/Appium等工具（薪资10-15k）。性能测试：技术门槛较高，需学习JMeter、LoadRun
常用指令合集（DOS/Linux/git/Maven等）
文章目录常用指令收集vmware虚拟机联网设置ubuntu常见问题设置apt相关指令：gcc编译相关指令sqlite3VSCode快捷键：收索引擎技巧（google）Intelideashell--LinxvimgitDOS:mavendockerkubectl指令nginx配置redis-clientMySQLlinux下java进程排错MongoDBCentOSJDK安装配置UbuntuJDK
详解java的StringBuilder类 lanbing Java 知识必知必会 java 开发语言
在Java中，StringBuilder是一个非常常用且高效的类，用于操作可变字符串（mutablestring）。与String类不同的是，String是不可变的（immutable），每次对字符串进行拼接、修改等操作时都会创建一个新的对象，而StringBuilder则可以在原有对象上进行修改，从而提高性能。✅什么是newStringBuilder()？StringBuildersb=newS
Qt编程-qml操作（js，c++，canvas）其实我今天想吃河北正宗安徽牛肉板面 Qt qt 开发语言
QML与C++深度整合及Canvas绘图技术详解一、QML与C++交互机制深度解析1.1交互的必要性与优势核心价值对比表：技术维度QML优势C++优势交互价值界面开发声明式UI，快速布局界面能力有限QML构建UI，C++提供逻辑计算性能JavaScript性能受限高性能计算C++处理复杂算法硬件访问无法直接访问完备的硬件访问能力C++封装硬件接口代码复用适合UI组件集成现有库/系统组件复用C++业
【Java教程】Day16-06 Maven基础：Maven Wrapper详解即刻提优 Java教程 java maven 开发语言
在使用Maven构建项目时，我们通常只会接触到mvn命令。可是，很多开发者可能听说过mvnw，这到底是什么呢？本文将详细介绍MavenWrapper的作用和使用方式。1.什么是MavenWrapper？MavenWrapper（简称mvnw）是一个用于管理Maven版本的工具。通常情况下，Maven是通过全局安装来使用的，这意味着不同的项目会共享相同的Maven版本。然而，某些项目可能需要使用特定
飞算JavaAI：AI赋能的Java开发助手山峰哥人工智能 java 开发语言数据库信息可视化人机交互
『AI先锋杯·14天征文挑战第一期』AI技术如何重塑你的工作与行业？一、前言在2025年人工智能技术爆发的时代，开发者的工作方式正经历着革命性变革。智能编码工具已经从简单的代码补全进化到能够理解复杂需求、生成完整工程的能力。本文将深入分析国产Java开发助手飞算JavaAI如何通过自然语言交互彻底改变传统开发流程，并结合电商系统、金融交易引擎等实战案例，验证其在实际项目中的生产力提升效果。二、飞算
当AI邂逅新能源：Java如何重构能源未来
当AI邂逅新能源：Java如何重构能源未来在阿联酋阿布扎比的沙漠深处，一座由AI驱动的“全景式数字指挥中心”正实时监控着2000公里外的海上油田。通过深度学习算法预测设备故障、优化钻井路径，这座由阿布扎比国家石油公司打造的智能中枢，每年减少100万吨碳排放，创造价值5亿美元。而在中国南方，全球首个大规模抽水蓄能AI数据分析平台，正让百年历史的电站群焕发新生——7座电站、34台机组实现90%人工巡检
Java JVM与Spring Boot深度解析 Java廖志伟 Java场景面试宝典 Java JVM Spring Boot
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
并发编程与MyBatis核心解析
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
JVM与Spring Boot核心解析 Java廖志伟 Java场景面试宝典 Java JVM Performance Optimization
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
重构企业智能服务：大模型部署背后的战略与落地实践慌ZHANG 人工智能人工智能
个人主页：慌ZHANG-CSDN博客期待您的关注一、引言：从“能用”到“可用”的时代跃迁过去一年中，大语言模型（LLMs）实现了从实验室“黑科技”到企业场景“生产力”的巨大跃迁。无论是通用问答、客户支持、文本生成、知识库问询，还是代码辅助、财报分析，大模型的边界已快速渗透到各行各业。然而，许多企业在试图将ChatGPT或DeepSeek等模型引入自己的业务系统时却发现：在线服务存在数据泄露风险；响
maven详解
Maven是一个广泛使用的自动化构建工具，主要用于Java项目的构建、依赖管理和项目信息管理。它由Apache软件基金会维护，旨在简化Java项目的开发流程，提高开发效率，并促进团队协作。Maven的核心是项目对象模型（ProjectObjectModel,POM）。POM是一个XML文件（pom.xml），用于描述项目的结构、依赖、插件配置等。每个Maven项目都有一个唯一的pom.xml文件，
2. 当构造方法参数过多时使用 builder 模式
Effectivejava文章目录Effectivejava为什么要使用builder模式?多可选参数的情景使用Builder模式Builder模式类层次结构总结为什么要使用builder模式?静态工厂和构造方法都有一个限制：它们不能很好地扩展到很多可选参数的情景。请考虑一个代表包装食品上的营养成分标签的例子。这些标签有几个必需的属性——每次建议的摄入量，每罐的份量和每份卡路里，以及超过20个可选
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它

从HTML文件中抽取正文的简单方案 试验结果 - hzxdark - ITeye技术网站

你可能感兴趣的:(java,文本抽取)

从HTML文件中抽取正文的简单方案试验结果 - hzxdark - ITeye技术网站