正文提取

从HTML文件中抽取正文的简单方案收藏

The Easy Way to Extract Useful Text from Arbitrary HTML

从HTML文件中抽取正文的简单方案

作者：alexjc

译者：恋花蝶（http://blog.csdn.net/lanphaday）

原文地址：http://ai-depot.com/articles/the-easy-way-to-extract-useful-text-from-arbitrary-html/

译者导读：这篇文章主要介绍了从不同类型的HTML文件中抽取出真正有用的正文内容的一种有广泛适应性的方法。其功能类似于CSDN近期推出的“剪影”，能够去除页眉、页脚和侧边栏的无关内容，非常实用。其方法简单有效而又出乎意料，看完后难免大呼原来还可以这样！行文简明易懂，虽然应用了人工神经网络这样的算法，但因为FANN良好的封装性，并不要求读者需要懂得ANN。全文示例以Python代码写成，可读性更佳，具有科普气息，值得一读。

You’ve finally got your hands on the diverse collection of HTML documents you needed. But the content you’re interested in is hidden amidst adverts, layout tables or formatting markup, and other various links. Even worse, there’s visible text in the menus, headers and footers that you want to filter out. If you don’t want to write a complex scraping program for each type of HTML file, there is a solution.

每个人手中都可能有一大堆讨论不同话题的HTML文档。但你真正感兴趣的内容可能隐藏于广告、布局表格或格式标记以及无数链接当中。甚至更糟的是，你希望那些来自菜单、页眉和页脚的文本能够被过滤掉。如果你不想为每种类型的HTML文件分别编写复杂的抽取程序的话，我这里有一个解决方案。

This article shows you how to write a relatively simple script to extract text paragraphs from large chunks of HTML code, without knowing its structure or the tags used. It works on news articles and blogs pages with worthwhile text content, among others…

本文讲述如何编写与从大量HTML代码中获取正文内容的简单脚本，这一方法无需知道HTML文件的结构和使用的标签。它能够工作于含有文本内容的所有新闻文章和博客页面……

Do you want to find out how statistics and machine learning can save you time and effort mining text?

你想知道统计学和机器学习在挖掘文本方面能够让你省时省力的原因吗？

< type=text/javascript> The concept is rather simple: use information about the density of text vs. HTML code to work out if a line of text is worth outputting. (This isn’t a novel idea, but it works!) The basic process works as follows:

答案极其简单：使用文本和HTML代码的密度来决定一行文件是否应该输出。（这听起来有点离奇，但它的确有用！）基本的处理工作如下：

Parse the HTML code and keep track of the number of bytes processed.

一、解析HTML代码并记下处理的字节数。

Store the text output on a per-line, or per-paragraph basis.

二、以行或段的形式保存解析输出的文本。

Associate with each text line the number of bytes of HTML required to describe it.

三、统计每一行文本相应的HTML代码的字节数

Compute the text density of each line by calculating the ratio of text to bytes.

四、通过计算文本相对于字节数的比率来获取文本密度

Then decide if the line is part of the content by using a neural network.

五、最后用神经网络来决定这一行是不是正文的一部分。

You can get pretty good results just by checking if the line’s density is above a fixed threshold (or the average), but the system makes fewer mistakes if you use machine learning — not to mention that it’s easier to implement!

仅仅通过判断行密度是否高于一个固定的阈值（或者就使用平均值）你就可以获得非常好的结果。但你也可以使用机器学习（这易于实现，简直不值一提）来减少这个系统出现的错误。

Let’s take it from the top…

现在让我从头开始……

Converting the HTML to Text

转换HTML为文本

What you need is the core of a text-mode browser, which is already setup to read files with HTML markup and display raw text. By reusing existing code, you won’t have to spend too much time handling invalid XML documents, which are very common — as you’ll realise quickly.

你需要一个文本模式浏览器的核心，它应该已经内建了读取HTML文件和显示原始文本功能。通过重用已有代码，你并不需要把很多时间花在处理无效的XML文件上。

As a quick example, we’ll be using Python along with a few built-in modules: htmllib for the parsing and formatter for outputting formatted text. This is what the top-level function looks like:

我们将使用Python来完成这个例子，它的htmllib模块可用以解析HTML文件，formatter模块可用以输出格式化的文本。嗯，实现的顶层函数如下：

def extract_text(html):

# Derive from formatter.AbstractWriter to store paragraphs.

writer = LineWriter()

# Default formatter sends commands to our writer.

formatter = AbstractFormatter(writer)

# Derive from htmllib.HTMLParser to track parsed bytes.

parser = TrackingParser(writer, formatter)

# Give the parser the raw HTML data.

parser.feed(html)

parser.close()

# Filter the paragraphs stored and output them.

return writer.output()

The TrackingParser itself overrides the callback functions for parsing start and end tags, as they are given the current parse index in the buffer. You don’t have access to that normally, unless you start diving into frames in the call stack — which isn’t the best approach! Here’s what the class looks like:

TrackingParser 覆盖了解析标签开始和结束时调用的回调函数，用以给缓冲对象传递当前解析的索引。通常你不得不这样，除非你使用不被推荐的方法——深入调用堆栈去获取执行帧。这个类看起来是这样的：

class TrackingParser(htmllib.HTMLParser):

"""Try to keep accurate pointer of parsing location."""

def __init__(self, writer, *args):

htmllib.HTMLParser.__init__(self, *args)

self.writer = writer

def parse_starttag(self, i):

index = htmllib.HTMLParser.parse_starttag(self, i)

self.writer.index = index

return index

def parse_endtag(self, i):

self.writer.index = i

return htmllib.HTMLParser.parse_endtag(self, i)

The LineWriter class does the bulk of the work when called by the default formatter. If you have any improvements or changes to make, most likely they’ll go here. This is where we’ll put our machine learning code in later. But you can keep the implementation rather simple and still get good results. Here’s the simplest possible code:

LinWriter 的大部分工作都通过调用formatter来完成。如果你要改进或者修改程序，大部分时候其实就是在修改它。我们将在后面讲述怎么为它加上机器学习代码。但你也可以保持它的简单实现，仍然可以得到一个好结果。具体的代码如下：

class Paragraph:

def __init__(self):

self.text = ''

self.bytes = 0

self.density = 0.0

class LineWriter(formatter.AbstractWriter):

def __init__(self, *args):

self.last_index = 0

self.lines = [Paragraph()]

formatter.AbstractWriter.__init__(self)

def send_flowing_data(self, data):

# Work out the length of this text chunk.

t = len(data)

# We've parsed more text, so increment index.

self.index += t

# Calculate the number of bytes since last time.

b = self.index - self.last_index

self.last_index = self.index

# Accumulate this information in current line.

l = self.lines[-1]

l.text += data

l.bytes += b

def send_paragraph(self, blankline):

"""Create a new paragraph if necessary."""

if self.lines[-1].text == '':

return

self.lines[-1].text += 'n' * (blankline+1)

self.lines[-1].bytes += 2 * (blankline+1)

self.lines.append(Writer.Paragraph())

def send_literal_data(self, data):

self.send_flowing_data(data)

def send_line_break(self):

self.send_paragraph(0)

This code doesn’t do any outputting yet, it just gathers the data. We now have a bunch of paragraphs in an array, we know their length, and we know roughly how many bytes of HTML were necessary to create them. Let’s see what emerge from our statistics.

这里代码还没有做输出部分，它只是聚合数据。现在我们有一系列的文字段（用数组保存），以及它们的长度和生成它们所需要的HTML的大概字节数。现在让我们来看看统计学带来了什么。

Examining the Data

数据分析

Luckily, there are some patterns in the data. In the raw output below, you’ll notice there are definite spikes in the number of HTML bytes required to encode lines of text, notably around the title, both sidebars, headers and footers.

幸运的是，数据里总是存在一些模式。从下面的原始输出你可以发现有些文本需要大量的HTML来编码，特别是标题、侧边栏、页眉和页脚。

While the number of HTML bytes spikes in places, it remains below average for quite a few lines. On these lines, the text output is rather high. Calculating the density of text to HTML bytes gives us a better understanding of this relationship.

虽然HTML字节数的峰值多次出现，但大部分仍然低于平均值；我们也可以看到在大部分低HTML字节数的字段中，文本输出却相当高。通过计算文本与HTML字节数的比率（即密度）可以让我们更容易明白它们之间的关系：

The patterns are more obvious in this density value, so it gives us something concrete to work with.

密度值图更加清晰地表达了正文的密度更高，这是我们的工作的事实依据。

Filtering the Lines

过滤文本行

The simplest way we can filter lines now is by comparing the density to a fixed threshold, such as 50% or the average density. Finishing the LineWriter class:

过滤文本行的最简单方法是通过与一个阈值（如50%或者平均值）比较密度值。下面来完成LineWriter类：

def compute_density(self):

"""Calculate the density for each line, and the average."""

total = 0.0

for l in self.lines:

l.density = len(l.text) / float(l.bytes)

total += l.density

# Store for optional use by the neural network.

self.average = total / float(len(self.lines))

def output(self):

"""Return a string with the useless lines filtered out."""

self.compute_density()

output = StringIO.StringIO()

for l in self.lines:

# Check density against threshold.

# Custom filter extensions go here.

if l.density > 0.5:

output.write(l.text)

return output.getvalue()

This rough filter typically gets most of the lines right. All the headers, footers and sidebars text is usually stripped as long as it’s not too long. However, if there are long copyright notices, comments, or descriptions of other stories, then those are output too. Also, if there are short lines around inline graphics or adverts within the text, these are not output.

这个粗糙的过滤器能够获取大部分正确的文本行。只要页眉、页脚和侧边栏文本并不非常长，那么所有的这些都会被剔除。然而，它仍然会输出比较长的版本声明、注释和对其它故事的概述；在图片和广告周边的比较短小的文本，却被过滤掉了。

To fix this, we need a more complex filtering heuristic. But instead of spending days working out the logic manually, we’ll just grab loads of information about each line and use machine learning to find patterns for us.

要解决这个问题，我们需要更复杂些的启发式过滤器。为了节省手工计算需要花费的无数时间，我们将利用机器学习来处理每一文本行的信息，以找出对我们有用的模式。

Supervised Machine Learning

监督式机器学习

Here’s an example of an interface for tagging lines of text as content or not:

这是一个标识文本行是否为正文的接口界面：

The idea of supervised learning is to provide examples for an algorithm to learn from. In our case, we give it a set documents that were tagged by humans, so we know which line must be output and which line must be filtered out. For this we’ll use a simple neural network known as the perceptron. It takes floating point inputs and filters the information through weighted connections between “neurons” and outputs another floating point number. Roughly speaking, the number of neurons and layers affects the ability to approximate functions precisely; we’ll use both single-layer perceptrons (SLP) and multi-layer perceptrons (MLP) for prototyping.

所谓的监督式学习就是为算法提供学习的例子。在这个案例中，我们给定一系列已经由人标识好的文档——我们知道哪一行必须输出或者过滤掉。我们用使用一个简单的神经网络作为感知器，它接受浮点输入并通过“神经元”间的加权连接过滤信息，然后输后另一个浮点数。大体来说，神经元数量和层数将影响获取最优解的能力。我们的原型将分别使用单层感知器（SLP）和多层感知器（MLP）模型。

To get the neural network to learn, we need to gather some data. This is where the earlier LineWriter.output() function comes in handy; it gives us a central point to process all the lines at once, and make a global decision which lines to output. Starting with intuition and experimenting a bit, we discover that the following data is useful to decide how to filter a line:

我们需要找些数据来供机器学习。之前的LineWriter.output()函数正好派上用场，它使我们能够一次处理所有文本行并作出决定哪些文本行应该输出的全局结策。从直觉和经验中我们发现下面的几条原则可用于决定如何过滤文本行：

Density of the current line.
当前行的密度
Number of HTML bytes of the line.
当前行的HTML字节数
Length of output text for this line.
当前行的输出文本长度
These three values for the previous line,
前一行的这三个值
… and the same for the next line.
后一行的这三个值

For the implementation, we’ll be using Python to interface with FANN, the Fast Artificial Neural Network Library. The essence of the learning code goes like this:

我们可以利用FANN的Python接口来实现，FANN是Fast Artificial Neural NetWork库的简称。基本的学习代码如下：

from pyfann import fann, libfann

# This creates a new single-layer perceptron with 1 output and 3 inputs.

obj = libfann.fann_create_standard_array(2, (3, 1))

ann = fann.fann_class(obj)

# Load the data we described above.

patterns = fann.read_train_from_file('training.txt')

ann.train_on_data(patterns, 1000, 1, 0.0)

# Then test it with different data.

for datin, datout in validation_data:

result = ann.run(datin)

print 'Got:', result, ' Expected:', datout

Trying out different data and different network structures is a rather mechanical process. Don’t have too many neurons or you may train too well for the set of documents you have (overfitting), and conversely try to have enough to solve the problem well. Here are the results, varying the number of lines used (1L-3L) and the number of attributes per line (1A-3A):

尝试不同的数据和不同的网络结构是比较机械的过程。不要使用太多的神经元和使用太好的文本集合来训练（过拟合），相反地应当尝试解决足够多的问题。使用不同的行数（1L-3L）和每一行不同的属性（1A-3A）得到的结果如下：

The interesting thing to note is that 0.5 is already a pretty good guess at a fixed threshold (see first set of columns). The learning algorithm cannot find much better solution for comparing the density alone (1 Attribute in the second column). With 3 Attributes, the next SLP does better overall, though it gets more false negatives. Using multiple lines also increases the performance of the single layer perceptron (fourth set of columns). And finally, using a more complex neural network structure works best overall — making 80% less errors in filtering the lines.

有趣的是作为一个猜测的固定阈值，0.5的表现非常好（看第一列）。学习算法并不能仅仅通过比较密度来找出更佳的方案（第二列）。使用三个属性，下一个SLP比前两都好，但它引入了更多的假阴性。使用多行文本也增进了性能（第四列），最后使用更复杂的神经网络结构比所有的结果都要更好，在文本行过滤中减少了80%错误。

Note that you can tweak how the error is calculated if you want to punish false positives more than false negatives.

注意：你能够调整误差计算，以给假阳性比假阴性更多的惩罚（宁缺勿滥的策略）。

Conclusion

结论

Extracting text from arbitrary HTML files doesn’t necessarily require scraping the file with custom code. You can use statistics to get pretty amazing results, and machine learning to get even better. By tweaking the threshold, you can avoid the worst false positive that pollute your text output. But it’s not so bad in practice; where the neural network makes mistakes, even humans have trouble classifying those lines as “content” or not.

从任意HTML文件中抽取正文无需编写针对文件编写特定的抽取程序，使用统计学就能获得令人惊讶的效果，而机器学习能让它做得更好。通过调整阈值，你能够避免出现鱼目混珠的情况。它的表现相当好，因为在神经网络判断错误的地方，甚至人类也难以判定它是否为正文。

Now all you have to figure out is what to do with that clean text content!

现在需要思考的问题是用这些“干净”的正文内容做什么应用好呢？

垂直搜索-网页正文提取

2010-04-19 17:33

原文链接： http://www.beijing-open-party.org/

大体上看，目前的文字抓取方式，无外乎以下三种方法：

通过正则表达式抓取：通过诸如BeautifulSoup这样的工具进行。
- 方法简单，但是性能可能会有问题。与所抓取的目标网页依赖过大，一旦网页格式发生变动，就需要对抓取的方式进行一些更新。出于偷懒的原则，如果程序能够自动识别变化，那样才比较完美。

标签特征，本话题所述方法即属于此类别。
基于视觉的处理，跨越标签领域，有一些的技术门槛，此话题暂不涉及。
- （在2009年2月的OpenParty” 有狐”活动中，有位来自雅虎中国的朋友分享了一篇在“服务器端使用Firefox进行网页抓取和内容识别工作”的话题，实际上就是基于视觉的处理实现）

基于文本密度算法的实现，是上述的标签特征类别的方法。基本公式：纯文本字符数/HTML源码字符数。

原始方法：

记录HTML标签起始位置
统计HTML源码首尾包括的字符数和其中的文本字符数

使用Python的matplotlib对统计的结果进行图示查看，从直方图中直观地可以发现，网页中有一部分的文本密度明显高于其它部分。在整个过程中还可以使用Tidy软件包来清理HTML代码，实例中演示的Sina页面，使用Tidy进行清理后进行识别的效果要好很多。

从实际状况出发，对算法进行小调整：从以前的文本前后判断，变成标签前后判断。

优点：数据的整体性更好。
缺点：数据的分布情况不够直观，有干扰。可以适当地加入一些值的过滤方式来实现

整个实现方法所使用的代码量：加入注释以及模式过滤的原脚本大约有200多行Python代码，如果是根据网上论文的原始实现，大约100多行 Python代码。

所参考、的论文中描述的人工智能文本识别方法：

使用神经网络模型
- 可使用FANN库，有相应的Python封装

采用原始的一刀切方式，会有丢行的现象产生。

个别行的密度会比较小。

神经网络模型的算法，可以采用机器进行学习的方式进行。不过要注意，学习所采用的原料和实际使用中所针对的目标相似度的关系也很重要。学习的量较少，可能会达不到完成任务所需的精度；而学习量过大，出现”过学习”的状况，也可能会出现过度吻合，从而导致对目标数据的变化非常敏感。

其它智能方法，针对HTML标签序列：

统计方法
贝叶斯
马尔可夫
CRF

不过为了达成我们的目标，找到最窍门的地方，才是最关键的。比如在很多应用场合下，看似粗旷的’一刀切’方法可能效果也非常不错。

这里介绍的自然语言识别只是一个具体的分支应用，而这个大领域还包括很多其他的内容，如逐渐变热的分词技术，也是值得关注的。

总的来说，自然语言识别技术需要根据应用领域、应用环境来提供相应的解决方案。没有银弹！

我一知半解的记录肯定略有偏差，想要详细了解此内容的朋友（如查阅上文提到的论文等内容），欢迎访问宋博士”提取HTML文档正文“的页面以及他的Blog访问详情。

宋博的原文我也先给贴出来，地址：http://www.elias.cn/MyProject/ExtMainText

ExtMainText —— 提取html文档正文

On this page... (hide)

(Edit Section ↓)

1. 简介

这是一个使用Python语言实现的函数库，能够帮助从html文档中提取文档正文，换句话说也就是能够过滤页面上的广告、栏目导航等非正文内容。此函数库可以用在从其他网站抓取文章内容的过程中，以及帮助搜索引擎抓取器忽略无关内容，将页面分析集中到网页更有价值的部分。

函数实现的基本原理是“正文标签密度法”，0.2版本计算网页每个html标签下的“正文长度/标签下所有字符总长”，取文档中密度高于制定阈值的最长部分作为文档正文输出。原理见：The Easy Way to Extract Useful Text from Arbitrary HTML。

对不同网站，因其语言特征及模板外观设计不同，而应当分别指定不同的密度阈值，具体应该根据所有标签的密度分布状况实验确定。一般英文网站可以取阈值0.5，中文网站使用0.5作为阈值同样能得到不错的输出结果。

当filterMode为 False 时，代码仅返回最长的一段正文，有可能会将博客的评论信息等过滤掉（当评论文字都比较短的时候）；
当filterMode为 True 时，代码会过滤掉密度低于阈值的html片段，也即能够保留多段正文文字，从而通常可以保留博客的评论信息。

函数最终输出的是包含文档正文的html片段，如果需要将提取的正文内容进一步转换为text 纯文本内容，则可以调用html2text。

English Doc, See: En.ExtMainText

(Edit Section ↓)

2. 脚本下载

(Edit Section ↓)

2.1 更新记录

2010-01-26：解决有时html文本中的特殊字符造成编码错误的问题。
2009-12-05：改为使用lxml api实现，使用新的密度计算公式，并增加“使用过滤模式”的选项。
2008-10-21：在__main__部分添加html向text转换的代码，直接执行ExtMainText将给出更直观的输出；作为0.1a版本发布。
2008-10-19：完成基本功能，作为0.1版本发布。

(Edit Section ↓)

3. 使用说明

作为库函数使用时可参照源代码的DocString以及“ if __name__ == '__main__' ”部分。也可以直接运行此脚本文件：

[Get Code]

python ExtMainText.py 输入的html文件名

这样脚本将以默认参数（0.5）提取该html文件的正文内容，并转换为纯文本输出。

另外请注意输入的html文本的编码，在0.2a之后的版本只接受unicode文本作为输入，因此需要提前完成对输入文档的解码。

(Edit Section ↓)

4. 后续改进方向

相对于固定阈值，使用神经网络等智能方法能够获得更为准确的输出，建议参考也谈网页正文提取[下]以及赖勇浩先生翻译的从HTML文件中抽取正文的简单方案。

(Edit Section ↓)

5. 与其他实现的比较

也谈网页正文提取[下]和The Easy Way to Extract Useful Text from Arbitrary HTML两篇文章的非人工智能算法的部分（也就是使用静态阈值方法来提取文章正文）在算法和代码实现上都是完全一样的。虽然都是使用文本密度来识别文章正文部分，但他们对文本密度的计算方法和我的还是存在一定区别，这里以我个人的理解进行简单的比较分析。

他们在计算文本密度时，从头至尾逐步解析html，当遇到一行纯文本内容时，以这一行纯文本的长度作为“文本长度”，以这一行纯文本结束位置到上一行纯文本结束位置在原始html中所跨越的字符总数作为“字符长度”，并用两者的比值作为文本密度的值。这种计算方法存在一定的不合理性。从物理意义上来讲，“字符长度”应该是与修饰一段纯文本相关的html代码总长。但他们的计算方法是将纯文本之前的html标签作为其修饰成分，对于前后匹配的html标签来说，特别是纯文本被括在多层表格及<div>标签之内的情况，不能保证将各层标签的结束标签算作此段纯文本的修饰内容，相反却很可能将之计算为下一行纯文本所对应的字节长度组成部分。在极端条件下，也即分析第一行纯文本时，算法会将之前的所有html标签算作字节组成部分，也即包含了<head>部分，这不合理地极大地降低了密度的取值。虽然扫描一般html页面遇到的第一行纯文本通常是菜单或者导航部分，需要作为正文提取的可能性不大，但这种算法实现方法与其预期体现的物理意义不能很好地吻合。

我的实现则将每个html标签下涵盖的所有内容作为整体来分析，比如对一个<div>标签，算法将此起始标签与其对应结束标签之间包括的所有纯文本内容作为“文本长度”，包括的所有字节内容作为“字节长度”，如此计算文本密度，可以保证所涉及的字节一定是与对应的纯文本密切相关的。因此对于静态阈值方法来说，估计能够获得稍好的正文提取准确度。

当然，那两篇文章的方法也有一定好处，就是对纯文本内容按照行来区分，对后续人工智能的训练和处理过程来说更便于人的操作和理解。但文中提及的神经网络方法并不是唯一的选择，或许可以不考虑文本行，而是从 html 标签的出现顺序上寻找规律。

多种基于html正文提取的思想收藏

一、基于统计的中文网页正文抽取的研究

摘要：信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息，从而能更好的利用互联网资源。文中采用一种统计网页特征的方法，将中文网页中的正文部分抽取出来。该方法首先将网页表示成基于XML的DOM树形式，利用统计的节点信息从树中过滤掉噪音数据节点，最后再选取正文节点。该方法相比传统的基于包装器的抽取方法，具有简单，实用的特点，试验结果表明，该抽取方法准确率达到90％以上，具有很好的实用价值。

来源网址：http://blog.csdn.net/zvane/archive/2008/03/21/2201414.aspx

二、基于标签密度判定

    每个人手中都可能有一大堆讨论不同话题的HTML文档。但你真正感兴趣的内容可能隐藏于广告、布局表格或格式标记以及无数链接当中。甚至更糟的是，你希望那些来自菜单、页眉和页脚的文本能够被过滤掉。如果你不想为每种类型的HTML文件分别编写复杂的抽取程序的话，我这里有一个解决方案。
    本文讲述如何编写与从大量HTML代码中获取正文内容的简单脚本，这一方法无需知道HTML文件的结构和使用的标签。它能够工作于含有文本内容的所有新闻文章和博客页面……
    你想知道统计学和机器学习在挖掘文本方面能够让你省时省力的原因吗？
    答案极其简单：使用文本和HTML代码的密度来决定一行文件是否应该输出。（这听起来有点离奇，但它的确有用！）基本的处理工作如下：
    一、解析HTML代码并记下处理的字节数。
    二、以行或段的形式保存解析输出的文本。
    三、统计每一行文本相应的HTML代码的字节数
    四、通过计算文本相对于字节数的比率来获取文本密度
    五、最后用神经网络来决定这一行是不是正文的一部分。

仅仅通过判断行密度是否高于一个固定的阈值（或者就使用平均值）你就可以获得非常好的结果。但你也可以使用机器学习（这易于实现，简直不值一提）来减少这个系统出现的错误。
来源网址：http://hi.baidu.com/whitecpf/blog/item/6c4dffde6004755094ee37c9.html

三、基于数据挖掘思想的网页正文抽取方法的研究

提出了一种依靠数据挖掘思想,从中文新闻类网页中抽取正文内容的方法。该方法将网页源代码进行线性化重构,然后利用重构后的代码进行网页噪声的初步去除,再经过文本分类、聚类得到网页正文的脉络段落,最后通过吸收伪噪声段落生成网页正文。该方法克服了传统的网页内容抽取方法需要为网页结构建树的缺点,具有简单、快速、准确的特点,试验表明该方法的抽取准确率可以达到99％以上。

来源网址：http://epub.cnki.net/grid2008/detail.aspx?filename=ZGZR200608001051&dbname=cpfd2006

四、基于视觉网页块分析技术的正文抽取

基于视觉的正文抽取和网页块分析是完全模拟IE浏览器的显示方式，对网页进行解析。系统根据人类视觉原理，把网页解析处理的结果，进行分块。然后根据用户需求，提取用户需要的提取相关网页块的内容。
比如在竞争情报系统和自动新闻已经采编发系统中，正文的提取。提取：标题、正文、时间等信息。

评：类似根据模板定义去提取网页正文

继续收集中

当然还有很多如通过正则表达式，或剔除html标签等等方式提取正文，但个人认为通用效果不理想。

一些网页正文内容抓取的有用链接

http://zhidao.baidu.com/question/39002023.html?fr=qrl
在通用正文提取方面，JAVA开发的一个开源项目GATE http://gate.ac.uk/，历经几年，效果不错，也可处理中文。

http://www.myispace.cn/tags/9295ef3a46a ... tm?total=4
正文提取 - 我的信息网

http://www.myispace.cn/clips/fd1017bf58 ... ceb2fa.htm
从HTML文件中抽取正文的简单方案
这篇文章主要介绍了从不同类型的HTML文件中抽取出真正有用的正文内容的一种有广泛适应性的方法。其功能类似于CSDN近期推出的“剪影”，能够去除页眉、页脚和侧边栏的无关内容，非常实用。其方法简单有效而又出乎意料，看完后难免大呼原来还可以这样！行文简明易懂，虽然应用了人工神经网络这样的算法，但因为FANN良好的封装性，并不要求读者需要懂得ANN。全文示例以Python代码写成，可读性更佳，具有科普气息，值得一读。

http://bbs.sogou.com/f?s=%CB%D1%B9%B7%C ... AAA&page=1
做了一个网页正文识别的东东，大家可以通过手机访问http://www.china-ideal.net/news/，以上的新闻都是通过正文识别自动维护的WAP新闻网站。

http://www.cnblogs.com/onlytiancai/arch ... 45879.html
基于标记窗的网页正文提取算法的一些细节问题

http://www.supesoft.com/ArticleDisp.asp?ID=4589
蛙蛙牌正文提取算法

http://www.chinaunix.net/jh/26/1022104.html
用java开发一个搜索导航网站，http://www.itsubway.com

http://www.lietu.com/extract/
猎兔网页正文提取演示

网络语料正文的识别/抽取规则标签密度判定法收藏

在确定了对不同的URL进行的不同的操作之后，自然就进入到了本软件的核心部分：如何判定HTML源码中，哪一部分是正文。只有确定了正文部分，才能够确定操作集中的对象，才能够进行抽取。

在各种网络文本中，最容易获得的，就是网络新闻之类。这类文章，甚至包括很多的非新闻类的网上文章，特点都是具有一个标题，这个标题一般会放在正文开头在<h1> </h1>标签中，有些网站也会放在<title> </title>标签中；另外，在一般的网上文章中，正文往往都是用<p> </p>来进行段落划分。同时，正文成分在网页源代码中，分布往往较为集中。因此，本文提出一种正文判定法则，即标签密度判定法，即，首先判断一个<p> </p>代码块中的标签密度，如果低于某一阈值，就认为其标签含量很低，是正文的可能性就比较大。下面举两个例子来论证标签密度是否能成为判定正文的标准：代码片段A是一篇新闻网页的源码中，正文部分的Fragment，而代码片段B，则是非正文部分的Fragment。这两段网页源代码，是随机地从某一搜索引擎结果集中抽取的，因而具有相当的代表性：

<P>　　对于吉林石化爆炸污染松花江水源的说法，吉林省委宣传部表示目前还没有听说这个情况。吉林市市委宣传处一位人士更是表示，由于哈尔滨处于松花江下游，哈尔滨多年来一直抓住水指标的问题，作水污染的文章，这次停水是否因为吉林石化爆炸所导致还不好说。他告诉记者，自11月14日下午开始，吉林市松花江江北在恢复供水后一直保持正常。

</P>

<P>　　吉林石化方面人士强调，爆炸产生的是二氧化碳和水，绝对不会污染到水源，而吉林石化也有自己的污水处理厂，不合格的污水是不会排放到松花江的。本报记者翟宇许

金晶王婷婷发自哈尔滨北京<A href="http://weather.qq.com/preend.htm?dc80.htm"

target=_blank> <IMG alt=点击查看北京及更多城市天气预报

src="http://weather.qq.com/images/endnew/weather_icon.gif"

border=0> </A> </P>

图3-1 代码片段A，从某HTML页面源文件中摘取的片断

<DIV class=foucscnt1> <A href="http://news.qq.com/a/20051124/000309.htm"

target=new> <IMG class=marginupdown height=88 alt="交友广告在高校派发寻伊启事专盯单身美女"

src="http://img1.qq.com/news/20051124/2719358.jpg" width=130

border=1> </A> <BR>交友广告专盯单身美女<BR> <BR> <A

href="http://ent.qq.com/a/20051124/000048.htm" target=new> <IMG

class= marginupdown height=88 src="http://img1.qq.com/ent/20051124/2720851.jpg"

width=130 border=0> </A> <BR> 怀孕王菲遭媒体“围堵”<BR> </DIV>

<DIV class=foucscnt2> · <A href="http://news.qq.com/a/20051120/000704.htm"

target=_blank> 小泉谈中日关系称不担心中日交恶(图) </A> <BR> · <A

href="http://news.qq.com/a/20051119/000757.htm" target=_blank> 戒毒所警察强奸女生被判10年

不服判决 </A> <BR> · <A href="http://news.qq.com/a/20051118/001595.htm"

target=_blank> 甘肃省委宣传部原副部长石星光遇害< /A> <BR> · <A

href="http://news.qq.com/a/20051116/001154.htm" target=_blank> 按下劫警键五分钟获救

新版GPS救下的姐命 </A> <BR> · <A href="http://news.qq.com/a/20051110/001447.htm"

target=new>全国中小学后勤工作论坛上鼾声一片(组图) </A> <BR> · <A

href="http://news.qq.com/a/20051110/000472.htm" target=_blank> 孕妇被打流产索赔81万

被告提异议 </A> <BR> <BR> · <A href="http://news.qq.com/a/20051124/000469.htm"

target=new> 女子结婚3年未孕医院检查才知是男儿身 </A> <BR> · <A

href="http://news.qq.com/a/20051124/000540.htm" target=new> 变性美女返家

3万乡亲敲锣打鼓迎接(图) </A> <BR> · <A href="http://news.qq.com/a/20051124/000833.htm"

target=new> 女教师多次性骚扰14岁男生被判软禁(图) </A> <BR> · <A

href="http://news.qq.com/a/20051119/000154.htm"

target=new> 网络工程师网上散发前女友裸照(图) </A> <BR> · <A

href="http://news.qq.com/a/20051110/001756.htm"

target=new> 丈夫迷网络色情与老婆演淫秽真人秀(图) </A> <BR> </DIV>

<DIV class=foucscnt3> <A href="http://sports.qq.com/a/20051124/000243.htm"

target=new> <IMG class=marginupdown height=88 alt=鲁尼偷腥事件女主角裸照

src="http://img1.qq.com/sports/20051124/2720121.jpg"

width=130> </A> <BR> 鲁尼偷腥事件女主角裸照 <BR> <BR> <A

href="http://news.qq.com/a/20051124/001281.htm" target=new> <IMG

class=marginupdown height=88 alt="千万富豪驾宝马高校征婚传单散10所高校"

src="http://img1.qq.com/news/20051124/2723345.jpg" width=130

border=1> </A> <BR> 千万富豪驾宝马高校征婚 <BR> </DIV>

图3-2 代码片段B，从同一HTML页面源文件中摘取的片断

这代码片段A指示的就是我们要提取的正文。如何把这样的代码，与代码段B这样的代码区分开呢？首先从语言内容角度是行不通的，目前电脑很难理解自然语言；也不能从是否是超级链接入手，前面已经说了，正文中有时也会出现不能随意整个去除的超级链接，必须判断出哪里是正文，才能对正文中的超级链接进行处理。笔者在这个问题上也曾徘徊很久，最后的突破在于寻找到了这样一个规律：正文部分的HTML标签密度，远远大于非正文部分。为了验证这个规律，我们统计分析一下上面的两个例子（HTML标签：这里指所有在HTML源代码中出现的，尖括号（<>）中的内容，每对尖括号，连同其内容，算作一个标签，每个类似于<html> </html>的两个标签，其中一个标示标签内容开始，另一个标志标签内容结束的，称为一个标签对。）：

代码片段A的统计分析：

正文字数：242字（正文字数：指的是非标签的文本字数，标点符号计在内。）

标签数：7个（标签数：只计算标签的个数，忽略标签内文本的多少。）

标签密度：28.93个/千字（标签密度：指的是前面定义的标签数与正文数的商，单位规定为“个/千字”，计算公式为“标签密度=1000*标签数/字数”。）

代码片段B的统计分析：

正文字数（非标签文本）：221字

标签数：69个

标签密度：312.22个/千字

从上面的两组统计数据可以看出，网络文本源代码中，正文部分的HTML标签密度远远小于非正文部分，同时，对于更多的网络文本的统计数据分析可以知道，按照上文的方法所算出的标签密度，正文部分与非正文部分，存在着极大的差异。从而我们可以得出初步结论：可以依据对HTML标签密度的统计分析来指出在一份HTML源代码中，文章正文的位置。

于是，在对更多的文本进行类似的统计后，笔者得出一个正式的统计的结论，正文部分的HTML标签密度大于50个/千字的概率接近于零，而非正文部分的标签密度小于200个/千字的机率也几乎为零。所以，理论上，在50个/千字和200个/千字这个统计得出标签密度数据的“真空区”中选择任何一个数值作为正文与非正文部分的分界线都是可以的。但是，为了保证不遗漏正文（不遗漏正文：对于标注对象来说，正文的缺失是难以接受的，而少量的冗余资料则被认为是对工作无害的。所以，在提取正文时，宁可放行一些无用的资料，也不能把丝毫的正文过滤掉），笔者建议选择的分界值是150个/千字（150个/千字：这是针对网络新闻资料得出的建议分界值，可能并不适用于其他类型的资料）。当然，在其后的设计分析中，我们可以知道，对于不同网站的文本语料，存在不同的设计风格差异，体现在源码上，就是正文部分与非正文部分的标签密度存在一定的波动。我们可以通过对这个阈值进行调整，来达到最适合的抽取精度。当然，在软件中，会存在一个Scroll Bar，对这个阈值进行调整。

发表于 @ 2009年06月26日　10:02:00 | 评论( 1 ) | 举

你可能感兴趣的:(正文提取)

自然语言处理：文本聚类老赵爱学习 python 文本聚类 k均值聚类算法高斯混合模型的最大期望值算法无监督朴素贝叶斯模型自然语言处理人工智能
介绍大家好，博主又来和大家分享自然语言处理领域的知识了。今天给大家分享的内容是自然语言处理中的文本聚类。文本聚类在自然语言处理领域占据着重要地位，它能将大量无序的文本按照内容的相似性自动划分成不同的类别，极大地提高了文本处理和信息提取的效率。就好比在一个大型图书馆中，文本聚类能够像智能管理员一样，把各种书籍按照主题分类摆放，方便读者快速找到所需资料。而实现文本聚类的方法有很多，其中k均值聚类算法、
Python 逆向工程：2025 年能破解什么？ wtrees_松阳网络
有没有想过在复杂的软件上扭转局面？到2025年，Python逆向工程不仅仅是黑客的游戏，它是开发人员、安全专业人员和好奇心强的人解开编译代码背后秘密的强大方法。无论您是在剖析恶意软件、分析Python应用程序的工作原理，还是学习绕过混淆技术，逆向工程都是打开创新和更强大安全防御之门的关键。在本指南中，我们将深入探讨逆向工程Python应用程序。我们将探讨如何从打包的可执行文件中提取代码，恶意软件分
2024年上半年系统架构设计师论文真题任铄软考2024年上半年真题系统架构设计师架构设计软考 2024 论文范文真题
一、论大数据lambda架构大数据处理架构是专门用于处理和分析巨量复杂数据集的软件架构。它通常包括数据收集、存储、处理、分析和可视化等多个层面，旨在从海量、多样化的数据中提取有价值的信息。Lambda架构是大数据平台里最成熟、最稳定的架构，它是一种将批处理和流处理结合起来的大数据处理系统架构，其核心思想是将批处理作业和实时流处理作业分离，各自独立运行，资源互相隔离，解决传统批处理架构的延迟问题和流
电源MPPT设计步骤与难点分析 DeepGpt 电路硬件工程
设计一个电源的最大功率点跟踪（MPPT，MaximumPowerPointTracking）系统通常用于太阳能光伏系统、风能系统等可再生能源领域，以确保从能量源（如太阳能板）中提取最大功率。以下是MPPT设计的一般步骤及其中的难点：一.MPPT设计步骤理解系统需求目标：明确系统的输入（如太阳能板的电压和电流范围）和输出需求（如负载或电池的电压要求）。环境条件：考虑温度、光照强度或风速等外部因素对功
点云空洞的边界识别提取 pso-bp 神经网络的模型来修复点云空洞附python代码点云-激光雷达-Slam-三维牙齿激光雷达点云 c++为主神经网络人工智能深度学习点云 python
代码是一个Python程序，用于处理3D点云数据，特别是检测和修复点云中的孔洞区域。1.**导入库**：-`numpy`：用于数学运算。-`open3d`：用于处理3D数据和可视化。-`torch`：PyTorch库，用于深度学习。-`torch.nn`和`torch.optim`：PyTorch的神经网络和优化器模块。-`mpl_toolkits.mplot3d`和`matplotlib.pyp
点云边缘提取及可视化 Alan Lan PCL
点云素材：bunny.txt#include#include#includevoidCreateCloudFromTxt(conststd::string&file_path,pcl::PointCloud::Ptrcloud){std::ifstreamfin(file_path.c_str());std::stringline;pcl::PointXYZpoint;while(getline(
【系统架构设计师】2024年上半年真题论文: 论大数据lambda架构（包括解题思路和素材）数据知道系统架构架构系统架构设计师软考高级论文
更多内容请见：备考系统架构设计师-专栏介绍和目录文章目录真题题目（2024年上半年试题1）解题思路论文素材参考真题题目（2024年上半年试题1）大数据处理架构是专门用于处理和分析巨量复杂数据集的软件架构。它通常包括数据收集、存储、处理、分析和可视化等多个层面，旨在从海量、多样化的数据中提取有价值的信息。Lambda架构是大数据平台里最成熟、最稳定的架构，它是一种将批处理和流处理结合起来的大数据处理
HarmonyOS NEXT 实战系列05-案例回关粉丝 harmonyos-next
编辑需求：提取FansItemComp组件进行复用，使用@Prop接收数据保证组件UI可动态渲染封装getFansAndFollowCount方法获取互关人数且渲染传入onChange方法，当子组件状态发送变更通知父组件进行列表数据更新代码：interfaceFansItem{avatar:Resourcename:stringtitle:stringisFollow:boolean}@Entry
简说JVM 祁小白2024 jvm java 后端
目录前言正文JVM内存区域划分JVM执行方式JVM的类加载机制类加载器类加载器的类型自定义类加载器垃圾回收垃圾回收的问题垃圾回收的范围垃圾回收机制垃圾回收算法释放垃圾内存空间前言在Java的技术体系中，有两个至关重要的组件，分别是JVM（Java虚拟机）和Javac（Java编译器），它们在Java程序的生命周期中扮演着截然不同但又紧密关联的角色。Javac编译器的职责是将开发者编写的.java源
电话的正则表达式几度泥的菜花 javascript 前端
‌‌正则表达式是一种强大的文本处理工具，用于匹配、查找、替换或提取字符串中的特定模式‌。它由普通字符和特殊字符（元字符）组成，其中元字符具有特殊含义，用于定义匹配规则。‌电话的正则表达式根据不同国家和地区的规范有所不同。下面是一些常见的电话正则表达式示例：1.中国大陆的电话正则表达式对于中国大陆的手机号码，通常是11位数字，以1开头，第二位数字为3、4、5、6、7、8、9中的一个。手机号码（11位
ES 客户端 API 二次封装思想 bossface 项目服务器 c++elasticsearch 数据库
ES客户端API二次封装思想网页端：ip+5601索引创建数据新增数据查询数据删除因为json串会出现在代码中，为了让用户更容易去添加数据所以去封装它。思想：为了让json串变得更加容易添加，封装最主要是为了简化正文的构造过程POST/user/_doc//让用户可以指定索引名称指定索引类型{"settings":{//让用户添加"analysis":{"analyzer":{"ik":{"tok
6个必备的 Node 网络爬虫库 zz_jesse 爬虫
作为一名程序员，你是否曾遇到过需要从各大网站提取数据的需求？随着互联网的快速扩展，能够高效地进行网络爬虫已经成为企业、研究人员以及个人的一项重要技能。在这个数据为王的时代，如何利用JavaScript和Node.js来实现高效的数据抓取，是每一个开发者都应该掌握的技巧。网络爬虫，即从网站提取数据的过程，已经成为各行各业的重要工具。而JavaScript和Node.js因其强大的功能和丰富的库，成为
ios 侧滑返回传值卡死_iOS 侧滑返回的那点事 weixin_39946364 ios 侧滑返回传值卡死
前言对于iOS用户来说，右滑返回是一个比较常见的。那么对于一个开放者来说，怎么去实现？其中又有哪些坑呢？目前的侧滑效果有两种：1.边缘触发侧滑(苹果原生)2.全屏触发侧滑而实现目前有三种方式：1.系统自带(不自定义导航)2.使用系统动画去实现3.自定义导航，默认开启系统的返回手势参考文章：iOS侧滑返回的三种实现方式正文至于两种侧滑效果孰好孰坏没有办法说，这就需要根据公司的产品需求去衡量。对于全屏
Bash命令：列出所有Conda环境的Python版本「已注销」 python bash conda
要列出所有Conda环境的Python版本，您可以在Bash终端中使用以下命令：condainfo--envs|\awk'{print$1}'|\xargs-I{}sh-c'echo{};condarun-n{}python--version2>&1|cut-d""-f2'该命令首先使用condainfo--envs列出所有Conda环境，然后将输出传输到awk以提取第一列，其中包含环境名称。使用
UniApp生命周期完全指南」：从应用启动到页面卸载，全过程详细解读「UniApp新手教程」：学会应用、页面与组件生命周期，开发更高效的跨平台应用 UniApp生命周期最全解析！手把手带你构建一个高南北极之间小程序 uni-app 前端 javascript vue.js 微信小程序小程序 uniapp
博客正文UniApp生命周期新手教程：从应用到组件，轻松掌握每个环节UniApp的生命周期函数是每个开发者必须掌握的重要知识点，它不仅帮助我们管理页面和数据，还可以提升应用的性能和用户体验。这篇文章将详细讲解UniApp的应用生命周期、页面生命周期和组件生命周期，并通过代码示例，带你逐步理解如何在实际开发中灵活运用这些生命周期函数。目录什么是生命周期？应用生命周期onLaunchonShowonH
使用CyberChef 解密 AES 加密数据 zhaoyong631 网络安全威胁分析
以下是使用CyberChef解密该PowerShell脚本中AES加密数据的完整步骤，结合代码中的密钥和参数：1.提取关键参数(1)加密数据（$aOFK）从代码中提取完整的十六进制字符串（此处已截断，需确保完整）：0BD7B2DD9100ADE103EE5DECAF0349E6845B6AC04135C868B2D14858E98F3557532EEE53A277A1355F72367493506
MobileNet 改进：添加inception模块听风吹等浪起 AI 改进系列深度学习 cnn 计算机视觉人工智能
目录1.inception模块2.MobileNet+inception3.完整代码Tips：融入模块后的网络经过测试，可以直接使用，设置好输入和输出的图片维度即可1.inception模块Inception模块是Google在2014年提出的Inception网络（也称为GoogLeNet）中的核心组件。它的设计目标是通过多尺度特征提取来提高网络的表达能力，同时控制计算复杂度。Inception
卷积神经网络中的卷积操作 m0_61360701 深度学习 cnn 深度学习人工智能
1.什么是卷积操作？在卷积神经网络（CNN）中，卷积操作是一种数学运算，它的目的是从图像（或其他数据）中提取局部特征。简单来说，卷积就像是用一个小的“扫描仪”在图像上滑动，每次扫描一小块区域，并从中提取有用的信息。2.卷积操作的类比：印章想象你有一张纸和一个印章。印章是一个小的图案，比如一个简单的形状（圆形、方形等）。当你把印章按在纸上时，印章会与纸上的内容接触，并留下一个印记。然后你移动印章，重
Python爬虫：从人民网提取视频链接的完整指南小白学大数据 python python 爬虫音视频开发语言大数据
无论是用于数据分析、内容提取还是资源收集，Python爬虫都因其高效性和易用性而备受开发者青睐。本文将通过一个实际案例——从人民网提取视频链接，详细介绍如何使用Python构建一个完整的爬虫程序。我们将涵盖从基础的网络请求到HTML解析，再到最终提取视频链接的全过程。一、爬虫技术概述网络爬虫（WebCrawler）是一种自动化的程序，用于在互联网上浏览网页并收集信息。它通过模拟浏览器的行为，发送H
卷积神经网络（CNN）详解：从原理到应用的全景解析彩旗工作室人工智能 cnn 人工智能神经网络卷积神经网络
一、定义与核心特征卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专为处理网格状数据（如图像、视频）设计的深度前馈神经网络，其核心特征包括：局部连接：卷积层神经元仅与输入数据的局部区域连接，减少参数数量；权重共享：同一卷积核在整个输入数据上滑动，增强平移不变性；层级特征提取：从低级特征（边缘、纹理）到高级特征（物体部件）的逐层抽象。二、历史演进与关键突破1960年
backbone和head分开转onnx的优势 yuweififi 人工智能深度学习机器学习
模型转换为ONNX格式时，将其分成backbone和head两个部分，通常是出于以下原因：1.模块化设计backbone通常是模型的特征提取部分（例如卷积神经网络的主干部分），负责从输入数据中提取高级特征。head是模型的输出部分，负责根据backbone提取的特征生成最终的预测结果（例如分类、检测、分割等）。将模型分成两部分可以实现模块化设计，便于在不同任务中复用backbone或head。例如
使用nexus在windows上搭建npm私服 WDF.
一、下载安装1、在官网下载：NexusRepositoryManagerOSS3.x,解压至任意位置。（但是我在官网下载了几次都没成功）百度云下载地址：NexusRepositoryManagerOSS3.x提取码：7w7w2、管理员运行cmd,切换到nexus-3.17.0-01/bin目录，nexus.exe/install进行安装,成功后会提示Installedservice'nexus'注
Python网络爬虫实战：抓取猫眼TOP100电影信息莱财一哥
本文还有配套的精品资源，点击获取简介：在Python中，Web爬虫是获取互联网数据的关键技能。本教程将指导如何结合使用requests库和正则表达式来从猫眼电影网站的TOP100榜单中抓取电影信息。首先通过requests库发送HTTP请求获取网页内容，然后运用正则表达式提取电影名和评分等信息。在进行网络爬虫时，遵守robots.txt规则，设置请求延时，并考虑处理网站的反爬虫策略。对于更复杂的网
【C++设计模式】第二十一篇：模板方法模式（Template Method） JuicyActiveGilbert C++设计模式 c++设计模式模板方法模式
注意：复现代码时，确保VS2022使用C++17/20标准以支持现代特性。算法骨架的标准化定义1.模式定义与用途核心思想模板方法模式：在父类中定义算法的骨架，将某些步骤延迟到子类实现，使得子类不改变算法结构即可重写特定步骤。关键用途：1.代码复用：提取多个类的共同流程到父类。2.流程标准化：确保算法步骤的执行顺序不变。3.扩展性：子类仅需关注差异化的实现细节。经典场景数据解析框架（固定解析流程，支
【爬虫实战】python入门爬取猫眼电影排行进击的C语言爬虫自动化网络
爬虫爬虫概述应用场景：1、抓取特定网站或应用的内容，提取出有价值的信息。2、模拟用户在浏览器或应用中的操作，实现自动化流程。爬虫是什么专业术语：网络爬虫（又称网页蜘蛛、网络机器人）网络爬虫是一种自动按照特定规则抓取网页信息的程序或脚本。爬虫起源随着网络的迅猛发展，万维网成为海量信息的载体，如何有效地提取和利用这些信息成为一项巨大挑战。搜索引擎如Yahoo、Google、百度等，作为帮助人们检索信息
爬虫基础巷955 爬虫
引言:在当今信息爆炸的时代，互联网上充斥着海量的数据。如何高效地从这些数据中提取出有价值的信息，成为了许多开发者和数据分析师关注的焦点。爬虫技术（WebScraping）作为一种自动化获取网页数据的技术，正逐渐成为数据采集的重要手段。本文将带你从零开始学习爬虫的基础知识，帮助你掌握如何编写简单的爬虫程序。爬虫的基本流程:1.发送请求：爬虫首先向目标网站发送HTTP请求，获取网页的HTML内容。2.
MATLAB基于Simulink的行波故障测距，提出了基于MATLAB SIMULINK的输电线路故障行波仿真方法 GKsUaMF matlab 开发语言
MATLAB基于Simulink的行波故障测距，提出了基于MATLABSIMULINK的输电线路故障行波仿真方法。在此基础上建立了基于分布参数模型的输电线路故障行波仿真平台。最后，以输电线路的单相短路故障为例，应用该平台和MATLAB编程实现了对输电线路故障的仿真以及故障行波的提取。MATLAB基于Simulink的行波故障测距在电力系统中具有广泛的应用。随着电力系统的不断发展和变革，为了提高输电
oracle ar 税率,EBS(Oracle ERP) AR AP TAX 税信息区别转袁大岛 oracle ar 税率
从前台税信息展示及后台税信息存储方面对比下APAR中税信息区别：1、前台界面：AP发票行中有税行的显示；而AR发票行中没有税行的显示，但其实AR发票行表是有存储税行的。2、AP发票行表中存储的税信息是非税行(后面简称item行)产生的且按税率汇总后的税信息，而不是非税行(后面简称item行)产生的税明细信息，明细信息需要从税模块中提取；而AR发票行表中存储的税信息就是非税行(后面简称line行)产
Python 语言因其广泛的库与框架资源，诸如 `requests`、`BeautifulSoup 一一代码 python
1.安装必要的库:首先，确保你已经安装了`requests`和`BeautifulSoup`库。如果没有安装，可以使用以下命令进行安装：```bashpipinstallrequestsbeautifulsoup4```2.编写简单的爬虫以下是一个简单的爬虫示例，它从指定的URL抓取网页内容，并提取所有的链接并发。```pythonimportrequestsfrombs4importBeauti
YOLOv8改进策略【注意力机制篇】| EMA 即插即用模块，提高远距离建模依赖（含C2f二次创新） Limiiiing YOLOv8改进专栏 YOLO 计算机视觉深度学习目标检测
一、本文介绍本文记录的是基于EMA模块的YOLOv8目标检测改进方法研究。EMA认为跨维度交互有助于通道或空间注意力预测，并且解决了现有注意力机制在提取深度视觉表示时可能带来的维度缩减问题。在改进YOLOv8的过程中能够为高级特征图产生更好的像素级注意力，能够建模长程依赖并嵌入精确的位置信息。专栏目录：YOLOv8改进目录一览|涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Ne
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p

正文提取

从HTML文件中抽取正文的简单方案 收藏

ExtMainText —— 提取html文档正文

1. 简介

2. 脚本下载

2.1 更新记录

3. 使用说明

4. 后续改进方向

5. 与其他实现的比较

多种基于html正文提取的思想 收藏

一些网页正文内容抓取的有用链接

网络语料正文的识别/抽取规则 标签密度判定法 收藏

你可能感兴趣的:(正文提取)

从HTML文件中抽取正文的简单方案收藏

多种基于html正文提取的思想收藏

网络语料正文的识别/抽取规则标签密度判定法收藏