爱python的王三金

python爬虫智能解析库详解

文章很长请耐心阅读

什么是爬虫

爬虫是做什么的？是帮助我们来快速获取有效信息的。然而做过爬虫的人都知道，解析是个麻烦事。比如一篇新闻吧，链接是这个:
https://news.ifeng.com/c/7kQcQG2peWU，页面预览图如下：

我们需要从页面中提取出标题、发布人、发布时间、发布内容、图片等内容。一般情况下我们需要怎么办？写规则。

那么规则都有什么呢？怼正则，怼 CSS 选择器，怼 XPath。我们需要对标题、发布时间、来源等内容做规则匹配，更有甚者再需要正则表达式来辅助一下。我们可能就需要用 re、BeautifulSoup、pyquery 等库来实现内容的提取和解析。

但如果我们有成千上万个不同样式的页面怎么办呢？它们来自成千上万个站点，难道我们还需要对他们一一写规则来匹配吗？这得要多大的工作量啊。另外这些万一弄不好还会解析有问题。比如正则表达式在某些情况下匹配不了了，CSS、XPath 选择器选错位了也会出现问题。

想必大家可能见过现在的浏览器有阅读模式，比如我们把这个页面用 Safari 浏览器打开，然后开启阅读模式，看看什么效果：

页面一下子变得非常清爽，只保留了标题和需要读的内容。原先页面多余的导航栏、侧栏、评论等等的统统都被去除了。它怎么做到的？难道是有人在里面写好规则了？那当然不可能的事。其实，这里面就用到了智能化解析了。那么本篇文章，我们就来了解一下页面的智能化解析的相关知识。

智能化解析

所谓爬虫的智能化解析，顾名思义就是不再需要我们针对某一些页面来专门写提取规则了，我们可以利用一些算法来计算出来页面特定元素的位置和提取路径。比如一个页面中的一篇文章，我们可以通过算法计算出来，它的标题应该是什么，正文应该是哪部分区域，发布时间是什么等等。

其实智能化解析是非常难的一项任务，比如说你给人看一个网页的一篇文章，人可以迅速找到这篇文章的标题是什么，发布时间是什么，正文是哪一块，或者哪一块是广告位，哪一块是导航栏。但给机器来识别的话，它面临的是什么？仅仅是一系列的 HTML 代码而已。那究竟机器是怎么做到智能化提取的呢？其实这里面融合了多方面的信息。

比如标题。一般它的字号是比较大的，而且长度不长，位置一般都在页面上方，而且大部分情况下它应该和 title 标签里的内容是一致的。

比如正文。它的内容一般是最多的，而且会包含多个段落 p 或者图片 img 标签，另外它的宽度一般可能会占用到页面的三分之二区域，并且密度（字数除以标签数量）会比较大。

比如时间。不同语言的页面可能不同，但时间的格式是有限的，如 2019-02-20 或者 2019/02/20 等等，也有的可能是美式的记法，顺序不同，这些也有特定的模式可以识别。

比如广告。它的标签一般可能会带有 ads 这样的字样，另外大多数可能会处于文章底部、页面侧栏，并可能包含一些特定的外链内容。

另外还有一些特点就不再一一赘述了，这其中包含了区块位置、区块大小、区块标签、区块内容、区块疏密度等等多种特征，另外很多情况下还需要借助于视觉的特征，所以说这里面其实结合了算法计算、视觉处理、自然语言处理等各个方面的内容。如果能把这些特征综合运用起来，再经过大量的数据训练，是可以得到一个非常不错的效果的。

目前来说，智能文本提取可以分为三类：

基于网页文档内容的提取方法
基于 DOM 结构信息的提取方法
基于视觉信息的提取方法

业界进展

未来的话，页面也会越来越多，页面的渲染方式也会发生很大的变化，爬虫也会越来越难做，智能化爬虫也将会变得越来越重要。

目前工业界，其实已经有落地的算法应用了。经过我的一番调研，目前发现有这么几种算法或者服务对页面的智能化解析做的比较好：

Diffbot，国外的一家专门来做智能化解析服务的公司，https://www.diffbot.com
Boilerpipe，Java 语言编写的一个页面解析算法，https://github.com/kohlschutter/boilerpipe
Embedly，提供页面解析服务的公司，https://embed.ly/extract
Readability，是一个页面解析算法，但现在官方的服务已经关闭了，https://www.readability.com/
Mercury，Readability 的替代品，https://mercury.postlight.com/
Goose，Java 语音编写的页面解析算法，https://github.com/GravityLabs/goose

那么这几种算法或者服务到底哪些好呢，Driffbot 官方曾做过一个对比评测，使用 Google 新闻的一些文章，使用不同的算法依次摘出其中的标题和文本，然后与真实标注的内容进行比较，比较的指标就是文字的准确率和召回率，以及根据二者计算出的 F1 分数。

其结果对比如下：

经过对比我们可以发现，Diffbot 的准确率和召回率都独占鳌头，其中的 F1 值达到了 0.97，可以说准确率非常高了。另外接下来比较厉害的就是 Boilerpipe 和 Readability，Goose 的表现则非常差，F1 跟其他的算法差了一大截。下面是几个算法的 F1 分数对比情况：

有人可能好奇为什么 Diffbot 这么厉害？我也查询了一番。Diffbot 自 2010 年以来就致力于提取 Web 页面数据，并提供许多 API 来自动解析各种页面。其中他们的算法依赖于自然语言技术、机器学习、计算机视觉、标记检查等多种算法，并且所有的页面都会考虑到当前页面的样式以及可视化布局，另外还会分析其中包含的图像内容、CSS 甚至 Ajax 请求。另外在计算一个区块的置信度时还考虑到了和其他区块的关联关系，基于周围的标记来计算每个区块的置信度。

总之，Diffbot 也是一直致力于这一方面的服务，整个 Diffbot 就是页面解析起家的，现在也一直专注于页面解析服务，准确率高也就不足为怪了。

但它们的算法开源了吗？很遗憾，并没有，而且我也没有找到相关的论文介绍它们自己的具体算法。

所以，如果想实现这么好的效果，那就使用它们家的服务就好了。

Diffbot 页面解析

首先我们需要注册一个账号，它有 15 天的免费试用，注册之后会获得一个 Developer Token，这就是使用 Diffbot 接口服务的凭证。

接下来切换到它的测试页面中，链接为：https://www.diffbot.com/dev/home/，我们来测试一下它的解析效果到底是怎样的。

这里我们选择的测试页面就是上文所述的页面，链接为：https://news.ifeng.com/c/7kQcQG2peWU，API 类型选择 Article API，然后点击 Test Drive 按钮，接下来它就会出现当前页面的解析结果：

这时候我们可以看到，它帮我们提取出来了标题、发布时间、发布机构、发布机构链接、正文内容等等各种结果。而且目前来看都十分正确，时间也自动识别之后做了转码，是一个标准的时间格式。

接下来我们继续下滑，查看还有什么其他的字段，这里我们还可以看到有 html 字段，它和 text 不同的是，它包含了文章内容的真实 HTML 代码，因此图片也会包含在里面，如图所示：

另外最后面还有 images 字段，他以列表形式返回了文章套图及每一张图的链接，另外还有文章的站点名称、页面所用语言等等结果，如图所示：

当然我们也可以选择 JSON 格式的返回结果，其内容会更加丰富，例如图片还返回了其宽度、高度、图片描述等等内容，另外还有各种其他的结果如面包屑导航等等结果，如图所示：

经过手工核对，发现其返回的结果都是完全正确的，准确率相当之高！

所以说，如果你对准确率要求没有那么非常非常严苛的情况下，使用 Diffbot 的服务可以帮助我们快速地提取页面中所需的结果，省去了我们绝大多数的手工劳动，可以说是非常赞了。

但是，我们也不能总在网页上这么试吧。其实 Diffbot 也提供了官方的 API 文档，让我们来一探究竟。

Diffbot API

Driffbot 提供了多种 API，如 Analyze API、Article API、Disscussion API 等。

下面我们以 Article API 为例来说明一下它的用法，其官方文档地址为：https://www.diffbot.com/dev/docs/article/，API 调用地址为：

https://api.diffbot.com/v3/article

我们可以用 GET 方式来进行请求，其中的 Token 和 URL 都可以以参数形式传递给这个 API，其必备的参数有：

token：即 Developer Token
url：即要解析的 URL 链接

另外它还有几个可选参数：

fields：用来指定返回哪些字段，默认已经有了一些固定字段，这个参数可以指定还可以额外返回哪些可选字段
paging：如果是多页文章的话，如果将这个参数设置为 false 则可以禁止多页内容拼接
maxTags：可以设置返回的 Tag 最大数量，默认是 10 个
tagConfidence：设置置信度的阈值，超过这个值的 Tag 才会被返回，默认是 0.5
discussion：如果将这个参数设置为 false，那么就不会解析评论内容
timeout：在解析的时候等待的最长时间，默认是 30 秒
callback：为 JSONP 类型的请求而设计的回调

这里大家可能关注的就是 fields 字段了，在这里我专门做了一下梳理，首先是一些固定字段：

type：文本的类型，这里就是 article 了
title：文章的标题
text：文章的纯文本内容，如果是分段内容，那么其中会以换行符来分隔
html：提取结果的 HTML 内容
date：文章的发布时间，其格式为 RFC 1123
estimatedDate：如果日期时间不太明确，会返回一个预估的时间，如果文章超过两天或者没有发布日期，那么这个字段就不会返回
author：作者
authorUrl：作者的链接
discussion：评论内容，和 Disscussion API 返回结果一样
humanLanguage：语言类型，如英文还是中文等
numPages：如果文章是多页的，这个参数会控制最大的翻页拼接数目
nextPages：如果文章是多页的，这个参数可以指定文章后续链接
siteName：站点名称
publisherRegion：文章发布地区
publisherCountry：文章发布国家
pageUrl：文章链接
resolvedPageUrl：如果文章是从 pageUrl 重定向过来的，则返回此内容
tags：文章的标签或者文章包含的实体，根据自然语言处理技术和 DBpedia 计算生成，是一个列表，里面又包含了子字段：
label：标签名
count：标签出现的次数
score：标签置信度
rdfTypes：如果实体可以由多个资源表示，那么则返回相关的 URL
type：类型
uri：Diffbot Knowledge Graph 中的实体链接
images：文章中包含的图片
videos：文章中包含的视频
breadcrumb：面包屑导航信息
diffbotUri：Diffbot 内部的 URL 链接

以上的预定字段就是如果可以返回那就会返回的字段，是不能定制化配置的，另外我们还可以通过 fields 参数来指定扩展如下可选字段：

quotes：引用信息
sentiment：文章的情感值，-1 到 1 之间
links：所有超链接的顶级链接
querystring：请求的参数列表

好，以上便是这个 API 的用法，大家可以申请之后使用这个 API 来做智能化解析了。

下面我们用一个实例来看一下这个 API 的用法，代码如下：

import requests, json

url = 'https://api.diffbot.com/v3/article'
params = {
    'token': '77b41f6fbb24495113d52836528fa',
    'url': 'https://news.ifeng.com/c/7kQcQG2peWU',
    'fields': 'meta' 
}
response = requests.get(url, params=params)
print(json.dumps(response.json(), indent=2, ensure_ascii=False))

这里首先定义了 API 的链接，然后指定了 params 参数，即 GET 请求参数。

参数中包含了必选的 token、url 字段，也设置了可选的 fields 字段，其中 fields 为可选的扩展字段 meta 标签。

我们来看下运行结果，结果如下：

{ "request": { "pageUrl": "https://news.ifeng.com/c/7kQcQG2peWU", "api": "article", "fields": "sentiment, meta", "version": 3 }, "objects": [ { "date": "Wed, 20 Feb 2019 02:26:00 GMT", "images": [ { "naturalHeight": 460, "width": 640, "diffbotUri": "image|3|-1139316034", "url": "http://e0.ifengimg.com/02/2019/0219/1731DC8A29EB2219C7F2773CF9CF319B3503D0A1_size382_w690_h460.png", "naturalWidth": 690, "primary": true, "height": 426 }, // ... ], "author": "中国新闻网", "estimatedDate": "Wed, 20 Feb 2019 06:47:52 GMT", "diffbotUri": "article|3|1591137208", "siteName": "ifeng.com", "type": "article", "title": "故宫，你低调点！故宫：不，实力已不允许我继续低调", "breadcrumb": [ { "link": "https://news.ifeng.com/", "name": "资讯" }, { "link": "https://news.ifeng.com/shanklist/3-35197-/", "name": "大陆" } ], "humanLanguage": "zh", "meta": { "og": { "og:time ": "2019-02-20 02:26:00", "og:image": "https://e0.ifengimg.com/02/2019/0219/1731DC8A29EB2219C7F2773CF9CF319B3503D0A1_size382_w690_h460.png", "og:category ": "凤凰资讯", "og: webtype": "news", "og:title": "故宫，你低调点！故宫：不，实力已不允许我继续低调", "og:url": "https://news.ifeng.com/c/7kQcQG2peWU", "og:description": "　　“我的名字叫紫禁城，快要600岁了，这上元的夜啊，总是让我沉醉，这么久了却从未停止。” 　　“重" }, "referrer": "always", "description": "　　“我的名字叫紫禁城，快要600岁了，这上元的夜啊，总是让我沉醉，这么久了却从未停止。” 　　“重", "keywords": "故宫紫禁城故宫博物院灯光元宵节博物馆一票难求元之中新社午门杜洋藏品文化皇帝清明上河图元宵千里江山图卷中英北京条约中法北京条约天津条约", "title": "故宫，你低调点！故宫：不，实力已不允许我继续低调_凤凰资讯" }, "authorUrl": "https://feng.ifeng.com/author/308904", "pageUrl": "https://news.ifeng.com/c/7kQcQG2peWU", "html": "

“我的名字叫紫禁城，快要600岁了，这上元的夜啊，总是让我沉醉，这么久了却从未停止。... ", "text": "“我的名字叫紫禁城，快要600岁了，这上元的夜啊，总是让我沉醉，这么久了却从未停止。”\n“...", "authors": [ { "name": "中国新闻网", "link": "https://feng.ifeng.com/author/308904" } ] } ] }

可见其返回了如上的内容，是一个完整的 JSON 格式，其中包含了标题、正文、发布时间等等各种内容。

可见，不需要我们配置任何提取规则，我们就可以完成页面的分析和抓取，得来全不费功夫。

下面我们来介绍两个比较基础的开源工具包 Readability 和 Newspaper 的用法，这两个包经我测试其实准确率并不是很好，主要是让大家大致对智能解析有初步的理解。后面还会介绍一些更加强大的智能化解析算法。

Readability

Readability 实际上是一个算法，并不是一个针对某个语言的库。其主要原理就是计算了 DOM 的文本密度，另外根据一些常见的 DOM 属性如 id、class 等计算了一些 DOM 的权重，最后分析得到了对应的 DOM 区块，进而提取出具体的文本内容。

现在搜索 Readability 其实已经找不到了，取而代之的是一个 JavaScript 工具包，叫做 mercury-parser，据我所知应该是 Readability 不维护了，换成了 mercury-parser。后者现在也做成了一个 Chrome 插件，大家可以下载使用一下。

回归正题，这次主要介绍的是 Python 的 Readability 实现，现在其实有很多开源版本，本文选取的是 https://github.com/buriy/python-readability，是基于最早的 Python 版本的 Readability 库 https://github.com/timbertson/python-readability 二次开发的，现在已经发布到了 PyPi，大家可以直接下载安装使用。

安装很简单，通过 pip 安装即可：

pip3 install readability-lxml

安装好了之后便可以通过导入 readability 使用了，下面我们随便从网上找一个新闻页面，比如：https://tech.163.com/19/0909/08/EOKA3CFB00097U7S.html，其页面截图如下：

我们的目的就是它的正文、标题等内容。下面我们用 Readability 试一下，示例如下：

import requests
from readability import Document

url = 'https://tech.163.com/19/0909/08/EOKA3CFB00097U7S.html'
html = requests.get(url).content
doc = Document(html)
print('title:', doc.title())
print('content:', doc.summary(html_partial=True))

在这里我们直接用 requests 库对网页进行了请求，获取了其 HTML 页面内容，赋值为 html。

然后引入了 readability 里的 Document 类，使用 html 变量对其进行初始化，然后我们分别调用了 title 方法和 summary 方法获得了其标题和正文内容。

这里 title 方法就是获取文章标题的，summary 就是获取文章正文的，但是它获取的正文可能包含一些 HTML 标签。这个 summary 方法可以接收一个 html_partial 参数，如果设置为 True，返回的结果则不会再带有标签。
看下运行结果：

title: 今年iPhone只有小改进？分析师：还有其他亮点_网易科技
content: <div><div class="post_text" id="endText">           
                    <p class="otitle">
                        （原标题：Apple Bets More Cameras Can Keep iPhone Humming）
                    </p>
                    <p class="f_center"><img alt="今年iPhone只有小改进？分析师：还有其他亮点" src="http://cms-bucket.ws.126.net/2019/09/09/d65ba32672934045a5bfadd27f704bc1.jpeg"/><span>图示：苹果首席执行官蒂姆·库克(Tim Cook)在6月份举行的苹果全球开发者大会上。</span></p><p>网易科技讯 9月9日消息，据国外媒体报道，和过去的12个年头一样，新款
... 中间省略 ...
                    <p>苹果还即将推出包括电视节目和视频游戏等内容的新订阅服务。分析师表示，该公司最早可能在本周宣布TV+和Arcade等服务的价格和上线时间。</p><p>Strategy Analytics的尼尔·莫斯顿(Neil Mawston)表示，可穿戴设备和服务的结合将是苹果业务超越iPhone的关键。他说，上一家手机巨头诺基亚公司在试图进行类似业务转型时就陷入了困境之中。（辰辰）</p><p><b>相关报道：</b></p><p><a href="https://tech.163.com/19/0908/09/EOHS53RK000999LD.html" target="_self" urlmacroreplace="false">iPhone 11背部苹果Logo改为居中：为反向无线充电</a></p><p><a href="https://tech.163.com/19/0907/08/EOF60CBC00097U7S.html" target="_self" urlmacroreplace="false">2019年新iPhone传言汇总，你觉得哪些能成真</a>  </p><p/>
                        <p/>
                        <div class="ep-source cDGray">
                            <span class="left"><a href="http://tech.163.com/"><img src="https://static.ws.126.net/cnews/css13/img/end_tech.png" alt="王凤枝" class="icon"/></a> 本文来源：网易科技报道  </span>
                            <span class="ep-editor">责任编辑：王凤枝_NT2541</span>
                        </div>
                </div> 
</div>

可以看到，标题提取是正确的。正文其实也是正确的，不过这里还包含了一些 HTML 标签，比如、

等，我们可以进一步通过一些解析库来解析。
看下源码吧，比如提取标题的方法：

def normalize_entities(cur_title):
    entities = {
        u'\u2014':'-',
        u'\u2013':'-',
        u'—': '-',
        u'–': '-',
        u'\u00A0': ' ',
        u'\u00AB': '"',
        u'\u00BB': '"',
        u'"': '"',
    }
    for c, r in entities.items():
        if c in cur_title:
            cur_title = cur_title.replace(c, r)

    return cur_title

def norm_title(title):
    return normalize_entities(normalize_spaces(title))

def get_title(doc):
    title = doc.find('.//title')
    if title is None or title.text is None or len(title.text) == 0:
        return '[no-title]'

    return norm_title(title.text)

 def title(self):
    """Returns document title"""
    return get_title(self._html(True))

title方法实际上就是调用了一个 get_title 方法，它怎么做的？实际上就是用了一个 XPath 只解析了</code>标签里面的内容，别的没了。如果没有，那就返回 <code>[no-title]</code>。 <pre><code class="prism language-py">def summary(self, html_partial=False): ruthless = True while True: self._html(True) for i in self.tags(self.html, 'script', 'style'): i.drop_tree() for i in self.tags(self.html, 'body'): i.set('id', 'readabilityBody') if ruthless: self.remove_unlikely_candidates() self.transform_misused_divs_into_paragraphs() candidates = self.score_paragraphs() best_candidate = self.select_best_candidate(candidates) if best_candidate: article = self.get_article(candidates, best_candidate, html_partial=html_partial) else: if ruthless: ruthless = False continue else: article = self.html.find('body') if article is None: article = self.html cleaned_article = self.sanitize(article, candidates) article_length = len(cleaned_article or '') retry_length = self.retry_length of_acceptable_length = article_length >= retry_length if ruthless and not of_acceptable_length: ruthless = False continue else: return cleaned_article </code></pre> 这里我删除了一些冗余的调试的代码，只保留了核心的代码，其核心实现就是先去除一些干扰内容，然后找出一些疑似正文的 candidates，然后再去寻找最佳匹配的 candidates 最后提取其内容返回即可。 然后再找到获取 candidates 方法里面的 score_paragraphs 方法，又追踪到一个 score_node 方法，就是为每一个节点打分的，其实现如下： <pre><code class="prism language-py">def score_node(self, elem): content_score = self.class_weight(elem) name = elem.tag.lower() if name in ["div", "article"]: content_score += 5 elif name in ["pre", "td", "blockquote"]: content_score += 3 elif name in ["address", "ol", "ul", "dl", "dd", "dt", "li", "form", "aside"]: content_score -= 3 elif name in ["h1", "h2", "h3", "h4", "h5", "h6", "th", "header", "footer", "nav"]: content_score -= 5 return { 'content_score': content_score, 'elem': elem } </code></pre> 这什么意思呢？你看如果这个节点标签是 div 或者 article 等可能表征正文区块的话，就加 5 分，如果是 aside 等表示侧栏的内容就减 3 分。这些打分也没有什么非常标准的依据，可能是根据经验累积的规则。 另外还有一些方法里面引用了一些正则匹配来进行打分或者替换，其定义如下： <pre><code class="prism language-py">REGEXES = { 'unlikelyCandidatesRe': re.compile('combx|comment|community|disqus|extra|foot|header|menu|remark|rss|shoutbox|sidebar|sponsor|ad-break|agegate|pagination|pager|popup|tweet|twitter', re.I), 'okMaybeItsACandidateRe': re.compile('and|article|body|column|main|shadow', re.I), 'positiveRe': re.compile('article|body|content|entry|hentry|main|page|pagination|post|text|blog|story', re.I), 'negativeRe': re.compile('combx|comment|com-|contact|foot|footer|footnote|masthead|media|meta|outbrain|promo|related|scroll|shoutbox|sidebar|sponsor|shopping|tags|tool|widget', re.I), 'divToPElementsRe': re.compile('<(a|blockquote|dl|div|img|ol|p|pre|table|ul)', re.I), #'replaceBrsRe': re.compile('(<br[^>]*>[ \n\r\t]*){2,}',re.I), #'replaceFontsRe': re.compile('<(\/?)font[^>]*>',re.I), #'trimRe': re.compile('^\s+|\s+$/'), #'normalizeRe': re.compile('\s{2,}/'), #'killBreaksRe': re.compile('(<br\s*\/?>(\s| ?)*){1,}/'), 'videoRe': re.compile('https?:\/\/(www\.)?(youtube|vimeo)\.com', re.I), #skipFootnoteLink: /^\s*(\[?[a-z0-9]{1,2}\]?|^|edit|citation needed)\s*$/i, } </code></pre> 比如这里定义了 unlikelyCandidatesRe，就是不像 candidates 的 pattern，比如 foot、comment 等等，碰到这样的标签或 pattern 的话，在计算分数的时候都会减分，另外还有其他的 positiveRe、negativeRe 也是一样的原理，分别对匹配到的内容进行加分或者减分。 这就是 Readability 的原理，是基于一些规则匹配的打分模型，很多规则其实来源于经验的累积，分数的计算规则应该也是不断地调优得出来的。 另外其他的就没了，Readability 并没有提供提取时间、作者的方法，另外此种方法的准确率也是有限的，但多少还是省去了一些人工成本。 <h5>Newspaper</h5> 另外还有一个智能解析的库，叫做 Newspaper，提供的功能更强一些，但是准确率上个人感觉和 Readability 差不太多。 这个库分为 Python2 和 Python3 两个版本，Python2 下的版本叫做 newspaper，Python3 下的版本叫做 newspaper3k，这里我们使用 Python3 版本来进行测试。 其 GitHub 地址是：https://github.com/codelucas/newspaper，官方文档地址是：https://newspaper.readthedocs.io。 在安装之前需要安装一些依赖库，可以参考官方的说明：https://github.com/codelucas/newspaper#get-it-now。 安装好必要的依赖库之后，就可以使用 pip 安装了： <pre><code class="prism language-py">pip3 install newspaper3k </code></pre> 安装成功之后便可以导入使用了。 下面我们先用官方提供的实例来过一遍它的用法，官方提供的示例是使用了这个链接：https://fox13now.com/2013/12/30/new-year-new-laws-obamacare-pot-guns-and-drones/，其页面截图如下： <a href="http://img.e-com-net.com/image/info8/f57543cd56694cf7b610d80c77210bb9.jpg" target="_blank"><img src="http://img.e-com-net.com/image/info8/f57543cd56694cf7b610d80c77210bb9.jpg" alt="python爬虫智能解析库详解_第8张图片" width="650" height="406" style="border:1px solid black;"></a> 下面用一个实例来感受一下： <pre><code class="prism language-py">from newspaper import Article url = 'https://fox13now.com/2013/12/30/new-year-new-laws-obamacare-pot-guns-and-drones/' article = Article(url) article.download() # print('html:', article.html) article.parse() print('authors:', article.authors) print('date:', article.publish_date) print('text:', article.text) print('top image:', article.top_image) print('movies:', article.movies) article.nlp() print('keywords:', article.keywords) print('summary:', article.summary) </code></pre> 这里从 newspaper 库里面先导入了 Article 这个类，然后直接传入 url 即可，首先需要调用它的 download 方法，将网页爬取下来，否则直接进行解析会抛出错误的。 好的，然后我们再执行 parse 方法进行网页的智能解析，这个功能就比较全了，能解析 authors、publish_date、text 等等，除了正文还能解析作者、发布时间等等。 另外这个库还提供了一些 NLP 的方法，比如获取关键词、获取文本摘要等等，在使用前需要先执行以下 nlp 方法。 最后运行结果如下： <pre><code class="prism language-py">authors: ['Cnn Wire'] date: 2013-12-30 00:00:00 text: By Leigh Ann Caldwell WASHINGTON (CNN) — Not everyone subscribes to a New Year’s resolution, but Americans will be required to follow new laws in 2014. Some 40,000 measures taking effect range from sweeping, national mandates under Obamacare to marijuana legalization in Colorado, drone prohibition in Illinois and transgender protections in California. Although many new laws are controversial, they made it through legislatures, public referendum or city councils and represent the shifting composition of American beliefs. ... ... Colorado: Marijuana becomes legal in the state for buyers over 21 at a licensed retail dispensary. (Sourcing: much of this list was obtained from the National Conference of State Legislatures). top image: https://localtvkstu.files.wordpress.com/2012/04/national-news-e1486938949489.jpg?quality=85&strip=all movies: [] keywords: ['drones', 'national', 'guns', 'wage', 'law', 'pot', 'leave', 'family', 'states', 'state', 'latest', 'obamacare', 'minimum', 'laws'] summary: Oregon: Family leave in Oregon has been expanded to allow eligible employees two weeks of paid leave to handle the death of a family member. Arkansas: The state becomes the latest state requiring voters show a picture ID at the voting booth. Minimum wage and former felon employmentWorkers in 13 states and four cities will see increases to the minimum wage. New Jersey residents voted to raise the state’s minimum wage by $1 to $8.25 per hour. California is also raising its minimum wage to $9 per hour, but workers must wait until July to see the addition. </code></pre> 这里省略了一些输出结果。 可以看到作者、日期、正文、关键词、标签、缩略图等信息都被打印出来了，还算是不错的。 但这个毕竟是官方的实例，肯定是好的，我们再测试一下刚才的例子，看看效果如何，网址还是：https://tech.163.com/19/0909/08/EOKA3CFB00097U7S.html，改写代码如下： <pre><code class="prism language-py">from newspaper import Article url = 'https://tech.163.com/19/0909/08/EOKA3CFB00097U7S.html' article = Article(url, language='zh') article.download() # print('html:', article.html) article.parse() print('authors:', article.authors) print('title:', article.title) print('date:', article.publish_date) print('text:', article.text) print('top image:', article.top_image) print('movies:', article.movies) article.nlp() print('keywords:', article.keywords) print('summary:', article.summary) </code></pre> 这里我们将链接换成了新闻的链接，另外在 Article 初始化的时候还加了一个参数 language，其值为 zh，代表中文。 然后我们看下运行结果： <pre><code class="prism language-py">Building prefix dict from /usr/local/lib/python3.7/site-packages/jieba/dict.txt ... Dumping model to file cache /var/folders/1g/l2xlw12x6rncs2p9kh5swpmw0000gn/T/jieba.cache Loading model cost 1.7178938388824463 seconds. Prefix dict has been built succesfully. authors: [] title: 今年iPhone只有小改进？分析师：还有其他亮点 date: 2019-09-09 08:10:26+08:00 text: （原标题：Apple Bets More Cameras Can Keep iPhone Humming）图示：苹果首席执行官蒂姆·库克(Tim Cook)在6月份举行的苹果全球开发者大会上。网易科技讯 9月9日消息，据国外媒体报道，和过去的12个年头一样，新款iPhone将成为苹果公司本周所举行年度宣传活动的主角。但人们的注意力正转向需要推动增长的其他苹果产品和服务。 ... ... Strategy Analytics的尼尔·莫斯顿(Neil Mawston)表示，可穿戴设备和服务的结合将是苹果业务超越iPhone的关键。他说，上一家手机巨头诺基亚公司在试图进行类似业务转型时就陷入了困境之中。（辰辰）相关报道： iPhone 11背部苹果Logo改为居中：为反向无线充电 2019年新iPhone传言汇总，你觉得哪些能成真 top image: https://www.163.com/favicon.ico movies: [] keywords: ['trust高级投资组合经理丹摩根dan', 'iphone', 'mawston表示可穿戴设备和服务的结合将是苹果业务超越iphone的关键他说上一家手机巨头诺基亚公司在试图进行类似业务转型时就陷入了困境之中辰辰相关报道iphone', 'xs的销售疲软状况迫使苹果在1月份下调了业绩预期这是逾15年来的第一次据贸易公司susquehanna', 'xs机型发布后那种令人失望的业绩重演iphone', '今年iphone只有小改进分析师还有其他亮点', 'more', 'xr和iphone', 'morgan说他们现在没有任何真正深入的进展只是想继续让iphone这款业务继续转下去他乐观地认为今年发布的新款手机将有足够多的新功能为一个非常成熟的产品增加额外的功能让火车继续前进这种仅限于此的态度说明了苹果自2007年发布首款iphone以来所面临的挑战iphone销售占苹果公司总营收的一半以上这让苹果陷入了一个尴尬的境地既要维持核心产品的销量另一方面又需要减少对它的依赖瑞银ubs今年5月份对8000名智能手机用户进行了相关调查其发布的年度全球调查报告显示最近iphone在人脸识别技术等方面的进步并没有引起一些消费者的共鸣他们基本上都认为苹果产品没有过去几年那么独特或者惊艳品牌也没有过去几年那么有吸引力很多人使用老款手机的时间更长自己认为也没有必要升级到平均售价949美元的新款iphone苹果需要在明年销售足够多的iphone以避免像去年9月份iphone', 'keep', '原标题apple'] summary: （原标题：Apple Bets More Cameras Can Keep iPhone Humming）图示：苹果首席执行官蒂姆·库克(Tim Cook)在6月份举行的苹果全球开发者大会上。网易科技讯 9月9日消息，据国外媒体报道，和过去的12个年头一样，新款iPhone将成为苹果公司本周所举行...亚公司在试图进行类似业务转型时就陷入了困境之中。（辰辰）相关报道：iPhone 11背部苹果Logo改为居中：为反向无线充电2019年新iPhone传言汇总，你觉得哪些能成真 </code></pre> 中间正文很长省略了一部分，可以看到运行时首先加载了一些中文的库包，比如 jieba 所依赖的词表等等。 解析结果中，日期的确是解析对了，因为这个日期格式的的确比较规整，但这里还自动给我们加了东八区的时区，贴心了。作者没有提取出来，可能是没匹配到来源两个字吧，或者词库里面没有，标题、正文的提取还算比较正确，也或许这个案例的确是比较简单。 以上便是 Readability 和 Newspaper 的介绍。 </div> </div> </div> </div> </div>  <div id="SOHUCS" sid="1743481349232148480"></div> <script type="text/javascript" src="/views/front/js/chanyan.js"></script>  <div class="youdao-fixed-ad" id="detail_ad_bottom"></div> </div> <div class="col-md-3"> <div class="row" id="ad">  <div id="right-1" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_1"> </div> </div>  <div id="right-2" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_2"></div> </div>  <div id="right-3" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_3"></div> </div> </div> </div> </div> </div> </div> <div class="container"> <h4 class="pt20 mb15 mt0 border-top">你可能感兴趣的:(爬虫（urllib）,python爬虫,智能解析,Readability,Newspaper,Diffbot)</h4> <div id="paradigm-article-related"> <div class="recommend-post mb30"> <ul class="widget-links"> <li><a href="/article/1904009883246718976.htm" title="整形在内存中的存储（例题逐个解析）" target="_blank">整形在内存中的存储（例题逐个解析）</a> 祁同伟. <a class="tag" taget="_blank" href="/search/%23/1.htm">#</a><a class="tag" taget="_blank" href="/search/C%E8%AF%AD%E8%A8%80/1.htm">C语言</a><a class="tag" taget="_blank" href="/search/c%E8%AF%AD%E8%A8%80/1.htm">c语言</a> <div>目录一.相关知识点1.截断：2.整形提升：3.如何截断，整型提升？（1）负数（2）正数（3）无符号整型，高位补0注意：提升后得到的是补码。要根据打印类型，判断是否有符号位；有效数字二.例题1.2.3.4.疑问：不应该算数转换为unsignedint吗？5.6.一.相关知识点1.截断：直接保留低位的二进制位2.整形提升：表达式中的字符(char)和短整形(short)操作数在使用之前被转换为普通整型</div> </li> <li><a href="/article/1904005597464948736.htm" title="Java设计模式之解释器模式" target="_blank">Java设计模式之解释器模式</a> 飞翔中文网 <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E8%AE%BE%E8%AE%A1%E6%A8%A1%E5%BC%8F/1.htm">设计模式</a> <div>概念解释器模式是一种行为型设计模式，用于定义一种语言的语法规则，并提供解释器来解释该语言中的表达式。作用其核心作用是将复杂的语法分解为简单的语法单元，通过递归组合的方式构建抽象语法树（AST），最终由解释器逐层解释执行。场景1.需要解释特定领域的语言：如数学公式、正则表达式、SQL查询等。2.语法相对简单且稳定：若语法频繁变化或过于复杂，建议使用解析器生成工具（如ANTLR）。3.需要灵活扩展语法</div> </li> <li><a href="/article/1903996020279275520.htm" title="OpenSSH详解：构建安全远程管理的核心技术" target="_blank">OpenSSH详解：构建安全远程管理的核心技术</a> ScilogyHunter <a class="tag" taget="_blank" href="/search/%E5%B8%B8%E8%A7%81%E8%BD%AF%E4%BB%B6%E5%BA%93/1.htm">常见软件库</a><a class="tag" taget="_blank" href="/search/%E5%AE%89%E5%85%A8/1.htm">安全</a><a class="tag" taget="_blank" href="/search/OpenSSH/1.htm">OpenSSH</a> <div>OpenSSH详解：构建安全远程管理的核心技术引言在数字化时代，远程管理服务器和数据传输的安全性至关重要。OpenSSH（OpenSecureShell）作为SSH协议的开源实现，通过加密通信、身份验证和数据完整性保护，彻底解决了传统工具（如Telnet、FTP）的明文传输风险。本文将从核心原理、配置实践到高级功能，全面解析OpenSSH的技术细节与应用场景。一、OpenSSH的核心架构与工作原理</div> </li> <li><a href="/article/1903994252443054080.htm" title="利用AI与MySQL提升工业物联网健康监测的智慧水平——构建预测性维护的新纪元" target="_blank">利用AI与MySQL提升工业物联网健康监测的智慧水平——构建预测性维护的新纪元</a> 墨夶 <a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%BA%93%E5%AD%A6%E4%B9%A0%E8%B5%84%E6%96%991/1.htm">数据库学习资料1</a><a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a><a class="tag" taget="_blank" href="/search/mysql/1.htm">mysql</a><a class="tag" taget="_blank" href="/search/%E7%89%A9%E8%81%94%E7%BD%91/1.htm">物联网</a> <div>在工业4.0和智能制造的大背景下，如何确保生产设备的高效稳定运行成为企业竞争力的核心要素之一。传统的事后维修方式已经难以满足现代制造业的需求，而基于人工智能（AI）的预测性维护系统则为这一挑战提供了全新的解决方案。今天，我们将深入探讨如何结合AI技术和MySQL数据库，打造一个智能、高效的工业物联网（IIoT）健康监测平台，助力企业在激烈的市场竞争中脱颖而出。一、为什么选择AI+MySQL？1.A</div> </li> <li><a href="/article/1903994126077063168.htm" title="MySQL中基于机器学习的自适应缓存热点识别优化策略——开启数据库性能新纪元" target="_blank">MySQL中基于机器学习的自适应缓存热点识别优化策略——开启数据库性能新纪元</a> 墨夶 <a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%BA%93%E5%AD%A6%E4%B9%A0%E8%B5%84%E6%96%991/1.htm">数据库学习资料1</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%BA%93/1.htm">数据库</a><a class="tag" taget="_blank" href="/search/mysql/1.htm">mysql</a><a class="tag" taget="_blank" href="/search/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/1.htm">机器学习</a> <div>在数据驱动的世界里，数据库的性能直接影响到整个应用系统的响应速度和用户体验。随着业务量的增长和技术的发展，传统的缓存机制逐渐暴露出局限性。如何更智能地识别并利用热点数据进行缓存优化，成为提升数据库性能的关键所在。今天，我们将深入探讨一种创新的方法——基于机器学习的自适应缓存热点识别优化策略，并分享其在MySQL中的具体实现方案。为什么选择机器学习？‍传统上，开发者们依赖于手动配置或预设规则来决定哪</div> </li> <li><a href="/article/1903994123828916224.htm" title="数据安全新纪元——多方安全计算与MySQL结合的隐私预算管理深度解析" target="_blank">数据安全新纪元——多方安全计算与MySQL结合的隐私预算管理深度解析</a> 墨夶 <a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%BA%93%E5%AD%A6%E4%B9%A0%E8%B5%84%E6%96%991/1.htm">数据库学习资料1</a><a class="tag" taget="_blank" href="/search/%E5%AE%89%E5%85%A8/1.htm">安全</a><a class="tag" taget="_blank" href="/search/mysql/1.htm">mysql</a><a class="tag" taget="_blank" href="/search/android/1.htm">android</a> <div>在当今数字化时代，数据已成为企业最宝贵的资产之一。然而，随着数据泄露事件频发，如何确保数据的安全性和隐私性成为了亟待解决的问题。传统的加密技术虽然能在一定程度上保护静态数据，但在动态数据分析过程中却显得力不从心。为了解决这一难题，隐私计算作为一种新兴的技术应运而生，它允许在不解密原始数据的前提下进行有效的计算和分析。本文将深入探讨如何利用多方安全计算（MPC）与关系型数据库MySQL相结合的方式实</div> </li> <li><a href="/article/1903985543813853184.htm" title="Deepseek 个性化决策输出" target="_blank">Deepseek 个性化决策输出</a> meisongqing <a class="tag" taget="_blank" href="/search/DeepSeek/1.htm">DeepSeek</a><a class="tag" taget="_blank" href="/search/%E4%B8%AA%E6%80%A7%E5%8C%96/1.htm">个性化</a> <div>Deepseek个性化决策输出：基于用户画像的定制化内容生成在教育场景中，通过构建动态用户画像与智能决策模型，教育数字人可基于学生水平实时调整讲解深度，实现精准化、个性化的学习支持。以下是核心实现框架与关键步骤：1.用户画像构建：多维度数据融合数据采集：显性数据：年龄、学科成绩、测试结果、学习时长、知识点掌握进度。隐性数据：交互行为（如答题犹豫时间、回放次数）、情绪识别（语音/表情分析）、认知负荷</div> </li> <li><a href="/article/1903983524050956288.htm" title="第十二届蓝桥杯C++青少年组中/高级组省赛2021年真题解析" target="_blank">第十二届蓝桥杯C++青少年组中/高级组省赛2021年真题解析</a> 码农StayUp <a class="tag" taget="_blank" href="/search/C%2B%2B%E8%93%9D%E6%A1%A5%E6%9D%AF%E9%9D%92%E5%B0%91%E5%B9%B4%E7%BB%84%E7%9C%9F%E9%A2%98%E8%A7%A3%E6%9E%90/1.htm">C++蓝桥杯青少年组真题解析</a><a class="tag" taget="_blank" href="/search/%E8%93%9D%E6%A1%A5%E6%9D%AF/1.htm">蓝桥杯</a><a class="tag" taget="_blank" href="/search/c%2B%2B/1.htm">c++</a><a class="tag" taget="_blank" href="/search/%E7%AE%97%E6%B3%95/1.htm">算法</a> <div>一、单选题第1题下列符号中哪个在C++中表示行注释（）。A:!B:#C:]D://答案：D在C++中，行注释的表示方式是使用双斜杠//。行注释是指从双斜杠开始直到该行的末尾，所有内容都会被编译器忽略，不会被编译和执行。第2题每个C++程序都必须有且仅有一个（）A:函数B:预处理命令C:主函数D:语句答案：C每个C++程序都必须有且仅有一个主函数。第3题下列字特串中不可以用作C++变量名称的是（）A</div> </li> <li><a href="/article/1903980622125264896.htm" title="密码学，算法在人工智能的实战利用" target="_blank">密码学，算法在人工智能的实战利用</a> china—hbaby <a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a><a class="tag" taget="_blank" href="/search/%E5%AF%86%E7%A0%81%E5%AD%A6/1.htm">密码学</a> <div>在人工智能（AI）的快速发展中，数据安全和隐私保护成为了核心议题。密码学，作为保护信息安全的基石，其在AI领域的应用显得尤为重要。本文将探讨密码学在AI中的利用，并提供一些代码示例来展示其实际应用。密码学的概述即常用加密方式密码学（Cryptography）是数学和计算机科学的一个分支，它涉及保护信息的安全性和隐私性。密码学的主要目标是确保信息在传输过程中不被未授权的第三方读取或篡改，以及确保信息</div> </li> <li><a href="/article/1903978725817511936.htm" title="深入探讨Spring MVC：原理、架构与实践" target="_blank">深入探讨Spring MVC：原理、架构与实践</a> luckilyil <a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E6%A1%86%E6%9E%B6/1.htm">开发框架</a><a class="tag" taget="_blank" href="/search/spring/1.htm">spring</a><a class="tag" taget="_blank" href="/search/mvc/1.htm">mvc</a><a class="tag" taget="_blank" href="/search/%E6%9E%B6%E6%9E%84/1.htm">架构</a> <div>SpringMVC原理与架构解析1.SpringMVC概述SpringMVC是Spring框架中的一个模块，专注于实现Web应用的MVC设计模式。它通过将应用逻辑分为模型（Model）、视图（View）和控制器（Controller），使得开发人员能够清晰地组织代码，提高开发效率和可维护性。2.SpringMVC的核心组件SpringMVC的核心组件包括：DispatcherServlet：作为前</div> </li> <li><a href="/article/1903975954376617984.htm" title="【人工智能时代】-人工智能发展史：1900~2023" target="_blank">【人工智能时代】-人工智能发展史：1900~2023</a> xiaoli8748_软件开发 <a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD%E6%97%B6%E4%BB%A3/1.htm">人工智能时代</a><a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a><a class="tag" taget="_blank" href="/search/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E/1.htm">搜索引擎</a> <div>第一阶段：人工智能发展历史：1900-19591909年西班牙工程师LeonardoTorresyQuevedo发明了“Occultus”，这是一个可以自动执行国际象棋对弈的机器，预示了未来的计算智能。</div> </li> <li><a href="/article/1903974438806810624.htm" title="每日面试题-假设有一个 1G 大的 HashMap，此时用户请求过来刚好触发它的扩容，会怎样？让你改造下 HashMap 的实现该怎样优化？" target="_blank">每日面试题-假设有一个 1G 大的 HashMap，此时用户请求过来刚好触发它的扩容，会怎样？让你改造下 HashMap 的实现该怎样优化？</a> 晚夜微雨问海棠呀 <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>一、原理解析：HashMap扩容机制的核心问题当HashMap的size>capacity*loadFactor时触发扩容（默认负载因子0.75）。扩容流程如下：创建新数组：容量翻倍（newCap=oldCap{privateNode[]oldTable;privateNode[]newTable;privatevolatileintmigrationIndex=0;//迁移进度指针publicv</div> </li> <li><a href="/article/1903973554588807168.htm" title="Kubernetes 资源管理实战：合理配置 CPU 与内存请求和限制" target="_blank">Kubernetes 资源管理实战：合理配置 CPU 与内存请求和限制</a> XMYX-0 <a class="tag" taget="_blank" href="/search/K8S/1.htm">K8S</a><a class="tag" taget="_blank" href="/search/kubernetes/1.htm">kubernetes</a><a class="tag" taget="_blank" href="/search/%E5%AE%B9%E5%99%A8/1.htm">容器</a> <div>文章目录Kubernetes资源管理实战：合理配置CPU与内存请求和限制理解Kubernetes中的资源请求与限制资源请求（Requests）资源限制（Limits）单位解析案例分析：20GB服务器与两个服务的内存配置是否有必要设置如此高的内存限制？如何合理配置？补充知识点：监控与自动扩缩容监控工具自动扩缩容（Autoscaling）总结Kubernetes资源管理实战：合理配置CPU与内存请求和</div> </li> <li><a href="/article/1903968382324109312.htm" title="Cursor44.11 无限续杯攻略：持续畅享 AI 编程利器" target="_blank">Cursor44.11 无限续杯攻略：持续畅享 AI 编程利器</a> 不会算法的小灰 <a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a><a class="tag" taget="_blank" href="/search/%E7%BC%96%E8%BE%91%E5%99%A8/1.htm">编辑器</a><a class="tag" taget="_blank" href="/search/vscode/1.htm">vscode</a><a class="tag" taget="_blank" href="/search/AI%E7%BC%96%E7%A8%8B/1.htm">AI编程</a><a class="tag" taget="_blank" href="/search/%E7%BB%8F%E9%AA%8C%E5%88%86%E4%BA%AB/1.htm">经验分享</a> <div>一、引言在当今数字化快速发展的时代，高效的编程工具对于开发者来说如同珍宝。Cursor作为一款基于VSCode二次开发的强大AI编程编辑器，凭借其内置的多种AI大模型，如GPT-4、GPT-4o、Claude-3.5以及近期热门的DeepSeek满血版R1，为开发者提供了前所未有的编程体验。它能够快速生成代码、精准修复错误、智能优化逻辑等，极大地提升了编程效率。然而，新用户注册Cursor虽可获得</div> </li> <li><a href="/article/1903965353155817472.htm" title="SpringCloud框架下的注册中心比较：Eureka与Consul的实战解析" target="_blank">SpringCloud框架下的注册中心比较：Eureka与Consul的实战解析</a> 耶耶Norsea <a class="tag" taget="_blank" href="/search/%E7%BD%91%E7%BB%9C%E6%9D%82%E7%83%A9/1.htm">网络杂烩</a><a class="tag" taget="_blank" href="/search/spring/1.htm">spring</a><a class="tag" taget="_blank" href="/search/cloud/1.htm">cloud</a> <div>摘要在探讨SpringCloud框架中的两种注册中心之前，有必要回顾单体架构与分布式架构的特点。单体架构将所有业务功能集成在一个项目中，优点是架构简单、部署成本低，但耦合度高。分布式架构则根据业务功能对系统进行拆分，每个模块作为独立服务开发，降低了服务间的耦合，便于升级和扩展，然而其复杂性增加，运维、监控和部署难度也随之提高。关键词SpringCloud,注册中心,单体架构,分布式架构,服务拆分一</div> </li> <li><a href="/article/1903963713992454144.htm" title="C++学习系列（11）：智能指针（unique_ptr、shared_ptr、weak_ptr）" target="_blank">C++学习系列（11）：智能指针（unique_ptr、shared_ptr、weak_ptr）</a> DoYangTan <a class="tag" taget="_blank" href="/search/C%2B%2B%E5%AD%A6%E4%B9%A0%E7%B3%BB%E5%88%97/1.htm">C++学习系列</a><a class="tag" taget="_blank" href="/search/c%2B%2B/1.htm">c++</a><a class="tag" taget="_blank" href="/search/%E5%AD%A6%E4%B9%A0/1.htm">学习</a><a class="tag" taget="_blank" href="/search/java/1.htm">java</a> <div>C++学习系列（11）：智能指针（unique_ptr、shared_ptr、weak_ptr）1.引言在C++传统的内存管理方式中，动态分配的对象需要手动释放，否则可能会导致内存泄漏（MemoryLeak）。为了解决这个问题，C++11引入了智能指针（SmartPointer），它能自动管理资源，避免内存泄漏。本篇博客将介绍：智能指针的概念三种智能指针：unique_ptr、shared_ptr</div> </li> <li><a href="/article/1903963715091361792.htm" title="语音识别学习系列（13）：语音识别中的情感识别与表达" target="_blank">语音识别学习系列（13）：语音识别中的情感识别与表达</a> DoYangTan <a class="tag" taget="_blank" href="/search/%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%AB/1.htm">语音识别</a><a class="tag" taget="_blank" href="/search/%E5%AD%A6%E4%B9%A0/1.htm">学习</a><a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a> <div>语音识别学习系列（13）：语音识别中的情感识别与表达前言在语音识别领域，仅仅将语音准确转换为文字内容已不能满足日益多样化的人机交互需求。人们在交流过程中往往蕴含着丰富的情感信息，语音识别若能对情感进行识别与表达，将会使交互变得更加自然、智能且贴合人性化需求。本期我们就围绕语音识别中的情感识别与表达这一重要主题展开深入探讨，了解其背后的原理、方法以及实际应用价值。一、语音情感识别的基本原理与常用方法</div> </li> <li><a href="/article/1903962195914452992.htm" title="【操作系统】双缓冲机制(含原理、优势、实现方式、应用场景)" target="_blank">【操作系统】双缓冲机制(含原理、优势、实现方式、应用场景)</a> 司六米希 <a class="tag" taget="_blank" href="/search/%E5%B5%8C%E5%85%A5%E5%BC%8F/1.htm">嵌入式</a> <div>双缓冲机制一、双缓冲机制的原理二、双缓冲的典型应用场景三、双缓冲的优势四、双缓冲的实现方式1.硬件级双缓冲2.软件级双缓冲3.性能提升对比五、双缓冲的挑战与解决方案六、总结双缓冲机制是一种通过使用两个缓冲区（BufferA和BufferB）来优化数据传输或处理效率的技术，其核心原理是并行处理与交替切换。以下是详细解析：一、双缓冲机制的原理基本概念：双缓冲区：系统维护两个相同大小的内存区域。分工协作</div> </li> <li><a href="/article/1903958417559580672.htm" title="万字深度解析：DeepSeek-V3为何成为大模型时代的“速度之王“？" target="_blank">万字深度解析：DeepSeek-V3为何成为大模型时代的“速度之王“？</a> 羊不白丶 <a class="tag" taget="_blank" href="/search/%E5%A4%A7%E6%A8%A1%E5%9E%8B/1.htm">大模型</a><a class="tag" taget="_blank" href="/search/%E7%AE%97%E6%B3%95/1.htm">算法</a> <div>引言在AI军备竞赛白热化的2024年，DeepSeek-V3以惊人的推理速度震撼业界：相比前代模型推理速度提升3倍，训练成本降低70%。这背后是十余项革命性技术的叠加创新，本文将为您揭开这艘"AI超跑"的性能密码。DeepSeek-V3的技术路径证明：计算效率的本质是知识组织的效率。其MoE架构中2048个专家的动态协作，恰似人脑神经网络的模块化运作——每个专家不再是被动执行计算的"劳工"，而是具</div> </li> <li><a href="/article/1903954008637239296.htm" title="Spring Boot拦截器（Interceptor）与过滤器（Filter）深度解析：区别、实现与实战指南" target="_blank">Spring Boot拦截器（Interceptor）与过滤器（Filter）深度解析：区别、实现与实战指南</a> QQ828929QQ <a class="tag" taget="_blank" href="/search/spring/1.htm">spring</a><a class="tag" taget="_blank" href="/search/boot/1.htm">boot</a><a class="tag" taget="_blank" href="/search/%E5%90%8E%E7%AB%AF/1.htm">后端</a><a class="tag" taget="_blank" href="/search/java/1.htm">java</a> <div>SpringBoot拦截器（Interceptor）与过滤器（Filter）深度解析：区别、实现与实战指南一、核心概念对比1.本质区别维度过滤器（Filter）拦截器（Interceptor）规范层级Servlet规范（J2EE标准）SpringMVC框架机制作用范围所有请求（包括静态资源）只处理Controller请求依赖关系不依赖Spring容器完全集成SpringIOC容器执行顺序最先执行（</div> </li> <li><a href="/article/1903952496859082752.htm" title="HTML5！进击2025web蓝桥杯复习之路" target="_blank">HTML5！进击2025web蓝桥杯复习之路</a> Deepsleep. <a class="tag" taget="_blank" href="/search/html5/1.htm">html5</a><a class="tag" taget="_blank" href="/search/%E5%89%8D%E7%AB%AF/1.htm">前端</a><a class="tag" taget="_blank" href="/search/html/1.htm">html</a> <div>#HTML5全面解析##目录1.[HTML5简介](#1-html5-简介)2.[基本标签](#2-基本标签)3.[新特性](#3-新特性)4.[本地存储](#4-本地存储)5.[总结](#5-总结)---##1.HTML5简介HTML5是HTML的第五个主要版本，2014年由W3C正式发布。主要特性包括：-语义化标签-多媒体支持-图形绘制（Canvas/SVG）-本地存储能力-WebWorker</div> </li> <li><a href="/article/1903952240947818496.htm" title="Seata分布式事务框架及四种模式原理解析" target="_blank">Seata分布式事务框架及四种模式原理解析</a> Cloud_. <a class="tag" taget="_blank" href="/search/%E5%88%86%E5%B8%83%E5%BC%8F/1.htm">分布式</a><a class="tag" taget="_blank" href="/search/seata/1.htm">seata</a><a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/Seata-AX/1.htm">Seata-AX</a><a class="tag" taget="_blank" href="/search/Seata-AT/1.htm">Seata-AT</a> <div>一、Seata核心概念Seata（SimpleExtensibleAutonomousTransactionArchitecture）是阿里开源的分布式事务解决方案，核心思想是通过事务协调器（TC）统一管理全局事务分支的状态，协调资源管理器（RM）和事务管理器（TM）完成事务的提交与回滚。核心组件：TC(TransactionCoordinator)：全局事务协调者，维护全局事务状态，驱动分支事务</div> </li> <li><a href="/article/1903952242701037568.htm" title="PV操作(Java代码)进程同步实战指南" target="_blank">PV操作(Java代码)进程同步实战指南</a> Cloud_. <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/%E6%93%8D%E4%BD%9C%E7%B3%BB%E7%BB%9F/1.htm">操作系统</a><a class="tag" taget="_blank" href="/search/%E5%B9%B6%E5%8F%91/1.htm">并发</a> <div>引言在Java并发编程中，资源同步如同精密仪器的齿轮咬合，任何偏差都可能导致系统崩溃。本文将以Java视角解析经典PV操作原理，通过真实可运行的代码示例，带你掌握线程同步的底层实现逻辑。一、Java信号量实现机制1.1Semaphore类解析importjava.util.concurrent.Semaphore;//创建包含5个许可的信号量（相当于计数信号量）Semaphoresemaphore</div> </li> <li><a href="/article/1903952243644755968.htm" title="Spring Boot 整合 RabbitMQ：注解声明队列与交换机详解" target="_blank">Spring Boot 整合 RabbitMQ：注解声明队列与交换机详解</a> Cloud_. <a class="tag" taget="_blank" href="/search/java-rabbitmq/1.htm">java-rabbitmq</a><a class="tag" taget="_blank" href="/search/spring/1.htm">spring</a><a class="tag" taget="_blank" href="/search/boot/1.htm">boot</a><a class="tag" taget="_blank" href="/search/rabbitmq/1.htm">rabbitmq</a><a class="tag" taget="_blank" href="/search/MQ/1.htm">MQ</a><a class="tag" taget="_blank" href="/search/%E6%B6%88%E6%81%AF%E9%98%9F%E5%88%97/1.htm">消息队列</a> <div>RabbitMQ作为一款高性能的消息中间件，在分布式系统中广泛应用。SpringBoot通过spring-boot-starter-amqp提供了对RabbitMQ的无缝集成，开发者可以借助注解快速声明队列、交换机及绑定规则，极大简化了配置流程。本文将通过代码示例和原理分析，详细介绍如何用注解实现RabbitMQ的集成，并深入解析交换机的作用与类型。一、环境准备1.添加依赖在pom.xml中引入S</div> </li> <li><a href="/article/1903947827088781312.htm" title="AI人工智能软件开发方案：开启智能时代的创新钥匙" target="_blank">AI人工智能软件开发方案：开启智能时代的创新钥匙</a> 广州硅基技术官方 <a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a> <div>一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作</div> </li> <li><a href="/article/1903943025436979200.htm" title="基于STM32单片机的智能清扫小车清扫机器人" target="_blank">基于STM32单片机的智能清扫小车清扫机器人</a> CC呢 <a class="tag" taget="_blank" href="/search/%E5%8D%95%E7%89%87%E6%9C%BA/1.htm">单片机</a><a class="tag" taget="_blank" href="/search/stm32/1.htm">stm32</a><a class="tag" taget="_blank" href="/search/%E6%9C%BA%E5%99%A8%E4%BA%BA/1.htm">机器人</a> <div>功能描述STM32单片机+循迹+避障+蓝牙控制+温度采集+声光报警+按键调节+OLED显示+风扇吸尘1.STM32单片机为控制核心2.通过ds18b20传感器测量环境温度3.OLED显示屏显示模式及测量的信息；4.通过红外循迹传感器可以实现小车沿黑线进行循迹清扫5.通过两路红外光电传感器进行避障，可以实现全屋随意清扫6.蓝牙通信，可以通过手机公共APP（蓝牙串口调试助手）实现控制小车的前进方向，遥</div> </li> <li><a href="/article/1903940375047892992.htm" title="利用ffmpeg库实现音频AAC编解码" target="_blank">利用ffmpeg库实现音频AAC编解码</a> byxdaz <a class="tag" taget="_blank" href="/search/%E9%9F%B3%E8%A7%86%E9%A2%91/1.htm">音视频</a><a class="tag" taget="_blank" href="/search/ffmpeg/1.htm">ffmpeg</a><a class="tag" taget="_blank" href="/search/%E9%9F%B3%E8%A7%86%E9%A2%91/1.htm">音视频</a><a class="tag" taget="_blank" href="/search/aac/1.htm">aac</a> <div>AAC‌（AdvancedAudioCoding）是一种音频编码技术，出现于1997年，基于MPEG-2的音频编码技术。AAC具有高效的数据压缩能力和较高的音质，适用于各种音频应用场景。例如，在智能设备中，AAC技术被广泛应用于提升用户体验，提供高质量的音频体验。一、FFmpeg支持的AAC编码器对比编码器特性适用场景‌aac‌FFmpeg原生实现，2015年后稳定支持‌，支持LC-AAC规格，兼</div> </li> <li><a href="/article/1903935331112120320.htm" title="使用Yeager.ai轻松构建LangChain工具和代理" target="_blank">使用Yeager.ai轻松构建LangChain工具和代理</a> qahaj <a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a><a class="tag" taget="_blank" href="/search/langchain/1.htm">langchain</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a> <div>技术背景介绍在现代AI开发框架中，如何快速构建、测试和部署AI解决方案是一个重要的课题。Yeager.ai为此提供了一个完整的生态系统，旨在简化AI智能体和工具的创建过程。它的核心组件yAgents是一个无代码的LangChain代理构建器，能够让用户轻松地集成各种语言模型和资源，非常适合开发者、研究人员和AI爱好者在不同应用场景中使用。核心原理解析Yeager.ai利用LangChain框架，通</div> </li> <li><a href="/article/1903933313140191232.htm" title="【STM32】智能避障红外小车" target="_blank">【STM32】智能避障红外小车</a> Alioooooooon <a class="tag" taget="_blank" href="/search/%E5%B5%8C%E5%85%A5%E5%BC%8F/1.htm">嵌入式</a><a class="tag" taget="_blank" href="/search/stm32/1.htm">stm32</a><a class="tag" taget="_blank" href="/search/%E5%8D%95%E7%89%87%E6%9C%BA/1.htm">单片机</a><a class="tag" taget="_blank" href="/search/%E5%B5%8C%E5%85%A5%E5%BC%8F%E7%A1%AC%E4%BB%B6/1.htm">嵌入式硬件</a> <div>文章目录直流电机`motor.c/motor.h`红外对管红外循迹利用脉冲宽度调制技术（PWM）控制电机转速避障`red.c/red.h`编译环境：keil5SourceInsightSTM32F103X原理图：直流电机直流电机的原理：通电就会转，反向通电就会反转两极的电势差决定转速电机驱动模块以及接线参考图示代码实现：motor.c/motor.h#ifndef__MOTOR_H__#defin</div> </li> <li><a href="/article/1903932933023002624.htm" title="SAP-ABAP：SAP生产业务（PP模块）全流程深度解析" target="_blank">SAP-ABAP：SAP生产业务（PP模块）全流程深度解析</a> 爱喝水的鱼丶 <a class="tag" taget="_blank" href="/search/VIP%E8%AF%A6%E6%83%85%E6%9F%A5%E7%9C%8B%E4%B8%93%E6%A0%8F/1.htm">VIP详情查看专栏</a><a class="tag" taget="_blank" href="/search/SAP/1.htm">SAP</a><a class="tag" taget="_blank" href="/search/ABAP/1.htm">ABAP</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%BF%90%E7%BB%B4/1.htm">开发运维</a><a class="tag" taget="_blank" href="/search/%E8%BF%90%E7%BB%B4/1.htm">运维</a><a class="tag" taget="_blank" href="/search/%E7%B3%BB%E7%BB%9F%E6%9E%B6%E6%9E%84/1.htm">系统架构</a> <div>SAP生产业务（PP模块）全流程深度解析一、生产主数据架构体系1.主数据矩阵物料主数据工艺路线工作中心生产版本MRP运行2.核心主数据表数据对象表结构关键字段事务码物料主数据MARAMATNR,MTART,DISMMMM01工艺路线PLKO/PLPOPLNNR(路由号),VORNR(工序)CA01工作中心CRHD/CRTXARBPL(工作中心),KAPAR(能力)CR01BOMMAST/STPOS</div> </li> <li><a href="/article/81.htm" title="java短路运算符和逻辑运算符的区别" target="_blank">java短路运算符和逻辑运算符的区别</a> 3213213333332132 <a class="tag" taget="_blank" href="/search/java%E5%9F%BA%E7%A1%80/1.htm">java基础</a> <div> /* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是</div> </li> <li><a href="/article/208.htm" title="Java异常那些不得不说的事" target="_blank">Java异常那些不得不说的事</a> 白糖_ <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/exception/1.htm">exception</a> <div>一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close(); </div> </li> <li><a href="/article/335.htm" title="utf-8与utf-8(无BOM)的区别" target="_blank">utf-8与utf-8(无BOM)的区别</a> dcj3sjt126com <a class="tag" taget="_blank" href="/search/PHP/1.htm">PHP</a> <div>BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如</div> </li> <li><a href="/article/462.htm" title="JAVA Annotation之定义篇" target="_blank">JAVA Annotation之定义篇</a> 周凡杨 <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E6%B3%A8%E8%A7%A3/1.htm">注解</a><a class="tag" taget="_blank" href="/search/annotation/1.htm">annotation</a><a class="tag" taget="_blank" href="/search/%E5%85%A5%E9%97%A8/1.htm">入门</a><a class="tag" taget="_blank" href="/search/%E6%B3%A8%E9%87%8A/1.htm">注释</a> <div> Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa</div> </li> <li><a href="/article/589.htm" title="tomcat的多域名、虚拟主机配置" target="_blank">tomcat的多域名、虚拟主机配置</a> g21121 <a class="tag" taget="_blank" href="/search/tomcat/1.htm">tomcat</a> <div>众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"</div> </li> <li><a href="/article/716.htm" title="Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ）" target="_blank">Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ）</a> 510888780 <a class="tag" taget="_blank" href="/search/linux/1.htm">linux</a><a class="tag" taget="_blank" href="/search/capistrano/1.htm">capistrano</a> <div> 1.ssh -v hdfs@192.168.18.133 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio</div> </li> <li><a href="/article/843.htm" title="log4j的用法" target="_blank">log4j的用法</a> Harry642 <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/log4j/1.htm">log4j</a> <div>一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中</div> </li> <li><a href="/article/970.htm" title="mysql、sqlserver、oracle分页，java分页统一接口实现" target="_blank">mysql、sqlserver、oracle分页，java分页统一接口实现</a> aijuans <a class="tag" taget="_blank" href="/search/oracle/1.htm">oracle</a><a class="tag" taget="_blank" href="/search/jave/1.htm">jave</a> <div> 定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页： </div> </li> <li><a href="/article/1097.htm" title="Hessian 简单例子" target="_blank">Hessian 简单例子</a> antlove <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/Web/1.htm">Web</a><a class="tag" taget="_blank" href="/search/service/1.htm">service</a><a class="tag" taget="_blank" href="/search/hessian/1.htm">hessian</a> <div>hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543</div> </li> <li><a href="/article/1224.htm" title="数据库对象的同义词和序列" target="_blank">数据库对象的同义词和序列</a> 百合不是茶 <a class="tag" taget="_blank" href="/search/sql/1.htm">sql</a><a class="tag" taget="_blank" href="/search/%E5%BA%8F%E5%88%97/1.htm">序列</a><a class="tag" taget="_blank" href="/search/%E5%90%8C%E4%B9%89%E8%AF%8D/1.htm">同义词</a><a class="tag" taget="_blank" href="/search/ORACLE%E6%9D%83%E9%99%90/1.htm">ORACLE权限</a> <div>回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to </div> </li> <li><a href="/article/1351.htm" title="使用Powermock和mockito测试静态方法" target="_blank">使用Powermock和mockito测试静态方法</a> bijian1013 <a class="tag" taget="_blank" href="/search/%E6%8C%81%E7%BB%AD%E9%9B%86%E6%88%90/1.htm">持续集成</a><a class="tag" taget="_blank" href="/search/%E5%8D%95%E5%85%83%E6%B5%8B%E8%AF%95/1.htm">单元测试</a><a class="tag" taget="_blank" href="/search/mockito/1.htm">mockito</a><a class="tag" taget="_blank" href="/search/Powermock/1.htm">Powermock</a> <div> 实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or</div> </li> <li><a href="/article/1478.htm" title="精通Oracle10编程SQL(6)访问ORACLE" target="_blank">精通Oracle10编程SQL(6)访问ORACLE</a> bijian1013 <a class="tag" taget="_blank" href="/search/oracle/1.htm">oracle</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%BA%93/1.htm">数据库</a><a class="tag" taget="_blank" href="/search/plsql/1.htm">plsql</a> <div>/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu</div> </li> <li><a href="/article/1605.htm" title="【Nginx四】Nginx作为HTTP负载均衡服务器" target="_blank">【Nginx四】Nginx作为HTTP负载均衡服务器</a> bit1129 <a class="tag" taget="_blank" href="/search/nginx/1.htm">nginx</a> <div> Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l</div> </li> <li><a href="/article/1732.htm" title="jquery-validation备忘" target="_blank">jquery-validation备忘</a> 白糖_ <a class="tag" taget="_blank" href="/search/jquery/1.htm">jquery</a><a class="tag" taget="_blank" href="/search/css/1.htm">css</a><a class="tag" taget="_blank" href="/search/F%23/1.htm">F#</a><a class="tag" taget="_blank" href="/search/Firebug/1.htm">Firebug</a> <div>留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&</div> </li> <li><a href="/article/1859.htm" title="solr限制admin界面访问（端口限制和http授权限制）" target="_blank">solr限制admin界面访问（端口限制和http授权限制）</a> ronin47 <a class="tag" taget="_blank" href="/search/%E9%99%90%E5%AE%9AIp%E8%AE%BF%E9%97%AE/1.htm">限定Ip访问</a> <div>solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad</div> </li> <li><a href="/article/1986.htm" title="多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1" target="_blank">多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1</a> bylijinnan <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E5%A4%9A%E7%BA%BF%E7%A8%8B/1.htm">多线程</a> <div> public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static </div> </li> <li><a href="/article/2113.htm" title="买房历程" target="_blank">买房历程</a> cfyme <div> 2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-</div> </li> <li><a href="/article/2240.htm" title="[军事与科技]制造大型太空战舰的前奏" target="_blank">[军事与科技]制造大型太空战舰的前奏</a> comsci <a class="tag" taget="_blank" href="/search/%E5%88%B6%E9%80%A0/1.htm">制造</a> <div> 天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关</div> </li> <li><a href="/article/2367.htm" title="dateformat" target="_blank">dateformat</a> dai_lm <a class="tag" taget="_blank" href="/search/DateFormat/1.htm">DateFormat</a> <div> "Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year</div> </li> <li><a href="/article/2494.htm" title="Hadoop如何实现关联计算" target="_blank">Hadoop如何实现关联计算</a> datamachine <a class="tag" taget="_blank" href="/search/mapreduce/1.htm">mapreduce</a><a class="tag" taget="_blank" href="/search/hadoop/1.htm">hadoop</a><a class="tag" taget="_blank" href="/search/%E5%85%B3%E8%81%94%E8%AE%A1%E7%AE%97/1.htm">关联计算</a> <div> 选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs</div> </li> <li><a href="/article/2621.htm" title="用户模型中修改用户信息时，密码是如何处理的" target="_blank">用户模型中修改用户信息时，密码是如何处理的</a> dcj3sjt126com <a class="tag" taget="_blank" href="/search/yii/1.htm">yii</a> <div>当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这</div> </li> <li><a href="/article/2748.htm" title="中文 iOS/Mac 开发博客列表" target="_blank">中文 iOS/Mac 开发博客列表</a> dcj3sjt126com <a class="tag" taget="_blank" href="/search/Blog/1.htm">Blog</a> <div> 本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。 </div> </li> <li><a href="/article/2875.htm" title="js去除空格，去除左右两端的空格" target="_blank">js去除空格，去除左右两端的空格</a> 蕃薯耀 <a class="tag" taget="_blank" href="/search/%E5%8E%BB%E9%99%A4%E5%B7%A6%E5%8F%B3%E4%B8%A4%E7%AB%AF%E7%9A%84%E7%A9%BA%E6%A0%BC/1.htm">去除左右两端的空格</a><a class="tag" taget="_blank" href="/search/js%E5%8E%BB%E6%8E%89%E6%89%80%E6%9C%89%E7%A9%BA%E6%A0%BC/1.htm">js去掉所有空格</a><a class="tag" taget="_blank" href="/search/js%E5%8E%BB%E9%99%A4%E7%A9%BA%E6%A0%BC/1.htm">js去除空格</a> <div>js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g</div> </li> <li><a href="/article/3002.htm" title="SpringMVC4零配置--web.xml" target="_blank">SpringMVC4零配置--web.xml</a> hanqunfeng <a class="tag" taget="_blank" href="/search/springmvc4/1.htm">springmvc4</a> <div>servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer</div> </li> <li><a href="/article/3129.htm" title="《开源框架那些事儿21》：巧借力与借巧力" target="_blank">《开源框架那些事儿21》：巧借力与借巧力</a> j2eetop <a class="tag" taget="_blank" href="/search/%E6%A1%86%E6%9E%B6/1.htm">框架</a><a class="tag" taget="_blank" href="/search/UI/1.htm">UI</a> <div>同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，</div> </li> <li><a href="/article/3256.htm" title="JQuery EasyUI 验证扩展" target="_blank">JQuery EasyUI 验证扩展</a> 可怜的猫 <a class="tag" taget="_blank" href="/search/jquery/1.htm">jquery</a><a class="tag" taget="_blank" href="/search/easyui/1.htm">easyui</a><a class="tag" taget="_blank" href="/search/%E9%AA%8C%E8%AF%81/1.htm">验证</a> <div> 最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&</div> </li> <li><a href="/article/3383.htm" title="架构师之httpurlconnection----------读取和发送(流读取效率通用类)" target="_blank">架构师之httpurlconnection----------读取和发送(流读取效率通用类)</a> nannan408 <div>1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream</div> </li> <li><a href="/article/3510.htm" title="Jquery性能优化" target="_blank">Jquery性能优化</a> r361251 <a class="tag" taget="_blank" href="/search/JavaScript/1.htm">JavaScript</a><a class="tag" taget="_blank" href="/search/jquery/1.htm">jquery</a> <div>一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page </div> </li> <li><a href="/article/3637.htm" title="在eclipse项目中使用maven管理依赖" target="_blank">在eclipse项目中使用maven管理依赖</a> tjj006 <a class="tag" taget="_blank" href="/search/eclipse/1.htm">eclipse</a><a class="tag" taget="_blank" href="/search/maven/1.htm">maven</a> <div>概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把</div> </li> <li><a href="/article/3764.htm" title="中国天气网省市级联页面" target="_blank">中国天气网省市级联页面</a> x125858805 <a class="tag" taget="_blank" href="/search/%E7%BA%A7%E8%81%94/1.htm">级联</a> <div>1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l</div> </li> </ul> </div> </div> </div> <div> <div class="container"> <div class="indexes"> 按字母分类： <a href="/tags/A/1.htm" target="_blank">A</a><a href="/tags/B/1.htm" target="_blank">B</a><a href="/tags/C/1.htm" target="_blank">C</a><a href="/tags/D/1.htm" target="_blank">D</a><a href="/tags/E/1.htm" target="_blank">E</a><a href="/tags/F/1.htm" target="_blank">F</a><a href="/tags/G/1.htm" target="_blank">G</a><a href="/tags/H/1.htm" target="_blank">H</a><a href="/tags/I/1.htm" target="_blank">I</a><a href="/tags/J/1.htm" target="_blank">J</a><a href="/tags/K/1.htm" target="_blank">K</a><a href="/tags/L/1.htm" target="_blank">L</a><a href="/tags/M/1.htm" target="_blank">M</a><a href="/tags/N/1.htm" target="_blank">N</a><a href="/tags/O/1.htm" target="_blank">O</a><a href="/tags/P/1.htm" target="_blank">P</a><a href="/tags/Q/1.htm" target="_blank">Q</a><a href="/tags/R/1.htm" target="_blank">R</a><a href="/tags/S/1.htm" target="_blank">S</a><a href="/tags/T/1.htm" target="_blank">T</a><a href="/tags/U/1.htm" target="_blank">U</a><a href="/tags/V/1.htm" target="_blank">V</a><a href="/tags/W/1.htm" target="_blank">W</a><a href="/tags/X/1.htm" target="_blank">X</a><a href="/tags/Y/1.htm" target="_blank">Y</a><a href="/tags/Z/1.htm" target="_blank">Z</a><a href="/tags/0/1.htm" target="_blank">其他</a> </div> </div> </div> <footer id="footer" class="mb30 mt30"> <div class="container"> <div class="footBglm"> <a target="_blank" href="/">首页</a> - <a target="_blank" href="/custom/about.htm">关于我们</a> - <a target="_blank" href="/search/Java/1.htm">站内搜索</a> - <a target="_blank" href="/sitemap.txt">Sitemap</a> - <a target="_blank" href="/custom/delete.htm">侵权投诉</a> </div> <div class="copyright">版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.  </div> </div> </footer>  <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shCore.js"></script> <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shLegacy.js"></script> <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shAutoloader.js"></script> <link type="text/css" rel="stylesheet" href="/static/syntaxhighlighter/styles/shCoreDefault.css"/> <script type="text/javascript" src="/static/syntaxhighlighter/src/my_start_1.js"></script> </body> </html>