python爬虫智能解析库详解

文章很长 请耐心阅读

什么是爬虫

爬虫是做什么的?是帮助我们来快速获取有效信息的。然而做过爬虫的人都知道,解析是个麻烦事。比如一篇新闻吧,链接是这个:
https://news.ifeng.com/c/7kQcQG2peWU,页面预览图如下:

我们需要从页面中提取出标题、发布人、发布时间、发布内容、图片等内容。一般情况下我们需要怎么办?写规则。

那么规则都有什么呢?怼正则,怼 CSS 选择器,怼 XPath。我们需要对标题、发布时间、来源等内容做规则匹配,更有甚者再需要正则表达式来辅助一下。我们可能就需要用 re、BeautifulSoup、pyquery 等库来实现内容的提取和解析。

但如果我们有成千上万个不同样式的页面怎么办呢?它们来自成千上万个站点,难道我们还需要对他们一一写规则来匹配吗?这得要多大的工作量啊。另外这些万一弄不好还会解析有问题。比如正则表达式在某些情况下匹配不了了,CSS、XPath 选择器选错位了也会出现问题。

想必大家可能见过现在的浏览器有阅读模式,比如我们把这个页面用 Safari 浏览器打开,然后开启阅读模式,看看什么效果:

页面一下子变得非常清爽,只保留了标题和需要读的内容。原先页面多余的导航栏、侧栏、评论等等的统统都被去除了。它怎么做到的?难道是有人在里面写好规则了?那当然不可能的事。其实,这里面就用到了智能化解析了。那么本篇文章,我们就来了解一下页面的智能化解析的相关知识。

智能化解析

所谓爬虫的智能化解析,顾名思义就是不再需要我们针对某一些页面来专门写提取规则了,我们可以利用一些算法来计算出来页面特定元素的位置和提取路径。比如一个页面中的一篇文章,我们可以通过算法计算出来,它的标题应该是什么,正文应该是哪部分区域,发布时间是什么等等。

其实智能化解析是非常难的一项任务,比如说你给人看一个网页的一篇文章,人可以迅速找到这篇文章的标题是什么,发布时间是什么,正文是哪一块,或者哪一块是广告位,哪一块是导航栏。但给机器来识别的话,它面临的是什么?仅仅是一系列的 HTML 代码而已。那究竟机器是怎么做到智能化提取的呢?其实这里面融合了多方面的信息。

比如标题。一般它的字号是比较大的,而且长度不长,位置一般都在页面上方,而且大部分情况下它应该和 title 标签里的内容是一致的。

比如正文。它的内容一般是最多的,而且会包含多个段落 p 或者图片 img 标签,另外它的宽度一般可能会占用到页面的三分之二区域,并且密度(字数除以标签数量)会比较大。

比如时间。不同语言的页面可能不同,但时间的格式是有限的,如 2019-02-20 或者 2019/02/20 等等,也有的可能是美式的记法,顺序不同,这些也有特定的模式可以识别。

比如广告。它的标签一般可能会带有 ads 这样的字样,另外大多数可能会处于文章底部、页面侧栏,并可能包含一些特定的外链内容。

另外还有一些特点就不再一一赘述了,这其中包含了区块位置、区块大小、区块标签、区块内容、区块疏密度等等多种特征,另外很多情况下还需要借助于视觉的特征,所以说这里面其实结合了算法计算、视觉处理、自然语言处理等各个方面的内容。如果能把这些特征综合运用起来,再经过大量的数据训练,是可以得到一个非常不错的效果的。

目前来说,智能文本提取可以分为三类:

  • 基于网页文档内容的提取方法
  • 基于 DOM 结构信息的提取方法
  • 基于视觉信息的提取方法
业界进展

未来的话,页面也会越来越多,页面的渲染方式也会发生很大的变化,爬虫也会越来越难做,智能化爬虫也将会变得越来越重要。

目前工业界,其实已经有落地的算法应用了。经过我的一番调研,目前发现有这么几种算法或者服务对页面的智能化解析做的比较好:

  • Diffbot,国外的一家专门来做智能化解析服务的公司,https://www.diffbot.com

  • Boilerpipe,Java 语言编写的一个页面解析算法,https://github.com/kohlschutter/boilerpipe

  • Embedly,提供页面解析服务的公司,https://embed.ly/extract

  • Readability,是一个页面解析算法,但现在官方的服务已经关闭了,https://www.readability.com/

  • Mercury,Readability 的替代品,https://mercury.postlight.com/

  • Goose,Java 语音编写的页面解析算法,https://github.com/GravityLabs/goose

那么这几种算法或者服务到底哪些好呢,Driffbot 官方曾做过一个对比评测,使用 Google 新闻的一些文章,使用不同的算法依次摘出其中的标题和文本,然后与真实标注的内容进行比较,比较的指标就是文字的准确率和召回率,以及根据二者计算出的 F1 分数。

其结果对比如下:
python爬虫智能解析库详解_第1张图片
经过对比我们可以发现,Diffbot 的准确率和召回率都独占鳌头,其中的 F1 值达到了 0.97,可以说准确率非常高了。另外接下来比较厉害的就是 Boilerpipe 和 Readability,Goose 的表现则非常差,F1 跟其他的算法差了一大截。下面是几个算法的 F1 分数对比情况:
python爬虫智能解析库详解_第2张图片
有人可能好奇为什么 Diffbot 这么厉害?我也查询了一番。Diffbot 自 2010 年以来就致力于提取 Web 页面数据,并提供许多 API 来自动解析各种页面。其中他们的算法依赖于自然语言技术、机器学习、计算机视觉、标记检查等多种算法,并且所有的页面都会考虑到当前页面的样式以及可视化布局,另外还会分析其中包含的图像内容、CSS 甚至 Ajax 请求。另外在计算一个区块的置信度时还考虑到了和其他区块的关联关系,基于周围的标记来计算每个区块的置信度。

总之,Diffbot 也是一直致力于这一方面的服务,整个 Diffbot 就是页面解析起家的,现在也一直专注于页面解析服务,准确率高也就不足为怪了。

但它们的算法开源了吗?很遗憾,并没有,而且我也没有找到相关的论文介绍它们自己的具体算法。

所以,如果想实现这么好的效果,那就使用它们家的服务就好了。

Diffbot 页面解析

首先我们需要注册一个账号,它有 15 天的免费试用,注册之后会获得一个 Developer Token,这就是使用 Diffbot 接口服务的凭证。

接下来切换到它的测试页面中,链接为:https://www.diffbot.com/dev/home/,我们来测试一下它的解析效果到底是怎样的。

这里我们选择的测试页面就是上文所述的页面,链接为:https://news.ifeng.com/c/7kQcQG2peWU,API 类型选择 Article API,然后点击 Test Drive 按钮,接下来它就会出现当前页面的解析结果:
python爬虫智能解析库详解_第3张图片
这时候我们可以看到,它帮我们提取出来了标题、发布时间、发布机构、发布机构链接、正文内容等等各种结果。而且目前来看都十分正确,时间也自动识别之后做了转码,是一个标准的时间格式。

接下来我们继续下滑,查看还有什么其他的字段,这里我们还可以看到有 html 字段,它和 text 不同的是,它包含了文章内容的真实 HTML 代码,因此图片也会包含在里面,如图所示:
python爬虫智能解析库详解_第4张图片
另外最后面还有 images 字段,他以列表形式返回了文章套图及每一张图的链接,另外还有文章的站点名称、页面所用语言等等结果,如图所示:
python爬虫智能解析库详解_第5张图片
当然我们也可以选择 JSON 格式的返回结果,其内容会更加丰富,例如图片还返回了其宽度、高度、图片描述等等内容,另外还有各种其他的结果如面包屑导航等等结果,如图所示:

python爬虫智能解析库详解_第6张图片
经过手工核对,发现其返回的结果都是完全正确的,准确率相当之高!

所以说,如果你对准确率要求没有那么非常非常严苛的情况下,使用 Diffbot 的服务可以帮助我们快速地提取页面中所需的结果,省去了我们绝大多数的手工劳动,可以说是非常赞了。

但是,我们也不能总在网页上这么试吧。其实 Diffbot 也提供了官方的 API 文档,让我们来一探究竟。

Diffbot API

Driffbot 提供了多种 API,如 Analyze API、Article API、Disscussion API 等。

下面我们以 Article API 为例来说明一下它的用法,其官方文档地址为:https://www.diffbot.com/dev/docs/article/,API 调用地址为:

https://api.diffbot.com/v3/article

我们可以用 GET 方式来进行请求,其中的 Token 和 URL 都可以以参数形式传递给这个 API,其必备的参数有:

  • token:即 Developer Token

  • url:即要解析的 URL 链接

另外它还有几个可选参数:

  • fields:用来指定返回哪些字段,默认已经有了一些固定字段,这个参数可以指定还可以额外返回哪些可选字段

  • paging:如果是多页文章的话,如果将这个参数设置为 false 则可以禁止多页内容拼接

  • maxTags:可以设置返回的 Tag 最大数量,默认是 10 个

  • tagConfidence:设置置信度的阈值,超过这个值的 Tag 才会被返回,默认是 0.5

  • discussion:如果将这个参数设置为 false,那么就不会解析评论内容

  • timeout:在解析的时候等待的最长时间,默认是 30 秒

  • callback:为 JSONP 类型的请求而设计的回调

这里大家可能关注的就是 fields 字段了,在这里我专门做了一下梳理,首先是一些固定字段:

  • type:文本的类型,这里就是 article 了

  • title:文章的标题

  • text:文章的纯文本内容,如果是分段内容,那么其中会以换行符来分隔

  • html:提取结果的 HTML 内容

  • date:文章的发布时间,其格式为 RFC 1123

  • estimatedDate:如果日期时间不太明确,会返回一个预估的时间,如果文章超过两天或者没有发布日期,那么这个字段就不会返回

  • author:作者

  • authorUrl:作者的链接

  • discussion:评论内容,和 Disscussion API 返回结果一样

  • humanLanguage:语言类型,如英文还是中文等

  • numPages:如果文章是多页的,这个参数会控制最大的翻页拼接数目

  • nextPages:如果文章是多页的,这个参数可以指定文章后续链接

  • siteName:站点名称

  • publisherRegion:文章发布地区

  • publisherCountry:文章发布国家

  • pageUrl:文章链接

  • resolvedPageUrl:如果文章是从 pageUrl 重定向过来的,则返回此内容

  • tags:文章的标签或者文章包含的实体,根据自然语言处理技术和 DBpedia 计算生成,是一个列表,里面又包含了子字段:

  • label:标签名

  • count:标签出现的次数

  • score:标签置信度

  • rdfTypes:如果实体可以由多个资源表示,那么则返回相关的 URL

  • type:类型

  • uri:Diffbot Knowledge Graph 中的实体链接

  • images:文章中包含的图片

  • videos:文章中包含的视频

  • breadcrumb:面包屑导航信息

  • diffbotUri:Diffbot 内部的 URL 链接

以上的预定字段就是如果可以返回那就会返回的字段,是不能定制化配置的,另外我们还可以通过 fields 参数来指定扩展如下可选字段:

  • quotes:引用信息

  • sentiment:文章的情感值,-1 到 1 之间

  • links:所有超链接的顶级链接

  • querystring:请求的参数列表

好,以上便是这个 API 的用法,大家可以申请之后使用这个 API 来做智能化解析了。

下面我们用一个实例来看一下这个 API 的用法,代码如下:

import requests, json

url = 'https://api.diffbot.com/v3/article'
params = {
    'token': '77b41f6fbb24495113d52836528fa',
    'url': 'https://news.ifeng.com/c/7kQcQG2peWU',
    'fields': 'meta' 
}
response = requests.get(url, params=params)
print(json.dumps(response.json(), indent=2, ensure_ascii=False))

这里首先定义了 API 的链接,然后指定了 params 参数,即 GET 请求参数。

参数中包含了必选的 token、url 字段,也设置了可选的 fields 字段,其中 fields 为可选的扩展字段 meta 标签。

我们来看下运行结果,结果如下:

{
  "request": {
    "pageUrl": "https://news.ifeng.com/c/7kQcQG2peWU",
    "api": "article",
    "fields": "sentiment, meta",
    "version": 3
  },
  "objects": [
    {
      "date": "Wed, 20 Feb 2019 02:26:00 GMT",
      "images": [
        {
          "naturalHeight": 460,
          "width": 640,
          "diffbotUri": "image|3|-1139316034",
          "url": "http://e0.ifengimg.com/02/2019/0219/1731DC8A29EB2219C7F2773CF9CF319B3503D0A1_size382_w690_h460.png",
          "naturalWidth": 690,
          "primary": true,
          "height": 426
        },
        // ...
      ],
      "author": "中国新闻网",
      "estimatedDate": "Wed, 20 Feb 2019 06:47:52 GMT",
      "diffbotUri": "article|3|1591137208",
      "siteName": "ifeng.com",
      "type": "article",
      "title": "故宫,你低调点!故宫:不,实力已不允许我继续低调",
      "breadcrumb": [
        {
          "link": "https://news.ifeng.com/",
          "name": "资讯"
        },
        {
          "link": "https://news.ifeng.com/shanklist/3-35197-/",
          "name": "大陆"
        }
      ],
      "humanLanguage": "zh",
      "meta": {
        "og": {
          "og:time ": "2019-02-20 02:26:00",
          "og:image": "https://e0.ifengimg.com/02/2019/0219/1731DC8A29EB2219C7F2773CF9CF319B3503D0A1_size382_w690_h460.png",
          "og:category ": "凤凰资讯",
          "og: webtype": "news",
          "og:title": "故宫,你低调点!故宫:不,实力已不允许我继续低调",
          "og:url": "https://news.ifeng.com/c/7kQcQG2peWU",
          "og:description": "  “我的名字叫紫禁城,快要600岁了,这上元的夜啊,总是让我沉醉,这么久了却从未停止。”   “重"
        },
        "referrer": "always",
        "description": "  “我的名字叫紫禁城,快要600岁了,这上元的夜啊,总是让我沉醉,这么久了却从未停止。”   “重",
        "keywords": "故宫 紫禁城 故宫博物院 灯光 元宵节 博物馆 一票难求 元之 中新社 午门 杜洋 藏品 文化 皇帝 清明上河图 元宵 千里江山图卷 中英北京条约 中法北京条约 天津条约",
        "title": "故宫,你低调点!故宫:不,实力已不允许我继续低调_凤凰资讯"
      },
      "authorUrl": "https://feng.ifeng.com/author/308904",
      "pageUrl": "https://news.ifeng.com/c/7kQcQG2peWU",
      "html": "

“我的名字叫紫禁城,快要600岁了,这上元的夜啊,总是让我沉醉,这么久了却从未停止。... ", "text": "“我的名字叫紫禁城,快要600岁了,这上元的夜啊,总是让我沉醉,这么久了却从未停止。”\n“...", "authors": [ { "name": "中国新闻网", "link": "https://feng.ifeng.com/author/308904" } ] } ] }

可见其返回了如上的内容,是一个完整的 JSON 格式,其中包含了标题、正文、发布时间等等各种内容。

可见,不需要我们配置任何提取规则,我们就可以完成页面的分析和抓取,得来全不费功夫。

下面我们来介绍两个比较基础的开源工具包 Readability 和 Newspaper 的用法,这两个包经我测试其实准确率并不是很好,主要是让大家大致对智能解析有初步的理解。后面还会介绍一些更加强大的智能化解析算法。

Readability

Readability 实际上是一个算法,并不是一个针对某个语言的库。其主要原理就是计算了 DOM 的文本密度,另外根据一些常见的 DOM 属性如 id、class 等计算了一些 DOM 的权重,最后分析得到了对应的 DOM 区块,进而提取出具体的文本内容。

现在搜索 Readability 其实已经找不到了,取而代之的是一个 JavaScript 工具包,叫做 mercury-parser,据我所知应该是 Readability 不维护了,换成了 mercury-parser。后者现在也做成了一个 Chrome 插件,大家可以下载使用一下。

回归正题,这次主要介绍的是 Python 的 Readability 实现,现在其实有很多开源版本,本文选取的是 https://github.com/buriy/python-readability,是基于最早的 Python 版本的 Readability 库 https://github.com/timbertson/python-readability 二次开发的,现在已经发布到了 PyPi,大家可以直接下载安装使用。

安装很简单,通过 pip 安装即可:

pip3 install readability-lxml

安装好了之后便可以通过导入 readability 使用了,下面我们随便从网上找一个新闻页面,比如:https://tech.163.com/19/0909/08/EOKA3CFB00097U7S.html,其页面截图如下:

python爬虫智能解析库详解_第7张图片
我们的目的就是它的正文、标题等内容。下面我们用 Readability 试一下,示例如下:

import requests
from readability import Document

url = 'https://tech.163.com/19/0909/08/EOKA3CFB00097U7S.html'
html = requests.get(url).content
doc = Document(html)
print('title:', doc.title())
print('content:', doc.summary(html_partial=True))

在这里我们直接用 requests 库对网页进行了请求,获取了其 HTML 页面内容,赋值为 html。

然后引入了 readability 里的 Document 类,使用 html 变量对其进行初始化,然后我们分别调用了 title 方法和 summary 方法获得了其标题和正文内容。

这里 title 方法就是获取文章标题的,summary 就是获取文章正文的,但是它获取的正文可能包含一些 HTML 标签。这个 summary 方法可以接收一个 html_partial 参数,如果设置为 True,返回的结果则不会再带有标签。
看下运行结果:

title: 今年iPhone只有小改进?分析师:还有其他亮点_网易科技
content: <div><div class="post_text" id="endText">           
                    <p class="otitle">
                        (原标题:Apple Bets More Cameras Can Keep iPhone Humming)
                    </p>
                    <p class="f_center"><img alt="今年iPhone只有小改进?分析师:还有其他亮点" src="http://cms-bucket.ws.126.net/2019/09/09/d65ba32672934045a5bfadd27f704bc1.jpeg"/><span>图示:苹果首席执行官蒂姆·库克(Tim Cook)6月份举行的苹果全球开发者大会上。</span></p><p>网易科技讯 99日消息,据国外媒体报道,和过去的12个年头一样,新款
... 中间省略 ...
                    <p>苹果还即将推出包括电视节目和视频游戏等内容的新订阅服务。分析师表示,该公司最早可能在本周宣布TV+和Arcade等服务的价格和上线时间。</p><p>Strategy Analytics的尼尔·莫斯顿(Neil Mawston)表示,可穿戴设备和服务的结合将是苹果业务超越iPhone的关键。他说,上一家手机巨头诺基亚公司在试图进行类似业务转型时就陷入了困境之中。(辰辰)</p><p><b>相关报道:</b></p><p><a href="https://tech.163.com/19/0908/09/EOHS53RK000999LD.html" target="_self" urlmacroreplace="false">iPhone 11背部苹果Logo改为居中:为反向无线充电</a></p><p><a href="https://tech.163.com/19/0907/08/EOF60CBC00097U7S.html" target="_self" urlmacroreplace="false">2019年新iPhone传言汇总,你觉得哪些能成真</a>  </p><p/>
                        <p/>
                        <div class="ep-source cDGray">
                            <span class="left"><a href="http://tech.163.com/"><img src="https://static.ws.126.net/cnews/css13/img/end_tech.png" alt="王凤枝" class="icon"/></a> 本文来源:网易科技报道  </span>
                            <span class="ep-editor">责任编辑:王凤枝_NT2541</span>
                        </div>
                </div> 
</div>

可以看到,标题提取是正确的。正文其实也是正确的,不过这里还包含了一些 HTML 标签,比如

等,我们可以进一步通过一些解析库来解析。
看下源码吧,比如提取标题的方法:

def normalize_entities(cur_title):
    entities = {
        u'\u2014':'-',
        u'\u2013':'-',
        u'—': '-',
        u'–': '-',
        u'\u00A0': ' ',
        u'\u00AB': '"',
        u'\u00BB': '"',
        u'"': '"',
    }
    for c, r in entities.items():
        if c in cur_title:
            cur_title = cur_title.replace(c, r)

    return cur_title

def norm_title(title):
    return normalize_entities(normalize_spaces(title))

def get_title(doc):
    title = doc.find('.//title')
    if title is None or title.text is None or len(title.text) == 0:
        return '[no-title]'

    return norm_title(title.text)

 def title(self):
    """Returns document title"""
    return get_title(self._html(True))

title方法实际上就是调用了一个 get_title 方法,它怎么做的?实际上就是用了一个 XPath 只解析了</code>标签里面的内容,别的没了。如果没有,那就返回 <code>[no-title]</code>。</p> <pre><code class="prism language-py"><span class="token keyword">def</span> <span class="token function">summary</span><span class="token punctuation">(</span>self<span class="token punctuation">,</span> html_partial<span class="token operator">=</span><span class="token boolean">False</span><span class="token punctuation">)</span><span class="token punctuation">:</span> ruthless <span class="token operator">=</span> <span class="token boolean">True</span> <span class="token keyword">while</span> <span class="token boolean">True</span><span class="token punctuation">:</span> self<span class="token punctuation">.</span>_html<span class="token punctuation">(</span><span class="token boolean">True</span><span class="token punctuation">)</span> <span class="token keyword">for</span> i <span class="token keyword">in</span> self<span class="token punctuation">.</span>tags<span class="token punctuation">(</span>self<span class="token punctuation">.</span>html<span class="token punctuation">,</span> <span class="token string">'script'</span><span class="token punctuation">,</span> <span class="token string">'style'</span><span class="token punctuation">)</span><span class="token punctuation">:</span> i<span class="token punctuation">.</span>drop_tree<span class="token punctuation">(</span><span class="token punctuation">)</span> <span class="token keyword">for</span> i <span class="token keyword">in</span> self<span class="token punctuation">.</span>tags<span class="token punctuation">(</span>self<span class="token punctuation">.</span>html<span class="token punctuation">,</span> <span class="token string">'body'</span><span class="token punctuation">)</span><span class="token punctuation">:</span> i<span class="token punctuation">.</span><span class="token builtin">set</span><span class="token punctuation">(</span><span class="token string">'id'</span><span class="token punctuation">,</span> <span class="token string">'readabilityBody'</span><span class="token punctuation">)</span> <span class="token keyword">if</span> ruthless<span class="token punctuation">:</span> self<span class="token punctuation">.</span>remove_unlikely_candidates<span class="token punctuation">(</span><span class="token punctuation">)</span> self<span class="token punctuation">.</span>transform_misused_divs_into_paragraphs<span class="token punctuation">(</span><span class="token punctuation">)</span> candidates <span class="token operator">=</span> self<span class="token punctuation">.</span>score_paragraphs<span class="token punctuation">(</span><span class="token punctuation">)</span> best_candidate <span class="token operator">=</span> self<span class="token punctuation">.</span>select_best_candidate<span class="token punctuation">(</span>candidates<span class="token punctuation">)</span> <span class="token keyword">if</span> best_candidate<span class="token punctuation">:</span> article <span class="token operator">=</span> self<span class="token punctuation">.</span>get_article<span class="token punctuation">(</span>candidates<span class="token punctuation">,</span> best_candidate<span class="token punctuation">,</span> html_partial<span class="token operator">=</span>html_partial<span class="token punctuation">)</span> <span class="token keyword">else</span><span class="token punctuation">:</span> <span class="token keyword">if</span> ruthless<span class="token punctuation">:</span> ruthless <span class="token operator">=</span> <span class="token boolean">False</span> <span class="token keyword">continue</span> <span class="token keyword">else</span><span class="token punctuation">:</span> article <span class="token operator">=</span> self<span class="token punctuation">.</span>html<span class="token punctuation">.</span>find<span class="token punctuation">(</span><span class="token string">'body'</span><span class="token punctuation">)</span> <span class="token keyword">if</span> article <span class="token keyword">is</span> <span class="token boolean">None</span><span class="token punctuation">:</span> article <span class="token operator">=</span> self<span class="token punctuation">.</span>html cleaned_article <span class="token operator">=</span> self<span class="token punctuation">.</span>sanitize<span class="token punctuation">(</span>article<span class="token punctuation">,</span> candidates<span class="token punctuation">)</span> article_length <span class="token operator">=</span> <span class="token builtin">len</span><span class="token punctuation">(</span>cleaned_article <span class="token operator">or</span> <span class="token string">''</span><span class="token punctuation">)</span> retry_length <span class="token operator">=</span> self<span class="token punctuation">.</span>retry_length of_acceptable_length <span class="token operator">=</span> article_length <span class="token operator">>=</span> retry_length <span class="token keyword">if</span> ruthless <span class="token operator">and</span> <span class="token operator">not</span> of_acceptable_length<span class="token punctuation">:</span> ruthless <span class="token operator">=</span> <span class="token boolean">False</span> <span class="token keyword">continue</span> <span class="token keyword">else</span><span class="token punctuation">:</span> <span class="token keyword">return</span> cleaned_article </code></pre> <p>这里我删除了一些冗余的调试的代码,只保留了核心的代码,其核心实现就是先去除一些干扰内容,然后找出一些疑似正文的 candidates,然后再去寻找最佳匹配的 candidates 最后提取其内容返回即可。</p> <p>然后再找到获取 candidates 方法里面的 score_paragraphs 方法,又追踪到一个 score_node 方法,就是为每一个节点打分的,其实现如下:</p> <pre><code class="prism language-py"><span class="token keyword">def</span> <span class="token function">score_node</span><span class="token punctuation">(</span>self<span class="token punctuation">,</span> elem<span class="token punctuation">)</span><span class="token punctuation">:</span> content_score <span class="token operator">=</span> self<span class="token punctuation">.</span>class_weight<span class="token punctuation">(</span>elem<span class="token punctuation">)</span> name <span class="token operator">=</span> elem<span class="token punctuation">.</span>tag<span class="token punctuation">.</span>lower<span class="token punctuation">(</span><span class="token punctuation">)</span> <span class="token keyword">if</span> name <span class="token keyword">in</span> <span class="token punctuation">[</span><span class="token string">"div"</span><span class="token punctuation">,</span> <span class="token string">"article"</span><span class="token punctuation">]</span><span class="token punctuation">:</span> content_score <span class="token operator">+=</span> <span class="token number">5</span> <span class="token keyword">elif</span> name <span class="token keyword">in</span> <span class="token punctuation">[</span><span class="token string">"pre"</span><span class="token punctuation">,</span> <span class="token string">"td"</span><span class="token punctuation">,</span> <span class="token string">"blockquote"</span><span class="token punctuation">]</span><span class="token punctuation">:</span> content_score <span class="token operator">+=</span> <span class="token number">3</span> <span class="token keyword">elif</span> name <span class="token keyword">in</span> <span class="token punctuation">[</span><span class="token string">"address"</span><span class="token punctuation">,</span> <span class="token string">"ol"</span><span class="token punctuation">,</span> <span class="token string">"ul"</span><span class="token punctuation">,</span> <span class="token string">"dl"</span><span class="token punctuation">,</span> <span class="token string">"dd"</span><span class="token punctuation">,</span> <span class="token string">"dt"</span><span class="token punctuation">,</span> <span class="token string">"li"</span><span class="token punctuation">,</span> <span class="token string">"form"</span><span class="token punctuation">,</span> <span class="token string">"aside"</span><span class="token punctuation">]</span><span class="token punctuation">:</span> content_score <span class="token operator">-=</span> <span class="token number">3</span> <span class="token keyword">elif</span> name <span class="token keyword">in</span> <span class="token punctuation">[</span><span class="token string">"h1"</span><span class="token punctuation">,</span> <span class="token string">"h2"</span><span class="token punctuation">,</span> <span class="token string">"h3"</span><span class="token punctuation">,</span> <span class="token string">"h4"</span><span class="token punctuation">,</span> <span class="token string">"h5"</span><span class="token punctuation">,</span> <span class="token string">"h6"</span><span class="token punctuation">,</span> <span class="token string">"th"</span><span class="token punctuation">,</span> <span class="token string">"header"</span><span class="token punctuation">,</span> <span class="token string">"footer"</span><span class="token punctuation">,</span> <span class="token string">"nav"</span><span class="token punctuation">]</span><span class="token punctuation">:</span> content_score <span class="token operator">-=</span> <span class="token number">5</span> <span class="token keyword">return</span> <span class="token punctuation">{</span> <span class="token string">'content_score'</span><span class="token punctuation">:</span> content_score<span class="token punctuation">,</span> <span class="token string">'elem'</span><span class="token punctuation">:</span> elem <span class="token punctuation">}</span> </code></pre> <p>这什么意思呢?你看如果这个节点标签是 div 或者 article 等可能表征正文区块的话,就加 5 分,如果是 aside 等表示侧栏的内容就减 3 分。这些打分也没有什么非常标准的依据,可能是根据经验累积的规则。</p> <p>另外还有一些方法里面引用了一些正则匹配来进行打分或者替换,其定义如下:</p> <pre><code class="prism language-py">REGEXES <span class="token operator">=</span> <span class="token punctuation">{</span> <span class="token string">'unlikelyCandidatesRe'</span><span class="token punctuation">:</span> re<span class="token punctuation">.</span><span class="token builtin">compile</span><span class="token punctuation">(</span><span class="token string">'combx|comment|community|disqus|extra|foot|header|menu|remark|rss|shoutbox|sidebar|sponsor|ad-break|agegate|pagination|pager|popup|tweet|twitter'</span><span class="token punctuation">,</span> re<span class="token punctuation">.</span>I<span class="token punctuation">)</span><span class="token punctuation">,</span> <span class="token string">'okMaybeItsACandidateRe'</span><span class="token punctuation">:</span> re<span class="token punctuation">.</span><span class="token builtin">compile</span><span class="token punctuation">(</span><span class="token string">'and|article|body|column|main|shadow'</span><span class="token punctuation">,</span> re<span class="token punctuation">.</span>I<span class="token punctuation">)</span><span class="token punctuation">,</span> <span class="token string">'positiveRe'</span><span class="token punctuation">:</span> re<span class="token punctuation">.</span><span class="token builtin">compile</span><span class="token punctuation">(</span><span class="token string">'article|body|content|entry|hentry|main|page|pagination|post|text|blog|story'</span><span class="token punctuation">,</span> re<span class="token punctuation">.</span>I<span class="token punctuation">)</span><span class="token punctuation">,</span> <span class="token string">'negativeRe'</span><span class="token punctuation">:</span> re<span class="token punctuation">.</span><span class="token builtin">compile</span><span class="token punctuation">(</span><span class="token string">'combx|comment|com-|contact|foot|footer|footnote|masthead|media|meta|outbrain|promo|related|scroll|shoutbox|sidebar|sponsor|shopping|tags|tool|widget'</span><span class="token punctuation">,</span> re<span class="token punctuation">.</span>I<span class="token punctuation">)</span><span class="token punctuation">,</span> <span class="token string">'divToPElementsRe'</span><span class="token punctuation">:</span> re<span class="token punctuation">.</span><span class="token builtin">compile</span><span class="token punctuation">(</span><span class="token string">'<(a|blockquote|dl|div|img|ol|p|pre|table|ul)'</span><span class="token punctuation">,</span> re<span class="token punctuation">.</span>I<span class="token punctuation">)</span><span class="token punctuation">,</span> <span class="token comment">#'replaceBrsRe': re.compile('(<br[^>]*>[ \n\r\t]*){2,}',re.I),</span> <span class="token comment">#'replaceFontsRe': re.compile('<(\/?)font[^>]*>',re.I),</span> <span class="token comment">#'trimRe': re.compile('^\s+|\s+$/'),</span> <span class="token comment">#'normalizeRe': re.compile('\s{2,}/'),</span> <span class="token comment">#'killBreaksRe': re.compile('(<br\s*\/?>(\s| ?)*){1,}/'),</span> <span class="token string">'videoRe'</span><span class="token punctuation">:</span> re<span class="token punctuation">.</span><span class="token builtin">compile</span><span class="token punctuation">(</span><span class="token string">'https?:\/\/(www\.)?(youtube|vimeo)\.com'</span><span class="token punctuation">,</span> re<span class="token punctuation">.</span>I<span class="token punctuation">)</span><span class="token punctuation">,</span> <span class="token comment">#skipFootnoteLink: /^\s*(\[?[a-z0-9]{1,2}\]?|^|edit|citation needed)\s*$/i,</span> <span class="token punctuation">}</span> </code></pre> <p>比如这里定义了 unlikelyCandidatesRe,就是不像 candidates 的 pattern,比如 foot、comment 等等,碰到这样的标签或 pattern 的话,在计算分数的时候都会减分,另外还有其他的 positiveRe、negativeRe 也是一样的原理,分别对匹配到的内容进行加分或者减分。</p> <p>这就是 Readability 的原理,是基于一些规则匹配的打分模型,很多规则其实来源于经验的累积,分数的计算规则应该也是不断地调优得出来的。</p> <p>另外其他的就没了,Readability 并没有提供提取时间、作者的方法,另外此种方法的准确率也是有限的,但多少还是省去了一些人工成本。</p> <h5>Newspaper</h5> <p>另外还有一个智能解析的库,叫做 Newspaper,提供的功能更强一些,但是准确率上个人感觉和 Readability 差不太多。</p> <p>这个库分为 Python2 和 Python3 两个版本,Python2 下的版本叫做 newspaper,Python3 下的版本叫做 newspaper3k,这里我们使用 Python3 版本来进行测试。</p> <p>其 GitHub 地址是:https://github.com/codelucas/newspaper,官方文档地址是:https://newspaper.readthedocs.io。</p> <p>在安装之前需要安装一些依赖库,可以参考官方的说明:https://github.com/codelucas/newspaper#get-it-now。</p> <p>安装好必要的依赖库之后,就可以使用 pip 安装了:</p> <pre><code class="prism language-py">pip3 install newspaper3k </code></pre> <p>安装成功之后便可以导入使用了。</p> <p>下面我们先用官方提供的实例来过一遍它的用法,官方提供的示例是使用了这个链接:https://fox13now.com/2013/12/30/new-year-new-laws-obamacare-pot-guns-and-drones/,其页面截图如下:</p> <p><a href="http://img.e-com-net.com/image/info8/f57543cd56694cf7b610d80c77210bb9.jpg" target="_blank"><img src="http://img.e-com-net.com/image/info8/f57543cd56694cf7b610d80c77210bb9.jpg" alt="python爬虫智能解析库详解_第8张图片" width="650" height="406" style="border:1px solid black;"></a><br> 下面用一个实例来感受一下:</p> <pre><code class="prism language-py"><span class="token keyword">from</span> newspaper <span class="token keyword">import</span> Article url <span class="token operator">=</span> <span class="token string">'https://fox13now.com/2013/12/30/new-year-new-laws-obamacare-pot-guns-and-drones/'</span> article <span class="token operator">=</span> Article<span class="token punctuation">(</span>url<span class="token punctuation">)</span> article<span class="token punctuation">.</span>download<span class="token punctuation">(</span><span class="token punctuation">)</span> <span class="token comment"># print('html:', article.html)</span> article<span class="token punctuation">.</span>parse<span class="token punctuation">(</span><span class="token punctuation">)</span> <span class="token keyword">print</span><span class="token punctuation">(</span><span class="token string">'authors:'</span><span class="token punctuation">,</span> article<span class="token punctuation">.</span>authors<span class="token punctuation">)</span> <span class="token keyword">print</span><span class="token punctuation">(</span><span class="token string">'date:'</span><span class="token punctuation">,</span> article<span class="token punctuation">.</span>publish_date<span class="token punctuation">)</span> <span class="token keyword">print</span><span class="token punctuation">(</span><span class="token string">'text:'</span><span class="token punctuation">,</span> article<span class="token punctuation">.</span>text<span class="token punctuation">)</span> <span class="token keyword">print</span><span class="token punctuation">(</span><span class="token string">'top image:'</span><span class="token punctuation">,</span> article<span class="token punctuation">.</span>top_image<span class="token punctuation">)</span> <span class="token keyword">print</span><span class="token punctuation">(</span><span class="token string">'movies:'</span><span class="token punctuation">,</span> article<span class="token punctuation">.</span>movies<span class="token punctuation">)</span> article<span class="token punctuation">.</span>nlp<span class="token punctuation">(</span><span class="token punctuation">)</span> <span class="token keyword">print</span><span class="token punctuation">(</span><span class="token string">'keywords:'</span><span class="token punctuation">,</span> article<span class="token punctuation">.</span>keywords<span class="token punctuation">)</span> <span class="token keyword">print</span><span class="token punctuation">(</span><span class="token string">'summary:'</span><span class="token punctuation">,</span> article<span class="token punctuation">.</span>summary<span class="token punctuation">)</span> </code></pre> <p>这里从 newspaper 库里面先导入了 Article 这个类,然后直接传入 url 即可,首先需要调用它的 download 方法,将网页爬取下来,否则直接进行解析会抛出错误的。</p> <p>好的,然后我们再执行 parse 方法进行网页的智能解析,这个功能就比较全了,能解析 authors、publish_date、text 等等,除了正文还能解析作者、发布时间等等。</p> <p>另外这个库还提供了一些 NLP 的方法,比如获取关键词、获取文本摘要等等,在使用前需要先执行以下 nlp 方法。</p> <p>最后运行结果如下:</p> <pre><code class="prism language-py">authors<span class="token punctuation">:</span> <span class="token punctuation">[</span><span class="token string">'Cnn Wire'</span><span class="token punctuation">]</span> date<span class="token punctuation">:</span> <span class="token number">2013</span><span class="token operator">-</span><span class="token number">12</span><span class="token operator">-</span><span class="token number">30</span> <span class="token number">00</span><span class="token punctuation">:</span><span class="token number">00</span><span class="token punctuation">:</span><span class="token number">00</span> text<span class="token punctuation">:</span> By Leigh Ann Caldwell WASHINGTON <span class="token punctuation">(</span>CNN<span class="token punctuation">)</span> — Not everyone subscribes to a New Year’s resolution<span class="token punctuation">,</span> but Americans will be required to follow new laws <span class="token keyword">in</span> <span class="token number">2014</span><span class="token punctuation">.</span> Some <span class="token number">40</span><span class="token punctuation">,</span><span class="token number">000</span> measures taking effect <span class="token builtin">range</span> <span class="token keyword">from</span> sweeping<span class="token punctuation">,</span> national mandates under Obamacare to marijuana legalization <span class="token keyword">in</span> Colorado<span class="token punctuation">,</span> drone prohibition <span class="token keyword">in</span> Illinois <span class="token operator">and</span> transgender protections <span class="token keyword">in</span> California<span class="token punctuation">.</span> Although many new laws are controversial<span class="token punctuation">,</span> they made it through legislatures<span class="token punctuation">,</span> public referendum <span class="token operator">or</span> city councils <span class="token operator">and</span> represent the shifting composition of American beliefs<span class="token punctuation">.</span> <span class="token punctuation">.</span><span class="token punctuation">.</span><span class="token punctuation">.</span> <span class="token punctuation">.</span><span class="token punctuation">.</span><span class="token punctuation">.</span> Colorado<span class="token punctuation">:</span> Marijuana becomes legal <span class="token keyword">in</span> the state <span class="token keyword">for</span> buyers over <span class="token number">21</span> at a licensed retail dispensary<span class="token punctuation">.</span> <span class="token punctuation">(</span>Sourcing<span class="token punctuation">:</span> much of this <span class="token builtin">list</span> was obtained <span class="token keyword">from</span> the National Conference of State Legislatures<span class="token punctuation">)</span><span class="token punctuation">.</span> top image<span class="token punctuation">:</span> https<span class="token punctuation">:</span><span class="token operator">//</span>localtvkstu<span class="token punctuation">.</span>files<span class="token punctuation">.</span>wordpress<span class="token punctuation">.</span>com<span class="token operator">/</span><span class="token number">2012</span><span class="token operator">/</span><span class="token number">04</span><span class="token operator">/</span>national<span class="token operator">-</span>news<span class="token operator">-</span>e1486938949489<span class="token punctuation">.</span>jpg?quality<span class="token operator">=</span><span class="token number">85</span><span class="token operator">&</span>strip<span class="token operator">=</span><span class="token builtin">all</span> movies<span class="token punctuation">:</span> <span class="token punctuation">[</span><span class="token punctuation">]</span> keywords<span class="token punctuation">:</span> <span class="token punctuation">[</span><span class="token string">'drones'</span><span class="token punctuation">,</span> <span class="token string">'national'</span><span class="token punctuation">,</span> <span class="token string">'guns'</span><span class="token punctuation">,</span> <span class="token string">'wage'</span><span class="token punctuation">,</span> <span class="token string">'law'</span><span class="token punctuation">,</span> <span class="token string">'pot'</span><span class="token punctuation">,</span> <span class="token string">'leave'</span><span class="token punctuation">,</span> <span class="token string">'family'</span><span class="token punctuation">,</span> <span class="token string">'states'</span><span class="token punctuation">,</span> <span class="token string">'state'</span><span class="token punctuation">,</span> <span class="token string">'latest'</span><span class="token punctuation">,</span> <span class="token string">'obamacare'</span><span class="token punctuation">,</span> <span class="token string">'minimum'</span><span class="token punctuation">,</span> <span class="token string">'laws'</span><span class="token punctuation">]</span> summary<span class="token punctuation">:</span> Oregon<span class="token punctuation">:</span> Family leave <span class="token keyword">in</span> Oregon has been expanded to allow eligible employees two weeks of paid leave to handle the death of a family member<span class="token punctuation">.</span> Arkansas<span class="token punctuation">:</span> The state becomes the latest state requiring voters show a picture ID at the voting booth<span class="token punctuation">.</span> Minimum wage <span class="token operator">and</span> former felon employmentWorkers <span class="token keyword">in</span> <span class="token number">13</span> states <span class="token operator">and</span> four cities will see increases to the minimum wage<span class="token punctuation">.</span> New Jersey residents voted to <span class="token keyword">raise</span> the state’s minimum wage by $<span class="token number">1</span> to $<span class="token number">8.25</span> per hour<span class="token punctuation">.</span> California <span class="token keyword">is</span> also raising its minimum wage to $<span class="token number">9</span> per hour<span class="token punctuation">,</span> but workers must wait until July to see the addition<span class="token punctuation">.</span> </code></pre> <p>这里省略了一些输出结果。</p> <p>可以看到作者、日期、正文、关键词、标签、缩略图等信息都被打印出来了,还算是不错的。</p> <p>但这个毕竟是官方的实例,肯定是好的,我们再测试一下刚才的例子,看看效果如何,网址还是:https://tech.163.com/19/0909/08/EOKA3CFB00097U7S.html,改写代码如下:</p> <pre><code class="prism language-py"><span class="token keyword">from</span> newspaper <span class="token keyword">import</span> Article url <span class="token operator">=</span> <span class="token string">'https://tech.163.com/19/0909/08/EOKA3CFB00097U7S.html'</span> article <span class="token operator">=</span> Article<span class="token punctuation">(</span>url<span class="token punctuation">,</span> language<span class="token operator">=</span><span class="token string">'zh'</span><span class="token punctuation">)</span> article<span class="token punctuation">.</span>download<span class="token punctuation">(</span><span class="token punctuation">)</span> <span class="token comment"># print('html:', article.html)</span> article<span class="token punctuation">.</span>parse<span class="token punctuation">(</span><span class="token punctuation">)</span> <span class="token keyword">print</span><span class="token punctuation">(</span><span class="token string">'authors:'</span><span class="token punctuation">,</span> article<span class="token punctuation">.</span>authors<span class="token punctuation">)</span> <span class="token keyword">print</span><span class="token punctuation">(</span><span class="token string">'title:'</span><span class="token punctuation">,</span> article<span class="token punctuation">.</span>title<span class="token punctuation">)</span> <span class="token keyword">print</span><span class="token punctuation">(</span><span class="token string">'date:'</span><span class="token punctuation">,</span> article<span class="token punctuation">.</span>publish_date<span class="token punctuation">)</span> <span class="token keyword">print</span><span class="token punctuation">(</span><span class="token string">'text:'</span><span class="token punctuation">,</span> article<span class="token punctuation">.</span>text<span class="token punctuation">)</span> <span class="token keyword">print</span><span class="token punctuation">(</span><span class="token string">'top image:'</span><span class="token punctuation">,</span> article<span class="token punctuation">.</span>top_image<span class="token punctuation">)</span> <span class="token keyword">print</span><span class="token punctuation">(</span><span class="token string">'movies:'</span><span class="token punctuation">,</span> article<span class="token punctuation">.</span>movies<span class="token punctuation">)</span> article<span class="token punctuation">.</span>nlp<span class="token punctuation">(</span><span class="token punctuation">)</span> <span class="token keyword">print</span><span class="token punctuation">(</span><span class="token string">'keywords:'</span><span class="token punctuation">,</span> article<span class="token punctuation">.</span>keywords<span class="token punctuation">)</span> <span class="token keyword">print</span><span class="token punctuation">(</span><span class="token string">'summary:'</span><span class="token punctuation">,</span> article<span class="token punctuation">.</span>summary<span class="token punctuation">)</span> </code></pre> <p>这里我们将链接换成了新闻的链接,另外在 Article 初始化的时候还加了一个参数 language,其值为 zh,代表中文。</p> <p>然后我们看下运行结果:</p> <pre><code class="prism language-py">Building prefix <span class="token builtin">dict</span> <span class="token keyword">from</span> <span class="token operator">/</span>usr<span class="token operator">/</span>local<span class="token operator">/</span>lib<span class="token operator">/</span>python3<span class="token punctuation">.</span><span class="token number">7</span><span class="token operator">/</span>site<span class="token operator">-</span>packages<span class="token operator">/</span>jieba<span class="token operator">/</span><span class="token builtin">dict</span><span class="token punctuation">.</span>txt <span class="token punctuation">.</span><span class="token punctuation">.</span><span class="token punctuation">.</span> Dumping model to <span class="token builtin">file</span> cache <span class="token operator">/</span>var<span class="token operator">/</span>folders<span class="token operator">/</span>1g<span class="token operator">/</span>l2xlw12x6rncs2p9kh5swpmw0000gn<span class="token operator">/</span>T<span class="token operator">/</span>jieba<span class="token punctuation">.</span>cache Loading model cost <span class="token number">1.7178938388824463</span> seconds<span class="token punctuation">.</span> Prefix <span class="token builtin">dict</span> has been built succesfully<span class="token punctuation">.</span> authors<span class="token punctuation">:</span> <span class="token punctuation">[</span><span class="token punctuation">]</span> title<span class="token punctuation">:</span> 今年iPhone只有小改进?分析师:还有其他亮点 date<span class="token punctuation">:</span> <span class="token number">2019</span><span class="token operator">-</span><span class="token number">09</span><span class="token operator">-</span><span class="token number">09</span> <span class="token number">08</span><span class="token punctuation">:</span><span class="token number">10</span><span class="token punctuation">:</span><span class="token number">26</span><span class="token operator">+</span><span class="token number">08</span><span class="token punctuation">:</span><span class="token number">00</span> text<span class="token punctuation">:</span> (原标题:Apple Bets More Cameras Can Keep iPhone Humming) 图示:苹果首席执行官蒂姆·库克<span class="token punctuation">(</span>Tim Cook<span class="token punctuation">)</span>在<span class="token number">6</span>月份举行的苹果全球开发者大会上。 网易科技讯 <span class="token number">9</span>月<span class="token number">9</span>日消息,据国外媒体报道,和过去的<span class="token number">12</span>个年头一样,新款iPhone将成为苹果公司本周所举行年度宣传活动的主角。但人们的注意力正转向需要推动增长的其他苹果产品和服务。 <span class="token punctuation">.</span><span class="token punctuation">.</span><span class="token punctuation">.</span> <span class="token punctuation">.</span><span class="token punctuation">.</span><span class="token punctuation">.</span> Strategy Analytics的尼尔·莫斯顿<span class="token punctuation">(</span>Neil Mawston<span class="token punctuation">)</span>表示,可穿戴设备和服务的结合将是苹果业务超越iPhone的关键。他说,上一家手机巨头诺基亚公司在试图进行类似业务转型时就陷入了困境之中。(辰辰) 相关报道: iPhone <span class="token number">11</span>背部苹果Logo改为居中:为反向无线充电 <span class="token number">2019</span>年新iPhone传言汇总,你觉得哪些能成真 top image<span class="token punctuation">:</span> https<span class="token punctuation">:</span><span class="token operator">//</span>www<span class="token punctuation">.</span><span class="token number">163.</span>com<span class="token operator">/</span>favicon<span class="token punctuation">.</span>ico movies<span class="token punctuation">:</span> <span class="token punctuation">[</span><span class="token punctuation">]</span> keywords<span class="token punctuation">:</span> <span class="token punctuation">[</span><span class="token string">'trust高级投资组合经理丹摩根dan'</span><span class="token punctuation">,</span> <span class="token string">'iphone'</span><span class="token punctuation">,</span> <span class="token string">'mawston表示可穿戴设备和服务的结合将是苹果业务超越iphone的关键他说上一家手机巨头诺基亚公司在试图进行类似业务转型时就陷入了困境之中辰辰相关报道iphone'</span><span class="token punctuation">,</span> <span class="token string">'xs的销售疲软状况迫使苹果在1月份下调了业绩预期这是逾15年来的第一次据贸易公司susquehanna'</span><span class="token punctuation">,</span> <span class="token string">'xs机型发布后那种令人失望的业绩重演iphone'</span><span class="token punctuation">,</span> <span class="token string">'今年iphone只有小改进分析师还有其他亮点'</span><span class="token punctuation">,</span> <span class="token string">'more'</span><span class="token punctuation">,</span> <span class="token string">'xr和iphone'</span><span class="token punctuation">,</span> <span class="token string">'morgan说他们现在没有任何真正深入的进展只是想继续让iphone这款业务继续转下去他乐观地认为今年发布的新款手机将有足够多的新功能为一个非常成熟的产品增加额外的功能让火车继续前进这种仅限于此的态度说明了苹果自2007年发布首款iphone以来所面临的挑战iphone销售占苹果公司总营收的一半以上这让苹果陷入了一个尴尬的境地既要维持核心产品的销量另一方面又需要减少对它的依赖瑞银ubs今年5月份对8000名智能手机用户进行了相关调查其发布的年度全球调查报告显示最近iphone在人脸识别技术等方面的进步并没有引起一些消费者的共鸣他们基本上都认为苹果产品没有过去几年那么独特或者惊艳品牌也没有过去几年那么有吸引力很多人使用老款手机的时间更长自己认为也没有必要升级到平均售价949美元的新款iphone苹果需要在明年销售足够多的iphone以避免像去年9月份iphone'</span><span class="token punctuation">,</span> <span class="token string">'keep'</span><span class="token punctuation">,</span> <span class="token string">'原标题apple'</span><span class="token punctuation">]</span> summary<span class="token punctuation">:</span> (原标题:Apple Bets More Cameras Can Keep iPhone Humming)图示:苹果首席执行官蒂姆·库克<span class="token punctuation">(</span>Tim Cook<span class="token punctuation">)</span>在<span class="token number">6</span>月份举行的苹果全球开发者大会上。网易科技讯 <span class="token number">9</span>月<span class="token number">9</span>日消息,据国外媒体报道,和过去的<span class="token number">12</span>个年头一样,新款iPhone将成为苹果公司本周所举行<span class="token punctuation">.</span><span class="token punctuation">.</span><span class="token punctuation">.</span>亚公司在试图进行类似业务转型时就陷入了困境之中。(辰辰)相关报道:iPhone <span class="token number">11</span>背部苹果Logo改为居中:为反向无线充电<span class="token number">2019</span>年新iPhone传言汇总,你觉得哪些能成真 </code></pre> <p>中间正文很长省略了一部分,可以看到运行时首先加载了一些中文的库包,比如 jieba 所依赖的词表等等。</p> <p>解析结果中,日期的确是解析对了,因为这个日期格式的的确比较规整,但这里还自动给我们加了东八区的时区,贴心了。作者没有提取出来,可能是没匹配到 来源 两个字吧,或者词库里面没有,标题、正文的提取还算比较正确,也或许这个案例的确是比较简单。</p> <p>以上便是 Readability 和 Newspaper 的介绍。</p> </div> </div> </div> </div> </div> <!--PC和WAP自适应版--> <div id="SOHUCS" sid="1743481349232148480"></div> <script type="text/javascript" src="/views/front/js/chanyan.js"></script> <!-- 文章页-底部 动态广告位 --> <div class="youdao-fixed-ad" id="detail_ad_bottom"></div> </div> <div class="col-md-3"> <div class="row" id="ad"> <!-- 文章页-右侧1 动态广告位 --> <div id="right-1" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_1"> </div> </div> <!-- 文章页-右侧2 动态广告位 --> <div id="right-2" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_2"></div> </div> <!-- 文章页-右侧3 动态广告位 --> <div id="right-3" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_3"></div> </div> </div> </div> </div> </div> </div> <div class="container"> <h4 class="pt20 mb15 mt0 border-top">你可能感兴趣的:(爬虫(urllib),python爬虫,智能解析,Readability,Newspaper,Diffbot)</h4> <div id="paradigm-article-related"> <div class="recommend-post mb30"> <ul class="widget-links"> <li><a href="/article/1899490864808390656.htm" title="python男孩_python爬虫:爬取男生喜欢的图片" target="_blank">python男孩_python爬虫:爬取男生喜欢的图片</a> <span class="text-muted">weixin_39971138</span> <a class="tag" taget="_blank" href="/search/python%E7%94%B7%E5%AD%A9/1.htm">python男孩</a> <div>前言需要Python源码、PDF、视频资料可以点击下方链接获取http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cef任务目标:1.抓取不同类型的图片2.编写一个GUI界面爬虫程序,打包成exe重新文件3.遇到的难点1.分析如何抓取不同类型的图片首先打开网站,可以看到有如下6个类型的菜单在这里插入图片描述点击不同菜单,</div> </li> <li><a href="/article/1899490360510443520.htm" title="cefsharp 带cookie访问_Python爬虫:scrapy之Cookie和Session" target="_blank">cefsharp 带cookie访问_Python爬虫:scrapy之Cookie和Session</a> <span class="text-muted">长虹万贯</span> <a class="tag" taget="_blank" href="/search/cefsharp/1.htm">cefsharp</a><a class="tag" taget="_blank" href="/search/%E5%B8%A6cookie%E8%AE%BF%E9%97%AE/1.htm">带cookie访问</a> <div>关于cookie和session估计很多程序员面试的时候都会被问到,这两个概念在写web以及爬虫中都会涉及,并且两者可能很多人直接回答也不好说的特别清楚,所以整理这样一篇文章,也帮助自己加深理解什么是Cookie其实简单的说就是当用户通过http协议访问一个服务器的时候,这个服务器会将一些Name/Value键值对返回给客户端浏览器,并将这些数据加上一些限制条件。在条件符合时,这个用户下次再访问服</div> </li> <li><a href="/article/1899485821086527488.htm" title="Python爬虫学习(一)——爬取新浪新闻" target="_blank">Python爬虫学习(一)——爬取新浪新闻</a> <span class="text-muted">WayBling</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a> <div>参照网易云课堂的课程实践的结果:准备工作:安装requests和BeautifulSoup4。打开cmd,输入如下命令pipinstallrequestspipinstallBeautifulSoup4打开我们要爬取的页面,这里以新浪新闻为例,地址为:http://news.sina.com.cn/china/大概的思路就是通过浏览器的开发者工具检测到要获取数据所需要的request是什么,然后使</div> </li> <li><a href="/article/1899483169191686144.htm" title="Microsoft SQL Server 2012(附序列号)" target="_blank">Microsoft SQL Server 2012(附序列号)</a> <span class="text-muted">曹瑞曹瑞</span> <div>MicrosoftSQLServer2012是微软发布的新一代数据平台产品。SQLServer2012不仅延续现有数据平台的强大能力,全面支持云技术与平台,并且能够快速构建相应的解决方案实现私有云与公有云之间数据的扩展与应用的迁移。SQLServer2012提供对企业基础架构最高级别的支持—专门针对关键业务应用的多种功能与解决方案可以提供最高级别的可用性及性能。在业界领先的商业智能领领域,SQLS</div> </li> <li><a href="/article/1899480013573517312.htm" title="探索未来:FacebookResearch的JEPa项目详解" target="_blank">探索未来:FacebookResearch的JEPa项目详解</a> <span class="text-muted">瞿旺晟</span> <div>探索未来:FacebookResearch的JEPa项目详解去发现同类优质开源项目:https://gitcode.com/项目简介是FacebookResearch推出的一个开源项目,全称为"JointEmbeddingofProgramsandAttributes"。它是一个用于程序理解和属性预测的深度学习框架,旨在提升代码的理解和自动化程度,为开发者提供更智能的编程辅助工具。技术分析**1.</div> </li> <li><a href="/article/1899476231749955584.htm" title="OPPO机器学习算法岗(AI智能体)内推" target="_blank">OPPO机器学习算法岗(AI智能体)内推</a> <span class="text-muted">飞300</span> <a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a><a class="tag" taget="_blank" href="/search/%E4%B8%9A%E7%95%8C%E8%B5%84%E8%AE%AF/1.htm">业界资讯</a> <div>专注于以端设备为中心的AI智能体研究与应用,研究方向包括但不限于智能体与多智能体框架、大模型推理与规划、大模型工具使用等。1、负责大模型驱动的AI智能体框架的实现、评估与优化,并参与构建产品原型;2、设计微调方案、适配算法和调优工程方案,结合智能体应用,实现最佳效果与性能;3、跟踪与研究AI智能体相关前沿技术,并针对大模型推理与规划、工具使用、结构化输出等提出创新性方案。推荐码:X3448036</div> </li> <li><a href="/article/1899475347011858432.htm" title="人工智能混合编程实践:C++调用Python ONNX进行YOLOv8推理" target="_blank">人工智能混合编程实践:C++调用Python ONNX进行YOLOv8推理</a> <span class="text-muted">FriendshipT</span> <a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD%E6%B7%B7%E5%90%88%E7%BC%96%E7%A8%8B%E5%AE%9E%E8%B7%B5/1.htm">人工智能混合编程实践</a><a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a><a class="tag" taget="_blank" href="/search/c%2B%2B/1.htm">c++</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/YOLO/1.htm">YOLO</a><a class="tag" taget="_blank" href="/search/ONNX/1.htm">ONNX</a><a class="tag" taget="_blank" href="/search/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B/1.htm">目标检测</a> <div>人工智能混合编程实践:C++调用PythonONNX进行YOLOv8推理前言相关介绍Python简介C++简介ONNX简介YOLOv8简介前提条件实验环境项目结构C++调用PythonONNX进行YOLOv8推理C++调用Python的相关dll代码framework.hpch.hcxx_pythonModule.hdllmain.cpppch.cppcxx_pythonModule.cppC++</div> </li> <li><a href="/article/1899474465549512704.htm" title="2025年工业智能对讲机有多智能?数据采集+AI不在话下!" target="_blank">2025年工业智能对讲机有多智能?数据采集+AI不在话下!</a> <span class="text-muted">AORO_BEIDOU</span> <a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a><a class="tag" taget="_blank" href="/search/%E4%BF%A1%E6%81%AF%E4%B8%8E%E9%80%9A%E4%BF%A1/1.htm">信息与通信</a><a class="tag" taget="_blank" href="/search/%E6%99%BA%E8%83%BD%E6%89%8B%E6%9C%BA/1.htm">智能手机</a><a class="tag" taget="_blank" href="/search/%E5%AE%89%E5%85%A8/1.htm">安全</a><a class="tag" taget="_blank" href="/search/%E7%BD%91%E7%BB%9C/1.htm">网络</a> <div>在工业通信领域,对讲机始终是不可替代的即时交互工具。但传统设备仅能实现基础语音传输的局限性,已难以满足现代工业对效率与智能化的需求。遨游通讯推出的新一代智能对讲机,凭借DeepSeek本地化部署与模块化数据采集能力,实现了语音交互的智能升级,并通过红外热成像、NFC、工业内窥镜等专业模块的深度融合,构建起覆盖现场感知、数据分析与决策支持的闭环体系。AOROM55G智能对讲机传统的对讲机往往只能进行</div> </li> <li><a href="/article/1899469928864477184.htm" title="基于Python的新闻网站内容爬取与分析:从数据获取到文本挖掘的完整指南" target="_blank">基于Python的新闻网站内容爬取与分析:从数据获取到文本挖掘的完整指南</a> <span class="text-muted">Python爬虫项目</span> <a class="tag" taget="_blank" href="/search/2025%E5%B9%B4%E7%88%AC%E8%99%AB%E5%AE%9E%E6%88%98%E9%A1%B9%E7%9B%AE/1.htm">2025年爬虫实战项目</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/oracle/1.htm">oracle</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98/1.htm">数据挖掘</a> <div>引言在当今信息化社会,新闻成为我们获取世界信息的重要途径。通过新闻网站,用户能够快速了解时事热点、政治、经济、娱乐等各类信息。随着技术的发展,获取新闻数据已经变得越来越简单。我们可以利用Python编写爬虫程序,自动化地从新闻网站上抓取最新的新闻内容,并进行进一步的分析,如情感分析、关键词提取、热点话题分析等。本篇博客将为你详细介绍如何使用Python爬虫技术从新闻网站抓取最新新闻,并进行分析。我</div> </li> <li><a href="/article/1899466651682795520.htm" title="Deepseek结合AnythingLLM搭建个人本地智能知识库" target="_blank">Deepseek结合AnythingLLM搭建个人本地智能知识库</a> <span class="text-muted">曲幽</span> <a class="tag" taget="_blank" href="/search/AI/1.htm">AI</a><a class="tag" taget="_blank" href="/search/%E8%AE%A1%E7%AE%97%E6%9C%BA/1.htm">计算机</a><a class="tag" taget="_blank" href="/search/deepseek/1.htm">deepseek</a><a class="tag" taget="_blank" href="/search/ai/1.htm">ai</a><a class="tag" taget="_blank" href="/search/%E5%A4%A7%E6%A8%A1%E5%9E%8B/1.htm">大模型</a><a class="tag" taget="_blank" href="/search/ollama/1.htm">ollama</a><a class="tag" taget="_blank" href="/search/anythingllm/1.htm">anythingllm</a><a class="tag" taget="_blank" href="/search/%E6%9C%AC%E5%9C%B0%E7%9F%A5%E8%AF%86%E5%BA%93/1.htm">本地知识库</a> <div>之前通过Ollama搭建了本地Deepseek大模型对话机制,但知识点仅限于Deepseek内部的数据,且目前数据截止时间为2024年7月,如果我们询问一些专业性比较强的内容,则Deepseek也显得无能为力,这就需要再给这个大脑外接一些文档数据了,通过AnythingLLM来Embedding外部文档。更多内容,可关注公众号“一名程序媛”,我们一起从0-1学编程1下载安装AnythingLLM有</div> </li> <li><a href="/article/1899464383860371456.htm" title="《物联网安全特辑:从智能设备到工业控制系统的攻防博弈》" target="_blank">《物联网安全特辑:从智能设备到工业控制系统的攻防博弈》</a> <span class="text-muted">程序员没睡醒</span> <a class="tag" taget="_blank" href="/search/%E7%BD%91%E7%BB%9C%E5%AE%89%E5%85%A8/1.htm">网络安全</a><a class="tag" taget="_blank" href="/search/%E7%89%A9%E8%81%94%E7%BD%91/1.htm">物联网</a><a class="tag" taget="_blank" href="/search/%E5%AE%89%E5%85%A8/1.htm">安全</a><a class="tag" taget="_blank" href="/search/%E7%89%A9%E8%81%94%E7%BD%91%E5%AE%89%E5%85%A8/1.htm">物联网安全</a><a class="tag" taget="_blank" href="/search/%E5%9B%BA%E4%BB%B6%E5%88%86%E6%9E%90/1.htm">固件分析</a><a class="tag" taget="_blank" href="/search/%E5%B7%A5%E6%8E%A7%E7%B3%BB%E7%BB%9F/1.htm">工控系统</a> <div>设备分层威胁模型感知层传感器数据篡改网络层无线协议劫持平台层云API滥用应用层移动APP逆向设备控制权夺取0x01固件逆向:解剖设备的灵魂固件提取三板斧方法1:OTA升级包捕获#使用Wireshark过滤HTTP流量tshark-ieth0-Y"http.request.uricontainsfirmware"-wfirmware.pcap目的:截取设备升级时的固件传输流量方法2:Flash芯片硬</div> </li> <li><a href="/article/1899461861636632576.htm" title="绿色算力网络构建与智能调度实践" target="_blank">绿色算力网络构建与智能调度实践</a> <span class="text-muted">智能计算研究中心</span> <a class="tag" taget="_blank" href="/search/%E5%85%B6%E4%BB%96/1.htm">其他</a> <div>内容概要绿色算力网络的构建需以能效优化为核心,通过智能调度系统实现算力资源的高效整合与动态分配。当前架构设计包含三大核心模块:异构计算集群(涵盖GPU、FPGA及量子计算单元)、跨区域网络互联协议(适配东数西算的传输需求)以及能耗监测平台(基于实时数据建模的碳足迹追踪)。下表示例展示了典型算力节点的关键参数对比:节点类型计算密度(TFLOPS/m²)功耗比(TOPS/W)延迟控制(ms)量子计算集</div> </li> <li><a href="/article/1899461608892067840.htm" title="智能算法安全与跨领域创新实践" target="_blank">智能算法安全与跨领域创新实践</a> <span class="text-muted">智能计算研究中心</span> <a class="tag" taget="_blank" href="/search/%E5%85%B6%E4%BB%96/1.htm">其他</a> <div>内容概要在智能算法快速渗透各行业的背景下,安全治理与技术创新已成为驱动跨领域应用的核心议题。当前研究重点围绕算法可解释性增强、动态风险评估及数据安全防护展开,通过融合联邦学习的分布式协作框架、量子计算的算力突破以及注意力机制的特征聚焦能力,构建起多模态技术融合的创新路径。在应用场景层面,医疗影像诊断、金融风险预测与自动驾驶系统等关键领域已形成算法效能与安全性的双重验证体系,其中超参数优化、特征工程</div> </li> <li><a href="/article/1899461230087696384.htm" title="算力安全创新驱动未来趋势endofsentence" target="_blank">算力安全创新驱动未来趋势endofsentence</a> <span class="text-muted">智能计算研究中心</span> <a class="tag" taget="_blank" href="/search/%E5%85%B6%E4%BB%96/1.htm">其他</a> <div>内容概要算力安全与技术创新正在重塑全球算力生态,其核心驱动力来自异构计算、边缘计算及量子计算等前沿技术的深度融合。当前算力架构正经历从集中式向分布式演进,通过异构加速芯片、动态资源调度算法及绿色能效优化,显著提升算力基础设施的可扩展性与可靠性。例如,异构计算通过CPU、GPU、FPGA的协同加速,使复杂模型训练效率提升40%以上。关键数据:根据IDC预测,到2025年全球智能算力需求将增长30倍,</div> </li> <li><a href="/article/1899461102887038976.htm" title="RTX4070Ti巅峰性能与温控揭秘" target="_blank">RTX4070Ti巅峰性能与温控揭秘</a> <span class="text-muted">智能计算研究中心</span> <a class="tag" taget="_blank" href="/search/%E5%85%B6%E4%BB%96/1.htm">其他</a> <div>内容概要作为NVIDIAAdaLovelace架构的旗舰产品之一,RTX4070Ti通过全新的流式多处理器与第三代RTCore实现了运算效能的跃升。本文将从核心架构创新、实机性能表现及散热技术突破三大维度展开分析:首先解析DLSS3帧生成技术对4K分辨率下光线追踪游戏帧率的提升效果,通过《赛博朋克2077》《瘟疫传说:安魂曲》等主流3A大作的实测数据验证其动态表现;其次拆解三槽厚度散热模组的设计逻</div> </li> <li><a href="/article/1899461103293886464.htm" title="H800实战应用深度解析endofsentence" target="_blank">H800实战应用深度解析endofsentence</a> <span class="text-muted">智能计算研究中心</span> <a class="tag" taget="_blank" href="/search/%E5%85%B6%E4%BB%96/1.htm">其他</a> <div>内容概要H800作为新一代计算架构的核心组件,其设计理念聚焦于高性能计算与人工智能场景的深度融合。通过模块化异构计算架构,H800实现了计算密度与能效比的突破性提升。下表展示了H800在不同场景下的性能表现对比:场景类型训练速度提升推理延迟降低能效比提升自然语言处理35%22%40%计算机视觉28%18%33%推荐系统41%29%37%资深系统架构师指出:"H800的异构计算架构在模型并行处理方面</div> </li> <li><a href="/article/1899461103788814336.htm" title="DeepSeek高效AI创作成本革新endofsentence" target="_blank">DeepSeek高效AI创作成本革新endofsentence</a> <span class="text-muted">智能计算研究中心</span> <a class="tag" taget="_blank" href="/search/%E5%85%B6%E4%BB%96/1.htm">其他</a> <div>内容概要DeepSeek作为新一代智能创作平台,其核心技术突破体现在混合专家架构(MoE)与670亿参数的深度融合。该系统通过多任务联合训练框架,在自然语言理解、代码生成和跨模态处理方面展现出显著优势。其混合专家架构采用动态路由机制,实现参数利用率提升40%以上,在保持模型容量的同时将推理成本降低68%。在代码生成任务中,DeepSeekCoder在HumanEval基准测试中达到83.1%的准确</div> </li> <li><a href="/article/1899453669699547136.htm" title="STM32实时时钟(RTC)代码深度解析 | 零基础入门STM32第三十九步" target="_blank">STM32实时时钟(RTC)代码深度解析 | 零基础入门STM32第三十九步</a> <span class="text-muted">触角01010001</span> <a class="tag" taget="_blank" href="/search/STM32/1.htm">STM32</a><a class="tag" taget="_blank" href="/search/stm32/1.htm">stm32</a><a class="tag" taget="_blank" href="/search/%E5%8D%95%E7%89%87%E6%9C%BA/1.htm">单片机</a><a class="tag" taget="_blank" href="/search/%E5%B5%8C%E5%85%A5%E5%BC%8F%E7%A1%AC%E4%BB%B6/1.htm">嵌入式硬件</a> <div>主题内容教学目的/扩展视频RTC时钟的使用重点课程RTC时钟的原理,电路原理分析,固件库分析,驱动程序分析。在超级终端上显示时钟。做可修改的超级终端显示RTC的项目。师从洋桃电子,杜洋老师文章目录一、RTC初始化流程分析1.1时钟与备份域配置1.2初始化检测机制二、时间处理核心算法2.1闰年判断算法2.2时间戳转换(Unix时间)三、时间读取与转换3.1读取计数器值3.2星期计算算法四、中断处理机</div> </li> <li><a href="/article/1899453543249670144.htm" title="STM32固件库文件调用原理详解 | 零基础入门STM32第二十二步" target="_blank">STM32固件库文件调用原理详解 | 零基础入门STM32第二十二步</a> <span class="text-muted">触角01010001</span> <a class="tag" taget="_blank" href="/search/STM32/1.htm">STM32</a><a class="tag" taget="_blank" href="/search/stm32/1.htm">stm32</a><a class="tag" taget="_blank" href="/search/%E5%B5%8C%E5%85%A5%E5%BC%8F%E7%A1%AC%E4%BB%B6/1.htm">嵌入式硬件</a><a class="tag" taget="_blank" href="/search/%E5%8D%95%E7%89%87%E6%9C%BA/1.htm">单片机</a> <div>主题内容教学目的/扩展视频固件库介绍什么是固件库,固件库下载,各文件夹介绍对固件库有基础的印象即可。师从洋桃电子,杜洋老师文章目录一、固件库的核心组成1.启动代码(StartupFiles)2.内核相关程序(CMSIS层)3.外设驱动库(StdPeriph_Driver)二、文件调用原理剖析1.启动流程全景图2.外设驱动调用实例3.文档手册的关键作用三、工程文件结构解析四、头文件的桥梁作用五、结语</div> </li> <li><a href="/article/1899449507951734784.htm" title="报表DSL优化,享元模式优化过程,优化效果怎么样?" target="_blank">报表DSL优化,享元模式优化过程,优化效果怎么样?</a> <span class="text-muted">蒂法就是我</span> <a class="tag" taget="_blank" href="/search/%E4%BA%AB%E5%85%83%E6%A8%A1%E5%BC%8F/1.htm">享元模式</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%89%8D%E7%AB%AF/1.htm">前端</a> <div>报表DSL优化与享元模式应用详解一、报表DSL优化1.问题背景报表系统通常使用领域特定语言(DSL)定义模板结构、数据绑定规则及样式配置。随着复杂度提升,DSL可能面临以下问题:冗余配置:重复定义样式、布局或数据源。解析效率低:嵌套层级过深或语法冗余导致解析耗时增加。维护困难:DSL文件臃肿,难以快速定位问题。2.优化策略结构扁平化:减少嵌套层级,通过引用机制复用公共配置块。#优化前(嵌套冗余)t</div> </li> <li><a href="/article/1899447744515338240.htm" title="数学建模与图形建模资源全解析" target="_blank">数学建模与图形建模资源全解析</a> <span class="text-muted">点我头像干啥</span> <a class="tag" taget="_blank" href="/search/Ai/1.htm">Ai</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E5%AD%A6%E5%BB%BA%E6%A8%A1/1.htm">数学建模</a><a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0/1.htm">深度学习</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98/1.htm">数据挖掘</a><a class="tag" taget="_blank" href="/search/%E5%88%86%E7%B1%BB/1.htm">分类</a> <div>引言在当今的数据驱动时代,数学建模与图形建模已成为解决复杂问题、揭示数据内在规律的重要工具。无论是科学研究、工程设计,还是商业分析、决策支持,建模技术都发挥着举足轻重的作用。本文旨在为数学建模与图形建模的初学者及进阶者提供一份详尽的资源指南,涵盖软件工具、学习资料、在线课程、社区论坛等多个方面,帮助大家更好地掌握这些技能。一、数学建模资源概览1.数学建模软件工具数学建模离不开强大的软件支持。以下是</div> </li> <li><a href="/article/1899447742598541312.htm" title="探索IT世界的宝藏:优质资源推荐与深度解析" target="_blank">探索IT世界的宝藏:优质资源推荐与深度解析</a> <span class="text-muted">点我头像干啥</span> <a class="tag" taget="_blank" href="/search/Ai/1.htm">Ai</a><a class="tag" taget="_blank" href="/search/%E5%88%86%E7%B1%BB/1.htm">分类</a><a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98/1.htm">数据挖掘</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0/1.htm">深度学习</a> <div>引言在当今数字化时代,信息技术(IT)已经成为推动社会进步和经济发展的重要引擎。无论是软件开发、网络安全、数据分析,还是人工智能、云计算等领域,IT技术都在不断革新和演进。对于IT从业者、学生以及技术爱好者来说,掌握最新的技术动态和获取优质的学习资源至关重要。本文将为大家推荐一些优质的IT资源,并深入探讨如何利用这些资源提升自己的技术能力。一、优质IT资源推荐1.在线学习平台1.1Coursera</div> </li> <li><a href="/article/1899446608559403008.htm" title="DeepSeek大语言模型下几个常用术语" target="_blank">DeepSeek大语言模型下几个常用术语</a> <span class="text-muted">曲幽</span> <a class="tag" taget="_blank" href="/search/AI/1.htm">AI</a><a class="tag" taget="_blank" href="/search/%E8%AE%A1%E7%AE%97%E6%9C%BA/1.htm">计算机</a><a class="tag" taget="_blank" href="/search/%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B/1.htm">语言模型</a><a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a><a class="tag" taget="_blank" href="/search/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86/1.htm">自然语言处理</a><a class="tag" taget="_blank" href="/search/deepseek/1.htm">deepseek</a><a class="tag" taget="_blank" href="/search/ollama/1.htm">ollama</a><a class="tag" taget="_blank" href="/search/ai/1.htm">ai</a> <div>昨天刷B站看到复旦赵斌老师说的一句话“科幻电影里在人脑中植入芯片或许在当下无法实现,但当下可以借助AI人工智能实现人类第二脑”(大概是这个意思)更多内容,可关注公众号“一名程序媛”,我们一起从0-1学编程基本概念AI人工智能NLP自然语言处理LLM大语言模型HuggingFace一个提供了丰富的预训练模型和工具库的平台网站Ollama开源的本地大语言模型运行框架,用来在本地部署调用大语言模型,如D</div> </li> <li><a href="/article/1899446104760578048.htm" title="H100架构解析与性能优化策略" target="_blank">H100架构解析与性能优化策略</a> <span class="text-muted">智能计算研究中心</span> <a class="tag" taget="_blank" href="/search/%E5%85%B6%E4%BB%96/1.htm">其他</a> <div>内容概要NVIDIAH100GPU作为面向高性能计算与人工智能领域的旗舰级产品,其架构设计与优化策略在计算效率、显存带宽及并行任务处理等方面实现了显著突破。本文将从核心架构创新与典型场景调优两个维度展开:首先解析第三代TensorCore的稀疏计算加速机制、FP8混合精度支持特性及其对矩阵运算的优化效果;其次,针对显存子系统中HBM3堆栈布局、L2缓存分区策略以及数据预取算法的协同优化进行拆解;最</div> </li> <li><a href="/article/1899444341361930240.htm" title="Windows Bili23 Downloader-v1.56.1-开源B站视频下载工具[支持视频/番剧/电影/纪录片等资源]" target="_blank">Windows Bili23 Downloader-v1.56.1-开源B站视频下载工具[支持视频/番剧/电影/纪录片等资源]</a> <span class="text-muted">私人珍藏库</span> <a class="tag" taget="_blank" href="/search/%E9%9F%B3%E8%A7%86%E9%A2%91/1.htm">音视频</a> <div>Bili23_Downloader链接:https://pan.xunlei.com/s/VOL4-yvsKhEoCdLQFyX2bn99A1?pwd=npve#支持投稿视频\剧集\课程\直播链接解析支持短链接\活动页(如拜年祭、二游新春会)链接解析支持弹幕\字幕\封面下载支持修改剧集列表显示方式,一键显示全部视频支持自定义清晰度\音质\视频编码支持仅下载音频,最高可下载Hi-Res无损音质简洁美</div> </li> <li><a href="/article/1899442448510283776.htm" title="Spring Boot 条件注解:@ConditionalOnProperty 完全解析" target="_blank">Spring Boot 条件注解:@ConditionalOnProperty 完全解析</a> <span class="text-muted">web18285997089</span> <a class="tag" taget="_blank" href="/search/%E9%9D%A2%E8%AF%95/1.htm">面试</a><a class="tag" taget="_blank" href="/search/%E5%AD%A6%E4%B9%A0%E8%B7%AF%E7%BA%BF/1.htm">学习路线</a><a class="tag" taget="_blank" href="/search/%E9%98%BF%E9%87%8C%E5%B7%B4%E5%B7%B4/1.htm">阿里巴巴</a><a class="tag" taget="_blank" href="/search/spring/1.htm">spring</a><a class="tag" taget="_blank" href="/search/boot/1.htm">boot</a><a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E5%90%8E%E7%AB%AF/1.htm">后端</a> <div>在SpringBoot项目中,有时候我们希望根据配置文件中的某个属性值来决定是否启用某个功能或加载某个组件。此时,@ConditionalOnProperty注解就可以发挥作用。它通过配置文件的属性值控制Bean或配置类的加载,使得我们的程序更具灵活性。本文将详细介绍@ConditionalOnProperty的用法,并通过功能开关和环境配置两个实际场景来展示它的强大之处。1.@Condition</div> </li> <li><a href="/article/1899437685546741760.htm" title="书籍-《车辆动力学的控制应用》" target="_blank">书籍-《车辆动力学的控制应用》</a> <span class="text-muted"></span> <a class="tag" taget="_blank" href="/search/%E8%87%AA%E5%8A%A8%E9%A9%BE%E9%A9%B6%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD%E6%97%A0%E4%BA%BA%E9%A9%BE%E9%A9%B6%E6%B1%BD%E8%BD%A6/1.htm">自动驾驶人工智能无人驾驶汽车</a> <div>书籍:ControlApplicationsofVehicleDynamics作者:JingshengYu,VladimirVantsevich出版:CRCPress编辑:陈萍萍的公主@一点人工一点智能下载:书籍下载-《车辆动力学的控制应用》01书籍介绍本书介绍了汽车动力学和控制理论的基本知识,并结合NILabVIEW软件产品的应用,为设计先进的车辆动力学及车辆系统控制器提供了实用且高度技术性的指</div> </li> <li><a href="/article/1899435542118985728.htm" title="一文详解,什么是外贸订单管理系统?有什么功能和特点?" target="_blank">一文详解,什么是外贸订单管理系统?有什么功能和特点?</a> <span class="text-muted"></span> <div>随着全球贸易的快速发展,外贸企业面临订单处理效率低、流程复杂、数据管理混乱等挑战。如何通过数字化工具实现订单全生命周期管理?外贸订单管理系统应运而生。本文将以ZohoBooks为例,解析其核心功能与价值。一、什么是外贸订单管理系统?1、什么是外贸订单管理系统?外贸订单管理系统是一种专门用于管理国际贸易订单的软件工具。它帮助企业跟踪和管理从客户下单到订单完成的整个流程,包括订单录入、订单审核、订单分</div> </li> <li><a href="/article/1899435160806420480.htm" title="10 大中文医学数据集汇总:涵盖神农中医药、中医药古籍、医学推理、医学问答……" target="_blank">10 大中文医学数据集汇总:涵盖神农中医药、中医药古籍、医学推理、医学问答……</a> <span class="text-muted"></span> <div>医疗人工智能的快速发展离不开高质量数据集的支持。从疾病诊断到药物研发,再到个性化医疗,数据集在推动机器视觉、大模型等应用于医学领域中发挥着不可或缺的作用。医学数据集的形式多样,涵盖了不同维度和领域的数据资源。例如,在疾病诊断领域,像RJUA-QA这样的问答数据集推动了复杂医学知识的自动化应用;而在中医药领域,神农中医药数据集整合了传统中医药文献、临床案例和药方数据。针对于此,本文整理了医学领域的1</div> </li> <li><a href="/article/1899435162123431936.htm" title="中文对联/十二生肖/城市景点/旅游计划……年味超浓的数据集汇总" target="_blank">中文对联/十二生肖/城市景点/旅游计划……年味超浓的数据集汇总</a> <span class="text-muted"></span> <div>正月初三,年味正浓。新春的喜庆氛围不仅弥漫在大街小巷,也在人工智能领域引发了诸多创新应用。从AI生成春联,到春运交通标志的智能识别,再到生肖文化的深度挖掘,AI工具正赋能传统民俗,让年味更浓!在这阖家团圆,喜庆祥和的日子里,HyperAI超神经为大家整理了8个春节相关的数据集,涵盖对联、十二生肖、民族文化等热门主题,助力开发者在AI赋能春节的道路上大展拳脚!快来领取你的「新春大礼包」吧~点击查看更</div> </li> <li><a href="/article/81.htm" title="java短路运算符和逻辑运算符的区别" target="_blank">java短路运算符和逻辑运算符的区别</a> <span class="text-muted">3213213333332132</span> <a class="tag" taget="_blank" href="/search/java%E5%9F%BA%E7%A1%80/1.htm">java基础</a> <div> /* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单,并联电路代表短路或(||),串联电路代表短路与(&&)。 * * 并联电路两个开关只要有一个开关闭合,电路就会通。 * 类似于短路或(||),只要有其中一个为true(开关闭合)是</div> </li> <li><a href="/article/208.htm" title="Java异常那些不得不说的事" target="_blank">Java异常那些不得不说的事</a> <span class="text-muted">白糖_</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/exception/1.htm">exception</a> <div>一、在finally块中做数据回收操作 比如数据库连接都是很宝贵的,所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close(); </div> </li> <li><a href="/article/335.htm" title="utf-8与utf-8(无BOM)的区别" target="_blank">utf-8与utf-8(无BOM)的区别</a> <span class="text-muted">dcj3sjt126com</span> <a class="tag" taget="_blank" href="/search/PHP/1.htm">PHP</a> <div>BOM——Byte Order Mark,就是字节序标记   在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符,它的编码是FEFF。而FFFE在UCS中是不存在的字符,所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前,先传输 字符"ZERO WIDTH NO-BREAK SPACE"。这样如</div> </li> <li><a href="/article/462.htm" title="JAVA Annotation之定义篇" target="_blank">JAVA Annotation之定义篇</a> <span class="text-muted">周凡杨</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E6%B3%A8%E8%A7%A3/1.htm">注解</a><a class="tag" taget="_blank" href="/search/annotation/1.htm">annotation</a><a class="tag" taget="_blank" href="/search/%E5%85%A5%E9%97%A8/1.htm">入门</a><a class="tag" taget="_blank" href="/search/%E6%B3%A8%E9%87%8A/1.htm">注释</a> <div>    Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa</div> </li> <li><a href="/article/589.htm" title="tomcat的多域名、虚拟主机配置" target="_blank">tomcat的多域名、虚拟主机配置</a> <span class="text-muted">g21121</span> <a class="tag" taget="_blank" href="/search/tomcat/1.htm">tomcat</a> <div>众所周知apache可以配置多域名和虚拟主机,而且配置起来比较简单,但是项目用到的是tomcat,配来配去总是不成功。查了些资料才总算可以,下面就跟大家分享下经验。 很多朋友搜索的内容基本是告诉我们这么配置: 在Engine标签下增面积Host标签,如下: <Host name="www.site1.com" appBase="webapps"</div> </li> <li><a href="/article/716.htm" title="Linux SSH 错误解析(Capistrano 的cap 访问错误 Permission )" target="_blank">Linux SSH 错误解析(Capistrano 的cap 访问错误 Permission )</a> <span class="text-muted">510888780</span> <a class="tag" taget="_blank" href="/search/linux/1.htm">linux</a><a class="tag" taget="_blank" href="/search/capistrano/1.htm">capistrano</a> <div> 1.ssh -v hdfs@192.168.18.133 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误 运行状况如下: OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio</div> </li> <li><a href="/article/843.htm" title="log4j的用法" target="_blank">log4j的用法</a> <span class="text-muted">Harry642</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/log4j/1.htm">log4j</a> <div>一、前言:     log4j 是一个开放源码项目,是广泛使用的以Java编写的日志记录包。由于log4j出色的表现,     当时在log4j完成时,log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类,但当时jdk1.4已接近完成,所以sun拒绝使用log4j,当在java开发中</div> </li> <li><a href="/article/970.htm" title="mysql、sqlserver、oracle分页,java分页统一接口实现" target="_blank">mysql、sqlserver、oracle分页,java分页统一接口实现</a> <span class="text-muted">aijuans</span> <a class="tag" taget="_blank" href="/search/oracle/1.htm">oracle</a><a class="tag" taget="_blank" href="/search/jave/1.htm">jave</a> <div> 定义:pageStart 起始页,pageEnd 终止页,pageSize页面容量 oracle分页:     select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页:  </div> </li> <li><a href="/article/1097.htm" title="Hessian 简单例子" target="_blank">Hessian 简单例子</a> <span class="text-muted">antlove</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/Web/1.htm">Web</a><a class="tag" taget="_blank" href="/search/service/1.htm">service</a><a class="tag" taget="_blank" href="/search/hessian/1.htm">hessian</a> <div>hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543</div> </li> <li><a href="/article/1224.htm" title="数据库对象的同义词和序列" target="_blank">数据库对象的同义词和序列</a> <span class="text-muted">百合不是茶</span> <a class="tag" taget="_blank" href="/search/sql/1.htm">sql</a><a class="tag" taget="_blank" href="/search/%E5%BA%8F%E5%88%97/1.htm">序列</a><a class="tag" taget="_blank" href="/search/%E5%90%8C%E4%B9%89%E8%AF%8D/1.htm">同义词</a><a class="tag" taget="_blank" href="/search/ORACLE%E6%9D%83%E9%99%90/1.htm">ORACLE权限</a> <div>回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to </div> </li> <li><a href="/article/1351.htm" title="使用Powermock和mockito测试静态方法" target="_blank">使用Powermock和mockito测试静态方法</a> <span class="text-muted">bijian1013</span> <a class="tag" taget="_blank" href="/search/%E6%8C%81%E7%BB%AD%E9%9B%86%E6%88%90/1.htm">持续集成</a><a class="tag" taget="_blank" href="/search/%E5%8D%95%E5%85%83%E6%B5%8B%E8%AF%95/1.htm">单元测试</a><a class="tag" taget="_blank" href="/search/mockito/1.htm">mockito</a><a class="tag" taget="_blank" href="/search/Powermock/1.htm">Powermock</a> <div>        实例: package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or</div> </li> <li><a href="/article/1478.htm" title="精通Oracle10编程SQL(6)访问ORACLE" target="_blank">精通Oracle10编程SQL(6)访问ORACLE</a> <span class="text-muted">bijian1013</span> <a class="tag" taget="_blank" href="/search/oracle/1.htm">oracle</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%BA%93/1.htm">数据库</a><a class="tag" taget="_blank" href="/search/plsql/1.htm">plsql</a> <div>/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu</div> </li> <li><a href="/article/1605.htm" title="【Nginx四】Nginx作为HTTP负载均衡服务器" target="_blank">【Nginx四】Nginx作为HTTP负载均衡服务器</a> <span class="text-muted">bit1129</span> <a class="tag" taget="_blank" href="/search/nginx/1.htm">nginx</a> <div> Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统,通过负载均衡服务器,可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器,可以带来很多好处:   负载均衡的好处 增加可用资源 增加吞吐量 加快响应速度,降低延时 出错的重试验机制 Nginx主要支持三种均衡算法: round-robin l</div> </li> <li><a href="/article/1732.htm" title="jquery-validation备忘" target="_blank">jquery-validation备忘</a> <span class="text-muted">白糖_</span> <a class="tag" taget="_blank" href="/search/jquery/1.htm">jquery</a><a class="tag" taget="_blank" href="/search/css/1.htm">css</a><a class="tag" taget="_blank" href="/search/F%23/1.htm">F#</a><a class="tag" taget="_blank" href="/search/Firebug/1.htm">Firebug</a> <div>留点学习jquery validation总结的代码:   function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误, 默认:&</div> </li> <li><a href="/article/1859.htm" title="solr限制admin界面访问(端口限制和http授权限制)" target="_blank">solr限制admin界面访问(端口限制和http授权限制)</a> <span class="text-muted">ronin47</span> <a class="tag" taget="_blank" href="/search/%E9%99%90%E5%AE%9AIp%E8%AE%BF%E9%97%AE/1.htm">限定Ip访问</a> <div>solr的管理界面可以帮助我们做很多事情,但是把solr程序放到公网之后就要限制对admin的访问了。 可以通过tomcat的http基本授权来做限制,也可以通过iptables防火墙来限制。 我们先看如何通过tomcat配置http授权限制。 第一步: 在tomcat的conf/tomcat-users.xml文件中添加管理用户,比如: <userusername="ad</div> </li> <li><a href="/article/1986.htm" title="多线程-用JAVA写一个多线程程序,写四个线程,其中二个对一个变量加1,另外二个对一个变量减1" target="_blank">多线程-用JAVA写一个多线程程序,写四个线程,其中二个对一个变量加1,另外二个对一个变量减1</a> <span class="text-muted">bylijinnan</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E5%A4%9A%E7%BA%BF%E7%A8%8B/1.htm">多线程</a> <div> public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序,写四个线程,其中二个对一个变量加1,另外二个对一个变量减1 * 两个问题: * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static </div> </li> <li><a href="/article/2113.htm" title="买房历程" target="_blank">买房历程</a> <span class="text-muted">cfyme</span> <div>    2015-06-21: 万科未来城,看房子   2015-06-26: 办理贷款手续,贷款73万,贷款利率5.65=5.3675   2015-06-27: 房子首付,签完合同   2015-06-28,央行宣布降息 0.25,就2天的时间差啊,没赶上。   首付,老婆找他的小姐妹接了5万,另外几个朋友借了1-</div> </li> <li><a href="/article/2240.htm" title="[军事与科技]制造大型太空战舰的前奏" target="_blank">[军事与科技]制造大型太空战舰的前奏</a> <span class="text-muted">comsci</span> <a class="tag" taget="_blank" href="/search/%E5%88%B6%E9%80%A0/1.htm">制造</a> <div>        天气热了........空调和电扇要准备好..........        最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界..........        所以,我们不得不关</div> </li> <li><a href="/article/2367.htm" title="dateformat" target="_blank">dateformat</a> <span class="text-muted">dai_lm</span> <a class="tag" taget="_blank" href="/search/DateFormat/1.htm">DateFormat</a> <div> "Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year</div> </li> <li><a href="/article/2494.htm" title="Hadoop如何实现关联计算" target="_blank">Hadoop如何实现关联计算</a> <span class="text-muted">datamachine</span> <a class="tag" taget="_blank" href="/search/mapreduce/1.htm">mapreduce</a><a class="tag" taget="_blank" href="/search/hadoop/1.htm">hadoop</a><a class="tag" taget="_blank" href="/search/%E5%85%B3%E8%81%94%E8%AE%A1%E7%AE%97/1.htm">关联计算</a> <div>    选择Hadoop,低成本和高扩展性是主要原因,但但它的开发效率实在无法让人满意。     以关联计算为例。     假设:HDFS上有2个文件,分别是客户信息和订单信息,customerID是它们之间的关联字段。如何进行关联计算,以便将客户名称添加到订单列表中?   &nbs</div> </li> <li><a href="/article/2621.htm" title="用户模型中修改用户信息时,密码是如何处理的" target="_blank">用户模型中修改用户信息时,密码是如何处理的</a> <span class="text-muted">dcj3sjt126com</span> <a class="tag" taget="_blank" href="/search/yii/1.htm">yii</a> <div>当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦,所有我想分享一下我是怎么处理的。 场景是使用的基本的那些(系统自带),你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。 面是它的工作流程: 当创建用户的时候密码需要加密并且保存,但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密,这</div> </li> <li><a href="/article/2748.htm" title="中文 iOS/Mac 开发博客列表" target="_blank">中文 iOS/Mac 开发博客列表</a> <span class="text-muted">dcj3sjt126com</span> <a class="tag" taget="_blank" href="/search/Blog/1.htm">Blog</a> <div>  本博客列表会不断更新维护,如果有推荐的博客,请到此处提交博客信息。 本博客列表涉及的文章内容支持 定制化Google搜索,特别感谢 JeOam 提供并帮助更新。 本博客列表也提供同步更新的OPML文件(下载OPML文件),可供导入到例如feedly等第三方定阅工具中,特别感谢 lcepy 提供自动转换脚本。这里有导入教程。 </div> </li> <li><a href="/article/2875.htm" title="js去除空格,去除左右两端的空格" target="_blank">js去除空格,去除左右两端的空格</a> <span class="text-muted">蕃薯耀</span> <a class="tag" taget="_blank" href="/search/%E5%8E%BB%E9%99%A4%E5%B7%A6%E5%8F%B3%E4%B8%A4%E7%AB%AF%E7%9A%84%E7%A9%BA%E6%A0%BC/1.htm">去除左右两端的空格</a><a class="tag" taget="_blank" href="/search/js%E5%8E%BB%E6%8E%89%E6%89%80%E6%9C%89%E7%A9%BA%E6%A0%BC/1.htm">js去掉所有空格</a><a class="tag" taget="_blank" href="/search/js%E5%8E%BB%E9%99%A4%E7%A9%BA%E6%A0%BC/1.htm">js去除空格</a> <div>js去除空格,去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g</div> </li> <li><a href="/article/3002.htm" title="SpringMVC4零配置--web.xml" target="_blank">SpringMVC4零配置--web.xml</a> <span class="text-muted">hanqunfeng</span> <a class="tag" taget="_blank" href="/search/springmvc4/1.htm">springmvc4</a> <div>servlet3.0+规范后,允许servlet,filter,listener不必声明在web.xml中,而是以硬编码的方式存在,实现容器的零配置。 ServletContainerInitializer:启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer</div> </li> <li><a href="/article/3129.htm" title="《开源框架那些事儿21》:巧借力与借巧力" target="_blank">《开源框架那些事儿21》:巧借力与借巧力</a> <span class="text-muted">j2eetop</span> <a class="tag" taget="_blank" href="/search/%E6%A1%86%E6%9E%B6/1.htm">框架</a><a class="tag" taget="_blank" href="/search/UI/1.htm">UI</a> <div>同样做前端UI,为什么有人花了一点力气,就可以做好?而有的人费尽全力,仍然错误百出?我们可以先看看几个故事。 故事1:巧借力,乌鸦也可以吃核桃 有一个盛产核桃的村子,每年秋末冬初,成群的乌鸦总会来到这里,到果园里捡拾那些被果农们遗落的核桃。 核桃仁虽然美味,但是外壳那么坚硬,乌鸦怎么才能吃到呢?原来乌鸦先把核桃叼起,然后飞到高高的树枝上,再将核桃摔下去,核桃落到坚硬的地面上,被撞破了,于是,</div> </li> <li><a href="/article/3256.htm" title="JQuery EasyUI 验证扩展" target="_blank">JQuery EasyUI 验证扩展</a> <span class="text-muted">可怜的猫</span> <a class="tag" taget="_blank" href="/search/jquery/1.htm">jquery</a><a class="tag" taget="_blank" href="/search/easyui/1.htm">easyui</a><a class="tag" taget="_blank" href="/search/%E9%AA%8C%E8%AF%81/1.htm">验证</a> <div>  最近项目中用到了前端框架-- EasyUI,在做校验的时候会涉及到很多需要自定义的内容,现把常用的验证方式总结出来,留待后用。   以下内容只需要在公用js中添加即可。   使用类似于如下: <input class="easyui-textbox" name="mobile" id="mobile&</div> </li> <li><a href="/article/3383.htm" title="架构师之httpurlconnection----------读取和发送(流读取效率通用类)" target="_blank">架构师之httpurlconnection----------读取和发送(流读取效率通用类)</a> <span class="text-muted">nannan408</span> <div>1.前言.    如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream</div> </li> <li><a href="/article/3510.htm" title="Jquery性能优化" target="_blank">Jquery性能优化</a> <span class="text-muted">r361251</span> <a class="tag" taget="_blank" href="/search/JavaScript/1.htm">JavaScript</a><a class="tag" taget="_blank" href="/search/jquery/1.htm">jquery</a> <div>一、注意定义jQuery变量的时候添加var关键字 这个不仅仅是jQuery,所有javascript开发过程中,都需要注意,请一定不要定义成如下: $loading = $('#loading'); //这个是全局定义,不知道哪里位置倒霉引用了相同的变量名,就会郁闷至死的 二、请使用一个var来定义变量 如果你使用多个变量的话,请如下方式定义: . 代码如下: var page </div> </li> <li><a href="/article/3637.htm" title="在eclipse项目中使用maven管理依赖" target="_blank">在eclipse项目中使用maven管理依赖</a> <span class="text-muted">tjj006</span> <a class="tag" taget="_blank" href="/search/eclipse/1.htm">eclipse</a><a class="tag" taget="_blank" href="/search/maven/1.htm">maven</a> <div>概览: 如何导入maven项目至eclipse中 建立自有Maven  Java类库服务器 建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势,像白衣所说就是非常“环保”。 我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下,然后全部添加到ide的构建路径中,如果用了SVN/CVS,这样会很容易就 把</div> </li> <li><a href="/article/3764.htm" title="中国天气网省市级联页面" target="_blank">中国天气网省市级联页面</a> <span class="text-muted">x125858805</span> <a class="tag" taget="_blank" href="/search/%E7%BA%A7%E8%81%94/1.htm">级联</a> <div>1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l</div> </li> </ul> </div> </div> </div> <div> <div class="container"> <div class="indexes"> <strong>按字母分类:</strong> <a href="/tags/A/1.htm" target="_blank">A</a><a href="/tags/B/1.htm" target="_blank">B</a><a href="/tags/C/1.htm" target="_blank">C</a><a href="/tags/D/1.htm" target="_blank">D</a><a href="/tags/E/1.htm" target="_blank">E</a><a href="/tags/F/1.htm" target="_blank">F</a><a href="/tags/G/1.htm" target="_blank">G</a><a href="/tags/H/1.htm" target="_blank">H</a><a href="/tags/I/1.htm" target="_blank">I</a><a href="/tags/J/1.htm" target="_blank">J</a><a href="/tags/K/1.htm" target="_blank">K</a><a href="/tags/L/1.htm" target="_blank">L</a><a href="/tags/M/1.htm" target="_blank">M</a><a href="/tags/N/1.htm" target="_blank">N</a><a href="/tags/O/1.htm" target="_blank">O</a><a href="/tags/P/1.htm" target="_blank">P</a><a href="/tags/Q/1.htm" target="_blank">Q</a><a href="/tags/R/1.htm" target="_blank">R</a><a href="/tags/S/1.htm" target="_blank">S</a><a href="/tags/T/1.htm" target="_blank">T</a><a href="/tags/U/1.htm" target="_blank">U</a><a href="/tags/V/1.htm" target="_blank">V</a><a href="/tags/W/1.htm" target="_blank">W</a><a href="/tags/X/1.htm" target="_blank">X</a><a href="/tags/Y/1.htm" target="_blank">Y</a><a href="/tags/Z/1.htm" target="_blank">Z</a><a href="/tags/0/1.htm" target="_blank">其他</a> </div> </div> </div> <footer id="footer" class="mb30 mt30"> <div class="container"> <div class="footBglm"> <a target="_blank" href="/">首页</a> - <a target="_blank" href="/custom/about.htm">关于我们</a> - <a target="_blank" href="/search/Java/1.htm">站内搜索</a> - <a target="_blank" href="/sitemap.txt">Sitemap</a> - <a target="_blank" href="/custom/delete.htm">侵权投诉</a> </div> <div class="copyright">版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved. <!-- <a href="https://beian.miit.gov.cn/" rel="nofollow" target="_blank">京ICP备09083238号</a><br>--> </div> </div> </footer> <!-- 代码高亮 --> <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shCore.js"></script> <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shLegacy.js"></script> <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shAutoloader.js"></script> <link type="text/css" rel="stylesheet" href="/static/syntaxhighlighter/styles/shCoreDefault.css"/> <script type="text/javascript" src="/static/syntaxhighlighter/src/my_start_1.js"></script> </body> </html>