tan625747

在 Linux 上构建 Web spider

spider 是一个为实现特定目的以特定方法在 Internet 上爬行的程序。其目的可能是为了搜集信息也可能是为了理解 Web 站点的结构和有效性。spider 是现代搜索引擎（例如 Google 和 AltaVista）的基础。这些 spider 会自动从 Web 上搜索数据并将数据传递给其他应用程序，这些应用程序会对 Web 站点的内容进行索引，以便获得最好的搜索条件集。

Web spider 作为 agent

Web spider 和 scraper 是软件 Robot 或 agent（Alan Kay 在 20 世纪 80 年代发明了这个词）的另外一种形式。Alan 将 Agent 理解为计算机世界中用户的一个代理 (proxy)。Agent 可以被赋予一个目标并在其域中为实现这个目标而工作。如果受困，它可以从用户那里获取建议并继续完成自己的目标。

现在，agent 已经按照属性（例如自治性、自适应性、通信和协作等）进行了分类。另外一些属性，例如移动性甚至个性化，还在研究之中。本文中的 Web spider 属于名为 Task-Specific Agent 的这一类别。

Web scraper 是一种与 spider 类似的技术，不过它具有更多合法性问题。scraper 是一种 spider，其目标是为了从 Web 上获取特定的内容，例如产品的成本或服务。scraper 的一种用途是为了获得有竞争力的价格，从而确定给定产品的价格，以便能够制定出自己产品的合理价格或相应地进行宣传。scraper 还可以从很多 Web 站点上搜集大量数据并将这些信息提供给用户。

生物学动机

当考察自然界中真正的蜘蛛时，您会从它与环境的交互性（而绝非孤立地）去考察它。蜘蛛会看到并感受到自己身旁的路，并会有目的地从一个地方移动到另外一个地方。Web spider 也会以类似的方式进行操作。Web spider 是一种使用高级语言编写的程序。它通过使用网络协议与环境进行交互，例如对 Web 使用超文本传输协议（HTTP）。如果 Web spider 需要与您进行通信，那么它可以使用简单邮件传输协议（SMTP）来发送 e-mail 消息。

不过 Web spider 并不限定于使用 HTTP 或 SMTP。有些 spider 使用 Web 服务，例如 SOAP 或可扩展标记语言远程过程调用（XML-RPC）协议。其他 spider 会使用网络新闻传输协议（NNTP）对新闻组进行遍历，或者寻找 RSS（Really Simple Syndication）提要中有趣的新条目。尽管自然界中的大部分蜘蛛都只能看到明暗强度和动作的变化，但是 Web spider 却可以使用很多种协议来看和感知。

回页首

spider 和 scraper 的应用程序

Web spider 的 “眼和腿”

Web spider 查看并在 Internet 上移动的主要手段是 HTTP。HTTP 是一个面向消息的协议，其中客户机连接到一台服务器并产生请求，服务器响应此请求。每个请求和响应都是由一个头和主体构成的，头提供了状态信息以及主体内容的描述。

HTTP 提供了 3 种主要的请求。第一种是 HEAD，它请求的是服务器上某资源的信息。第二种是 GET，它请求的是服务器上的某资源，例如文件或图像。最后一种是 POST，它允许客户机通过 Web 页面与服务器进行交互（通常是通过一个 Web 表单）。

Web spider 和 scraper 是非常有用的应用程序，因此可以找到它们的很多种应用，其中有好有坏。下面让我们来看一下使用这些技术的几个应用程序。

搜索引擎 Web 爬虫

Web spider 可以使 Internet 的搜索变得非常简单而有效。搜索引擎使用了很多 Web spider 在 Internet 上搜索 Web 页面，返回它们的内容，并对其进行索引。在这个过程完成之后，搜索引擎就可以快速搜索本地索引来确定哪些结果最适用于该次搜索。Google 还会使用 PageRank 算法，一个 Web 页面在搜索结果中的排名是基于链接到此 Web 页面的其他页面的多少。这就像是一个投票系统，获得最多票数的页面在整个结果中的排名也最高。

对于 Internet 进行这样的搜索，其代价非常昂贵，Web 内容与索引程序进行通信所需要的带宽以及对结果进行索引所需要的计算成本都很高。为此需要很多存储空间，但是当我们考虑到 Google 可以为 Gmail 用户提供 1000 MB 的存储空间时，显然可以看出存储空间已经不是什么主要问题了。

Web spider 可以使用一组策略来最小化对 Internet 的消耗。Google 要对 80 亿 Web 页面进行索引，这一挑战的难易程度可见一斑。这种行为策略定义了爬虫会将哪些页面带入索引程序、以什么样的频率回到 Web 站点上再次对它进行检查，以及一种礼貌原则。Web 服务器可以使用一个名为 robot.txt 的文件来执行爬虫，它会告诉爬虫不能搜索的内容。

企业 Web 爬虫

与标准的搜索引擎 spider 一样，这种 Web spider 对大众不能使用的内容进行索引。例如，公司通常有一些内部 Web 站点只能由公司的员工使用。这种 spider 被限定于本地环境。由于它的搜索是受限的，因此通常会有更多计算能力可用，进行专门的和更加完整的索引操作也是可能的。Google 则更进一步，为了对个人计算机的内容进行索引，它专门提供了一个桌面搜索引擎。

专用爬虫

爬虫也有一些非传统的用途，例如对内容进行归档或生成统计数据。归档爬虫会简单地对 Web 站点进行遍历，将其网站的本地内容存储到一个长期的存储介质上。这可以用来进行备份，或者在更重要的情况中，用来获取 Internet 内容的快照。统计数据对理解 Internet 的内容或其中的缺陷方面很有用处。爬虫可以用来确定有多少 Web 服务器在运行、有多少给定类型的 Web 服务器在运行、可用 Web 页面的数量，甚至失效链接的个数（这会返回 HTTP 404 错误，表明页面没有找到）。

其他有用的专用爬虫包括 Web 站点检查器。这些爬虫会查找缺少的内容、验证所有的链接，并会确保超文本标记语言（HTML）是有效的。

E-mail 收集爬虫

现在要介绍黑暗面了。不幸的是，一小撮坏家伙却会破坏我们大家使用的整个 Internet。这种爬虫会在 Web 站点上搜索 e-mail 地址，然后生成我们每天不得不处理的大量垃圾邮件。据 Postini 报告，到 2005 年 8 月，Postini 用户的 e-mail 消息中有 70% 都是不想要的垃圾邮件。

E-mail 收集可能是最容易的一种爬行行为，在本文中最后一个爬虫例子中我们会看到这一点。

现在我们已经了解了一些 Web spider 和 scraper 的基本知识，接下来的 4 个例子显示了如何使用流行的脚本语言（例如 Ruby 和 Python）来为 Linux 构建 spider 和 scraper。

回页首

例子 1：简单的 scraper

这个例子向您展示了该如何确定给定的 Web 站点正在运行哪种 Web 服务器。这可能非常有趣，而且如果能在一个足够大的示例上实现，还可以提供关于 Web 服务器在政府、学术界和工业界中的普及率的有趣统计数据。

清单 1 给出了用来搜索 Web 站点以确定 HTTP 服务器的 Ruby 脚本。Net::HTTP 类实现了一个 HTTP 客户机和 GET、HEAD 和 POST 方法。只要向 HTTP 服务器发起一个请求，HTTP 响应消息的一部分就会指出这些内容是由哪个服务器提供的。这里使用 HEAD 方法来获取有关根页面（'/'）的信息，而没有从站点上下载一个页面。只要 HTTP 服务器成功响应（由响应代码 "200" 指示），就会循环迭代响应消息的每行内容，来寻找 server 关键字，如果找到，就打印这个值。这个关键字的值是一个代表 HTTP 服务器的字符串。

清单 1. 用来简单搜索元数据的 Ruby 脚本（srvinfo.rb）

#!/usr/local/bin/ruby
require 'net/http'

# Get the first argument from the command-line (the URL)
url = ARGV[0]

begin

  # Create a new HTTP connection
  httpCon = Net::HTTP.new( url, 80 )

  # Perform a HEAD request
  resp, data = httpCon.head( "/", nil )

  # If it succeeded (200 is success)
  if resp.code == "200" then

    # Iterate through the response hash
    resp.each {|key,val|

      # If the key is the server, print the value
      if key == "server" then

        print "  The server at "+url+" is "+val+"\n"

      end

    }

  end

end

除了显示如何使用 srvinfo 脚本之外，清单 2 还给出了 scraper 在很多政府、学术和商业 Web 站点上的应用。这些服务器有很大差异，从 Apache（占 68% ）到 Sun 和 Microsoft® 的 IIS（Internet Information Services）。您还可以看到其中有一个应用没有给出所使用的服务器。有趣的是就当密克罗尼西亚联邦政府还在运行一个旧版本的 Apache（应该更新了）的时候，Apache.org 却在技术上不断大胆尝试、推陈出新。

清单 2. 服务器 scraper 的示例应用

[mtj@camus]$ ./srvrinfo.rb www.whitehouse.gov
  The server at www.whitehouse.gov is Apache
[mtj@camus]$ ./srvrinfo.rb www.cisco.com
  The server at www.cisco.com is Apache/2.0 (Unix)
[mtj@camus]$ ./srvrinfo.rb www.gov.ru
  The server at www.gov.ru is Apache/1.3.29 (Unix)
[mtj@camus]$ ./srvrinfo.rb www.gov.cn
[mtj@camus]$ ./srvrinfo.rb www.kantei.go.jp
  The server at www.kantei.go.jp is Apache
[mtj@camus]$ ./srvrinfo.rb www.pmo.gov.to
  The server at www.pmo.gov.to is Apache/2.0.46 (Red Hat Linux)
[mtj@camus]$ ./srvrinfo.rb www.mozambique.mz
  The server at www.mozambique.mz is Apache/1.3.27 
   (Unix) PHP/3.0.18 PHP/4.2.3
[mtj@camus]$ ./srvrinfo.rb www.cisco.com
  The server at www.cisco.com is Apache/1.0 (Unix)
[mtj@camus]$ ./srvrinfo.rb www.mit.edu
  The server at www.mit.edu is MIT Web Server Apache/1.3.26 Mark/1.5 
	(Unix) mod_ssl/2.8.9 OpenSSL/0.9.7c
[mtj@camus]$ ./srvrinfo.rb www.stanford.edu
  The server at www.stanford.edu is Apache/2.0.54 (Debian GNU/Linux) 
	mod_fastcgi/2.4.2 mod_ssl/2.0.54 OpenSSL/0.9.7e WebAuth/3.2.8
[mtj@camus]$ ./srvrinfo.rb www.fsmgov.org
  The server at www.fsmgov.org is Apache/1.3.27 (Unix) PHP/4.3.1
[mtj@camus]$ ./srvrinfo.rb www.csuchico.edu
  The server at www.csuchico.edu is Sun-ONE-Web-Server/6.1
[mtj@camus]$ ./srvrinfo.rb www.sun.com
  The server at www.sun.com is Sun Java System Web Server 6.1
[mtj@camus]$ ./srvrinfo.rb www.microsoft.com
  The server at www.microsoft.com is Microsoft-IIS/6.0
[mtj@camus]$ ./srvrinfo.rb www.apache.org
The server at www.apache.org is Apache/2.2.3 (Unix) 
	mod_ssl/2.2.3 OpenSSL/0.9.7g

这些数据都非常有用，可以从中看到政府和学术机构都使用了何种 Web 服务器。下一个例子将展示一些更加有用的信息：一个搜集股票价格的 scraper。

回页首

例子 2：搜集股票价格的 scraper

在这个例子中，构建了一个简单的 Web scraper（也称为 屏幕 scraper）来搜集股票价格信息。本例通过使用响应的 Web 页面的模式来强制实现这种功能，代码如下所示：

清单 3. 用来搜集股票价格的简单 Web scraper

#!/usr/local/bin/ruby
require 'net/http'

host = "www.smartmoney.com"
link = "/eqsnaps/index.cfm?story=snapshot&symbol="+ARGV[0]

begin

  # Create a new HTTP connection
  httpCon = Net::HTTP.new( host, 80 )

  # Perform a HEAD request
  resp = httpCon.get( link, nil )

  stroffset = resp.body =~ /class="price">/

  subset = resp.body.slice(stroffset+14, 10)

  limit = subset.index('<')

  print ARGV[0] + " current stock price " + subset[0..limit-1] +
          " (from stockmoney.com)\n"

end

在这个 Ruby 脚本中，先是打开一个 HTTP 客户机连接到一台服务器上（在本例中是 www.smartmoney.com），并构建一个链接，它会请求获得用户传递进来的某个股票（通过 &symbol=<symbol>）的价格。然后使用 HTTP GET 方法（检索完整的响应页面）来请求这个链接，从中搜索 class="price">，它后面紧接着就是这个股票的当前价格。最后从 Web 页面中截取出这一信息，为用户呈现出来。

要使用股票价格 scraper，只需使用感兴趣的那个股票的符号来调用这个脚本即可，如清单 4 所示。

清单 4. 股票价格 scraper 的示例应用

[mtj@camus]$ ./stockprice.rb ibm
ibm current stock price 79.28 (from stockmoney.com)
[mtj@camus]$ ./stockprice.rb intl
intl current stock price 21.69 (from stockmoney.com)
[mtj@camus]$ ./stockprice.rb nt
nt current stock price 2.07 (from stockmoney.com)
[mtj@camus]$

回页首

例子 3：与股票价格 scraper 通信

例子 2 中用来搜集股票价格的 Web scraper 非常吸引人，不过如果能让这个 scraper 经常性地监视股票价格并在您感兴趣的股票的价格上涨到某个特定值或下跌到某个特定值时就给您发送邮件通知，将更加有用。您不必再等待了。在清单 5 中，将会让这个简单的 Web scraper 能够监视股票并在股票超过预先定义的价格范围时就发送 e-mail 消息。

清单 5. 可以发送 e-mail 警告的股票 scraper

#!/usr/local/bin/ruby
require 'net/http'
require 'net/smtp'

#
# Given a web-site and link, return the stock price
#
def getStockQuote(host, link)

    # Create a new HTTP connection
    httpCon = Net::HTTP.new( host, 80 )

    # Perform a HEAD request
    resp = httpCon.get( link, nil )

    stroffset = resp.body =~ /class="price">/

    subset = resp.body.slice(stroffset+14, 10)

    limit = subset.index('<')

    return subset[0..limit-1].to_f

end


#
# Send a message (msg) to a user.
# Note: assumes the SMTP server is on the same host.
#
def sendStockAlert( user, msg )

    lmsg = [ "Subject: Stock Alert\n", "\n", msg ]
    Net::SMTP.start('localhost') do |smtp|
      smtp.sendmail( lmsg, "[email protected]", [user] )
    end

end


#
# Our main program, checks the stock within the price band every two
# minutes, emails and exits if the stock price strays from the band.
#
# Usage: ./monitor_sp.rb <symbol> <high> <low> <email_address>
#
begin

  host = "www.smartmoney.com"
  link = "/eqsnaps/index.cfm?story=snapshot&symbol="+ARGV[0]
  user = ARGV[3]

  high = ARGV[1].to_f
  low = ARGV[2].to_f

  while 1

    price = getStockQuote(host, link)

    print "current price ", price, "\n"

    if (price > high) || (price < low) then

      if (price > high) then
        msg = "Stock "+ARGV[0]+" has exceeded the price of "+high.to_s+
               "\n"+host+link+"\n"
      end

      if (price < low) then
        msg = "Stock "+ARGV[0]+" has fallen below the price of "+low.to_s+
               "\n"+host+link+"\n"

      end

      sendStockAlert( user, msg )

      exit

    end

    sleep 120

  end

end

这个 Ruby 脚本有点长，不过它是在清单 3 中现有的股票价格搜集脚本基础之上构建的。一个新的函数 getStockQuote 对股票价格搜集功能进行了封装。另外一个函数 sendStockAlert 会向某个 e-mail 地址发送消息（e-mail 地址和发送的消息都可以由用户定义）。主程序只是一个循环，用来获得股票的当前价格，检查价格是否在所限定的范围内，如果不在就发送 e-mail 警告来提醒用户。这里还在检查股票价格时进行了一下延时，原因是不想造成服务器的过载。

清单 6 是一个对一只非常流行的科技股调用这个股票监视程序的例子。每两分钟，这个股票的价格就会被检查并打印出来。当股票超过高位时，就会发送一条 e-mail 消息并会退出脚本。

清单 6. 股票监视脚本的演示

[mtj@camus]$ ./monitor_sp.rb ibm 83.00 75.00 [email protected]
current price 82.06
current price 82.32
current price 82.75
current price 83.36

所生成的 e-mail 如图 1 所示，后面有个到所搜集的数据源的链接。

图 1. 清单 5 中的 Ruby 脚本发送的 E-mail 警告

至此对 scraper 的介绍就告一段落，接下来将深入地了解一下 Web spider 的构建。

回页首

例子 4： Web 站点爬虫

在最后这个例子中，将探索一下在 Web 站点上爬行的 Web spider。为了安全起见，我将避免在该站点之外浪费时间，而只会深入研究一个 Web 页面。

要在 Web 站点上爬行并访问这个站点上所提供的链接，必须要对 HTML 页面进行解析。如果可以成功解析 Web 页面，就可以确定到其他资源的链接，这些链接有些指定的是本地资源（文件），而有些则会代表非本地的资源（例如到其他 Web 页面的链接）。

要在 Web 上爬行，需要从一个给定的 Web 页面开始，确定这个页面中的所有链接，将它们放入一个等待访问的队列中进行排序，然后使用等待访问队列中的第一项来重复这个处理过程。这会产生广度优先遍历（与优先处理首先找到的第一个链接不同，后者是一种深度优先遍历）。

如果能够避免非本地的链接而只访问本地 Web 页面，就可以为这个单一 Web 站点提供 Web 爬虫了，如清单 7 所示。在本例中，使用 Python 语言来代替 Ruby 语言，这样做是为了利用 Python 非常有用的 HTMLParser 类。

清单 7. 简单的 Python Web 站点爬虫（minispider.py）

#!/usr/local/bin/python

import httplib
import sys
import re
from HTMLParser import HTMLParser


class miniHTMLParser( HTMLParser ):

  viewedQueue = []
  instQueue = []

  def get_next_link( self ):
    if self.instQueue == []:
      return ''
    else:
      return self.instQueue.pop(0)


  def gethtmlfile( self, site, page ):
    try:
      httpconn = httplib.HTTPConnection(site)
      httpconn.request("GET", page)
      resp = httpconn.getresponse()
      resppage = resp.read()
    except:
      resppage = ""

    return resppage


  def handle_starttag( self, tag, attrs ):
    if tag == 'a':
      newstr = str(attrs[0][1])
      if re.search('http', newstr) == None:
        if re.search('mailto', newstr) == None:
          if re.search('htm', newstr) != None:
            if (newstr in self.viewedQueue) == False:
              print "  adding", newstr
              self.instQueue.append( newstr )
              self.viewedQueue.append( newstr )
          else:
            print "  ignoring", newstr
        else:
          print "  ignoring", newstr
      else:
        print "  ignoring", newstr


def main():

  if sys.argv[1] == '':
    print "usage is ./minispider.py site link"
    sys.exit(2)

  mySpider = miniHTMLParser()

  link = sys.argv[2]

  while link != '':

    print "\nChecking link ", link

    # Get the file from the site and link
    retfile = mySpider.gethtmlfile( sys.argv[1], link )

    # Feed the file into the HTML parser
    mySpider.feed(retfile)

    # Search the retfile here

    # Get the next link in level traversal order
    link = mySpider.get_next_link()

  mySpider.close()

  print "\ndone\n"

if __name__ == "__main__":
  main()

这个爬虫的基本设计是加载第一个链接并将其放入一个队列。此队列就是下一个要询问 (next-to-interrogate) 队列。当一个链接被选中时，所发现的任何新链接都被加入相同的队列中。这提供了一种广度优先的搜索。另外还维护了一个已查看过的队列以防止再次访问过去已经查看过的链接。基本上就这些，很多实际工作都可以由 HTML 解析器来完成。

先是从 Python 的 HTMLParser 类获取一个新类 miniHTMLParser。这个类可以实现几个功能。首先，它可以用作 HTML 解析器，只要碰到开始的 HTML 标记都会提供一个回调方法 (handle_starttag)。其次，这个类还可以用来访问在爬行中所碰到的链接 (get_next_link) 并检索这个链接所代表的文件（在本例中是一个 HTML 文件）。

这个类中还包含了两个实例变量：viewedQueue，其中包含了到目前为止已经检查过的链接；instQueue，表示将要被审查的链接。

正如您所见，类方法非常简单。get_next_link 方法检查 instQueue 是否为空，并返回 ''。否则，就通过 pop 方法返回下一项。gethtmlfile 方法使用 HTTPConnectionK 连接到站点上并返回指定页面的内容。最后，对 Web 页面中的每个开始标记都调用 handle_starttag（它是通过 feed 方法传递给 HTML 解析器的）。在这个函数中，检查该链接是否是非本地链接（如果链接中包含 http），是否是 e-mail 地址（如果包含 mailto），以及链接中是否包含 'htm'，如果包含则说明它（有很大的可能）是一个 Web 页面。另外还会检查以确保之前没有访问过这个链接；否则，就将这个链接加载到已经审查过的队列中。

main 方法非常简单。创建一个新 miniHTMLParser 实例并着手处理用户定义的站点（argv[1]）和链接（argv[2]）。然后获取这个链接的内容，将其传递给 HTML 解析器，并获取下一个要访问的链接（如果存在）。当还存在需要访问的链接时，循环继续。

要调用这个 Web spider，需要提供一个 Web 站点地址和一个链接：

./minispider.py www.fsf.org /

在本例中，会请求 Free Software Foundation 的根文件。这个命令的结果如清单 8 所示。可以看到新链接已经被加入检查队列和那些被忽略的链接中，例如非本地链接。在这个清单底部，可以看到在根文件所找到的审查链接。

清单 8. minispider 脚本的输出结果

[mtj@camus]$ ./minispider.py www.fsf.org /

Checking link  /
  ignoring hiddenStructure
  ignoring http://www.fsf.org
  ignoring http://www.fsf.org
  ignoring http://www.fsf.org/news
  ignoring http://www.fsf.org/events
  ignoring http://www.fsf.org/campaigns
  ignoring http://www.fsf.org/resources
  ignoring http://www.fsf.org/donate
  ignoring http://www.fsf.org/associate
  ignoring http://www.fsf.org/licensing
  ignoring http://www.fsf.org/blogs
  ignoring http://www.fsf.org/about
  ignoring https://www.fsf.org/login_form
  ignoring http://www.fsf.org/join_form
  ignoring http://www.fsf.org/news/fs-award-2005.html
  ignoring http://www.fsf.org/news/fsfsysadmin.html
  ignoring http://www.fsf.org/news/digital-communities.html
  ignoring http://www.fsf.org/news/patents-defeated.html
  ignoring /news/RSS
  ignoring http://www.fsf.org/news
  ignoring http://www.fsf.org/blogs/rms/entry-20050802.html
  ignoring http://www.fsf.org/blogs/rms/entry-20050712.html
  ignoring http://www.fsf.org/blogs/rms/entry-20050601.html
  ignoring http://www.fsf.org/blogs/rms/entry-20050526.html
  ignoring http://www.fsf.org/blogs/rms/entry-20050513.html
  ignoring http://www.fsf.org/index_html/SimpleBlogFullSearch
  ignoring documentContent
  ignoring http://www.fsf.org/index_html/sendto_form
  ignoring javascript:this.print();
  adding licensing/essays/free-sw.html
  ignoring /licensing/essays
  ignoring http://www.gnu.org/philosophy
  ignoring http://www.freesoftwaremagazine.com
  ignoring donate
  ignoring join_form
  adding associate/index_html
  ignoring http://order.fsf.org
  adding donate/patron/index_html
  adding campaigns/priority.html
  ignoring http://r300.sf.net/
  ignoring http://developer.classpath.org/mediation/OpenOffice2GCJ4
  ignoring http://gcc.gnu.org/java/index.html
  ignoring http://www.gnu.org/software/classpath/
  ignoring http://gplflash.sourceforge.net/
  ignoring campaigns
  adding campaigns/broadcast-flag.html
  ignoring http://www.gnu.org
  ignoring /fsf/licensing
  ignoring http://directory.fsf.org
  ignoring http://savannah.gnu.org
  ignoring mailto:[email protected]
  ignoring http://www.fsf.org/Members/root
  ignoring http://www.plonesolutions.com
  ignoring http://www.enfoldtechnology.com
  ignoring http://blacktar.com
  ignoring http://plone.org
  ignoring http://www.section508.gov
  ignoring http://www.w3.org/WAI/WCAG1AA-Conformance
  ignoring http://validator.w3.org/check/referer
  ignoring http://jigsaw.w3.org/css-validator/check/referer
  ignoring http://plone.org/browsersupport

Checking link  licensing/essays/free-sw.html
  ignoring mailto:webmaster

Checking link  associate/index_html
  ignoring mailto:webmaster

Checking link  donate/patron/index_html
  ignoring mailto:webmaster

Checking link  campaigns/priority.html
  ignoring mailto:webmaster

Checking link  campaigns/broadcast-flag.html
  ignoring mailto:webmaster

done

[mtj@camus]$

这个例子展示了 Web spider 爬行的阶段。当客户机读取一个文件之后，就对这个页面的内容进行扫描，这与索引程序的情况相同。

回页首

Linux spider 工具

现在您已经学会如何实现 scraper 和 spider 了。有一些 Linux 工具也可以提供类似功能。

wget 命令（代表 Web get 之义）是一个获取 Web 内容的有用工具，它可以递归遍历 Web 站点并从中提取感兴趣的内容。其中 Web 站点、所感兴趣的内容以及其他一些管理选项都可以自定义。这个命令随后就可以将这些文件下载到本地主机上。例如，下面这个命令可以连接到所指定的 URL 上并对其进行递归遍历，不过深度不会超过 3 层，然后会从中提取扩展名为 mp3、mpg、mpeg 或 avi 的内容。

wget -A mp3,mpg,mpeg,avi -r -l 3 http://<some URL>

curl 命令也可以类似地进行操作，其优点是现在它仍然在积极的开发完善之中。可以使用的其他类似命令还有 snarf、fget 和 fetch。

回页首

合法性问题

在 Internet 上使用 Web spider 进行数据挖掘已经导致了一些法律纠纷，这些纠纷解决得不太顺利。Farechase 公司最近就被 American Airlines 以屏幕 scrape（实时进行的）为由而起诉。American Airlines 先是控告搜集数据行为违反了 American Airlines 的用户协议（可以在 Terms and Conditions 中找到）。当这种控告不成立之后，American Airlines 又指责这是一种侵入行为，并由此胜诉。其他的一些法律纠纷的缘由则是 spider 和 scraper 所占用的带宽影响了合法用户的使用。这些都是有效的权利声明，因此使得礼貌原则变得更加重要。更多信息请参阅参考资料部分。

回页首

展望

在 Web 上爬行和搜索可能会非常有趣，有时也会非常有益。不过正如前面介绍的那样，这里也有一些合法性问题。在进行这种操作时，一定要遵循服务器上提供的 robots.txt 文件的指示，并将其结合到您的礼貌原则当中。一些新的协议，例如 SOAP，会让爬行对于普通的 Web 操作来说更为容易，并且所受的干扰更小。将来的一些努力，例如语义 Web，将会使得爬行更加简单，因此爬行的解决方案和方法还会不断发展。

参考资料

学习

您可以参阅本文在 developerWorks 全球站点上的英文原文。
Wikipedia Web crawler 页面是有关 Web 爬虫信息很好的资源，包括它们的历史和 Web 爬行策略。
Email Spiders 介绍了有趣的 e-mail spider 以及如何防止它们。
Web Robots Pages 是一个最早的有关 Web robot 的站点，上面有很多有关拒绝 Robot 访问协议（Robots Exclusion Protocol）的有用信息（可用于您的礼貌原则）。
“Scrapers, Robots and Spiders: The Battle Over Internet Data Mining”（Gesmer Updegrove LLP，2006）对 Web scraper 的合法性和道德问题进行了有趣的介绍，包括对 American Airlines 和 Farechase, Inc. 之间的官司的讨论。
在 developerWorks Linux 专区中可以找到为 Linux 开发人员准备的更多资源。
随时关注 developerWorks 技术事件和网络广播。

获得产品和技术

Searchtools.com 的 Web Robot Spiders 的源代码提供了用几种语言编写的用来完成各种任务的开源 Robot 源代码。
订购免费的 SEK for Linux，这有两张 DVD，包括最新的 IBM for Linux 的试用版软件，包括 DB2®、Lotus®、Rational®、Tivoli® 和 WebSphere®。
利用 IBM 试用软件构建您的下一个 Linux 开发项目，这些软件可以从 developerWorks 上直接下载。

讨论

通过参与 developerWorks blogs 加入 developerWorks 社区。

关于作者

M. Tim Jones 是一名嵌入式软件工程师，他是 GNU/Linux Application Programming、AI Application Programming 和 BSD Sockets Programming from a Multilanguage Perspective 等书籍的作者。他的工程背景非常广泛，从同步宇宙飞船的内核开发到嵌入式架构设计，再到网络协议的开发。Tim 是 Emulex Corp. 的一名顾问工程师。

建议

你可能感兴趣的:(html,linux,Web,server,服务器,internet)

spring 的model repository service controller的功能 LCY133 web开发 spring java 后端
1.Controller层（控制层）•功能：负责接收和处理HTTP请求，协调客户端与业务逻辑之间的交互。•核心职责：•请求处理：解析HTTP请求参数（如URL参数、Body数据、Headers）。•路由分发：根据请求路径（@RequestMapping）调用对应的Service方法。•响应生成：返回格式化数据（如JSON、XML）或视图（如HTML页面）。•输入校验：验证请求参数的合法性（如使用@
Web组态可视化编辑器快速绘制组态 2401_88272797 前端编辑器
随着工业智能制造的发展，工业企业对设备可视化、远程运维的需求日趋强烈，传统的单机版组态软件已经不能满足越来越复杂的控制需求，那么实现Web组态可视化界面成为了主要的技术路径。行业痛点对于软件服务商来说，将单机版软件转变为网页版软件已经到了势在必行的阶段。但是，转变是一个复杂的过程，尤其是软件里面的组态功能部分，对于公司或个人都会面临以下几方面的问题：1、无相关组态开发经验，无技术积累。2、开发周期
SpringBoot调用deepseek 想买CT5的小曹 spring boot 后端 java
1、效果截图：2、代码部分：application.propertiesserver.port=8080deepseek.api.token=sk-d34e929e887b4881813395241df2f745deepseek.api.url=https://api.deepseek.com/chat/completionscontroller部分请求参数可以缩短，写成实体类形式packagec
Linux驱动学习--V4L2框架文艺小少年 linux 运维服务器 V4L2
一、引言V4L2是Videoforlinux2的简称,为linux中关于视频设备的内核驱动。在Linux中，视频设备是设备文件，可以像访问普通文件一样对其进行读写，摄像头在/dev/video0下。V4L2在设计时，是要支持很多广泛的设备的，它们之中只有一部分在本质上是真正的视频设备。主要有以下几种几种接口视频采集接口(videocaptureinterface):这种应用的设备可以是高频头或者摄
RabbitMQ实战（二）-消息持久化策略、事务以及Confirm消息确认方式 Java思享汇 RabbitMQ学习 RabbitMQ 消息持久化事务 confirm ack
「扫码关注我，面试、各种技术（mysql、zookeeper、微服务、redis、jvm）持续更新中～」RabbitMQ学习列表：RabbitMQ实战（一）-消息通信基本概念·在上一篇学习完RabbitMQ通信的基本概念后，我们来继续学习消息的持久化以及代码实现RabbitMQ通信。在正常生产环境运维过程中无法避免RabbitMQ服务器重启，那么，如果RabbitMQ重启之后，那些队列和交换器就会
【从零开始学习计算机科学】数据库系统（十一）云数据库、NoSQL 与 NewSQL 贫苦游商数据库学习 nosql newsql 云数据库 CAP sql
【从零开始学习计算机科学】数据库系统（十一）云数据库、NoSQL与NewSQL云数据库云服务器的服务云数据库和传统的分布式数据库的异同NoSQLNoSQL数据库的特点CAP定理NoSQL的特性NoSQL数据库的分类NoSQL的适用场景Nosql数据库实例-RedisRedis的优势MongoDBMongoDB的特点NewSQLNewSQL出现的背景NewSQL（新型分布式数据库）的概念NewSQL
如何解决 Apache 直接显示 PHP 源码问题？ apachephp
在设置web服务器时，您可能会遇到浏览器直接显示原始PHP代码的问题。这通常意味着您的服务器没有正确处理PHP文件。让我们看看为什么会发生这种情况，以及如何在基于Debian和RHEL的系统上修复它。可能的原因PHP模块没有在Apache中正确安装或配置。Apache配置中.php文件没有链接到PHP模块。.htaccess文件中有错误。1.安装配置PHP首先，确保安装了PHP和ApachePHP
HTML 样式之 CSS 全面解析烂蜻蜓 HTML html css 前端
在网页开发的世界里，HTML负责搭建页面的结构，而CSS（CascadingStyleSheets，层叠样式表）则承担着渲染HTML元素标签样式的重任，赋予网页丰富的视觉效果。一、CSS的魅力展现CSS能够实现诸如改变文字的样式与颜色（Look!Stylesandcolors）、灵活操控文本（ManipulateText）、设置元素的颜色和盒子模型（Colors,Boxes）等诸多功能，极大地提升
多语言环境全支持的面板有哪些？开源软件
多语言环境全支持的面板有哪些？以Websoft9为例在全球化技术协作与跨国业务部署的背景下，用户对服务器管理工具的跨语言支持需求已从简单的界面翻译，扩展到多语言多环境全支持的深度适配。这一概念不仅要求界面语言的切换能力，更需要覆盖技术部署、本地化服务与区域合规性等多维度需求。本文从技术中立视角，探讨该领域的核心标准与代表性解决方案。一、何为“多语言多环境全支持”？首先了解什么是多语言多环境全支持，
在uni-app中使用SQLite today喝咖啡了吗 uni-app sqlite 数据库
目录1、引入sqlite模块1.1、android权限申请1.2、权限配置1.3、打包，制作自定义基座运行2、sqlite文件结构3、初始化文件index.js4、打开数据库5、查询数据6、可视化测试SQLite是一个进程内的库，实现了自给自足的、无服务器的、零配置的、事务性的SQL数据库引擎。它是一个零配置的数据库，这意味着与其他数据库不一样，您不需要在系统中配置。就像其他数据库，SQLite引
Docker-Compose 快速部署安装 Nginx 或其他应用 yangshuo1281 docker nginx 运维
Docker-Compose快速部署安装Nginx或其他应用1.下载Docker-Compose访问以下地址下载Docker-Compose：Docker-Compose下载地址2.上传并解压Docker-Compose将下载的Docker-Compose文件上传到服务器，并进行解压。3.安装Docker在CentOS或RHEL上安装Docker：1.删除旧版本的Docker（如果已安装）：sud
SSL证书：网站安全的守护者 ssl证书
在互联网时代，网站安全至关重要。SSL证书，如同网站的安全卫士，默默守护着用户的数据安全，为网站构建起一道坚固的防线。如何申请SSL证书？登录JoySSL官网注册账号填写注册码【230930】有专属技术指导申请SSL证书的流程非常简单：选择证书类型：根据网站需求选择合适的SSL证书类型。生成CSR文件：在服务器上生成证书签名请求（CSR）文件。提交申请：将CSR文件提交给证书颁发机构（CA），并完
响应式设计已死？流体布局才是未来！前端javascript
ReactHook深入浅出CSS技巧与案例详解vue2与vue3技巧合集VueUse源码解读在当今的Web设计领域，挑战从未如此巨大。各种屏幕尺寸和分辨率的智能设备层出不穷，要让网站在所有设备上保持一致的用户体验，难度可想而知。但别担心，流体布局（FluidLayout）正是为了解决这一问题而生。它不仅适用于超大屏幕，同样也能完美适配小型移动设备，真正做到自适应！接下来，我们深入了解流体布局的原理
Spring Cloud Alibaba RocketMQ 消息队列 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介RocketMQ是一款开源、高性能、分布式消息中间件，它具备以下主要特征：支持海量消息堆积能力，支持发送10万+TPS，且不受单机容量限制；提供灵活的消息过滤机制，支持按照标签，SQL92标准的过滤语法进行消息过滤；丰富的消息订阅模型，包括广播消费，集群消费，事务消费等多种模式；内置丰富的管理控制台，通过WebUI来方便地对集群进行管理、监控及报警；高吞吐量，单
LINUX 磁盘和文件系统管理（二）好多知识都想学 linux
LVM管理命令常用的LVM管理命令PV（物理卷）、VG（卷组）、LV（逻辑卷）格式：pvcreate(pvdisplay、pvremove)[分区或磁盘位置]vgcreate[卷组名][物理卷位置][物理卷位置]vgremove[卷组名]vgextend[需要扩展卷组名][物理卷位置]lvcreate-L[容量大小]-n[逻辑卷名][卷组名]lvextend-L[+扩展大小]/dev/卷组名/逻辑
Stable Diffusion/DALL-E 3图像生成优化策略云端源想 stable diffusion
StableDiffusion的最新版本或社区开发的插件，可以补充这些信息以保持内容的时效性。云端源想1.硬件与部署优化（进阶）显存压缩技术使用--medvram或--lowvram启动参数（StableDiffusionWebUI），通过分层加载模型降低显存占用（适合6GB以下显卡）。分块推理（TiledDiffusion）：将图像分割为512×512区块，逐块生成后无缝拼接，支持4096×40
Linux C++ 编程死锁详解 PM简读馆 Linux嵌入式驱动开发开发语言 c++linux
作者简介：程序员转项目管理领域优质创作者个人邮箱：[[email protected]]PMP资料导航：PM菜鸟（查阅PMP大纲考点）座右铭：上善若水，水善利万物而不争。绿泡泡：PM简读馆（包含更多PM常用免费资料）目录概要一、死锁的四个必要条件二、常见死锁场景三、代码解释1、资源申请顺序不一致问题描述解决方案2.优先级倒置问题描述解决方案3.线程间循环等待问题描述解决方案4.锁嵌套（LockNe
奇安信网闸面试题 “向阳的蛋” 奇安信安全网络
一、问：在客户现场经常遇到网闸登录密码忘记的情况，那需要如何重置管理员密码呢？答：连接设备串口，输入后台账号密码：hawk/hawk，执行重置命令：webpass，重置后密码为默认!1fw@2soc#3二、问：网闸授权访问模块如果出现业务异常不通情况，排查思路是什么？答：1.检查授权访问配置的监听ip和端口是否被其他任务占用，内外闸任务号是否一致查看授权访问的服务状态是否正常运行登录auditor
【Linux 初学篇】（1）目录结构、远程登录、vim 和 vi、用户管理 2401_83817418 程序员 linux vim 运维
/usr/local这是一个给主机额外安装软件（软件）所安装的目录。一般是通过编译源码方式安装的程序1.2.9boot存放的是启动Linux时使用的一些核心文件，包括一些连接文件以及镜像文件1.2.10proc这是一个虚拟的目录，它是系统内存的映射，访问这个目录来获取系统信息（该目录不能动）1.2.11srvservice的缩写，该目录存放一些服务启动之后所需要提取的数据（该目录不能动）1.2.1
Linux---sqlite3数据库磨十三数据库 linux sqlite
一、数据库分类1.按数据关系分类类型特点代表产品关系型数据库-使用SQL（结构化查询语言）-数据以行列形式存储，支持事务和复杂查询MySQL、Oracle、SQLite非关系型数据库-无固定表结构（如键值对、文档、图）-高扩展性，适合非结构化数据MongoDB、Redis2.按功能规模分类类型特点代表产品大型数据库高并发、高可用性，支持企业级应用Oracle、DB2中型数据库适用于中小型企业，跨平
30岁了，零基础想转行网安从头开始现实吗？白帽子凯哥哥 tcp/ip 安全 web安全学习网络
这篇文章没有什么套路。就是一套自学理论和方向，具体的需要配合网络黑白去学习。毕竟是有网络才会有黑白！有自学也有培训！1.打死也不要相信什么分分钟钟教你成为大黑阔的，各种包教包会的教程,就算打不死也不要去购买那些所谓的盗号软件之类的东西。2，我之前让你们在没有目的的时候学习linux,在学习LINUX的同时你第一个遇到的问题就是命令。作为一个黑客入门着来说你必须要懂什么是命令化系统,什么是图形化系统
Docker Compose 部署 steamcmd 安装奈斯服务端 nukix 服务端 docker java 服务器
由于打算在云端服务器部署奈斯启示录服务端跟朋友们一起玩，所以在云端搭建服务器，顺便写下本文章记录搭建的过程。博主博客https://blog.uso6.comhttps://blog.csdn.net/dxk539687357要使用DockerCompose部署steamcmd（Steam命令行工具），可以按照以下步骤进行：步骤1：创建docker-compose.yml文件在目标目录下创建doc
Linux 线程鹰击长空KO C Linux linux C
【1】什么是线程1.概念线程：是一个进程并发执行多个任务的机制。并发：多个任务同时进行。（cpu以ms级别的速度进程调度，切换进程和线程）；进程的上下文切换：上下文：运行一个程序所需要的所有资源。上下文切换：替换原有内容，是一个耗时的操作。为了提高系统的性能，引入一个轻量级的进程概念，称之为线程。线程：属于进程，每一个进程至少需要一个线程作为指令执行体，线程运行在进程空间内。多线程：一个进程中，有
linux bash 取得命令执行的结果,Linux的Bash特性之：命令的执行结果以及状态结果... 寻书人 linux bash 取得命令执行的结果
linux中的命令执行的状态结果：bash通过状态返回值来输出此结果：成功：0失败：1-255命令执行完成之后，其状态返回值保存于bash的特殊变量$?中；命令正常执行时，有命令的返回值：根据命令及其功能不同，结果各不相同；引用命令的执行结果(命令结果)：$(COMMAND)或COMMAND(反引号)例如：ll/tmp/命令运行后返回的结果为命令的执行结果，命令执行成功后的状态结果返回在特殊变量$
XPath元素定位实践案例：从基础到高阶的实战解析测试渣 selenium python 自动化
引言在软件测试与自动化领域，元素定位是实现高效测试的核心能力。随着Web和移动应用的复杂性提升，传统的ID、类名等定位方式面临动态生成、元素嵌套过深等挑战。XPath作为一种灵活且强大的定位语言，通过路径表达式与逻辑运算符的组合，能够精准定位复杂场景下的元素。本文结合多个真实案例，深入解析XPath的基础语法、高阶技巧及实战应用，帮助读者掌握这一关键技能。一、XPath基础语法与定位策略1.1XP
linux基础02（Bash+vim用法）景天科技苑 linux基础与进阶 shell脚本编写实战 linux bash vim
Bash详解：在Linux系统中，Bash是一种Unixshell，用于与操作系统进行交互，执行命令和脚本，以及管理文件和目录。Bash是BourneAgainSHell的缩写，是一种强大的命令行界面工具，广泛用于Linux和其他类Unix操作系统。Bash提供了非常丰富的命令集和脚本编程功能，可以用于自动化任务、批处理操作、系统管理、软件开发等各种用途。我们在服务器上操作命令时，谨记：1、在服务
CSS3 用户界面设计指南 froginwe11 开发语言
CSS3用户界面设计指南引言随着互联网的快速发展，用户界面设计已经成为网站和应用程序吸引和留住用户的关键因素之一。CSS3，作为Web开发中的核心技术之一，提供了丰富的工具和特性来改善用户界面。本文将深入探讨CSS3在用户界面设计中的应用，包括基本概念、常用技巧以及实际案例分析。CSS3用户界面基本概念1.媒体查询媒体查询（MediaQueries）是CSS3的一个重要特性，它允许开发者根据不同的
浅谈基于saas模式的ERP优劣以及未来发展分析微笑的曙光（StevenLi）业务发展 java mongodb sql
SaaS模式在ERP中的应用已经越来越广泛，尤其是在中小企业和初创企业中。SaaSERP通过云计算技术，将ERP系统部署在云端服务器上，企业用户只需通过互联网浏览器即可访问和使用，无需在本地安装和维护复杂的软件和硬件基础设施。这种模式大大降低了企业的初期投资成本，提高了业务的灵活性和响应速度。同时，SaaSERP还支持多租户架构，多个用户可以同时使用同一套系统而互不干扰，进一步提高了资源的利用率。
Linux之bash常用命令 Ssaty. linux bash unix
第1关：linux之bash常用命令基本知识任务描述本关任务：根据基本知识点，回答一些选择题。相关知识为了完成本关任务，你需要掌握：1.Linux简单介绍2.Linux的优缺点3.操作系统介绍4.UNIX操作系统5.MINIX操作系统6.GNU计划7.POSIX标准8.程序学习方法9.为什么学习Linux10.Linux发展历史Linux简单介绍Linux核心理念：万物皆文件。Linux：是一个内
Electron+Python软件系统开发记录（一）：基础环境搭建多宝鱼1998 环境配置遇到的坑 python nodejs thrift
Electron+Python软件系统开发记录（一）：基础环境搭建1.问题说明最近开始做本科毕设，其中有一部分内容是搭建一个完整的软件系统。系统要求就是常见的客户端，服务器，数据库的整体架构。因为本科不是计算机系的，所以学习的相关技能少，以前写课程设计一般用QT或者MFC，还有Mac的OC语言。本着多学习的态度，这次选用了Electron框架，可以迫使自己学学html,css,js这些东西。后端因
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&