人生如梦19

python浓缩（20）

Python 的Web 应用：简单的Web 客户端
urlparse 和 urllib 模块
高级的 Web 客户端
网络爬虫/蜘蛛/机器人
CGI:帮助 Web 服务器处理客户端数据
创建 CGI 应用程序
在 CGI 中使用Unicode
高级 CGI
创建 Web 服务器
相关模块

20.1 介绍

本章有关Web 编程,可以帮助你对出Python 在因特网上的各种基础应用有个概要了解，例如通过Web 页面建立用户反馈表单，通过CGI 动态生成输出页面

20.1.1 Web 应用：客户端/服务器计算

Web 应用遵循客户端/服务器架构。Web 的客户端是浏览器，Web 服务器端，进程运行在信息提供商的主机上。这些服务器等待客户和文档请求，进行相应的处理，返回相关的数据。正如大多数客户端/服务器的服务器端一样，Web 服务器端被设置为“永远”运行。

一个用户执行一个像浏览器的这类客户端程序与Web 服务器取得连接，就可以在因特网上任何地方获得数据。客户端向服务器端发送一个请求，然后服务器端响应这个请求并将相应的数据返回给客户端。客户端可能向服务器端发出各种请求。这些请求可能包括获得一个网页视图或者提交一个包含数据的表单。请求经过服务器端的处理，会以特定的格式(HTML 等等)返回给客户端浏览。

Web 客户端和服务器端交互使用的“语言”，Web 交互的标准协议是HTTP（超文本传输协议）。HTTP协议是TCP/IP 协议的上层协议，这意味着HTTP 协议依靠TCP/IP 协议来进行低层的交流工作。它的职责不是路由或者传递消息（TCP/IP 协议处理这些），而是通过发送、接受HTTP 消息来处理客户端的请求。

HTTP 协议属于无状态协议，它不跟踪从一个客户端到另一个客户端的的请求信息，这点和我们现今使用的客户端/服务器端架构很像。服务器端持续运行，但是客户端的活动是按照这种结构独立进行的：一旦一个客户的请求完成后，活动将被终止。可以随时发送新的请求，但是他们会被处理成独立的服务请求。由于每个请求缺乏上下文背景，你可以注意到有些URL 会有很长的变量和值作为请求的一部分，以便提供一些状态信息。另外一个选项是“cookie”--保存在客户端的客户状态信息。本章的后面将会看到如何使用URL 和cookie 来保存状态信息。

20.1.2 因特网

因特网是一个连接全球客户端和服务器端的“迷雾”。客户端最终连接到服务器的通路，实际包含了不定节点的连通。作为一个客户端用户，所有这些实现细节都会被隐藏起来。抽象成为了从客户端到所访问的服务器端的直接连接。被隐藏起来的HTTP， TCP/IP 协议将会处理所有的繁重工作。中间的环节信息用户并不关心，所以将这些执行过程隐藏起来是有好处的。图20-2展示了因特网的扩展视图。

左侧指明了在哪里你可以找到Web 客户端，而右侧则暗示了Web 服务器的具体位置。如图所示：因特网是由多种工作在一定规则下的（也许非连贯的）相互连接的网络组成的。图表左侧的焦点是Web 客户端，在家上网的用户通过拨号连接到ISP（因特网供应商）上，上班族使用的则是公司的局域网。图表的右半部分关注的是Web 服务器端及位置所在。具有大型Web 站点的公司会将他们全部的“Web 服务器” 放在ISP 那里。这种物理安放被称为“整合”，这意味着你的服务器和其它客户的服务器一同放在ISP 处被“集中管理”。这些服务器或许为客户提供了不同的数据或者有一部分为应付重负荷（高数量用户群）而设计成了可以存储重复数据的系统。小公司的Web 站点或许不需要这么大的硬盘或者网络设备，也许仅有一个或者几个“整合”服务器安放在他们的ISP 处就可以了。

在任何一种情况下，大多数“整合”服务器被部署在大型ISP 提供的骨干网上，这意味着他们具有更高的“带宽”，如果你愿意，可以更接近因特网的核心点，从而可以更快的与因特网取得连接。这就允许客户端可以绕过许多网络直接快速的访问服务器，从而在指定的时间内可以使得更多的客户获得服务。

Web 应用是网络应用的一种最普遍的形式，但不是唯一的形式。Web 出现之前，因特网主要用于教学和科研目的。因特网上的大多数系统都是运行在Unix 平台上的—一个多用户操作系统，许多最初的因特网协议至今仍被沿用。这些协议包括telnet（允许用户在因特网上登录到远程的主机上，至今仍用），FTP 协议（文本传输协议，用户通过上传和下载文件可以共享文件和数据，至今仍用），Gopher（Web 搜索引擎的雏形—一个在互联网上爬动的小软件“gopher”可以自动寻找你感兴趣的数据），SMTP 或者叫做简单邮件传输协议（这个协议用于最古老的也是应用最广泛的电子邮件），NNTP（新闻对新闻传输协议）。

由于Python 的最初偏重就是因特网编程，除了其他一些东西外你还可以找到上边提及的所有协议。可以这样区分“因特网编程”和“Web 编程”，后者仅包括针对Web 的应用程序开发，也就是说Web 客户端和服务器是本章的焦点。因特网编程涵盖更多范围的应用程序：包括我们之前提及的一些因特网协议，例如：FTP， SMTP等，同时也包括我们前一章提到的网络编程和套接字编程。

20.2 使用Python 进行Web 应用：创建一个简单的Web 客户端

浏览器只是Web 客户端的一种。任何一个通过向服务器端发送请求来获得数据的应用程序都被认为是“客户端”。当然，也可以建立其他的客户端从而在因特网上检索出文档和数据。这样做的一个重要原因就是浏览器的能力有限，也就是说，它主要用于查看并同其他Web站点交互。另一方面，一个客户端程序，有能力做得更多—它不仅可以下载数据，同时也可以存储、操作数据，甚或可以将其传送到另外一个地方或者传给另外一个应用。

一个使用urllib 模块下载或者访问Web 上的信息的应用程序[使用urllib.urlopen() 或者urllib.urlre- trieve()]可以被认为是简单的Web 客户端。你所要做的就是提供一个有效的Web 地址。

20.2.1 统一资源定位符

简单的Web 应用包扩使用被称为URL（统一资源定位器）的Web 地址。这个地址用来在Web 上定位一个文档，或者调用一个CGI 程序来为你的客户端产生一个文档。URL 是大型标识符URI（统一资源标识）的一部分。这个超集是建立在已有的命名惯例基础上的。一个URL 是一个简单的URI，使用已存在的协议或规划（也就是 http，ftp 等）作为地址的一部分。为了进一步描绘这些，我们将会引入non-URL 的URI，有时这些被成为URN（统一资源名称），但是在今天我们唯一使用的一种URI是URL，至于URI 和URN 你也许没有听到太多，这或许已被保存成XML 标识符了。URL 使用这种格式：

prot_sch://net_loc/path;params?query#frag

net_loc 可以进一步拆分成多个部件，有些是必备的，其他的是可选部件，net_loc 字符串下：user:passwd@host :port

host 主机名是最重要的。端口号只有在Web 服务器运行其他非默认端口上时才会被使用。用户名和密码部分只有在使用FTP 连接时候才有可能用到，即使使用FTP，大多数的连接都是使用匿名这时是不需要用户名和密码的。

Python 支持两种不同的模块，分别以不同的功能和兼容性来处理URL。一种是urlparse，一种是urllib。

20.2.2 urlparse 模块

urlpasrse 模块提供了操作URL 字符串的基本功能。这些功能包括urlparse(), urlunparse()和urljoin().

urlparse()将URL 字符串拆分成如上所描述的一些主要部件。语法结构如下：

urlparse(urlstr, defProtSch=None, allowFrag=None)

urlparse()将urlstr 解析成一个6-元组(prot_sch, net_loc,path, params, query,frag).如果urlstr 中没有提供默认的网络协议或下载规划时可以使用defProtSch。allowFrag 标识一个URL 是否允许使用零部件。

>>>urlparse.urlparse('http://www.python.org/doc/FAQ.html')
('http', 'www.python.org', '/doc/FAQ.html', '', '', '')

urlparse.urlunparse()

urlunparse()的功能与urlpase()完全相反—它拼合一个6-元组(prot_sch, net_loc, path,params, query, frag)- urltup,它可能是一个URL 经urlparse()后的输出返回值：

urlunparse(urlparse(urlstr)) = urlstr

你或许已经猜到了urlunpase()的语法：

urlunparse(urltup)

urlparse.urljoin()

在需要多个相关的URL 时就需要使用urljoin()的功能了，如，在一个Web 页中生成的一系列页面的URL。Urljoin()的语法是：

urljoin(baseurl, newurl, allowFrag=None)

--------------------------------------------

urlparse 功能描述

urlparse(urlstr,defProtSch=None,allowFrag=None) 将urlstr 解析成各个部件，如果在rulstr 中没有给定协议或者规划将使用defProtSch；allowFrag 决定是否允许有URL零部件。

urlunparse(urltup) 将URL数据(urltup)的一个元组反解析成一个URL 字符串。

urljoin(baseurl,newurl, allowFrag =None) 将URL 的基部件baseurl 和newurl 拼合成一个完整的URL；allowFrag 的作用和urlpase()中相同。

--------------------------------------------

urljoin()取得baseurl，并将其基路径(net_loc 附加一个完整的路径，但是不包括终端的文件)与newurl 连接起来。例如：

>>> urlparse.urljoin('http://www.python.org/doc/FAQ.html', \

... 'current/lib/lib.htm')

'http://www.python.org/doc/current/lib/lib.html'

在表20.3 中可以找到urlparse 的功能概述。

20.2.3 urllib 模块

核心模块：urllib

urllib 模块提供了所有你需要的功能，除非你计划写一个更加低层的网络客户端。urllib 提供了了一个高级的Web 交流库，支持Web 协议，HTTP， FTP 和Gopher 协议，同时也支持对本地文件的访问。urllib 模块的特殊功能是利用上述协议下载数据(从因特网、局域网、主机上下载)。使用这个模块可以避免使用httplib， ftplib 和gopherlib 这些模块，除非你想用更低层的功能。在那些情况下这些模块都是可选择的(注意：大多数以*lib 命名的模块用于客户端相关协议开发。并不是所有情况都是这样的，或许urllib 应该被命名为“internetlib”或者其他什么相似的名字)。

Urllib 模块提供了在给定的URL 地址下载数据的功能，同时也可以通过字符串的编码、解码来确保它们是有效URL 字符串的一部分。接下来要谈的功能包括urlopen(), urlretrieve(),quote(),unquote(), quote_plus(), unquote_plus(), 和 urlencode() 。可使用urlopen()方法返回文件类型对象。你会觉得这些方法不陌生，因为在第九章我们已经涉及到了文件方面的内容。

urllib.urlopen()

urlopen() 打开一个给定URL 字符串与Web 连接，并返回了文件类的对象。语法结构如下：

urlopen(urlstr, postQueryData=None)

urlopen()打开urlstr 所指向的URL。如果没有给定协议或者下载规划，或者文件规划早已传入，urlopen()则会打开一个本地的文件。

对于所有的HTTP 请求，常见的请求类型是“GET”。在这些情况中，向Web 服务器发送的请求字符串(编码键值或引用，如urlencode()函数的字符串输出[如下])应该是urlstr 的一部分。如果要求使用“POST”方法，请求的字符串（编码的）应该被放到postQueryData 变量中。GET 和POST 请求是向Web 服务器上传数据的两种方法。

一旦连接成功，urlopen() 将会返回一个文件类型对象。例如，如果文件对象是f，那么“句柄”将会支持可读方法如：f.read(),f.readline(), f.readlines(), f.close(),和f.fileno().此外，f.info()方法可以返回MIME（Multipurpose Internet Mail Extension，多目标因特网邮件扩展）头文件。这个头文件通知浏览器返回的文件类型可以用哪类应用程序打开。例如，浏览器本身可以查看HTML，纯文本文件，生成PNG文件，JPEG或者GIF文件。其他的如多媒体文件，特殊类型文件需要通过扩展的应用程序才能打开。

最后，geturl()方法在考虑了所有可能发生的间接导向后，从最终打开的文件中获得真实的URL。

如果你打算访问更加复杂的URL 或者想要处理更复杂的情况如基于数字的权限验证，重定位，coockie 等问题，建议使用urllib2 模块。它同时还有一个urlopen()函数，但也提供了其他的可以打开各种URL 的函数和类。关于urllib2 的更多信息，将会在本章的下一部分介绍。

urllib.urlretrieve()

如果你对整个URL 文档的工作感兴趣，urlretrieve()可以帮你快速的处理一些繁重的工作：

urlretrieve(urlstr, localfile=None, downloadStatusHook=None)

除了像urlopen()这样从URL 中读取内容，urlretrieve()可以方便地将urlstr 定位到的整个HTML 文件下载到你本地的硬盘上。可以将下载后的数据存成一个本地文件或者一个临时文件。如果该文件已经被复制到本地或者已经是一个本地文件，后续的下载动作将不会发生。如果可能，downloadStatusHook 这个函数将会在每块数据下载或传输完成后被调用。调用时使用下边三个参数：目前读入的块数，块的字节数和文件的总字节数。如果你正在用文本的或图表的视图向用户演示“下载状态”信息，这个函数将会是非常有用的。

urlretrieve()返回一个2-元组(filename, mime_hdrs)。filename 是包含下载数据的本地文件名，mime_hdrs 是对Web 服务器响应后返回的一系列MIME 文件头。要获得更多的信息，可以看mimetools 的Message 类。对本地文件来说mime_hdrs 是空的。

关于urlretrieve()的简单应用，可以看11.4(grabweb.py)中的例子。20.2 中将会介绍urlretrieve()更深层的应用。

urllib.quote() and urllib.quote_plus()

quote*()函数获取URL 数据，并将其编码，从而适用于URL 字符串中。尤其是一些不能被打印的或者不被Web 服务器作为有效URL 接收的特殊字符串必须被转换。这就是quote*()函数的功能。quote*()函数的语法如下：

quote(urldata, safe='/')

逗号，下划线，句号，斜线和字母数字这类符号是不需要转化。其他的则均需要转换。另外，那些不被允许的字符前边会被加上百分号(%)同时转换成16 进制,例如：“%xx”，“xx”代表这个字母的ASCII 码的十六进制值。当调用quote*()时，urldata 字符串被转换成了一个可在URL 字符串中使用的等价值。safe 字符串可以包含一系列的不能被转换的字符。默认的是斜线（/）。quote_plus() 与quote()很像，另外它还可以将空格编码成+号。下边是一个使用quote()和quote_plus()的例子：

>>> name = 'joe mama'
>>> number = 6
>>> base = 'http://www/~foo/cgi-bin/s.py'
>>> final = '%s?name=%s&num=%d' % (base, name, number)
>>> final
'http://www/~foo/cgi-bin/s.py?name=joe mama&num=6'
>>>
>>> urllib.quote(final)
'http:%3a//www/%7efoo/cgi-bin/s.py%3fname%3djoe%20mama%26num%3d6'
>>> urllib.quote_plus(final)
'http%3a//www/%7efoo/cgi-bin/s.py%3fname%3djoe+mama%26num%3d6'

urllib.unquote() 和 urllib.unquote_plus()

unquote*()函数与quote*()函数的功能安全相反—它将所有编码为“%xx”式的字母都转换成它们的ASCII 码值。Unquote*()的语法如下：unquote*(urldata)

调用unquote()函数将会把urldata 中所有的URL-编码字母都解码，并返回字符串。

Unquote_plus()函数会将加号转换成空格符。

urllib.urlencode()

在1.5.2 版的Python 中，urlopen()函数接收字典的键-值对，并将其编译成CGI 请求的URL 字符串的一部分。键值对的格式是“键=值”,以连接符(&)划分。更进一步，键和它们的值被传到quote_plus()函数中进行适当的编码。下边是urlencode()输出的一个例子：

>>> aDict = { 'name': 'Georgina Garcia', 'hmdir': '~ggarcia' }
>>> urllib.urlencode(aDict)
'name=Georgina+Garcia&hmdir=%7eggarcia'

urllib 和urlparse 还有一些其他的功能，在这里我们就不一一概述了。阅读相关文档可以获得更多信息。

安全套接字层支持

在1.6 版中urllib 模块通过安全套接字层(SSL)支持开放的HTTP 连接.socket 模块的核心变化是增加并实现了SSL。随后，urllib 和httplib 模块被上传用于支持URL 在“https”连接规划中的应用。除了那两个模块以外，其他的含有SSL 的模块还有： imaplib, poplib 和 smtplib。

本节讨论的urllib 函数的概要总结。

20.2.4 urllib2 模块

urllib2 可处理更复杂URL 的打开问题。比如有基本认证需求的Web 站点。最简单的“获得已验证参数”的方法是使用URL 部件net_loc，也就是说：http://user:[email protected]，这种解决方案的问题是不具有可编程性。然而使用urllib2，可以通过两种不同的方式来解决这个问题。

建立一个基础认证处理器(urllib2.HTTPBasicAuthHandler),同时在基本URL 或域上注册一个登录密码，这就意味着在Web 站点上定义了个安全区域。一旦完成这些，可以安装URL 打开器，通过这个处理器打开所有的URL。另一个可选的办法就是当浏览器提示的时候，输入用户名和密码，这样就发送了一个带有适当用户请求的认证头。

import urlib2

LOGIN='wesc'
PASSWD=""
URL=""

def handler_version(url):
    '''
    代码的“handler”版本分配了一个前面提到的基本处理器类，并添加了认证信息。之后
    该处理器被用于建立一个URL-opener，并安装它以便所有已打开的URL 能用到这些认证信息
    '''
    from urlparse import urlparse as up
    hdlr = urllib2.HTTPBasicAuthHandler()
    hdlr.add_password('Archives', up(url)[1], LOGIN, PASSWD)
    opener = urllib2.build_opener(hdlr)
    urllib2.install_opener(opener)
    return url

def request_version(url):
    '''
    “request”版本创建了一个Request 对象，并在HTTP 请求中添加了基本的base64编码认
    证头信息。调用urlopen()时，该请求被用来替换其中的URL 字符串。注意原始URL 内
    建在Requst 对象中，正因为如此在随后的urllib2.urlopen()中调用中替换URL 字符串
    才不会产生问题。如果能直接用Harr 的HTTPRealmFinder 类就更好了，那样我们就没
    必要在例子里使用硬编码了。
    '''
    from base64 import encodestring
    req = urllib2.Request(url)
    b64str = encodestring('%s:%s' % (LOGIN, PASSWD))[:-1]
    req.add_header("Authorization", "Basic %s" % b64str)
    return req

for funcType in ('handler', 'request'):
    '''
    剩余部分用两种技术分别打开了给定的URL，并显示服务器返回的HTML 页面第一行，当然前提是要通过认证。注意如果认证信息无效的话会返回一个HTTP 错误（并且不会有HTML）。
    '''
    print '*** Using %s:' % funcType.upper()
    url = eval('%s_version')(URL)
    f = urllib2.urlopen(url)
    print f.readline()
    f.close()

还有一个很有用的文档可以在http://www.voidspace.org.uk/python/articles/urllib2.shtml 找到，你可以把它作为Python官方文档的补充。

20.3 高级Web 客户端

Web 浏览器是基本的Web 客户端。主要用来在Web 上查询或者下载文件。而Web 的高级客户端并不只是从因特网上下载文档。高级Web 客户端的一个例子就是网络爬虫（aka 蜘蛛和机器人）。这些程序可以基于不同目的在因特网上探索和下载页面，其中包括：

为 Google 和Yahoo 这类大型的搜索引擎建索引
脱机浏览—将文档下载到本地，重新设定超链接，为本地浏览器创建镜像。
下载并保存历史记录或框架
Web 页的缓存，节省再次访问Web 站点的下载时间。

我们下边介绍网络爬虫:crawl.py,抓取Web 的开始页面地址（URL），下载该页面和其它后续链接页面，但是仅限于那些与开始页面有着相同域名的页面。如果没有这个限制的话，你的硬盘将会被耗尽！crwal.py 的代码在例子20.2 中展示。

这个爬虫程序包括两个类，一个管理整个crawling 进程（Crawler）,一个检索并解析每一个下载的Web 页面（Retriever）。

#!/usr/bin/env python
# -*- coding: utf-8 -*-  
#coding=utf-8 

from sys import argv
from os import makedirs, unlink, sep
from os.path import isdir, exists, dirname, splitext
from string import replace, find, lower
from htmllib import HTMLParser
from urllib import urlretrieve
import urllib
from urlparse import urlparse, urljoin
from formatter import DumbWriter, AbstractFormatter
from cStringIO import StringIO

class Retriever(object):	# download Web pages
    '''
    从Web 下载页面，解析每个文档中的链接并在必要的时候把它们加入“to-do”队列，为
    每个从网上下载的页面都创建一个Retriever 类的实例
    '''
    def __init__(self, url):
        self.url = url
        self.file = self.filename(url)

    def filename(self, url, deffile='index.htm'):
        '''
        使用给定的URL 找出安全、有效的相关文件名并存储在本地。去掉URL 的“http://
        ”前缀，使用剩余的部分作为文件名，并创建必要的文件夹路径。那些没有文件名
        前缀的URL 则会被赋予一个默认的文件名“index.htm”。（可以在调用filename()
        时重新指定这个名字。）
        '''
        parsedurl = urlparse(url, 'http:', 0)  # parse path
        print "parsedurl", parsedurl
        path = parsedurl[1] + parsedurl[2]
        print "path", path
        ext = splitext(path)
        print "ext", ext
        if ext[1] == '':
            if path[-1] == '/':
                path += deffile
            else:
                path += '/' + deffile
        print "path", path
        ldir = dirname(path)	# local directory
        print "ldir", ldir
	if sep != '/':		# os-indep. path separator
	    ldir = replace(ldir, ',', sep)
        if not isdir(ldir):      # create archive dir if nec.
            if exists(ldir): 
                unlink(ldir)
            makedirs(ldir)
        return path

    def download(self):		# download Web page
        '''
        使用URL 调用urllib.urlretrieve()函数并把结果保存在filename 中（该值由filename()返回）
        '''
        try:
            retval = urllib.urlretrieve(self.url, self.file)
            print retval
        except IOError:
            retval = ('*** ERROR: invalid URL "%s"' % \
                self.url, )
        return retval

    def parseAndGetLinks(self):	# pars HTML, save links
        self.parser = HTMLParser(AbstractFormatter( \
            DumbWriter(StringIO())))
        self.parser.feed(open(self.file).read())
        self.parser.close()
        return self.parser.anchorlist

class Crawler(object):		# manage entire crawling process

    count = 0			# static downloaded page counter

    def __init__(self, url):
        self.q = [url]
        self.seen = []
        self.dom = urlparse(url)[1]

    def getPage(self, url):
        r = Retriever(url)
        retval = r.download()
        '''
        如果下载成功，parse()方法会被调用来解析刚从网络拷贝下来的页面；否则会返
        回一个错误字符串
        '''
        if retval[0] == '*':     # error situation, do not parse
            print retval, '... skipping parse'
            return
        Crawler.count = Crawler.count + 1
        print '\n(', Crawler.count, ')'
        print 'URL:', url
        print 'FILE:', retval[0]
        self.seen.append(url)

        '''
        调用parseAndGetLinks()方法来解析新下载的页面并决定该页面中每个链接的后续
        动作
        '''
        links = r.parseAndGetLinks()  # get and process links
        print links
        for eachLink in links:
            if eachLink[:4] != 'http' and \
                    find(eachLink, '://') == -1:
                eachLink = urljoin(url, eachLink)
            print '* ', eachLink,

            if find(lower(eachLink), 'mailto:') != -1:
                print '... discarded, mailto link'
                continue

            if eachLink not in self.seen:
                if find(eachLink, self.dom) == -1:
                    print '... discarded, not in domain'
                else:
                    if eachLink not in self.q:
                        self.q.append(eachLink)
                        print '... new, added to Q'
                    else:
                        print '... discarded, already in Q'
            else:
                    print '... discarded, already processed'

    def go(self):                # process links in queue
        while self.q:
            url = self.q.pop()
            self.getPage(url)

def main():
    if len(argv) > 1:
        url = argv[1]
    else:
        try:
            url = raw_input('Enter starting URL: ')
        except (KeyboardInterrupt, EOFError):
            url = ''

    if not url: return
    robot = Crawler(url)
    robot.go()

if __name__ == '__main__':
    main()

如果为应用程序添加线程，就可以为每个待抓爬的站点分别创建实例。

20.4 CGI:帮助Web 服务器处理客户端数据

20.4.1 CGI 介绍

随着因特网和Web 服务器的形成，产生了处理用户输入的需求，并成为了Web 站点可以从用户那里获得特殊信息的唯一形式。反过来，在客户提交了特定数据后，就要求立即生成HTML 页面。

现在Web 服务器仅有一点做的很不错，获取用户对文件的请求，并将这个文件（HTML文件）返回给客户端。它们现在还不具有处理字段类特殊数据的机制。

过程开始于Web 服务器从客户端接到了请求（GET 或者POST），并调用合适的程序。然后开始等待HTML 页面—与此同时，客户端也在等待。一旦程序完成，会将生成的动态HTML 页面返回到服务器端，然后服务器端再将这个最终结果返回给用户。服务器接到表单反馈，与外部应用程序交互，收到并返回新生成的HTML 页面都发生在一个叫做Web 服务器CGI（Common Gateway Interface）的接口上.图20-3 描述了CGI 的工作原理。

（CGI 代表了在一个Web 服务器和能够处理用户表单、生成并返回动态HTML 页的应用程序间的交互。）

创建HTML 的CGI 应用程序通常是用高级编程语言来实现的，可以接受、处理数据，向服务器端返回HTML 页面。目前使用的编程语言有Perl， PHP， C/C++,或者Python。在我们研究CGI 之前，我们必须告诉你典型的Web 应用产品已经不再使用CGI 了。

由于它词义的局限性和允许Web 服务器处理大量模拟客户端数据能力的局限性，CGI 几乎绝迹。

Web 服务的关键使命依赖于遵循像C/C++这样语言的规范。如今的Web 服务器典型的部件有Aphache和集成的数据库部件（MySQL 或者PostgreSQL），Java（Tomcat），PHP 和各种Perl 模块，Python 模块，以及SSL/security。然而，如果你工作在私人小型的或者小组织的Web 网站上的话就没有必要使用这种强大而复杂的Web 服务器， CGI 是一个适用于小型Web 网站开发的工具。更进一步来说，有很多Web 应用程序开发框架和内容管理系统，这些都弥补了过去CGI 的不足。为了开发更加高效的Web 服务有必要理解CGI 实现的基本原理。下一部分讲解在cgi 模块的协助下如何在Python 中建立一个CGI 应用程序。

20.4.2 CGI 应用程序

CGI 应用程序和典型的应用程序有些不同。主要的区别在于输入、输出以及用户和计算机交互方面。当一个CGI 脚本开始执行时，它需要检索用户-支持表单，但这些数据必须要从Web 的客户端才可以获得，而不是从服务器或者硬盘上获得。

这些不同于标准输出的输出将会返回到连接的Web 客户端，而不是返回到屏幕、CUI 窗口或者硬盘上。这些返回来的数据必须是具有一系列有效头文件的HTML。否则，如果浏览器是Web 的客户端，由于浏览器只能识别有效的HTTP 数据，那么返回的也只能是个错误消息（具体的就是因特网服务器错误）。

最后，可能和你想象的一样，用户不能与脚本进行交互。所有的交互都将发生在Web 客户端（用户的行为），Web 服务器端和CGI 应用程序间。

20.4.2 cgi 模块

在cgi 模块中有个主要类：FieldStorage 类，它完成了所有的工作。这个类将会被实例化，它会从Web 客户端读出用户信息。一旦这个对象被实例化，它将会包含一个类似字典的对象，具有一系列的键-值对，键就是通过表单传入的表单条目的名字，而值则包含相应的数据。

这些值本身可以是以下三种对象之一。

FieldStorage 对象（实例）；
类似的名为MiniFieldStorage 类的实例，用在没有文件上传或mulitple-part 格式数据的情况。MiniFieldStorage 实例只包含名字和数据的键-值对；
这些对象的列表。这发生在表单中的某个域有多个输入值的情况下；

20.5 建立CGI 应用程序

20.5.1 建立Web 服务器

用Python 进行CGI 开发，需要安装一个Web 服务器，将其配置成可以处理PythonCGI 请求的模式，然后Web 服务器访问CGI 脚本。一个真正的Web 服务器，须下载并安装Aphache。Aphache 的插件或模块可以处理Python CGI，但例子里并不是必要的。如果你准备把自己的服务"带入真实世界",也许会想安装这些软件。为了学习的目的或者是建立小型的Web 站点，使用Python 自身带的Web 服务器就已经足够了。在第20.8 节，学习如何建立和配置简单的基于Python 的Web 服务器。

如果只是想建立一个基于Web 的服务器，可直接执行下边的Python 语句：

$ python -m CGIHTTPServer

当前目录下建立一个端口号为8000 的Web 服务器。在该目录下建立一个文件夹Cgi–bin。将一些HTML 文件放到那个目录下，.py CGI 脚本在Cgi-bin 中，就可以在地址栏中输入这些地址来访问Web 站点啦。

http://localhost:8000/friends.htm http://localhost:8000/cgi-bin/friends2.py

20.5.2 建立表单页

friends.html 表单包括两个输入变量：person 和 howmany,这两个值将会被传到CGI 脚本friends1.py 中。将CGI 脚本初始化到主机默认的cgi-bin 目录下。（如果这个信息与你开发环境不一样的话，在测试Web 页面和CGI 之前请更新你的表单事件）。所有的请求将会采用默认的GET 方法。选择GET 方法是因为我们的表单没有太多的字段，同时我们希望我们的请求字段可以在“位置”（aka“Address”， “Go To”）条中显示，以便你可以看到被送到服务器端的URL。

<HTML><HEAD><TITLE>
Friends CGI Demo (static screen)
</TITLE></HEAD>
<BODY><H3>Friends list for: <I>NEW USER</I></H3>
<FORM ACTION="/cgi-bin/friends1.py">
<B>Enter your Name:</B>
<INPUT TYPE=text NAME=person VALUE="NEW USER" SIZE=15>
<P><B>How many friends do you have?</B>
<INPUT TYPE=radio NAME=howmany VALUE="0" CHECKED> 0
<INPUT TYPE=radio NAME=howmany VALUE="10"> 10
<INPUT TYPE=radio NAME=howmany VALUE="25"> 25
<INPUT TYPE=radio NAME=howmany VALUE="50"> 50
<INPUT TYPE=radio NAME=howmany VALUE="100"> 100
<P><INPUT TYPE=submit></FORM></BODY></HTML>

20.5.3 生成结果页

按下“Submit”按钮（也可以在该文本字段中按下回车键获得相同的效果。）当这些发生后， friends1.py 将会随CGI 一起被执行。

这个脚本包含了所有的编程功能，读出并处理表单的输入，同时向用户返回结果HTML 页面。表单的变量是FieldStorage 的实例，包含person 和howmanyh 字段的值。把这些值本分别存入Python 的who 和howmany 变量中。变量reshtml 包含需要返回的HTML 文本的正文，还有一些动态填好的字段，这些数据都是从表单中读入的。

#!/usr/bin/env python

import cgi

reshtml = '''Content-Type: text/html\n
<HTML><HEAD><TITLE>
Friends CGI Demo (dynamic screen)
</TITLE></HEAD>
<BODY><H3>Friends list for: <I>%s</I></H3>
Your name is: <B>%s</B><P>
You have <B>%s</B> friends.
</BODY></HTML>'''

form = cgi.FieldStorage()
who = form['person'].value
howmany = form['howmany'].value
print reshtml % (who, who, howmany)

核心提示:HTML 头文件是从HTML 中分离出来的。

在向CGI 脚本返回结果时，须先返回一个适当的HTTP 头文件后才会返回结果HTML 页面。进一步说，为了区分这些头文件和结果HTML 页面，需要在friends1.py的第五行中插入几个换行符。注意GET 请求是如何将表单中的变量和值加载在URL 地址条中的。，结果页面的HTML 不是以文本文件的形式存在硬盘上的，而是由我们的CGI 脚本生成的，并且将其以本地文件的形式返回。

20.5.4 生成表单和结果页面

删除fiends.html 文件并将其合并到friends2.py 中。但是我们如何控制生成哪个页面呢？如果有表单数据被发送，那就意味着我们需要建立一个结果页面。如果我们没有获得任何的信息，这就说明我们需要生成一个用户可以输入数据的表单页面。例子20.5 展示的就是我们的新脚本friends2.py

#!/usr/bin/env python

import cgi

header = 'Content-Type: text/html\n\n'

formhtml = '''<HTML><HEAD><TITLE>
Friends CGI Demo</TITLE></HEAD>
<BODY><H3>Friends list for: <I>NEW USER</I></H3>
<FORM ACTION="/cgi-bin/friends2.py">
<B>Enter your Name:</B>
<INPUT TYPE=hidden NAME=action VALUE=edit>
<INPUT TYPE=text NAME=person VALUE="NEW USER" SIZE=15>
<P><B>How many friends do you have?</B>
%s
<P><INPUT TYPE=submit></FORM></BODY></HTML>'''

fradio = '<INPUT TYPE=radio NAME=howmany VALUE="%s" %s> %s\n'

def showForm():
    friends = ''
    for i in [0, 10, 25, 50, 100]:
        checked = ''
        if i == 0:
            checked = 'CHECKED'
        friends = friends + fradio % \
            (str(i), checked, str(i))

    print header + formhtml % (friends)

reshtml = '''<HTML><HEAD><TITLE>
Friends CGI Demo</TITLE></HEAD>
<BODY><H3>Friends list for: <I>%s</I></H3>
Your name is: <B>%s</B><P>
You have <B>%s</B> friends.
</BODY></HTML>'''

def doResults(who, howmany):
    print header + reshtml % (who, who, howmany)

def process():
    form = cgi.FieldStorage()
    if form.has_key('person'):
        who = form['person'].value
    else:
        who = 'NEW USER'

    if form.has_key('howmany'):
        howmany = form['howmany'].value
    else:
        howmany = 0

    if form.has_key('action'):
        doResults(who, howmany)
    else:
        showForm()

if __name__ == '__main__':
    process()

表单中action 处的“hidden”变量值为“edit”。显示哪个页面的途径是通过这个字段。

20.5.5 全面交互的Web 站点

在结果页面上加个链接允许返回到表单页面，但是我们返回的是含有用户输入信息的页面而不是一个空白页面。friends3.py 和friends2.py 没有太大的不同。把URL 从表单中抽出来是因为现在有2 个地方需要它，结果页面是它的新顾客。

错误页面的显示使用了JavaScript 的“后退”按钮。因为按钮都是输入类型的，所以需要一个表单，但不需要有动作因为我们只是简单的后退到浏览器历史中的上一个页面。尽管我们的脚本目前只支持（或者说探测、测试）一种类型的错误，但我们仍然使用了一个通用的error 变量，这是为了以后还可以继续开发这个脚本，给它增加更多的错误检测。

例20.6 全用于交互和错误处理(friends3.py)通过加上返回输入信息的表单页面的连接，我们实现了整个循环，给了用户一次完整的Web 应用体验。我们的应用程序现在也进行了一些简单的错误验证，在用户没有选择任何单选按钮时，可以通知用户。

#!/usr/bin/env python

import cgi
from urllib import quote_plus
from string import capwords

header = 'Content-Type: text/html\n\n'
url = '/cgi-bin/friends3.py'

errhtml = '''<HTML><HEAD><TITLE>
Friends CGI Demo</TITLE></HEAD>
<BODY><H3>ERROR</H3>
<B>%s</B><P>
<FORM><INPUT TYPE=button VALUE=Back
ONCLICK="window.history.back()"></FORM>
</BODY></HTML>'''

def showError(error_str):
    print header + errhtml % (error_str)

formhtml = '''<HTML><HEAD><TITLE>
Friends CGI Demo</TITLE></HEAD>
<BODY><H3>Friends list for: <I>%s</I></H3>
<FORM ACTION="%s">
<B>Your Name:</B>
<INPUT TYPE=hidden NAME=action VALUE=edit>
<INPUT TYPE=text NAME=person VALUE="%s" SIZE=15>
<P><B>How many friends do you have?</B>
%s
<P><INPUT TYPE=submit></FORM></BODY></HTML>'''

fradio = '<INPUT TYPE=radio NAME=howmany VALUE="%s" %s> %s\n'

def showForm(who, howmany):
    friends = ''
    for i in [0, 10, 25, 50, 100]:
        checked = ''
        if str(i) == howmany:
            checked = 'CHECKED'
        friends = friends + fradio % \
            (str(i), checked, str(i))
    print header + formhtml % (who, url, who, friends)

reshtml = '''<HTML><HEAD><TITLE>
Friends CGI Demo</TITLE></HEAD>
<BODY><H3>Friends list for: <I>%s</I></H3>
Your name is: <B>%s</B><P>
You have <B>%s</B> friends.
<P>Click <A HREF="%s">here</A> to edit your data again.
</BODY></HTML>'''

def doResults(who, howmany):
    newurl = url + '?action=reedit&person=%s&howmany=%s' % \
        (quote_plus(who), howmany)
    print header + reshtml % (who, who, howmany, newurl)

def process():
    error = ''
    form = cgi.FieldStorage()

    if form.has_key('person'):
        who = capwords(form['person'].value)
    else:
        who = 'NEW USER'

    if form.has_key('howmany'):
        howmany = form['howmany'].value
    else:
        if form.has_key('action') and \
                form['action'].value == 'edit':
            error = 'Please select number of friends.'
        else:
            howmany = 0

    if not error:
        if form.has_key('action') and \
                form['action'].value != 'reedit':
            doResults(who, howmany)
        else:
            showForm(who, howmany)
    else:
        showError(error)

if __name__ == '__main__':
        process()

这个脚本的一个目的是创建一个有意义的链接，以便从结果页面返回表单页面。当有错误发生时，用户可以使用这个链接返回表单页面去更新他/她填写的数据。新的表单页面只有当它包含了用户先前输入的信息时才有意义。（如果让用户重复输入这些信息会很令人沮丧！）

为了实现这一点，我们需要把当前值嵌入到更新过的表单中。在第27 行，我们给name 新增了一个值。这个值如果给出的话，会被插入到name 字段。显然地，在初始表单页面上它将是空值。第38-41 行，我们根据当前选定的朋友数目设置了单选按钮。最后，通过第49 行和52-55 行更新了的doResults()函数，我们创建了这个包含已有信息的链接，它会让用户“返回”到我们更改后的表单页面。

最后我们从美学角度上加了一个简单的特性。在friends1.py 和friends2.py 的截屏中，可以看到返回结果和用户的输入一字不差。在上述的截屏中，如果用户的名字没有大写这将影响返回的页面。我们加了一个对string.capwords()函数的调用从而自动的将用户名置成大写。capwords()函数可以将传进来的每个单词的第一个字母置成大写的。这也许是或许不是必要的特性，但是我们还是愿意一起分享它，以便你知道这个功能的存在。

20.6 在CGI 中使用Unicode 编码

演示一个具有Unicode输出的简单CGI 脚本，并给浏览器足够的提示，从而可以正确的生成这些字符。唯一的要求是你的计算机必须装有对应的东亚字体以便浏览器可以显示它们。为了看到Unicode 的作用，将会用CGI 脚本生成一个多语言功能的Web 页面。首先用Unicode 字符串定义一些消息。假设你的编辑器只能输入ASCII 编码。因此，非ASCII 编码的字符使用\u 转义符输入。实际上从文件或数据库中也能读取这些消息。

# Greeting in English, Spanish,
# Chinese and Japanese. UNICODE_HELLO = u""" Hello!
\u00A1Hola!
\u4F60\u597D!
\u3053\u3093\u306B\u3061\u306F!
"""

CGI 产生的第一个头信息指出内容类型（content-type）是HTTP。此处还声明了消息是以UTF-8编码进行传输的，这点很重要，这样浏览器才可以正确的翻译它。

print 'Content-type: text/html; charset=UTF-8\r'
print '\r'

例20.7 简单Unicode CGI 示例（uniCGI.py）这个脚本输出到你Web 浏览器端的是Unicode 字符串。

#!/usr/bin/env python

CODEC = 'UTF-8'
UNICODE_HELLO = u'''
Hello!
\u00A1Hola!
\u4F60\u597D!
\u3053\u3093\u306B\u3061\u306F!
'''

print 'Content-Type: text/html; charset=%s\r' % CODEC
print '\r'
print '<HTML><HEAD><TITLE>Unicode CGI Demo</TITLE></HEAD>'
print '<BODY>'
print UNICODE_HELLO.encode(CODEC)
print '</BODY></HTML>'

然后输出真正的消息。事先用string 类的encode()方法先将这个字符串转换成UTF-8 序列。

20.7 高级CGI

包括cookie 的使用（保存在客户端的缓存数据），同一个CGI 字段的多重值，和用multipart 表单实现的文件上传。为了节省空间，会在同一个程序中向你展示这三个特性。首先让我们看下多次提交问题。

20.7.1 Mulitipart 表单提交和文件的上传

CGI 特别指出只允许两种表单编码，“ application/x-www-form-urlencoded ” 和“multipart/form-dat”，前者是默认的。

<FORM enctype="application/x-www-form-urlencoded" ...>

对于multipart 表单，需要明确给出编码：

<FORM enctype="multipart/form-data" ...>

在表单提交时你可以使用任一种编码，但在目前上传的文件仅能表现为multipart 编码。通过使用输入文件类型完成文件上传：

<INPUT type=file name=...>

这个指令表现为一个空的文本字段，同时旁边有个按钮，可以让你浏览文件目录系统，找到要上传的文件。同时还需要有一个单独的编码，因为它还没有聪明到“通过URL 编码”的程度，尤其是对一个二进制文件。这些信息仍然会到达服务器，只是以一种不同的“封装”形式而已。

不论你使用的是默认编码还是multipart 编码，cgi 模块都会以同样的方式来处理它们，在表单提交时提供键和相应的值。你还可以像以前那样通过FieldStorage 实例来访问数据。

20.7.2 多值字段

除了上传文件，会展示如何处理具有多值的字段。最常见的情况就是你有一系列的复选框允许用户有多个选择。每个复选框都会标上相同的字段名，但是为了区分它们，会有不同的值与特定的复选框关联。

正如你所知道的，在表单提交时，数据从用户端以键-值对形式发送到服务器端。当提交不止一个复选框时，就会有多个值对应同一个键。在这种情况下，cgi 模块将会建立一个这类实例的列表，你可以遍历获得所有的值，而不是为你的数据指定一个MiniFielStorage 实例。

20.7.3 cookie

如果你对cookie 还不太熟悉的话，可以把它们看成是Web站点服务器要求保存在客户端（例如浏览器）上的二进制数据。

由于HTTP 是一个“无状态信息”的协议，是通过GET 请求中的键值对来完成信息从一个页面到另一个页面的传递。实现这个功能的另外一种方法如我们以前看到的一样，是使用隐藏的表单字段。这些信息必须被嵌入新生成的页面中并返回给客户端，所以这些变量和值由服务器来管理。还有一种可以保持对多个页面浏览连续性的方法就是在客户端保存这些数据。这就是引进cookie 的原因。服务器可以向客户端发送一个请求来保存cookie，而不必用在返回的Web 页面中嵌入数据的方法来保持数据。Cookie 连接到最初的服务器的主域上（这样一个服务器就不能设置或者覆盖其他服务器上的cookie）,并且有一定的生存期限（因此你的浏览器不会堆满cookie）。

这两个属性是通过有关数据条目的键-值对和cookie 联系在一起的。cookie 还有一些其他的属性，如域子路径，cookie 安全传输请求。

有了coockies，我们不再需要为了跟踪用户而将数据从一页传到另一页了。虽然这在隐私问题上也引发了大量的争论，多数Web 站点还是合理地使用了cookie。为了准备代码，在客户端获得请求文件前，Web 服务器向客户端发送“SetCookie”头文件要求客户端存储cookie一旦在客户端建立了cookie，HTTP_COOKIE 环境变量会将那些cookie 自动放到请求中发送给服务器。cookie 是以分号分隔的键值对存在的。要访问这些数据，你的应用程序就要多次拆分这些字符串（也就是说，使用str.split()或者手动解析）。cookie 以分号（；）分隔，每个键-值对中间都由等号（=）分开。

20.7.4 使用高级CGI

现在我们来展示CGI 应用程序， advcgi.py,它的代码号功能和本章前部分讲到的friends3.py的差别不是很大。默认的第一页是用户填写的表单，它由四个主要部分组成：用户设置cookie 字符串，姓名字段，编程语言复选框列表，文件提交框。在图20-14 中可以看到示图。

图20-15 是在另一个浏览器看到的表单效果图，在这个表单中，我们可以输入自己的信息，如图20-16 中给的样式。注意查找文件的按钮在不同的浏览器中显示的文字是不同的，如，“Browse...”,“Choose”, “...”等。

这些数据以mutipart 编码提交到服务器端，在服务器端以同样的方式用FieldStorage 实例获取。唯一不同的就是对上传文件的检索。在我们的应用程序中，我们选择的是逐行读取，遍历文件。

如果你不介意文件的大小的话，也可以一次读入整个文件。

由于这是服务器端第一次接到数据，这时，当我们向客户端返回结果页面时，我们使用“SetCookie:”头文件来捕获浏览器端的cookie。

图20–14

--------------------------------------------

图20-14 上传及多值表单页 IE5 浏览器， MacOS X 系统

在图20-17 中，你可以看到数据提交后的结果展示。用户输入的所有数据都可以在页面中显示出来。在最后对话框中指定的文件也被上传到了服务器端，并显示出来。

你也会注意到在结果页面下方的那个链接，它使用相同的CGI 脚本，可以帮我们返回表单页。

如果我们单击下方的那个链接，没有任何表单数据提交给我们的脚本，因此会显示一个表单页面。然而，如你在图20-17 中看到的一样，所有的东西都可以显示出来，并非是一个空的表单！我们前边输入的信息都被显示出来了！在没有表单数据的情况下我们是怎样做到这一点的呢（将其隐藏或者作为URL 中的请求参数）？实际上秘密是这些数据都被保存在客户端的cookie 中了。

用户的cookie 将用户输入表单中的值都保存了起来，用户名，使用的语言，上传文件的信息都会存储在cookie 中。

当脚本检测到表单没有数据时，它会返回一个表单页面，但是在表单页面建立前，它们从客户端的cookie 中抓取了数据（当用户在单击了那个链接的时候将会自动传入）并且相应的将其填入表单中。因此当表单最终显示出来时，先前的输入便会魔术般的显示在用户面前（图20-18）。

图 20–15

--------------------------------------------

图20-15 同一个高级CGI 在Netscape4 浏览器，Linux 系统

我们相信你现在已经迫不及待的想看下这个程序了，详见例子20.8.

advcgi.py 和我们本章前部分提到的CGI 脚本friends3.py 相当的像。它有表单页、结果页、错误页可以返回。新的脚本中除了有所有的高级CGI 特性外，我们还在脚本中增加了更多的面向对象特征：用类和方法代替了一系列的函数。我们页面的HTML 文本对我们的类来说都是静态的了，这就意味着它们在实例中都是以常量出现的—虽然我们这里仅有一个实例。

图20–16

--------------------------------------------

图20-16 高级CGI 提交演示 Opera8 Win32 系统

逐行解释（以块划分）

1-7 行

普通的起始、和模块导入行出现在这里。唯一你可能不太熟悉的模块是cStringIO，我们曾在第

10 章简单讲解过它并在例20.1 中用过。cStringIO.StingIO()会在字符串上创建一个类似文件的对

象，所以访问这个字符串与打开一个文件并使用文件句柄去访问数据很相似。

图 20–17

--------------------------------------------

图 20–17 Results page generated and returned by the Web server in Opera4 on

Win32

9-12 行

在声明AdvCGI 类之后，header 和url（静态）变量被创建出来，在显示所有不同页面的方法中

会用到这些变量。

14-80 行

所有这个块中的代码都是用来创建、显示表单页面的。那些数据属性都是不言自明的。

getCPPcookie()取得Web 客户端发来的cookie 信息，而showForm()校对所有这些信息并把表单页面

返回给客户端。

Edit By Vheavens

图 20–18

--------------------------------------------

图 20–18 Form page with data loaded from the Client cookie

82-91 行

这个代码块负责错误页面。

93-144 行

结果页面的生成使用了本块代码。setCPPcookie()方法要求客户端为我们的应用程序存储

cookie，而doResults()方法聚集所有数据并把输出发回客户端。

--------------------------------------------

Example 20.8 Advanced CGI Application (advcgi.py)

这个脚本有一个处理所有事情的主函数，AdvCGI，它有方法显示表单、错误或结果页面，同时

也可以从客户端（Web 浏览器）读写cookie。

Edit By Vheavens

1 #!/usr/bin/env python

3 from cgi import FieldStorage

4 from os import environ

5 from cStringIO import StringIO

6 from urllib import quote, unquote

7 from string import capwords, strip, split, join

9 class AdvCGI(object):

11 header = 'Content-Type: text/html\n\n'

12 url = '/py/advcgi.py'

14 formhtml = '''<HTML><HEAD><TITLE>

15 Advanced CGI Demo</TITLE></HEAD>

16 <BODY><H2>Advanced CGI Demo Form</H2>

17 <FORM METHOD=post ACTION="%s" ENCTYPE="multipart/form-data">

18 <H3>My Cookie Setting</H3>

19 <LI> <CODE><B>CPPuser = %s</B></CODE>

20 <H3>Enter cookie value<BR>

21 <INPUT NAME=cookie value="%s"> (<I>optional</I>)</H3>

22 <H3>Enter your name<BR>

23 <INPUT NAME=person VALUE="%s"> (<I>required</I>)</H3>

24 <H3>What languages can you program in?

25 (<I>at least one required</I>)</H3>

26 %s

27 <H3>Enter file to upload</H3>

28 <INPUT TYPE=file NAME=upfile VALUE="%s" SIZE=45>

29 <P><INPUT TYPE=submit>

30 </FORM></BODY></HTML>'''

32 langSet = ('Python', 'PERL', 'Java', 'C++', 'PHP',

33 'C', 'JavaScript')

34 langItem = \

35 '<INPUT TYPE=checkbox NAME=lang VALUE="%s"%s> %s\n'

37 def getCPPCookies(self): # read cookies from client

38 if environ.has_key('HTTP_COOKIE'):

39 for eachCookie in map(strip, \

Edit By Vheavens

40 split(environ['HTTP_COOKIE'], ';')):

41 if len(eachCookie) > 6 and \

42 eachCookie[:3] == 'CPP':

43 tag = eachCookie[3:7]

44 try:

45 self.cookies[tag] = \

46 eval(unquote(eachCookie[8:]))

47 except (NameError, SyntaxError):

48 self.cookies[tag] = \

49 unquote(eachCookie[8:])

50 else:

51 self.cookies['info'] = self.cookies['user'] = ''

53 if self.cookies['info'] != '':

54 self.who, langStr, self.fn = \

55 split(self.cookies['info'], ':')

56 self.langs = split(langStr, ',')

57 else:

58 self.who = self.fn = ' '

59 self.langs = ['Python']

61 def showForm(self): # show fill-out form

62 self.getCPPCookies()

63 langStr = ''

64 for eachLang in AdvCGI.langSet:

65 if eachLang in self.langs:

66 langStr += AdvCGI.langItem % \

67 (eachLang, ' CHECKED', eachLang)

68 else:

69 langStr += AdvCGI.langItem % \

70 (eachLang, '', eachLang)

72 if not self.cookies.has_key('user') or \

73 self.cookies['user'] == '':

74 cookStatus = '<I>(cookie has not been set yet)</I>'

75 userCook = ''

76 else:

77 userCook = cookStatus = self.cookies['user']

79 print AdvCGI.header + AdvCGI.formhtml % (AdvCGI.url,

Edit By Vheavens

80 cookStatus, userCook, self.who, langStr, self.fn)

82 errhtml = '''<HTML><HEAD><TITLE>

83 Advanced CGI Demo</TITLE></HEAD>

84 <BODY><H3>ERROR</H3>

85 <B>%s</B><P>

86 <FORM><INPUT TYPE=button VALUE=Back

87 ONCLICK="window.history.back()"></FORM>

88 </BODY></HTML>'''

90 def showError(self):

91 print AdvCGI.header + AdvCGI.errhtml % (self.error)

93 reshtml = '''<HTML><HEAD><TITLE>

94 Advanced CGI Demo</TITLE></HEAD>

95 <BODY><H2>Your Uploaded Data</H2>

96 <H3>Your cookie value is: <B>%s</B></H3>

97 <H3>Your name is: <B>%s</B></H3>

98 <H3>You can program in the following languages:</H3>

99 <UL>%s</UL>

100 <H3>Your uploaded file...<BR>

101 Name: <I>%s</I><BR>

102 Contents:</H3>

103 <PRE>%s</PRE>

104 Click <A HREF="%s"><B>here</B></A> to return to form.

105 </BODY></HTML>'''

106

107 def setCPPCookies(self):# tell client to store cookies

108 for eachCookie in self.cookies.keys():

109 print 'Set-Cookie: CPP%s=%s; path=/' % \

110 (eachCookie, quote(self.cookies[eachCookie]))

111

112 def doResults(self):# display results page

113 MAXBYTES = 1024

114 langlist = ''

115 for eachLang in self.langs:

116 langlist = langlist + '<LI>%s<BR>' % eachLang

117

118 filedata = ''

119 while len(filedata) < MAXBYTES:# read file chunks

Edit By Vheavens

120 data = self.fp.readline()

121 if data == '': break

122 filedata += data

123 else: # truncate if too long

124 filedata += \

125 '... <B><I>(file truncated due to size)</I></B>'

126 self.fp.close()

127 if filedata == '':

128 filedata = \

129 <B><I>(file upload error or file not given)</I></B>'

130 filename = self.fn

131

132 if not self.cookies.has_key('user') or \

133 self.cookies['user'] == '':

134 cookStatus = '<I>(cookie has not been set yet)</I>'

135 userCook = ''

136 else:

137 userCook = cookStatus = self.cookies['user']

138

139 self.cookies['info'] = join([self.who, \

140 join(self.langs, ','), filename], ':')

141 self.setCPPCookies()

142 print AdvCGI.header + AdvCGI.reshtml % \

143 (cookStatus, self.who, langlist,

144 filename, filedata, AdvCGI.url)

145

146 def go(self): # determine which page to return

147 self.cookies = {}

148 self.error = ''

149 form = FieldStorage()

150 if form.keys() == []:

151 self.showForm()

152 return

153

154 if form.has_key('person'):

155 self.who = capwords(strip(form['person'].value))

156 if self.who == '':

157 self.error = 'Your name is required. (blank)'

158 else:

159 self.error = 'Your name is required. (missing)'

Edit By Vheavens

160

161 if form.has_key('cookie'):

162 self.cookies['user'] = unquote(strip(\

163 form['cookie'].value))

164 else:

165 self.cookies['user'] = ''

166

167 self.langs = []

168 if form.has_key('lang'):

169 langdata = form['lang']

170 if type(langdata) == type([]):

171 for eachLang in langdata:

172 self.langs.append(eachLang.value)

173 else:

174 self.langs.append(langdata.value)

175 else:

176 self.error = 'At least one language required.'

177

178 if form.has_key('upfile'):

179 upfile = form["upfile"]

180 self.fn = upfile.filename or ''

181 if upfile.file:

182 self.fp = upfile.file

183 else:

184 self.fp = StringIO('(no data)')

185 else:

186 self.fp = StringIO('(no file)')

187 self.fn = ''

188

189 if not self.error:

190 self.doResults()

191 else:

192 self.showError()

193

194 if __name__ == '__main__':

195 page = AdvCGI()

196 page.go()

doResults()方法收集所有数据并把输出发回客户端。

Edit By Vheavens

146-196 行

脚本一开始就实例化了一个AdvCGI 页面对象，然后调用它的go()方法让一切运转起来，这和严

格的基于过程编写的程序不同。 go()方法中包含读取所有新到的数据并决定显示哪个页面的逻辑。

如果没有给出名字或选定语言，错误页面将会被显示。如果没有收到任何输入数据，将调用

showForm()方法来输出表单，否则将调用doResults()方法来显示结果页面。通过设置self.error

变量可以创建错误页面，这样做有两个目的。它不但可以让你把错误原因设置在字符串里，并且可

以作为一个标记表明有错误发生。如果该变量不为空，用户将会被导向到错误页面。

处理person 字段（第154-159 行）的方法和我们先前看到的一样，一个键-值对；然而，在收

集语言信息时却需要一点技巧，原因是我们必须检查一个（Mini）FieldStorage 对象或一个该对象

的列表。我们将使用熟悉的type()内建函数来达到目的。最终，我们会有一个单独或多个语言名的

列表，具体依赖于用户的选择情况。

使用cookie（第161-165 行）来保管数据展示了如何利用它们来避免使用任何类型的CGI 字段。

你一定注意到了代码里包含这些数据的地方没有调用CGI 处理，这意味着数据并非来自FieldStorage

对象。这些数据是由Web 客户端通过每一次请求和从cookie 取得的值（包括用户的选择结果和用来

填充后续表单的已有信息）传给我们的。

因为showResults()方法从客户那里取得了新的收入值，所以它负责设置cookie，通过调用

setCPPcookie()。而showForm()必须读出cookie 中的值才能用表单页显示用户的当前选项。这通

过它对getCPPcookie()的调用实现。

最后，我们看看文件上传处理（第178-187 行）。不论一个文件是否已经上传，FieldStorage 都

会从file 属性中获得一个文件句柄。在第180 行，如果没有指明文件名，那么我们只须把它设成空

字符串。如果访问过value 属性，那么文件的整个内容都会被放到value 里。还有一个更好的做法，

你可以去访问文件指针——file 属性——并且可以每次只读一行或者其他更慢一些的处理方法。

在我们的例子里，文件上传只是用户提交过程的一部分，所以我们可以简单的把文件指针传给

doResults()函数，从文件中抽取数据。由于空间限制doResults()将只显示文件的最前1K 内容，这

也表明显示一个4M 的二进制文件是不需要（或未必有效/有用）的。

20.8 Web（HTTP）服务器

到现在为止，我们已经讨论了如何使用Python 建立Web 客户端并用CGI 请求处理帮助Web 服务

器执行了一些工作。我们通过第20.2 和20.3 的学习知道了Python 可以用来建立简单和复杂的Web

客户端。而对复杂的CGI 请求没有说明。

然而，我们在这章的焦点是探索建立Web 服务器。如果说Firefox， Mozilla， IE， Opera，

Edit By Vheavens

Netscape， AOL， Safari， Camino， Epiphany， Galeon 和Lynx 浏览器是最流行的一些Web 客户

端，那么什么是最常用的Web 服务器呢？它们就是Apache，Netscape IIS， thttpd， Zeus，和Zope。

由于这些服务器都远远超过了你的应用程序要求，这里我们使用Python 建立简单但有用的Web 服务

器。

20.8.1 用Python 建立Web 服务器

由于已经打算建立这样的一个应用程序，你很自然的就需要创建个人素材，但是你将要用到的

所有的基础代码都在Python 的标准库中。要建立一个Web 服务，一个基本的服务器和一个“处理器”

是必备的。

基础的(Web)服务器是一个必备的模具。它的角色是在客户端和服务器端完成必要HTTP 交互。

在BaseHTTPServer 模块中你可以找到一个名叫HTTPServer 的服务器基本类。

处理器是一些处理主要“Web 服务”的简单软件。它们处理客户端的请求，并返回适当的文件，

静态的文本或者由CGI 生成的动态文件。处理器的复杂性决定了你的Web 服务器的复杂程度。Python

标准库提供了三种不同的处理器。

最基本，最普通的是 vanilla 处理器，被命名 BaseHTTPResquestHandler，这个可以在基本

Web 服务器的BaseHTTPServer 模块中找到。除了获得客户端的请求外，不再执行其他的处理工作，

因此你必须自己完成它们，这样就导致了出现了myhttpd.py 服务的出现。

用于SimpleHTTPServer 模块中的SimpleHTTPRequestHandler ，建立在

BaseHTTPResquestHandler 基础上，直接执行标准的GET 和HEAD 请求。这虽然还不算完美，但已经

可以完成一些简单的功能啦。

最后，我们来看下用于CGIHTTPServer 模块中的CGIHTTPRequestHandler 处理器，它可以获取

SimpleHTTPRequestHandler 并为POST 请求提供支持。它可以调用CGI 脚本完成请求处理过程，也可

以将生成的HTML 脚本返回给客户端。

这三个模块和他们的类在表20.6 中有描述。

为了能理解在SimpleHTTPServer 和CGIHTTPServer 模块中的其他高级处理器如何工作的，我们

将对BaseHTTPRequestHandler 实现简单的GET 处理功能。

Edit By Vheavens

Table 20.6 Web Server Modules and Classes

模块描述

BaseHTTPServer 提供基本的Web 服务和处理器类，分别是HTTPServer 和

BaseHTTPRequestHandler

SimpleHTTPServer 包含执行GET 和HEAD 请求的SimpleHTTPRequestHandler 类

CGIHTTPServer 包含处理POST 请求和执行CGICGIHTTPRequestHandler 类

--------------------------------------------

在例子20.9 中，我们展示了一个Web 服务器的全部工作代码， myhttpd.py.

这个服务的子类BaseHTTPRequestHandler 只包含do_GET()方法在基础服务器接到GET 请求时被

调用。

尝试打开客户端传来的路径，如果实现了，将会返回“OK”状态（200），并转发下载的Web 页

面，否则将会返回404 状态。

main()函数只是简单的将Web 服务器类实例化，然后启动它进入永不停息的服务循环，如果

遇到了^C 中断或者类似的键输入则会将其关闭。如果你可以访问并运行这个服务器，你就会发现它

会显示出一些类似这样的登录输出：

# myhttpd.py

Welcome to the machine... Press ^C once or twice to quit

localhost - - [26/Aug/2000 03:01:35] "GET /index.html HTTP/1.0" 200 -

localhost - - [26/Aug/2000 03:01:29] code 404, message File Not Found: /x.html localhost

- - [26/Aug/2000 03:01:29] "GET /dummy.html HTTP/1.0" 404 -

localhost - - [26/Aug/2000 03:02:03] "GET /hotlist.htm HTTP/1.0" 200 -

当然，我们的小Web 服务器是太简单了，它甚至不能处理普通的文本文件。我们将这部分给读

者，这部分可以在本章最后的练习题中找到。

正如你所看到的一样，建立一个Web 服务器并在纯Python 脚本中运行并不会花太多时间。为你

的特定应用程序定制改进处理器将需要做更多事情。请查看本部分的相关库来获得更多模块及其类

的信息。

--------------------------------------------

Example 20.9 Simple Web Server (myhttpd.py)

这个简单的Web 服务器可以读取GET 请求，获取Web 页面（.html 文件）并将其返回给客户端。

它通过使用BaseHTTPServer 的BaseHTTPRequestHandler 处理器执行do_GET()方法来处理GET 请求。

Edit By Vheavens

1 #!/usr/bin/env python

3 from os import curdir, sep

4 from BaseHTTPServer import \

5 BaseHTTPRequestHandler, HTTPServer

7 class MyHandler(BaseHTTPRequestHandler):

9 def do_GET(self):

10 try:

11 f = open(curdir + sep + self.path)

12 self.send_response(200)

13 self.send_header('Content-type',

14 'text/html')

15 self.end_headers()

16 self.wfile.write(f.read())

17 f.close()

18 except IOError:

19 self.send_error(404,

20 'File Not Found: %s' % self.path)

22 def main():

23 try:

24 server = HTTPServer(('', 80), MyHandler)

25 print 'Welcome to the machine...',

26 print 'Press ^C once or twice to quit.'

27 server.serve_forever()

28 except KeyboardInterrupt:

29 print '^C received, shutting down server'

30 server.socket.close()

32 if __name__ == '__main__':

33 main()

你可能感兴趣的:(python浓缩（20）)

使用multiprocessing实现进程间共享内存培根芝士 Python python
在Python中，可以使用多种方法来实现几个进程之间的通信。简单消息传递：使用multiprocessing.Queue或multiprocessing.Pipe。共享简单数据：使用multiprocessing.Value或multiprocessing.Array。共享复杂数据：使用multiprocessing.Manager。进程间信号控制：使用multiprocessing.Event。
华为OD2023(A卷)基础题21【日志采集系统】大司码算法华为od
日志采集系统题目日志采集是运维系统的的核心组件。日志是按行生成，每行记做一条，由采集系统分批上报。如果上报太频繁，会对服务端造成压力；如果上报太晚，会降低用户的体验；如果一次上报的条数太多，会导致超时失败。为此，项目组设计了如下的上报策略：每成功上报一条日志，奖励1分每条日志每延迟上报1秒，扣1分积累日志达到100条，必须立即上报给出日志序列，根据该规则，计算首次上报能获得的最多积分数。输入按时序
Python 机器学习基础之学习基础环境搭建仙魁XAN Python 机器学习基础+实战案例 python 学习开发语言机器学习 machine learning
Python机器学习基础之学习基础环境搭建目录Python机器学习基础之学习基础环境搭建一、简单介绍二、什么是机器学习三、python环境的搭建1、Python安装包下载2、这里以下载Python3.10.9为例3、安装Python3.10.94、检验python是否安装成功，win+R快捷打开运行，输入cmd，打开cmd四、Pycharm环境搭建1、下载Pycharm安装包2、安装Pycharm
ubuntu20.04 zookeeper安装 Yue9v zookeeper linux 分布式
安装ZooKeeper之前，请确保你已经安装了Java，因为ZooKeeper需要Java运行环境。java安装sudoapt-getupdatesudoapt-get-yinstallopenjdk-11-jdkjava--version设置JAVA_HOME环境变量gedit~/.bashrc添加如下行来设置JAVA_HOME：exportJAVA_HOME=/usr/lib/jvm/java
Win7 64 位 Vcode Python安装与环境配置 qq_40094167 机器学习 python 数据挖掘
一、对于win764位的Python版本，官网目前是Python3.8.10。千万不要装错哈哈二、Vcode版本，可以直接在官网或者360软件管家安装，都比较方便。但安装之前请先安装Python，然后安装Vcode。三、Vcode插件配置，本人插件配置多数是根据之前liunx系统配置的，里面许多关键字颜色和大小个人比较喜欢。@1codeRunner即代码运行@2RainbowBrackets彩虹花
大型语言模型：让Python更聪明的秘密武器 qq_39605374 语言模型 python 数据库 Python
Python是一种广泛使用的编程语言，而大型语言模型则为Python开发者提供了一个强大的工具。大型语言模型可以理解人类语言，并生成具有逻辑和连贯性的文本。它能够回答用户的问题、提供解决方案，并帮助开发者提高他们的编程技能。让我们来探索一下如何使用大型语言模型作为Python编程的秘密武器。大型语言模型可以通过使用Python编写的API进行访问。下面是一个简单的示例，演示了如何使用Python与
GEE下载REMA strip和mosaic数据的python脚本 WiIsonEdwards python windows linux
EarthEngineDataCatalog：https://developers.google.com/earth-engine/datasets/catalog搜索REMA：importeeimportgeemapimportosimportwarnings#忽略所有警告warnings.filterwarnings("ignore")#下载REMAStrips数据（2m和8m）defdown
华为OD机试题库清单以及考点说明，2025.3.16切换2025A卷（Python/JS/C/C++）哪吒搬砖工逆袭Java架构师华为od python javascript 2025A卷华为OD机试
专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。2024年8月14日，华为官方已经将华为OD机试（D卷）切换为E卷。目前正在考的是E卷，按照华为OD往常的操作，E卷题目是由往
华为OD机试 - 字符串分割转换（Python/JS/C/C++ 2024 E卷 100分）哪吒华为od python javascript
一、题目描述给定一个非空字符串QS，其被N个‘;’分隔成N+1个子串，给定正整数数组K，要求除第一个子串外，其余的子串每K个字符组成新的子串，并‘-’分隔。对于新组成的每一个子串，如果它含有的小写字母比大写字母多，则将这个子串的所有大写字母转换为小写Q字母；反之，如果它含有的大写字母比小写字母多，则将这个子串的所有小写字母转换为大写字母；大小写字母的数量相等时，不做转换。二、输入描述输入为两行，第
IT圈大实话！卷运维不如卷网络安全，这可能是你转行的最后的机会程序员晓晓运维 web安全干货分享计算机网络安全渗透测试职场发展
前言2025年马上进入金三银四的行情，最近我也去问了一下行业内的小伙伴，我发现最近很多从事运维的选择了辞职，转行到了网络安全这个发展路线。说实话，运维工程师这个岗位在IT行业里面确实是处于最底层的，不管什么环节出现问题，基本都是运维背锅。，薪资水平也比不上别的岗位。一般运维的薪资水平大多数都是6-9K，还要高频出差年轻的时候干几年确实还可以，但是成家立业之后就不合适到处出差了。运维的事情非常多，不
Python 数据分析实战：电动汽车行业发展态势与市场策略洞察萧十一郎@ python python 数据分析开发语言
目录一、案例背景二、代码实现2.1数据收集与导入2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1市场规模与增长趋势2.4.2消费者需求分析2.4.3企业竞争格局2.4.4政策影响分析2.4.5构建消费者购买意愿预测模型三、主要的代码难点解析3.1数据收集与导入3.2数据清洗-缺失值处理3.3数据清洗-异常值处理3.4数据分析-消费者需求分析3.5数据分析-构建消费者购买意愿预测模型四、可
python实现http协议 ajie1117 python http 开发语言
在Python中，可以使用socket库实现一个简单的HTTP服务器和客户端，手动处理HTTP请求和响应。下面是一个Python版本的HTTP服务器和客户端示例。一、使用socket实现HTTP服务器HTTP服务器的基本原理是监听指定端口，等待客户端请求，解析HTTP请求，并返回HTTP响应。简单的HTTP服务器importsocketdefrun_http_server(host='127.0.
【C语言】：学生管理系统（多文件版）彬彬1313 c语言开发语言经验分享学习方法笔记
一、文件框架二、Datadata.txt三、Inc1.list.h学生结构体#ifndef__LIST_H__#define__LIST_H__#include#include#include#include#include#defineMAX_LEN20//学生信息结构体typedefstruct{//登录用charuser_name[128];//账号charpassword[128];//密
华为OD机试 - 日志采集系统（Python/JS/C/C++ 2024 E卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述日志采集是运维系统的的核心组件。日志是按行生成，每行记做一条，由
用Python抓取网页标题：使用`requests`库的实用指南清水白石008 python Python题库 python 开发语言
用Python抓取网页标题：使用requests库的实用指南在数据获取的时代，网页抓取（WebScraping）成为了一项重要的技能。无论是获取新闻标题、产品价格，还是数据分析，网页抓取都能提供丰富的信息。本文将详细介绍如何使用Python的requests库编写一个简单的爬虫，抓取某个网站的标题。我们将通过实例和代码片段，使整个过程清晰易懂，帮助你快速上手网页抓取。一、了解网页抓取网页抓取是指通
Python从0到100（三十四）：Python中的urllib模块使用指南是Dream呀 python 开发语言
1.urllib模块概述在Python中，除了广泛使用的requests模块之外，urllib模块也是处理HTTP请求的重要工具。urllib模块在Python2中分为urllib和urllib2两个模块，而在Python3中，它们被合并为一个urllib模块。本文将重点介绍Python3中的urllib模块及其使用方法。2.urllib模块的基本方法介绍2.1urllib.request.url
python nginx部署_nginx部署python应用 weixin_39611070 python nginx部署
2.nginx配置文件如下：#位于/nginx/conf/nginx.conf#usernobody;worker_processes1;events{worker_connections1024;}http{includemime.types;default_typeapplication/octet-stream;sendfileon;keepalive_timeout185;server{l
python 使用Nginx和uWSGI来运行Python应用 weixin_33738555 运维 python 操作系统
参考：http://zmrenwu.com/post/20/uWSGI是一个Web应用服务器，它具有应用服务器，代理，进程管理及应用监控等功能。它支持WSGI协议，同时它也支持自有的uWSGI协议，该协议据说性能非常高，而且内存占用率低，为mod_wsgi的一半左右，我没有实测过。它还支持多应用的管理及应用的性能监控。虽然uWSGI本身就可以直接用来当Web服务器，但一般建议将其作为应用服务器配合
Uni-app 笔记二 (项目笔记) 天籁晴空 #vue3 #TS #小程序--uni-app uni-app 笔记
/***@authorwn*@date2023/07/2610:14:15*@description:uniapp笔记*//*1安全区域屏幕去掉状态栏+刘海剩余展示内容的区域--可通过uni.getSystemInfoSync()获取屏幕上边界到安全区顶部的距离。safeAreaInsets={top:59,left:0,right:0,bottom:34}"navigationStyle":"c
Python数据可视化与地理空间分析 CrMylive. 信息可视化 python 开发语言
一、引言数据可视化与地理空间分析是数据科学领域中的两个重要领域，其中数据可视化侧重于将数据转换成可视化的图表，而地理空间分析则关注于如何在地理空间内处理与分析数据。Python作为一种高效、灵活、易用的编程语言，近年来在数据科学领域越来越受到欢迎。本文将以Python为工具，在数据可视化与地理空间分析方面进行详细探讨，并给出一些相关实例。二、数据可视化数据可视化是指利用图表、图形和其他视觉元素来展
Python中常见的抓取图片的方法 qq_31397725 python 开发语言
在Python中，抓取图片的方法可以根据你的具体需求和使用场景有所不同。以下是一些常见的方法：使用requests库从URL下载图片：这是最常见的方法，适用于从网络上的URL下载图片。你可以使用requests库发送HTTP请求，然后将响应的内容保存到本地文件中。使用selenium库抓取网页中的图片：如果你需要从一个动态加载的网页中抓取图片，selenium可以帮助你模拟浏览器行为，等待页面加载
如何运用python爬虫爬取图片素材网站的图片？（附完整代码）大懒猫软件 vue.js python 网络爬虫图像处理 bash
在当今数字化时代，高质量的图片资源对于设计师、开发者以及任何需要视觉素材的用户来说都至关重要。壁纸社作为一个提供丰富壁纸资源的网站，涵盖了从普通高清到4K、5K甚至8K超高清的多种分辨率，满足了不同用户的需求。然而，手动下载这些壁纸不仅耗时，而且效率低下。因此，开发一个自动化爬虫程序，批量下载高质量壁纸，不仅能节省时间，还能提高工作效率。本文将详细介绍如何使用Python爬虫技术从壁纸社爬取并保存
【网络爬虫】(2) requests模块，案例：网络图片爬取，附Python代码立Sir 网络爬虫爬虫 python
1.基本原理1.1requests模块requests是Python中一个非常流行的HTTP客户端库，用于发送所有的HTTP请求类型。它基于urllib，但比urllib更易用。中文文档地址：Requests:让HTTP服务人类—Requests2.18.1文档（1）requests.get(url,**kwargs)requests.get()函数是requests库中用于发送HTTPGET请求
python-leetcode-除自身以外数组的乘积 Joyner2018 python leetcode 算法职场和发展
238.除自身以外数组的乘积-力扣（LeetCode）classSolution:defproductExceptSelf(self,nums:List[int])->List[int]:n=len(nums)#初始化结果数组answer=[1]*n#计算前缀乘积prefix=1foriinrange(n):answer[i]=prefixprefix*=nums[i]#计算后缀乘积，同时更新结果
在centos7里面安装 mysql5.6.44 SAFE20242034 #三 MySQL 运维 mysql
一查询系统自带的mysqlroot@obdserver~]#rpm-qa|grepmysql二卸载系统自带的mysql因为没有mysql，所以也不用卸载三下载安装官方的yum源[root@obdserver~]#ll/etc/yum.repos.d/总用量40-rw-r--r--.1rootroot25233月1201:22CentOS-Base.repo-rw-r--r--.1rootroot1
PyTorch 深度学习博客 Zoro｜ PyTorch Deep Learning 人工智能
PyTorch深度学习博客欢迎来到我的PyTorch深度学习博客！在这里，我将分享使用PyTorch学习和实践深度学习项目的点滴经验。本博客适用于初学者和有一定基础的开发者，旨在帮助大家快速搭建环境、掌握核心概念，并通过实例了解实际应用。环境配置为了确保项目的稳定性和兼容性，我选择了Python3.9环境，并在conda创建的虚拟环境中运行最新且稳定的PyTorch版本2.6.0。1.创建Pyth
基于Geopandas的地理空间数据可视化与分析方法研究一键难忘信息可视化 Geopandas python
地理空间数据可视化是数据科学中重要的应用之一。通过有效地展示地理信息，我们能够深入理解空间数据的分布和模式。Python的Geopandas库为地理空间数据处理和可视化提供了强大的支持，它基于pandas并集成了shapely、fiona等多个库，能够方便地进行地理数据的读取、处理和展示。本文将介绍如何使用Geopandas进行地理空间数据可视化，示范数据处理的基本流程，并通过具体的代码实例，深入
3.17学习小结 shulingpei 学习
乱入一个20cm三连板总结：科源制药，山水比德，新城市，金百泽，科创信息，上能电气，赛为智能，百胜智能，津荣天宇，丰立智能，国联水产，润和软件，思特奇，致远新能，盟固利，德恩精工，开创电气，诚达药业，因赛集团，中铁装配，金盾股份，华研精机，超越科技，安诺其，华策影视，英力股份，众智科技，西测测试，晶雪节能，华铭智能，飞天诚信，金道科技，领湃科技，天迈科技，零点有数，江苏雷利，依米康。jmeter怎
Python关键字参数详解 qq_39605374 python 开发语言
Python关键字参数详解在Python中，函数的参数可以分为两类：位置参数和关键字参数。本文将重点讲解Python中关键字参数的使用方法及其优势。1.什么是关键字参数？关键字参数是指在调用函数时，显式地通过“参数名=参数值”的形式进行传参。以下是一个简单的例子：defgreet(name,age):print("Hello,mynameis",name,"andIam",age,"yearsol
【第4章】项目实战-亿级电商系统需求分析 cherry5230 架构需求分析大数据数据库架构
1-14项目背景介绍项目基本背景平台类型:B2B电商平台年交易额:超200亿元客户定位:行业龙头企业项目规模:历时:1年以上总投入:450+人月费用等级:千万级业务背景解析1.平台业务模式演进初始阶段自营模式:自有品牌商品完整生产链:设计→生产→制造→销售主要客户:企业采购业务特点:自产自销发展阶段平台扩展:引入供应商体系商品结构:自有商品供应商商品客户服务升级:提供综合商品包一站式采购解决方案2
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一