XILALIKE

《零基础入门学习Python》第063讲：论一只爬虫的自我修养11：Scrapy框架之初窥门径

上一节课我们好不容易装好了 Scrapy，今天我们就来学习如何用好它，有些同学可能会有些疑惑，既然我们懂得了Python编写爬虫的技巧，那要这个所谓的爬虫框架又有什么用呢？其实啊，你懂得Python写爬虫的代码，好比你懂武功，会打架，但行军打仗你不行，毕竟敌人是千军万马，纵使你再强，也只能是百人敌，完成为千人敌，甚至是万人敌，你要学会的就是排兵布阵，运筹帷幄于千里之外，所以，Scrapy 就是Python爬虫的孙子兵法。

使用 Scrapy抓取一个网站一共分为四个步骤：

–创建一个Scrapy项目；

–定义Item容器；

–编写爬虫；

–存储内容。

学习使用 Scrapy 之前，我们需要先来了解一下 Scrapy 框架以及它的组件之间的交互，下面这个图展现的就是 Scrapy 的框架，包括组件以及在系统中发生的数据流。（数据流就是绿色的线，描述各个组件之间是如何通信的）

首先我们来分析它的几大组件：

Scrapy Engine：它是 Scrapy 的核心，爬虫工作的核心。负责控制数据流在系统中所有组件之间的流动，大家可以看到，无论那两个组件之间进行交流，都必须经过它。

Downloader：下载器，下载器负责获取页面的数据，然后提供给 Spiders，数据是从 Scheduler（调度器）这里获得的。

Scheduler：调度器，是从Scrapy Engine（引擎）这里接收 Requests 数据，事实上，Requests 数据需要的 request 的网页的地址是存放在 Spiders 这里，Spiders 提供给 Scrapy Engine ，Scrapy Engine（引擎）发送 Requests 给 Scheduler（调度器），调度器再把 Requests 传给 Downloader，Downloader 获得内容（也就是 Responses）之后，就发给 Scrapy Engine，然后发给 Spiders 分析。

那么 Spiders 就是 Scrapy 用户编写用于分析下载器返回回来的 Responses，然后提取出 Items 和需要跟进的url 的类。

还有一个就是 Item Pipeline，负责处理被 Spiders 提取出来的 Items，Items 就是一个容器，存放我们需要的内容的一个容器，它把 Items 进行存储化，例如存到数据库，存到文件，就是由 Item Pipeline 来处理的。

接下来还有两个中间键，一个就是下载器的中间件，Downloader Middlewares，两个中间件事实上就是提供一个简便的机制，通过让你插入自定义的代码来扩展 Scrapy 的功能。

下载器中间件，Downloader Middlewares，是在引擎和下载器之间的特定钩子，是处理 Downloader 发到引擎的Responses，Responses 要发给 Spiders 需要经过引擎，下载器中间件就在中间 hook 一下。

Spiders 中间件，Spiders Middlewares，是处理Spiders 和引擎之间交互的 hook，首先它是接收来自 Downloader 的数据，接收Response 要先从Spiders中间件这里过滤一下，进行额外的操作，然后再给Spiders，然后呢，这个中间件也会接收spiders 的输出，例如 Requests和 Items。

以上就是 Scrapy 的基本框架了，了解之后，我们就来做项目了。

第一步要做的就是运行命令行，Scrapy 是命令行的，在爬取之前，我们要先创建一个 Scrapy 项目，我们来到桌面，运行 scrapy startproject tutorial，回车之后，在桌面就出现了 tutorial 文件夹。

#CMD窗口
Microsoft Windows [版本 10.0.17134.471]
(c) 2018 Microsoft Corporation。保留所有权利。
C:\Users\XiangyangDai>cd C:\Users\XiangyangDai\Desktop
C:\Users\XiangyangDai\Desktop>scrapy startproject tutorial
New Scrapy project 'tutorial', using template directory 'd:\\programfiles\\anaconda3\\lib\\site-packages\\scrapy\\templates\\project', created in:
C:\Users\XiangyangDai\Desktop\tutorial
You can start your first spider with:
cd tutorial
scrapy genspider example example.com

这个文件夹就是按照下面的形式存储的：

tutorial/

    scrapy.cfg

    tutorial/

        __init__.py

        items.py

        pipelines.py

        settings.py

        spiders/

            __init__.py

            ...

scrapy.cfg 是项目的配置文件（暂时不用，保持默认即可）

tutorial 子文件夹存放的是模块的代码，也是我们要填充的代码

items.py 是项目中的容器

致此，完成了步骤一：创建一个Scrapy项目；

接下来就是步骤二：定义 Item 容器

Item是保存爬取到的数据的容器，其使用方法和Python字典类似，并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。

首先，我们需要对你想要获取的数据进行建模，

我们的任务就是网页：布袋除尘器_袋式脉冲除尘器_小型除尘器_除尘器骨架_除尘器布袋_UV光氧催化设备_VOC催化燃烧设备生产厂家，型号齐全，价格合理，批发定做。河北富宇环保设备有限公司和布袋除尘器_袋式脉冲除尘器_小型除尘器_除尘器骨架_除尘器布袋_UV光氧催化设备_VOC催化燃烧设备生产厂家，型号齐全，价格合理，批发定做。河北富宇环保设备有限公司这是两个个导航网页，我们的目标就是爬取各个标题以及其超链接和描述。我们就根据这三部分进行建模就可以了。

只需要在 items.py 文件里建立相应的字段：

初次打开未经修改的内容如下：

# -*- coding: utf-8 -*-
# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html
import scrapy
class TutorialItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
pass

其中都已经注释好了，

# name = scrapy.Field()

name 就是你要建立的字段的名字

scrapy.Field() 就是对应的占位符。

我们就照着写就可以了：

class DmozItem(scrapy.Item): #改个与项目对应的名字
# define the fields for your item here like:
# name = scrapy.Field()
title = scrapy.Field() #标题
link = scrapy.Field() #超链接
desc = scrapy.Field() #描述

致此，完成了步骤二：定义 Item 容器；

接下来就是步骤三：编写爬虫；

编写爬虫，我们就写在 spiders 文件夹里面，其实就是编写爬虫类 Spider，Spider 是用户编写用于从网站上爬取数据的类。

其包含一个用于下载的初始 URL，然后是如何跟进网页中的链接以及如何分析页面中的内容，还有提取生成 item 的方法。

这就包含两个部分，第一个部分就是写一个初始化 URL ，例如我们这里初始化是从布袋除尘器_袋式脉冲除尘器_小型除尘器_除尘器骨架_除尘器布袋_UV光氧催化设备_VOC催化燃烧设备生产厂家，型号齐全，价格合理，批发定做。河北富宇环保设备有限公司和布袋除尘器_袋式脉冲除尘器_小型除尘器_除尘器骨架_除尘器布袋_UV光氧催化设备_VOC催化燃烧设备生产厂家，型号齐全，价格合理，批发定做。河北富宇环保设备有限公司这两个 URL下载，我们就把它列到 spider 里面，然后就是还需要写一个方法，如何分析页面中的内容，还有生成 item 。

我们的操作是：在spider 里创建一个 dmoz_spider.py 的源文件。

我们首先写一个 Spider 类，我们命名为 DmozSpider，这里要求必须是继承 scray.Spider 类，首先需要有一个 name，name 这里必须是唯一的，用来确认你这只蜘蛛的名字。

接着有一个 allowed_domains，是一个列表，确定这只蜘蛛要爬取的范围，这里我们规定只能爬取在 dmozdir.org/Category 网址里面，这样它在一个网址里面找到其他网页的链接，也不会跑过去了，它只会在这个域名里面去爬，要是没有规定这个的话，蜘蛛爬着爬着就回不来了。

接下来就是 start_urls ，这里是开始爬取的网址，规定从哪里开始爬。我们这里为了节约时间，就搞两个。

接下来写一个分析的方法，命名为 parse，有一个唯一的参数 response，事实上，我们看一下 Scrapy 的框架图，我们前面写的内容就是由 Scrapy Engine 从 Spiders 提取，然后变成 Requests 给 Schedulder，然后我们刚刚说了，downloader 会下载出来的 Reponses 数据给 Scrapy Engine ，然后给 Spiders，我们要一个分析机来处理，这就是我们的parse方法，这个方法接收 Responses，然后对它进行分析处理，并且提取成 Items 给 Item Pipeline，所以我们就要在这个方法里写一些指定的代码。我们这里先来一个简单的代码范例：

根据网站地址，创建一个名为网站倒数第一个字段的最后3位（230 和 411）的文件，保存 response.body。response.body 就是这个网页的源代码。

#dmoz_spider.py
import scrapy
class DmozSpider(scrapy.Spider):
name = "dmoz"
allowed_domains = ['dmozdir.org/Category']
start_urls = ['http://www.dmozdir.org/Category/?SmallPath=230',
'http://www.dmozdir.org/Category/?SmallPath=411']
def parse(self, response):
filename = response.url.split('/')[-1][-3:] #文件名为230和411
with open(filename, 'wb') as f:
f.write(response.body)

保存dmoz_spider.py文件，我们把这个爬取分为先爬后取两个独立动作，展开给大家看：

首先是爬：

在 cmd 中，目录切到 tutorial 根目录，调用命令 scrapy crawl dmoz：（这里的 crawl 翻译过来就是爬取的意思，dmoz 就是我们选择的蜘蛛，我们在 dmoz_spider 里写了一个 name 叫做 dmoz，它就知道调用哪个爬虫去工作了）

#CMD窗口
C:\Users\XiangyangDai\Desktop>cd tutorial
C:\Users\XiangyangDai\Desktop\tutorial>scrapy crawl dmoz

运行结果如下：

#CMD窗口
C:\Users\XiangyangDai\Desktop\tutorial>scrapy crawl dmoz
2018-12-17 15:57:54 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: tutorial)
2018-12-17 15:57:54 [scrapy.utils.log] INFO: Versions: lxml 4.2.5.0, libxml2 2.9.5, cssselect 1.0.3, parsel 1.5.1, w3lib 1.19.0, Twisted 18.9.0, Python 3.5.2 |Anaconda 4.2.0 (64-bit)| (default, Jul 5 2016, 11:41:13) [MSC v.1900 64 bit (AMD64)], pyOpenSSL 18.0.0 (OpenSSL 1.1.0j 20 Nov 2018), cryptography 2.4.2, Platform Windows-10-10.0.17134-SP0
2018-12-17 15:57:54 [scrapy.crawler] INFO: Overridden settings: {'ROBOTSTXT_OBEY': True, 'BOT_NAME': 'tutorial', 'SPIDER_MODULES': ['tutorial.spiders'], 'NEWSPIDER_MODULE': 'tutorial.spiders'}
2018-12-17 15:57:54 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.telnet.TelnetConsole',
'scrapy.extensions.logstats.LogStats',
'scrapy.extensions.corestats.CoreStats']
2018-12-17 15:57:55 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
'scrapy.downloadermiddlewares.retry.RetryMiddleware',
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
'scrapy.downloadermiddlewares.stats.DownloaderStats']
2018-12-17 15:57:55 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
'scrapy.spidermiddlewares.referer.RefererMiddleware',
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
'scrapy.spidermiddlewares.depth.DepthMiddleware']
2018-12-17 15:57:55 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2018-12-17 15:57:55 [scrapy.core.engine] INFO: Spider opened
2018-12-17 15:57:55 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2018-12-17 15:57:55 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2018-12-17 15:57:55 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
2018-12-17 15:57:56 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
2018-12-17 15:57:56 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
2018-12-17 15:57:56 [scrapy.core.engine] INFO: Closing spider (finished)
2018-12-17 15:57:56 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 698,
'downloader/request_count': 3,
'downloader/request_method_count/GET': 3,
'downloader/response_bytes': 14618,
'downloader/response_count': 3,
'downloader/response_status_count/200': 3,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2018, 12, 17, 7, 57, 56, 333599),
'log_count/DEBUG': 4,
'log_count/INFO': 7,
'response_received_count': 3,
'scheduler/dequeued': 2,
'scheduler/dequeued/memory': 2,
'scheduler/enqueued': 2,
'scheduler/enqueued/memory': 2,
'start_time': datetime.datetime(2018, 12, 17, 7, 57, 55, 738552)}
2018-12-17 15:57:56 [scrapy.core.engine] INFO: Spider closed (finished)

中间有两条内容：

2018-12-17 15:57:56 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
2018-12-17 15:57:56 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)

200就是网页状态码，表示链接成功，后面接的网址就是我们爬取的网址。

另外，我们在 tutorial 根目录下看到增加一个名为 230 和 411 的文件，你如果用 Notepad 打开的话，实际上就是上面那个网页的源代码（保存的是 response.body）。

我们上面做的事情就是 Scrapy Engin 从Spider 这里获取到两个初始化的地址，为什么它知道从

start_urls = ['http://www.dmozdir.org/Category/?SmallPath=230',
'http://www.dmozdir.org/Category/?SmallPath=411']

这里获取，我们刚才给它的命令是 scrapy crawl dmoz，那它就会来找这个叫做 dmoz 的 spider，所以我们说这个 name 不能重复，重复的话它就不知道找哪一只蜘蛛了，这个 dmoz 是唯一的蜘蛛，它的名字叫做 dmoz。找到它之后，它知道它的两个初始化的地址，所以就提交给 Scheduler，Scheduler 再安排好顺序，发给 Downloader 去下载，下载之后就返回一个 Responses 给 Spiders，Spiders 的这个 parse 方法（回调函数）接收到 Responses 后，就会执行函数体的内容，就会把 230 和 411 分别保存为两个文件。

我们接下来继续深入讲解，那这个是爬的过程，爬完整个网页，接下来就是取的过程啦。

大家还记得我们之前定义的 Item 容器吧：一个是 title，一个是 link，一个是 desc。

#items.py
import scrapy
class DmozItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
title = scrapy.Field() #标题
link = scrapy.Field() #超链接
desc = scrapy.Field() #描述

我们现在的目标就是要从这个 230 和 411 这个偌大的内容中找出 title 、link 和 desc ，然后分别保存提取出来，大家知道，这就是一个大浪淘沙的过程。将得到的网页提取出我们需要的数据，之前我教给大家的是使用正则表达式，在Scrapy 里面，是使用一种基于 XPath 和 CSS 的表达式机制：Scrapy Selectors。

Selectors 是一个选择器，它有4个基本方法：

xpath()：传入 xpath 表达式，返回该表达式所对应的所有节点的 selector list 列表。

css()：传入 css 表达式，返回该表达式所对应的所有节点的 selector list 列表。

extract()：序列化该节点为 unicode 字符串并返回 list。

re()：根据传入的正则表达式对数据进行提取，返回 unicode 字符串 list 列表。

为了介绍 selector 的使用方法，接下来我们使用内置的 scrapy shell，首先你需要在CMD中进入项目的根目录（在前面我们已经进入了），输入：

scrapy shell "http://www.dmozdir.org/Category/?SmallPath=411"

回车，得到下面的内容：

进入 shell

#CMD窗口
C:\Users\XiangyangDai\Desktop\tutorial>scrapy shell "http://www.dmozdir.org/Category/?SmallPath=411"
2018-12-17 16:40:55 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: tutorial)
2018-12-17 16:40:55 [scrapy.utils.log] INFO: Versions: lxml 4.2.5.0, libxml2 2.9.5, cssselect 1.0.3, parsel 1.5.1, w3lib 1.19.0, Twisted 18.9.0, Python 3.5.2 |Anaconda 4.2.0 (64-bit)| (default, Jul 5 2016, 11:41:13) [MSC v.1900 64 bit (AMD64)], pyOpenSSL 18.0.0 (OpenSSL 1.1.0j 20 Nov 2018), cryptography 2.4.2, Platform Windows-10-10.0.17134-SP0
2018-12-17 16:40:55 [scrapy.crawler] INFO: Overridden settings: {'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES': ['tutorial.spiders'], 'LOGSTATS_INTERVAL': 0, 'BOT_NAME': 'tutorial', 'DUPEFILTER_CLASS': 'scrapy.dupefilters.BaseDupeFilter', 'NEWSPIDER_MODULE': 'tutorial.spiders'}
2018-12-17 16:40:55 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.telnet.TelnetConsole',
'scrapy.extensions.corestats.CoreStats']
2018-12-17 16:40:55 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
'scrapy.downloadermiddlewares.retry.RetryMiddleware',
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
'scrapy.downloadermiddlewares.stats.DownloaderStats']
2018-12-17 16:40:55 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
'scrapy.spidermiddlewares.referer.RefererMiddleware',
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
'scrapy.spidermiddlewares.depth.DepthMiddleware']
2018-12-17 16:40:55 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2018-12-17 16:40:55 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2018-12-17 16:40:55 [scrapy.core.engine] INFO: Spider opened
2018-12-17 16:40:56 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
2018-12-17 16:40:56 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
[s] Available Scrapy objects:
[s] scrapy scrapy module (contains scrapy.Request, scrapy.Selector, etc)
[s] crawler
[s] item {}
[s] request
[s] response <200 http://www.dmozdir.org/Category/?SmallPath=411>
[s] settings
[s] spider
[s] Useful shortcuts:
[s] fetch(url[, redirect=True]) Fetch URL and update local objects (by default, redirects are followed)
[s] fetch(req) Fetch a scrapy.Request and update local objects
[s] shelp() Shell help (print this help)
[s] view(response) View response in a browser
In [1]:

当出现 In [1]: 或者 >>>，就说明已经进入了 shell，在shell 载入之后，你将得到 Responses 回应，我们就可以对它进行操作：

例如，我们输入 response.headers ，就会得到网页的头：

#CMD窗口
In [1]: response.headers
Out[1]:
{b'Cache-Control': b'private',
b'Content-Type': b'text/html; Charset=utf-8',
b'Date': b'Mon, 17 Dec 2018 08:40:47 GMT',
b'Server': b'Microsoft-IIS/6.0',
b'Set-Cookie': b'ASPSESSIONIDCSBBCQBD=NMHNAMKDCBHDGNNAAGNKKBLM; path=/',
b'Vary': b'Accept-Encoding',
b'X-Powered-By': b'ASP.NET'}

我们输入 response.body，就会得到网页的源代码：

#CMD窗口
In [3]: response.body
Out[3]: b'\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\xe5\xa9\x9a\xe6\x81\x8b\xe4\xba\xa4\xe5\x8f\x8b-\xe7\x94\x9f\xe6\xb4\xbb\xe4\xb8\x8e\xe6\x9c\x8d\xe5\x8a\xa1-\xe7\x9b\xae\xe5\xbd\x95\xe5\x88\x86\xe7\xb1\xbb-DMOZ\xe4\xb8\xad\xe6\x96\x87\xe7\xbd\x91\xe7\xab\x99\xe5\x88\x86\xe7\xb1\xbb\xe7\x9b\xae\xe5\xbd\x95\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n
\r\n\t\r\n\t\r\n\t\t\r\n\t\t\tDMOZ\xe4\xb8\xad\xe6\x96\x87\xe7\xbd\x91\xe7\xab\x99\xe5\x88\x86\xe7\xb1\xbb\xe7\x9b\xae\xe5\xbd\x95-\xe5\x85\x8d\xe8\xb4\xb9\xe6\x94\xb6\xe5\xbd\x95\xe5\x90\x84\xe7\xb1\xbb\xe4\xbc\x98\xe7\xa7\x80\xe7\xbd\x91\xe7\xab\x99\xe7\x9a\x84\xe4\xb8\xad\xe6\x96\x87\xe7\xbd\x91\xe7\xab\x99\xe7\x9b\xae\xe5\xbd\x95.\r\n\t\t\t\r\n\t\t\t\t\xe8\xae\xbe\xe4\xb8\xba\xe9\xa6\x96\xe9\xa1\xb5 \r\n\t\t\t\t\xe6\x8e\xa8\xe8\x8d\x90\xe6\x9c\xac\xe7\xab\x99\xe7\xbb\x99\xe5\xa5\xbd\xe5\x8f\x8b \r\n\t\t\t \r\n\t\t \r\n\t \r\n\t\r\n\r\n\t\r\n\t\r\n\t\t\r\n\t\t\r\n\t\t\tDMOZ\xe4\xb8\xad\xe6\x96\x87\xe7\xbd\x91\xe7\xab\x99\xe5\x88\x86\xe7\xb1\xbb\xe7\x9b\xae\xe5\xbd\x95-\xe5\x85\x8d\xe8\xb4\xb9\xe6\x94\xb6\xe5\xbd\x95\xe5\x90\x84\xe7\xb1\xbb\xe4\xbc\x98\xe7\xa7\x80\xe7\xbd\x91\xe7\xab\x99\xe7\x9a\x84\xe4\xb8\xad\xe6\x96\x87\xe7\xbd\x91\xe7\xab\x99\xe7\x9b\xae\xe5\xbd\x95. \r\n\t\t\t\r\n\t\t\t\r\n\t\t\t\t\xe5\x85\x8d\xe8\xb4\xb9\xe6\xb3\xa8\xe5\x86\x8c \r\n\t\t\t\t\xe7\x99\xbb\xe5\xbd\x95\xe7\xae\xa1\xe7\x90\x86 \r\n\t\t\t\t\xe6\x8f\x90\xe4\xba\xa4\xe7\xbd\x91\xe7\xab\x99 \r\n\t\t\t\t\xe6\x82\xa8\xe5\xa5\xbd\xef\xbc\x8c\xe6\xac\xa2\xe8\xbf\x8e\xe6\x9d\xa5DMOZ\xe4\xb8\xad\xe6\x96\x87\xe7\xbd\x91\xe7\xab\x99\xe5\x88\x86\xe7\xb1\xbb\xe7\x9b\xae\xe5\xbd\x95\xef\xbc\x81 \r\n\t\t\t\r\n\t\t\t \r\n\t\t\t\r\n\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\tDmozDir\xe9\xa6\x96\xe9\xa1\xb5 \r\n\t\t\t\t\t\xe6\x8f\x90\xe4\xba\xa4\xe7\xbd\x91\xe7\xab\x99 \r\n\t\t\t\t\t| \r\n\t\t\t\t\t\xe6\x9c\x80\xe6\x96\xb0\xe6\x94\xb6\xe5\xbd\x95 \r\n\t\t\t\t\t| \r\n\t\t\t\t\t\xe5\x85\xa5\xe7\xab\x99\xe6\x8e\x92\xe8\xa1\x8c\xe6\xa6\x9c \r\n\t\t\t\t\t| \r\n\t\t\t\t\t\xe5\xbb\xba\xe7\xab\x99\xe8\xb5\x84\xe8\xae\xaf \r\n\t\t\t\t\t| \r\n\t\t\t\t\t\xe4\xba\x86\xe8\xa7\xa3\xe6\x9c\xac\xe7\xab\x99 \r\n\t\t\t\t \r\n\t\t\t \r\n\t\t\t\r\n\t\t\t\r\n\t\t\t\t\xe7\x9b\xae\xe5\xbd\x95\xe5\x88\x86\xe7\xb1\xbb\r\n\t\t\t\t\r\n\t\t\t\t\t\xe5\xa8\xb1\xe4\xb9\x90\xe4\xbc\x91\xe9\x97\xb2 \xe5\xb7\xa5\xe5\x95\x86\xe4\xb8\x8e\xe7\xbb\x8f\xe6\xb5\x8e \xe7\x94\xb5\xe8\x84\x91\xe4\xb8\x8e\xe7\xbd\x91\xe7\xbb\x9c \xe5\x85\xac\xe5\x8f\xb8\xe4\xb8\x8e\xe4\xbc\x81\xe4\xb8\x9a \xe6\x95\x99\xe8\x82\xb2\xe4\xb8\x8e\xe5\x9f\xb9\xe8\xae\xad \xe6\x96\x87\xe5\xad\xa6 \xe8\x89\xba\xe6\x9c\xaf \xe4\xbd\x93\xe8\x82\xb2\xe4\xb8\x8e\xe5\x81\xa5\xe8\xba\xab \xe6\x96\xb0\xe9\x97\xbb\xe4\xb8\x8e\xe5\xaa\x92\xe4\xbd\x93 \xe5\x8d\xab\xe7\x94\x9f\xe4\xb8\x8e\xe5\x81\xa5\xe5\xba\xb7 \xe7\xa7\x91\xe5\xad\xa6/\xe6\x96\x87\xe5\x8c\x96 \xe7\x94\x9f\xe6\xb4\xbb\xe4\xb8\x8e\xe6\x9c\x8d\xe5\x8a\xa1 \xe6\x97\x85\xe6\xb8\xb8\xe4\xb8\x8e\xe4\xba\xa4\xe9\x80\x9a \xe6\x94\xbf\xe6\xb2\xbb/\xe6\xb3\x95\xe5\xbe\x8b/\xe5\x86\x9b\xe4\xba\x8b \xe7\xa4\xbe\xe4\xbc\x9a\xe7\xa7\x91\xe5\xad\xa6 \r\n\t\t\t\t \r\n\t\t\t \r\n\t\t\t\r\n\t\t\t\t\xe5\x9c\xb0\xe5\x8c\xba\xe5\x88\x86\xe7\xb1\xbb\r\n\t\t\t\t\r\n\t\t\t\t\t\xe5\x8c\x97\xe4\xba\xac \xe4\xb8\x8a\xe6\xb5\xb7 \xe5\xa4\xa9\xe6\xb4\xa5 \xe9\x87\x8d\xe5\xba\x86 \xe6\xb5\x99\xe6\xb1\x9f\xe7\x9c\x81 \xe5\xb9\xbf\xe4\xb8\x9c\xe7\x9c\x81 \xe6\xb1\x9f\xe8\x8b\x8f\xe7\x9c\x81 \xe6\xb2\xb3\xe5\x8c\x97\xe7\x9c\x81 \xe5\xb1\xb1\xe8\xa5\xbf\xe7\x9c\x81 \xe5\x9b\x9b\xe5\xb7\x9d\xe7\x9c\x81 \xe6\xb2\xb3\xe5\x8d\x97\xe7\x9c\x81 \xe8\xbe\xbd\xe5\xae\x81\xe7\x9c\x81 \xe5\x90\x89\xe6\x9e\x97\xe7\x9c\x81 \xe9\xbb\x91\xe9\xbe\x99\xe6\xb1\x9f\xe7\x9c\x81 \xe5\xb1\xb1\xe4\xb8\x9c\xe7\x9c\x81 \xe5\xae\x89\xe5\xbe\xbd\xe7\x9c\x81 \xe7\xa6\x8f\xe5\xbb\xba\xe7\x9c\x81 \xe6\xb9\x96\xe5\x8c\x97\xe7\x9c\x81 \xe6\xb9\x96\xe5\x8d\x97\xe7\x9c\x81 \xe6\xb5\xb7\xe5\x8d\x97\xe7\x9c\x81 \xe6\xb1\x9f\xe8\xa5\xbf\xe7\x9c\x81 \xe8\xb4\xb5\xe5\xb7\x9e\xe7\x9c\x81 \xe4\xba\x91\xe5\x8d\x97\xe7\x9c\x81 \xe9\x99\x95\xe8\xa5\xbf\xe7\x9c\x81 \xe7\x94\x98\xe8\x82\x83\xe7\x9c\x81 \xe5\xb9\xbf\xe8\xa5\xbf\xe5\x8c\xba \xe5\xae\x81\xe5\xa4\x8f\xe5\x8c\xba \xe9\x9d\x92\xe6\xb5\xb7\xe7\x9c\x81 \xe6\x96\xb0\xe7\x96\x86\xe5\x8c\xba \xe8\xa5\xbf\xe8\x97\x8f\xe5\x8c\xba \xe5\x86\x85\xe8\x92\x99\xe5\x8f\xa4\xe5\x8c\xba \xe9\xa6\x99\xe6\xb8\xaf \xe6\xbe\xb3\xe9\x97\xa8 \xe5\x8f\xb0\xe6\xb9\xbe \xe5\x9b\xbd\xe5\xa4\x96 \r\n\t\t\t\t \r\n\t\t\t \r\n\t\t \r\n\t\t\r\n\r\n\t\t\r\n\t\t\t\r\n\t\t\t\r\n\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\t\r\n\t\t\t\t\t\r\n\t\t\t\t\t\t\r\n\t\t\t\t\t\t\t\r\n\t\t\t\t\t\t\r\n\t\t\t\t\t\r\n\t\t\t\t\t\r\n\t\t\t\t\t\xe6\x90\x9c\xe7\xb4\xa2\xe5\xb8\xae\xe5\x8a\xa9?\r\n\t\t\t\t \r\n\t\t\t \r\n\t\t\t\r\n\xe5\xb0\x8f\xe5\x9e\x8b\xe9\x99\xa4\xe5\xb0\x98\xe5\x99\xa8 \xe8\x84\x89\xe5\x86\xb2\xe9\x99\xa4\xe5\xb0\x98\xe5\x99\xa8 \xe5\xb8\x83\xe8\xa2\x8b\xe9\x99\xa4\xe5\xb0\x98\xe5\x99\xa8 \xe9\x99\xa4\xe5\xb0\x98\xe5\x99\xa8\xe9\xaa\xa8\xe6\x9e\xb6 \xe9\x99\xa4\xe5\xb0\x98\xe5\x99\xa8\xe5\xb8\x83\xe8\xa2\x8b \xe7\x94\xb5\xe7\xa3\x81\xe8\x84\x89\xe5\x86\xb2\xe9\x98\x80 \xe5\x8d\x95\xe6\x9c\xba\xe9\x99\xa4\xe5\xb0\x98\xe5\x99\xa8 \xe6\x97\x8b\xe9\xa3\x8e\xe9\x99\xa4\xe5\xb0\x98\xe5\x99\xa8 \xe8\x84\x89\xe5\x86\xb2\xe5\xb8\x83\xe8\xa2\x8b\xe9\x99\xa4\xe5\xb0\x98\xe5\x99\xa8\r\n\t\t\t \r\n\t\t \r\n\t\tDMOZ\xe7\x9b\xae\xe5\xbd\x95\xe5\xbf\xab\xe9\x80\x9f\xe7\x99\xbb\xe5\xbd\x95\xe5\x85\xa5\xe5\x8f\xa3-\xe5\x85\x8d\xe8\xb4\xb9\xe6\x94\xb6\xe5\xbd\x95\xe5\x90\x84\xe7\xb1\xbb\xe4\xbc\x98\xe7\xa7\x80\xe7\xbd\x91\xe7\xab\x99\xe7\x9a\x84\xe4\xb8\xad\xe6\x96\x87\xe7\xbd\x91\xe7\xab\x99\xe7\x9b\xae\xe5\xbd\x95.\xe7\x94\xb1\xe4\xba\xba\xe5\xb7\xa5\xe7\xbc\x96\xe8\xbe\x91,\xe5\xb9\xb6\xe6\x8f\x90\xe4\xbe\x9b\xe7\xbd\x91\xe7\xab\x99\xe5\x88\x86\xe7\xb1\xbb\xe7\x9b\xae\xe5\xbd\x95\xe6\xa3\x80\xe7\xb4\xa2\xe5\x8f\x8a\xe5\x9c\xb0\xe5\x8c\xba\xe5\x88\x86\xe7\xb1\xbb\xe7\x9b\xae\xe5\xbd\x95\xe6\xa3\x80\xe7\xb4\xa2,\xe6\x98\xaf\xe7\xab\x99\xe9\x95\xbf\xe5\x85\x8d\xe8\xb4\xb9\xe6\x8e\xa8\xe5\xb9\xbf\xe7\xbd\x91\xe7\xab\x99\xe7\x9a\x84\xe6\x9c\x89\xe5\x8a\x9b\xe5\xb9\xb3\xe5\x8f\xb0! \r\n\t\t\r\n\t\t\t\xe5\xbd\x93\xe5\x89\x8d\xe4\xbd\x8d\xe7\xbd\xae\xef\xbc\x9aDMOZ\xe4\xb8\xad\xe6\x96\x87\xe7\xbd\x91\xe7\xab\x99\xe5\x88\x86\xe7\xb1\xbb\xe7\x9b\xae\xe5\xbd\x95 >\r\n\t\t\t\xe7\x94\x9f\xe6\xb4\xbb\xe4\xb8\x8e\xe6\x9c\x8d\xe5\x8a\xa1 > \xe5\xa9\x9a\xe6\x81\x8b\xe4\xba\xa4\xe5\x8f\x8b(176) \r\n\t\t\t\r\n\r\n\t\t\tDMOZ\xe4\xb8\xad\xe6\x96\x87\xe7\xbd\x91\xe7\xab\x99\xe5\x88\x86\xe7\xb1\xbb\xe7\x9b\xae\xe5\xbd\x95 - \xe7\xbd\x91\xe7\xab\x99\xe5\x85\x8d\xe8\xb4\xb9\xe7\x99\xbb\xe5\xbd\x95, \xe5\x85\x8d\xe8\xb4\xb9\xe6\x8e\xa8\xe5\xb9\xbf \r\n\t\t \r\n\r\n\t\t\r\n\t\t\r\n\t\t\t\r\n\r\n\t\t\t\t\r\n\t\t\t\t\t\xe7\x94\x9f\xe6\xb4\xbb\xe4\xb8\x8e\xe6\x9c\x8d\xe5\x8a\xa1 > \xe5\xa9\x9a\xe6\x81\x8b\xe4\xba\xa4\xe5\x8f\x8b \r\n\t\t\t\t\t\r\n\t\t\t\t\t\r\n\t\t\t\t\t\t\xe6\x8e\x92\xe5\xba\x8f\xe6\x96\xb9\xe5\xbc\x8f: \r\n\t\t\t\t\t\t\xe5\x85\xa5\xe7\xab\x99\xe6\xb5\x81\xe9\x87\x8f \r\n\t\t\t\t\t\t\xe5\x87\xba\xe7\xab\x99\xe6\xb5\x81\xe9\x87\x8f \r\n\t\t\t\t\t\t\xe4\xba\xba\xe6\xb0\x94\xe6\x8c\x87\xe6\x95\xb0 \r\n \xe6\xa0\x87\xe9\xa2\x98\xe6\x8e\x92\xe5\xba\x8f \r\n\t\t\t\t\t \r\n\t\t\t\t\t\r\n\t\t\t\t\t\r\n\t\t\t\t\t\t\xe5\x90\x84\xe5\x9c\xb0\xe7\x94\x9f\xe6\xb4\xbb⁵⁴⁶ \xe5\xa9\x9a\xe6\x81\x8b\xe4\xba\xa4\xe5\x8f\x8b¹⁷⁶ \xe5\x85\xac\xe5\x8f\xb8\xe4\xbc\x81\xe4\xb8\x9a⁴⁰⁰ \xe7\x94\x9f\xe6\xb4\xbb\xe5\xb8\xb8\xe8\xaf\x86¹⁰³ \xe9\xa4\x90\xe9\xa5\xae/\xe8\x8f\x9c\xe8\xb0\xb1³⁶⁰ \xe8\xb4\xad\xe7\x89\xa9¹¹⁹² \xe7\xa7\x9f\xe6\x88\xbf¹²⁷ \xe7\xa7\x9f\xe8\xb5\x81/\xe5\x80\x9f\xe8\xb4\xb7¹¹² \xe5\xa4\xa9\xe6\xb0\x94\xe9\xa2\x84\xe6\x8a\xa5¹⁹ \xe5\xae\xb6\xe7\x94\xa8\xe7\x94\xb5\xe5\x99\xa8¹⁵⁴ \xe5\xb8\xb8\xe7\x94\xa8\xe6\x9f\xa5\xe8\xaf\xa2⁶⁵ \xe5\x9c\xb0\xe5\x9b\xbe¹⁹ \xe6\x89\x8b\xe6\x9c\xba\xe7\x9f\xad\xe4\xbf\xa1³⁹ \xe9\xa2\x84\xe8\xae\xa2\xe6\x9c\x8d\xe5\x8a\xa1³³ \xe6\x8b\x8d\xe5\x8d\x96¹¹ \xe5\xae\xb6\xe6\x94\xbf\xe6\x9c\x8d\xe5\x8a\xa1¹⁹⁶ \xe4\xb8\xaa\xe4\xba\xba\xe7\xbe\x8e\xe5\x8c\x96¹⁵⁸ \xe7\x94\x9f\xe6\xb4\xbb\xe6\x83\x85\xe8\xb6\xa3⁵² \xe8\xa3\x85\xe9\xa5\xb0/\xe8\xa3\x85\xe4\xbf\xae⁴⁷³ \xe7\xb4\xa7\xe6\x80\xa5\xe6\x9c\x8d\xe5\x8a\xa1¹⁵ \xe7\xbb\xbc\xe5\x90\x88\xe7\xbd\x91\xe7\xab\x99⁵¹⁶ \xe6\x96\xb0\xe9\x97\xbb\xe5\xaa\x92\xe4\xbd\x93¹⁴ \xe6\x88\x90\xe4\xba\xba\xe7\x94\xa8\xe5\x93\x81⁷ \xe7\xbd\x91\xe4\xb8\x8a\xe6\x95\x91\xe5\x8a\xa9⁷ \xe4\xbc\x9a\xe5\xb1\x95\xe6\xb4\xbb\xe5\x8a\xa8²³ \xe6\xb1\x82\xe5\x8c\xbb\xe9\x97\xae\xe8\x8d\xaf⁷⁵ \xe4\xbd\x93\xe8\x82\xb2\xe5\x81\xa5\xe8\xba\xab¹⁰ \xe8\xae\xba\xe5\x9d\x9b/\xe8\x81\x8a\xe5\xa4\xa9\xe5\xae\xa4⁷⁵ \xe5\x8a\x9e\xe5\x85\xac\xe6\x9c\x8d\xe5\x8a\xa1³¹ \r\n\t\t\t\t\t \r\n\t\t\t\t\t\r\n\t\t\t\t\t\xe5\x90\x91\xe8\xaf\xa5\xe7\x9b\xae\xe5\xbd\x95\xe6\x8f\x90\xe4\xba\xa4\xe7\xbd\x91\xe7\xab\x99 \r\n\t\t\t\t\t\xe5\xa4\xa9\xe5\x96\x9c\xe7\xbc\x98\xe5\xa9\x9a\xe4\xbb\x8b\xe7\xbd\x91-\xe6\x9c\x80\xe5\xa5\xbd\xe7\x9a\x84\xe5\xa9\x9a\xe5\xbe\x81\xe5\xa9\x9a\xe4\xbb\x8b\xe7\xbd\x91\xe7\xab\x99 \xe5\xa4\xa9\xe5\x96\x9c\xe7\xbc\x98\xe5\xa9\x9a\xe4\xbb\x8b\xe5\xa9\x9a\xe5\xba\x86\xe7\xbd\x91\xe6\x98\xaf\xe6\xb5\x8e\xe5\x8d\x97\xe6\x9c\x80\xe4\xb8\x93\xe4\xb8\x9a\xe7\x9a\x84\xe5\xa9\x9a\xe4\xbb\x8b\xe7\xbd\x91\xe7\xab\x99\xe3\x80\x81\xe5\xa9\x9a\xe5\xba\x86\xe7\xbd\x91\xe7\xab\x99\xef\xbc\x8c\xe4\xba\xa4\xe5\x8f\x8b\xe7\xbd\x91\xe7\xab\x99\xef\xbc\x8c\xe5\x8f\x8a\xe6\xb5\x8e\xe5\x8d\x97\xe5\xbe\x81\xe5\xa9\x9a\xe3\x80\x81\xe6\xb5\x8e\xe5\x8d\x97\xe4\xba\xa4\xe5\x8f\x8b\xe3\x80\x81\xe6\xb5\x8e\xe5\x8d\x97\xe5\xa9\x9a\xe4\xbb\x8b\xe3\x80\x81\xe6\xb5\x8e\xe5\x8d\x97\xe5\xba\x86\xe5\x85\xb8\xe3\x80\x81\xe6\xb5\x8e\xe5\x8d\x97\xe7\xa4\xbc\xe4\xbb\xaa\xe4\xba\x8e\xe4\xb8\x80\xe4\xbd\x93\xef\xbc\x8c\xe7\xbd\x91\xe4\xb8\x8b\xe6\x9c\x89\xe5\xae\x9e\xe4\xbd\x93\xe5\xba\x97\xe9\x9d\xa2-\xe6\xb5\x8e\xe5\x8d\x97\xe5\xb8\x82\xe5\xb8\x82\xe4\xb8\xad\xe5\x8c\xba\xe5\xa4\xa9\xe5\x96\x9c\xe7\xbc\x98\xe5\xa9\x9a\xe4\xbb\x8b\xe5\xa9\x9a\xe5\xba\x86\xe4\xb8\xad\xe5\xbf\x83\xef\xbc\x8c\xe4\xb8\x8d\xe5\xae\x9a\xe6\x9c\x9f\xe4\xb8\xbe\xe5\x8a\x9e\xe8\x81\x94\xe8\xb0\x8a\xe6\xb4\xbb\xe5\x8a\xa8\xef\xbc\x8c\xe4\xbf\x9d\xe8\xaf\x81\xe4\xbc\x9a\xe5\x91\x98\xe6\x88\x90\xe5\x8a\x9f\xe7\x8e\x87 www.love219.com \xe6\x88\x90\xe9\x83\xbd\xe7\x9b\x9b\xe4\xb8\x96\xe9\x98\xb3\xe5\x85\x89\xe5\xa9\x9a\xe5\xba\x86\xe7\xad\x96\xe5\x88\x92\xe6\x9c\x89\xe9\x99\x90\xe5\x85\xac\xe5\x8f\xb8 \xe8\xaf\x9a\xe4\xbf\xa1\xe6\x8a\x95\xe8\xb5\x84\xe6\x8e\xa7\xe8\x82\xa1\xe9\x9b\x86\xe5\x9b\xa2\xe5\xb1\x9e\xe4\xba\x8e\xe5\x9b\x9b\xe5\xb7\x9d\xe7\x9c\x81\xe5\xa4\xa7\xe5\x9e\x8b\xe4\xbc\x81\xe4\xb8\x9a\xe9\x9b\x86\xe5\x9b\xa2\xef\xbc\x8c\xe5\xb7\x9d\xe5\x86\x85\xe6\x8e\x92\xe4\xba\x8e\xe5\x89\x8d20\xe5\x90\x8d\xef\xbc\x8c\xe6\xb3\xa8\xe5\x86\x8c\xe8\xb5\x84\xe9\x87\x913.5\xe4\xba\xbf\xe5\x85\x83\xef\xbc\x8c\xe6\x8b\xa5\xe6\x9c\x89\xe5\x9b\xba\xe5\xae\x9a\xe8\xb5\x84\xe4\xba\xa746.5\xe4\xba\xbf\xe3\x80\x82\xe5\x85\xac\xe5\x8f\xb8\xe6\x80\xbb\xe9\x83\xa8\xe4\xbd\x8d\xe4\xba\x8e\xe6\x88\x90\xe9\x83\xbd\xe5\xb8\x82\xe8\x87\xb4\xe6\xb0\x91\xe4\xb8\x9c\xe8\xb7\xaf1\xe5\x8f\xb7\xe3\x80\x82\xe5\x9c\xa8\xe5\x8c\x97\xe4\xba\xac\xe3\x80\x81\xe4\xb8\x8a\xe6\xb5\xb7\xe3\x80\x81\xe6\x96\xb0\xe7\x96\x86\xe7\xad\x89\xe5\x9c\xb0\xe8\xae\xbe\xe6\x9c\x89\xe5\x88\x86\xe5\x85\xac\xe5\x8f\xb8\xe3\x80\x82\xe8\xaf\x9a\xe4\xbf\xa1\xe7\x9b\x9b\xe4\xb8\x96\xe9\x98\xb3\xe5\x85\x89\xe5\xa9\x9a\xe5\xba\x86\xe5\x85\xac\xe5\x8f\xb8\xe6\x98\xaf\xe5\x85\xb6\xe5\xad\x90\xe5\x85\xac\xe5\x8f\xb8\xe3\x80\x82 www.ssyg520.com \xe6\x83\x85\xe4\xba\xba\xe7\xbd\x91 \xe6\x83\x85\xe4\xba\xba\xe7\xbd\x91\xe4\xba\xa4\xe5\x8f\x8b\xe4\xb8\xad\xe5\xbf\x83\xe4\xb8\xba\xe4\xbd\xa0\xe6\x8f\x90\xe4\xbe\x9b\xe6\x9c\x80\xe4\xbd\xb3\xe7\x9a\x84\xe7\xbd\x91\xe4\xb8\x8a\xe6\x83\x85\xe4\xba\xba\xe4\xba\xa4\xe5\x8f\x8b\xe6\x9c\xba\xe4\xbc\x9a\xef\xbc\x8c\xe8\xb6\xb3\xe4\xb8\x8d\xe5\x87\xba\xe6\x88\xb7\xe4\xbe\xbf\xe8\x83\xbd\xe8\xae\xa9\xe4\xbd\xa0\xe6\x9c\x89\xe6\x9b\xb4\xe5\xa4\x9a\xe7\x9a\x84\xe9\x80\x89\xe6\x8b\xa9\xef\xbc\x81 www.591lover.net \xe5\x9b\xbd\xe9\x99\x85\xe5\x85\x8d\xe8\xb4\xb9\xe5\xa9\x9a\xe4\xbb\x8b\xe4\xba\xa4\xe5\x8f\x8b\xe7\xbd\x91\xe7\xab\x99-\xe7\x9b\xb8\xe7\xba\xa6100 \xe5\x9b\xbd\xe9\x99\x85\xe5\x85\x8d\xe8\xb4\xb9\xe5\xa9\x9a\xe4\xbb\x8b\xe4\xba\xa4\xe5\x8f\x8b\xe7\xbd\x91\xe7\xab\x99\xe6\x98\xaf\xe7\x9b\xb8\xe7\xba\xa6100\xe6\x8f\x90\xe4\xbe\x9b\xe7\x9a\x84\xe5\xae\x8c\xe5\x85\xa8\xe5\x85\x8d\xe8\xb4\xb9\xe7\x9a\x84\xe5\x9b\xbd\xe9\x99\x85\xe4\xba\xa4\xe5\x8f\x8b\xe7\xbd\x91\xe7\xab\x99\xe3\x80\x82\xe4\xbc\x9a\xe5\x91\x98\xe4\xbb\xa5\xe5\x8d\x8e\xe4\xba\xba\xe4\xb8\xba\xe4\xb8\xbb\xe9\x81\x8d\xe5\xb8\x83\xe4\xba\x94\xe6\xb9\x96\xe5\x9b\x9b\xe6\xb5\xb7,\xe6\x89\x80\xe6\x9c\x89\xe4\xbc\x9a\xe5\x91\x98\xe5\xae\x8c\xe5\x85\xa8\xe5\x85\x8d\xe8\xb4\xb9\xe3\x80\x82\xe6\x89\x80\xe6\x9c\x89\xe5\xaf\xbb\xe6\x89\xbe\xe5\x9b\xbd\xe9\x99\x85\xe5\x85\x8d\xe8\xb4\xb9\xe5\xa9\x9a\xe4\xbb\x8b\xe4\xba\xa4\xe5\x8f\x8b\xe7\xbd\x91\xe7\xab\x99\xe7\x9a\x84\xe6\x9c\x8b\xe5\x8f\x8b\xe9\x83\xbd\xe8\x83\xbd\xe5\x9c\xa8\xe5\x9b\xbd\xe9\x99\x85\xe4\xba\xa4\xe5\x8f\x8b\xe7\xbd\x91\xe7\xab\x99\xe5\x9c\xa8\xe6\x89\xbe\xe5\x88\xb0\xe5\xae\x8c\xe5\x85\xa8\xe5\x85\x8d\xe8\xb4\xb9\xe7\x9a\x84\xe5\x9b\xbd\xe9\x99\x85\xe5\x85\x8d\xe8\xb4\xb9\xe5\xa9\x9a\xe4\xbb\x8b\xe4\xba\xa4\xe5\x8f\x8b\xe7\xbd\x91\xe7\xab\x99\xe6\x9c\x8d\xe5\x8a\xa1 www.free-onlinedating.me \xe5\xae\x89\xe5\xbe\xbd\xe5\xa9\x9a\xe5\xba\x86\xe7\xbd\x91 \xe5\xae\x89\xe5\xbe\xbd\xe5\xa9\x9a\xe5\xba\x86\xe7\xbd\x91 www.ahhqw.com \xe8\x81\x9a\xe7\xbc\x98\xe5\x8c\x97\xe6\xb5\xb7\xe4\xba\xa4\xe5\x8f\x8b\xe7\xbd\x91 \xe8\x81\x9a\xe7\xbc\x98\xe5\x8c\x97\xe6\xb5\xb7\xe4\xba\xa4\xe5\x8f\x8b\xe7\xbd\x91\xe6\x98\xaf\xe5\x8c\x97\xe6\xb5\xb7\xe5\x9c\xb0\xe5\x8c\xba\xe8\xbe\x83\xe8\xa7\x84\xe8\x8c\x83\xe7\x9a\x84\xe5\xa9\x9a\xe6\x81\x8b\xe4\xba\xa4\xe5\x8f\x8b\xe7\xbd\x91\xe7\xab\x99\xef\xbc\x8c\xe8\x87\xb4\xe5\x8a\x9b\xe4\xba\x8e\xe8\x90\xa5\xe9\x80\xa0\xe6\x9c\x89\xe8\xb6\xa3\xe8\x80\x8c\xe5\xae\x89\xe5\x85\xa8\xe7\x9a\x84\xe7\xbd\x91\xe7\xbb\x9c\xe4\xba\xa4\xe5\x8f\x8b\xe7\xa4\xbe\xe5\x8c\xba\xef\xbc\x8c\xe6\x8f\x90\xe4\xbe\x9b\xe6\x90\x9c\xe7\xb4\xa2\xe3\x80\x81\xe7\xbe\x8e\xe6\x96\x87\xe3\x80\x81\xe7\xba\xa6\xe4\xbc\x9a\xe3\x80\x81\xe6\x97\xa5\xe8\xae\xb0\xe3\x80\x81\xe8\x81\x8a\xe5\xa4\xa9\xe3\x80\x81\xe7\xad\x89\xe5\xa4\x9a\xe9\xa1\xb9\xe4\xba\xa4\xe5\x8f\x8b\xe6\x9c\x8d\xe5\x8a\xa1\xe3\x80\x82\xe5\xb9\xb6\xe4\xb8\x8e\xe5\x9c\xb0\xe6\x96\xb9\xe5\xa9\x9a\xe4\xbb\x8b\xe9\x83\xa8\xe9\x97\xa8\xe5\xbb\xba\xe7\xab\x8b\xe4\xba\x86\xe8\x89\xaf\xe5\xa5\xbd\xe7\x9a\x84\xe5\x90\x88\xe4\xbd\x9c\xe5\x85\xb3\xe7\xb3\xbb\xe3\x80\x82 www.jyjjyy.com \xe7\x88\xb1\xe6\x88\x91\xe5\x90\xa7\xe5\xa9\x9a\xe6\x81\x8b\xe7\xbd\x91 \xe7\x88\xb1\xe6\x88\x91\xe5\x90\xa7\xe5\xa9\x9a\xe6\x81\x8b\xe7\xbd\x91\xe6\x98\xaf\xe4\xb8\x80\xe4\xb8\xaa\xe7\x9c\x9f\xe5\xae\x9e\xe3\x80\x81\xe4\xb8\xa5\xe8\x82\x83\xe3\x80\x81\xe9\xab\x98\xe5\x93\x81\xe4\xbd\x8d\xe7\x9a\x84\xe5\xa9\x9a\xe6\x81\x8b\xe5\xb9\xb3\xe5\x8f\xb0\xef\xbc\x8c\xe6\x8f\x90\xe4\xbe\x9b\xe7\xa7\x91\xe5\xad\xa6\xe3\x80\x81\xe9\xab\x98\xe6\x95\x88\xe7\x9a\x84\xe5\x85\xa8\xe7\xa8\x8b\xe6\x9c\x8d\xe5\x8a\xa1\xef\xbc\x8c\xe5\xb8\xae\xe5\x8a\xa9\xe7\x9c\x9f\xe5\xbf\x83\xe5\xaf\xbb\xe6\x89\xbe\xe7\xbb\x88\xe8\xba\xab\xe4\xbc\xb4\xe4\xbe\xa3\xe7\x9a\x84\xe4\xba\xba\xe5\xa3\xab\xe5\xae\x9e\xe7\x8e\xb0\xe5\x92\x8c\xe8\xb0\x90\xe5\xa9\x9a\xe6\x81\x8b\xef\xbc\x8c\xe5\x8a\xaa\xe5\x8a\x9b\xe8\x90\xa5\xe9\x80\xa0\xe5\x9b\xbd\xe5\x86\x85\xe6\x9c\x80\xe4\xb8\x93\xe4\xb8\x9a\xe3\x80\x81\xe4\xb8\xa5\xe8\x82\x83\xe7\x9a\x84\xe5\xa9\x9a\xe6\x81\x8b\xe4\xba\xa4\xe5\x8f\x8b\xe5\xb9\xb3 www.lovemeba.com 77\xe5\x9b\xbd\xe9\x99\x85\xe4\xba\xa4\xe5\x8f\x8b\xe7\xbd\x91 \xe7\xba\xaf\xe5\x85\xac\xe7\x9b\x8a\xe6\x80\xa7\xef\xbc\x8c\xe7\x88\xb1\xe5\xbf\x83\xe7\xa4\xbe\xe4\xba\xa4\xe7\xbd\x91\xe7\xab\x99\xef\xbc\x8c\xe4\xb8\xba\xe5\xb9\xbf\xe5\xa4\xa7\xe9\x9d\x92\xe5\xb9\xb4\xe5\x8f\x8a\xe5\x8d\x95\xe8\xba\xab\xe4\xba\xba\xe5\xa3\xab\xe6\x8f\x90\xe4\xbe\x9b\xe7\x9a\x84\xe5\x85\xa8\xe5\x85\x8d\xe8\xb4\xb9\xe4\xba\xa4\xe5\x8f\x8b\xe5\xb9\xb3\xe5\x8f\xb0\xe3\x80\x82 www.77lds.com \xe4\xb8\x9c\xe8\x8e\x9e\xe9\x9f\xa9\xe9\xa3\x8e\xe5\xb0\x9a\xe5\xa9\x9a\xe7\xba\xb1\xe6\x91\x84\xe5\xbd\xb1\xe5\xb7\xa5\xe4\xbd\x9c\xe5\xae\xa4 \xe4\xb8\x9c\xe8\x8e\x9e\xe9\x9f\xa9\xe9\xa3\x8e\xe5\xb0\x9a\xe5\xa9\x9a\xe7\xba\xb1\xe6\x91\x84\xe5\xbd\xb1\xe5\xb7\xa5\xe4\xbd\x9c\xe5\xae\xa4\xe6\x98\xaf\xe5\x85\xb7\xe6\x9c\x89\xe7\x8b\xac\xe7\x89\xb9\xe7\x9a\x84\xe9\x9f\xa9\xe5\x9b\xbd\xe9\xa3\x8e\xe6\xa0\xbc\xe7\x9a\x84\xe4\xb8\x9c\xe8\x8e\x9e\xe5\xa9\x9a\xe7\xba\xb1\xe6\x91\x84\xe5\xbd\xb1\xe5\xb7\xa5\xe4\xbd\x9c\xe5\xae\xa4\xef\xbc\x8c\xe9\x9f\xa9\xe9\xa3\x8e\xe5\xb0\x9a\xe4\xbd\x8d\xe4\xba\x8e\xe4\xb8\x9c\xe8\x8e\x9e\xe4\xb8\x9c\xe5\x9f\x8e\xe5\x8c\xba\xe6\x97\x97\xe5\xb3\xb0\xe8\xb7\xaf\xe5\x9b\xbd\xe6\xb3\xb0\xe5\xa4\xa7\xe5\x8e\xa610\xe5\x8f\xb7,\xe6\x88\x91\xe4\xbb\xac\xe6\xb0\xb8\xe8\xbf\x9c\xe6\xbb\xa1\xe6\x80\x80\xe5\x88\x9b\xe6\x84\x8f\xe4\xb8\x8e\xe6\xb8\xa9\xe6\x83\x85,\xe9\x80\x9a\xe8\xbf\x87\xe4\xb8\x80\xe5\xaf\xb9\xe4\xb8\x80\xe7\x9a\x84\xe6\x9c\x8d\xe5\x8a\xa1\xe4\xb8\xba\xe6\x82\xa8\xe6\x8f\x90\xe4\xbe\x9b\xe8\xb6\x85\xe8\xb6\x8a\xe6\x82\xa8\xe6\x9c\x9f\xe6\x9c\x9b www.dg-hfs.com \xe7\x99\xbe\xe5\x90\x88\xe5\xa9\x9a\xe7\xa4\xbc\xe7\xa4\xbe\xe5\x8c\xba \xe7\x99\xbe\xe5\x90\x88\xe5\xa9\x9a\xe7\xa4\xbc\xe7\xa4\xbe\xe5\x8c\xba\xe8\xae\xa8\xe8\xae\xba\xe8\xaf\x9d\xe9\xa2\x98\xe6\xb6\xb5\xe7\x9b\x96\xe5\xa9\x9a\xe7\xba\xb1\xe7\x85\xa7\xe3\x80\x81\xe5\xa9\x9a\xe7\xba\xb1\xe6\x91\x84\xe5\xbd\xb1\xe3\x80\x81\xe5\xa9\x9a\xe7\xa4\xbc\xe7\xad\xb9\xe5\xa4\x87\xe3\x80\x81\xe5\xa9\x9a\xe7\xba\xb1\xe7\xa4\xbc\xe6\x9c\x8d\xe3\x80\x81\xe5\xa9\x9a\xe5\xba\x86\xe7\xad\x89\xe6\x96\xb9\xe9\x9d\xa2 www.lilywed.cn \r\n\r\n\t\r\n\t\t123456789>>|\r\n\t \r\n\t\r\n\t\t176\xe8\xae\xb0\xe5\xbd\x95\xe3\x80\x80\xe6\xaf\x8f\xe9\xa1\xb510\xe6\x9d\xa1\r\n\t \r\n \r\n\r\n\t\t\t\t \r\n\r\n\t\t\t \r\n\t\t \r\n\t\t\r\n\r\n\t\t\r\n\t\t\t\t\r\n\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\t\xe6\x88\x91\xe4\xb9\x9f\xe8\xa6\x81\xe5\x87\xba\xe7\x8e\xb0\xe5\x9c\xa8\xe8\xbf\x99\xe9\x87\x8c | \xe6\x9b\xb4\xe5\xa4\x9a\r\n\t\t\t\t\t\xe6\x9c\x80\xe6\x96\xb0\xe6\x8e\xa8\xe8\x8d\x90\r\n\t\t\t\t \r\n\t\t\t\t \r\n\xe8\xa2\x8b\xe5\xbc\x8f\xe8\x84\x89\xe5\x86\xb2\xe9\x99\xa4\xe5\xb0\x98\xe5\x99\xa8 \r\n\xe7\x94\x9f\xe4\xba\xa7\xe9\x99\xa4\xe5\xb0\x98\xe5\x99\xa8,\xe9\x99\xa4\xe5\xb0\x98\xe9\x85\x8d\xe4\xbb\xb6,\xe9\x99\xa4\xe5\xb0\x98\xe9\xaa\xa8\xe6\x9e\xb6,\xe9\x99\xa4\xe5\xb0\x98\xe5\xb8\x83\xe8\xa2\x8b,\xe8\x84\x89\xe5\x86\xb2\xe7\x94\xb5\xe7\xa3\x81\xe9\x98\x80,\xe6\x8e\xa7\xe5\x88\xb6\xe4\xbb\xaa,\xe6\xb0\x94\xe7\xbc\xb8\xe7\x9a\x84\xe4\xbc\x81\xe4\xb8\x9a\xe3\x80\x82 \r\nwww.chb01.cn \r\n \r\n \r\n\xe9\x99\xa4\xe5\xb0\x98\xe5\x99\xa8\xe9\x99\xa4\xe5\xb0\x98\xe5\xb8\x83\xe8\xa2\x8b\xe9\x99\xa4\xe5\xb0\x98\xe9\xaa\xa8\xe6\x9e\xb6-\xe5\xae\x8f\xe5\xae\x87\xe7\x8e\xaf\xe4\xbf\x9d \r\n\xe9\x99\xa4\xe5\xb0\x98\xe5\x99\xa8,\xe9\x99\xa4\xe5\xb0\x98\xe9\x85\x8d\xe4\xbb\xb6,\xe9\x99\xa4\xe5\xb0\x98\xe9\xaa\xa8\xe6\x9e\xb6,\xe9\x99\xa4\xe5\xb0\x98\xe5\xb8\x83\xe8\xa2\x8b,\xe8\x84\x89\xe5\x86\xb2\xe7\x94\xb5\xe7\xa3\x81\xe9\x98\x80,\xe6\x8e\xa7\xe5\x88\xb6\xe4\xbb\xaa,\xe6\xb0\x94\xe7\xbc\xb8\xe7\x9a\x84\xe4\xb8\x93\xe4\xb8\x9a\xe7\x94\x9f\xe4\xba\xa7\xe4\xbc\x81\xe4\xb8\x9a\xe3\x80\x82 \r\nwww.chuchenhb.com \r\n \r\n \r\n\t\t\t \r\n\t\t\t\r\n \xe5\xbb\xba\xe7\xab\x99\xe5\xbd\x92\xe6\xa1\xa3 | \xe8\xb5\x84\xe8\xae\xaf\xe5\xbd\x92\xe6\xa1\xa3 \r\n\r\n\r\n\t\t\t \r\n\t\t \r\n\r\n\t\t\r\n\r\n\t \r\n\t\r\n\r\n\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\t\t\xe5\x85\xb3\xe4\xba\x8e\xe6\x88\x91\xe4\xbb\xac \r\n\t\t\t\t\xe5\xb8\xae\xe5\x8a\xa9\xe4\xb8\xad\xe5\xbf\x83 \r\n\t\t\t\t\xe5\xb9\xbf\xe5\x91\x8a\xe8\xb5\x9e\xe5\x8a\xa9 \r\n\t\t\t\t\xe6\x8f\x90\xe4\xba\xa4\xe7\xbd\x91\xe7\xab\x99 \r\n\t\t\t\t\xe6\x9c\x80\xe6\x96\xb0\xe5\x8a\xa0\xe5\x85\xa5 \r\n\t\t\t\t\xe6\x9c\x80\xe6\x96\xb0\xe6\x8e\xa8\xe8\x8d\x90 \r\n\t\t\t\t\xe8\xae\xbe\xe4\xb8\xba\xe9\xa6\x96\xe9\xa1\xb5 \r\n\t\t\t\t\xe6\x94\xb6\xe8\x97\x8f\xe6\x9c\xac\xe7\xab\x99 \r\n\t\t\t \r\n\t\t \r\n© 2009 DmozDir \xe5\x86\x80ICP\xe5\xa4\x8708100951\xe5\x8f\xb7 DMOZ\xe7\x9b\xae\xe5\xbd\x95\xe5\xbf\xab\xe9\x80\x9f\xe7\x99\xbb\xe5\xbd\x95\xe5\x85\xa5\xe5\x8f\xa3\r\n\t\t \xe7\xbd\x91\xe7\xab\x99\xe5\x85\x8d\xe8\xb4\xb9\xe7\x99\xbb\xe5\xbd\x95\xef\xbc\x8c\xe6\x96\xb0\xe6\x94\xb6\xe5\xbd\x95\xe7\xbd\x91\xe7\xab\x99\xe9\xa6\x96\xe9\xa1\xb5\xe6\x98\xbe\xe7\xa4\xba\xef\xbc\x8c\xe6\x89\x80\xe6\x9c\x89\xe6\x8e\x92\xe5\x90\x8d\xe5\x85\xa8\xe8\x87\xaa\xe5\x8a\xa8\xe5\xae\x9e\xe6\x97\xb6\xe5\x88\xb7\xe6\x9b\xb4\xe6\x96\xb0\xef\xbc\x8c\xe7\xbd\x91\xe7\xab\x99\xe6\x8e\xa8\xe5\xb9\xbf\xe7\x9a\x84\xe6\x9c\x80\xe4\xbd\xb3\xe9\x80\x89\xe6\x8b\xa9\xe5\xb0\xb1\xe5\x9c\xa8DMOZ\xe4\xb8\xad\xe6\x96\x87\xe7\xbd\x91\xe7\xab\x99\xe5\x88\x86\xe7\xb1\xbb\xe7\x9b\xae\xe5\xbd\x95 \r\n
\r\n\r\n\r\n\r\n\r\n\r\n'

上面是以二进制显示的，我们可以进行编码：

#CMD窗口
In [5]: response.body.decode('utf-8')
Out[5]: '\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n婚恋交友-生活与服务-目录分类-DMOZ中文网站分类目录\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n
\r\n\t\r\n\t\r\n\t\t\r\n\t\t\tDMOZ中文网站分类目录-免费收录各类优秀网站的中文网站目录.\r\n\t\t\t\r\n\t\t\t\t设为首页 \r\n\t\t\t\t推荐本站给好友 \r\n\t\t\t \r\n\t\t \r\n\t \r\n\t\r\n\r\n\t\r\n\t\r\n\t\t\r\n\t\t\r\n\t\t\tDMOZ中文网站分类目录-免费收录各类优秀网站的中文网站目录. \r\n\t\t\t\r\n\t\t\t\r\n\t\t\t\t免费注册 \r\n\t\t\t\t登录管理 \r\n\t\t\t\t提交网站 \r\n\t\t\t\t您好，欢迎来DMOZ中文网站分类目录！ \r\n\t\t\t\r\n\t\t\t \r\n\t\t\t\r\n\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\tDmozDir首页 \r\n\t\t\t\t\t提交网站 \r\n\t\t\t\t\t| \r\n\t\t\t\t\t最新收录 \r\n\t\t\t\t\t| \r\n\t\t\t\t\t入站排行榜 \r\n\t\t\t\t\t| \r\n\t\t\t\t\t建站资讯 \r\n\t\t\t\t\t| \r\n\t\t\t\t\t了解本站 \r\n\t\t\t\t \r\n\t\t\t \r\n\t\t\t\r\n\t\t\t\r\n\t\t\t\t目录分类\r\n\t\t\t\t\r\n\t\t\t\t\t娱乐休闲工商与经济电脑与网络公司与企业教育与培训文学艺术体育与健身新闻与媒体卫生与健康科学/文化生活与服务旅游与交通政治/法律/军事社会科学 \r\n\t\t\t\t \r\n\t\t\t \r\n\t\t\t\r\n\t\t\t\t地区分类\r\n\t\t\t\t\r\n\t\t\t\t\t北京上海天津重庆浙江省广东省江苏省河北省山西省四川省河南省辽宁省吉林省黑龙江省山东省安徽省福建省湖北省湖南省海南省江西省贵州省云南省陕西省甘肃省广西区宁夏区青海省新疆区西藏区内蒙古区香港澳门台湾国外 \r\n\t\t\t\t \r\n\t\t\t \r\n\t\t \r\n\t\t\r\n\r\n\t\t\r\n\t\t\t\r\n\t\t\t\r\n\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\t\r\n\t\t\t\t\t\r\n\t\t\t\t\t\t\r\n\t\t\t\t\t\t\t\r\n\t\t\t\t\t\t\r\n\t\t\t\t\t\r\n\t\t\t\t\t\r\n\t\t\t\t\t搜索帮助?\r\n\t\t\t\t \r\n\t\t\t \r\n\t\t\t\r\n小型除尘器脉冲除尘器布袋除尘器除尘器骨架除尘器布袋电磁脉冲阀单机除尘器旋风除尘器脉冲布袋除尘器\r\n\t\t\t \r\n\t\t \r\n\t\tDMOZ目录快速登录入口-免费收录各类优秀网站的中文网站目录.由人工编辑,并提供网站分类目录检索及地区分类目录检索,是站长免费推广网站的有力平台! \r\n\t\t\r\n\t\t\t当前位置：DMOZ中文网站分类目录 >\r\n\t\t\t生活与服务 > 婚恋交友(176) \r\n\t\t\t\r\n\r\n\t\t\tDMOZ中文网站分类目录 - 网站免费登录, 免费推广 \r\n\t\t \r\n\r\n\t\t\r\n\t\t\r\n\t\t\t\r\n\r\n\t\t\t\t\r\n\t\t\t\t\t生活与服务 > 婚恋交友 \r\n\t\t\t\t\t\r\n\t\t\t\t\t\r\n\t\t\t\t\t\t排序方式: \r\n\t\t\t\t\t\t入站流量 \r\n\t\t\t\t\t\t出站流量 \r\n\t\t\t\t\t\t人气指数 \r\n 标题排序 \r\n\t\t\t\t\t \r\n\t\t\t\t\t\r\n\t\t\t\t\t\r\n\t\t\t\t\t\t各地生活⁵⁴⁶ 婚恋交友¹⁷⁶ 公司企业⁴⁰⁰ 生活常识¹⁰³ 餐饮/菜谱³⁶⁰ 购物¹¹⁹² 租房¹²⁷ 租赁/借贷¹¹² 天气预报¹⁹ 家用电器¹⁵⁴ 常用查询⁶⁵ 地图¹⁹ 手机短信³⁹ 预订服务³³ 拍卖¹¹ 家政服务¹⁹⁶ 个人美化¹⁵⁸ 生活情趣⁵² 装饰/装修⁴⁷³ 紧急服务¹⁵ 综合网站⁵¹⁶ 新闻媒体¹⁴ 成人用品⁷ 网上救助⁷ 会展活动²³ 求医问药⁷⁵ 体育健身¹⁰ 论坛/聊天室⁷⁵ 办公服务³¹ \r\n\t\t\t\t\t \r\n\t\t\t\t\t\r\n\t\t\t\t\t向该目录提交网站 \r\n\t\t\t\t\t天喜缘婚介网-最好的婚征婚介网站天喜缘婚介婚庆网是济南最专业的婚介网站、婚庆网站，交友网站，及济南征婚、济南交友、济南婚介、济南庆典、济南礼仪于一体，网下有实体店面-济南市市中区天喜缘婚介婚庆中心，不定期举办联谊活动，保证会员成功率 www.love219.com 成都盛世阳光婚庆策划有限公司诚信投资控股集团属于四川省大型企业集团，川内排于前20名，注册资金3.5亿元，拥有固定资产46.5亿。公司总部位于成都市致民东路1号。在北京、上海、新疆等地设有分公司。诚信盛世阳光婚庆公司是其子公司。 www.ssyg520.com 情人网情人网交友中心为你提供最佳的网上情人交友机会，足不出户便能让你有更多的选择！ www.591lover.net 国际免费婚介交友网站-相约100 国际免费婚介交友网站是相约100提供的完全免费的国际交友网站。会员以华人为主遍布五湖四海,所有会员完全免费。所有寻找国际免费婚介交友网站的朋友都能在国际交友网站在找到完全免费的国际免费婚介交友网站服务 www.free-onlinedating.me 安徽婚庆网安徽婚庆网 www.ahhqw.com 聚缘北海交友网聚缘北海交友网是北海地区较规范的婚恋交友网站，致力于营造有趣而安全的网络交友社区，提供搜索、美文、约会、日记、聊天、等多项交友服务。并与地方婚介部门建立了良好的合作关系。 www.jyjjyy.com 爱我吧婚恋网爱我吧婚恋网是一个真实、严肃、高品位的婚恋平台，提供科学、高效的全程服务，帮助真心寻找终身伴侣的人士实现和谐婚恋，努力营造国内最专业、严肃的婚恋交友平 www.lovemeba.com 77国际交友网纯公益性，爱心社交网站，为广大青年及单身人士提供的全免费交友平台。 www.77lds.com 东莞韩风尚婚纱摄影工作室东莞韩风尚婚纱摄影工作室是具有独特的韩国风格的东莞婚纱摄影工作室，韩风尚位于东莞东城区旗峰路国泰大厦10号,我们永远满怀创意与温情,通过一对一的服务为您提供超越您期望 www.dg-hfs.com 百合婚礼社区百合婚礼社区讨论话题涵盖婚纱照、婚纱摄影、婚礼筹备、婚纱礼服、婚庆等方面 www.lilywed.cn \r\n\r\n\t\r\n\t\t123456789>>|\r\n\t \r\n\t\r\n\t\t176记录\u3000每页10条\r\n\t \r\n \r\n\r\n\t\t\t\t \r\n\r\n\t\t\t \r\n\t\t \r\n\t\t\r\n\r\n\t\t\r\n\t\t\t\t\r\n\t\t\t\r\n\t\t\t\t\r\n\t\t\t\t\t我也要出现在这里 | 更多\r\n\t\t\t\t\t最新推荐\r\n\t\t\t\t \r\n\t\t\t\t \r\n袋式脉冲除尘器 \r\n生产除尘器,除尘配件,除尘骨架,除尘布袋,脉冲电磁阀,控制仪,气缸的企业。 \r\nwww.chb01.cn \r\n \r\n \r\n除尘器除尘布袋除尘骨架-宏宇环保 \r\n除尘器,除尘配件,除尘骨架,除尘布袋,脉冲电磁阀,控制仪,气缸的专业生产企业。 \r\nwww.chuchenhb.com \r\n \r\n \r\n\t\t\t \r\n\t\t\t\r\n 建站归档 | 资讯归档 \r\n\r\n\r\n\t\t\t \r\n\t\t \r\n\r\n\t\t\r\n\r\n\t \r\n\t\r\n\r\n\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\t\t关于我们 \r\n\t\t\t\t帮助中心 \r\n\t\t\t\t广告赞助 \r\n\t\t\t\t提交网站 \r\n\t\t\t\t最新加入 \r\n\t\t\t\t最新推荐 \r\n\t\t\t\t设为首页 \r\n\t\t\t\t收藏本站 \r\n\t\t\t \r\n\t\t \r\n© 2009 DmozDir 冀ICP备08100951号 DMOZ目录快速登录入口\r\n\t\t 网站免费登录，新收录网站首页显示，所有排名全自动实时刷更新，网站推广的最佳选择就在DMOZ中文网站分类目录 \r\n
\r\n\r\n\r\n\r\n\r\n\r\n'

大家看到了，这个response.body 很多内容，

我们要从里面找到 title、link 和 desc ，事实上就是一个沙中淘金的过程，所以接下来我们就要找到一个筛子，把沙子给去掉，淘出金子。

selector 选择器就是这么一个筛子，正如我们刚才所讲到的，可以使用 response.selector.xpath() 或者 response.selector.css() 或者 response.selector.extract() 或者 response.selector.re() 这四个基本方法来进行筛选。

我们首先教大家使用 xpath()

XPath 是一门在网页中查找特定信息的语言。所以用 Xpath 来筛选数据，比使用正则表达式容易些。

事实上，你使用正则表达式来查找 html 这类的网页文件的话，经常会出现一些问题，用 XPath 就不会，因为它是针对性的。

我们祥和里给出一个 XPath 表达式的例子，以及对应的含义：

/html/head/title：选择HTML文档中标签中的元素 /html/head/title/text()：选择上面提到的<title>元素的文字 //td：选择所有的 <td> 元素 //div[@class="mine"]：选择所有具有 class="mine"属性的 div 元素 </blockquote> 我们这里给大家演示一下：（值的一提的是：reponse.xpath() 已经映射到了 response.selector.xpath() ，所以，我们以后就只使用 response.selector.xpath() ） <pre></pre> <ol> <li> <code>#CMD窗口</code> </li> <li> <code>In [6]: response.selector.xpath('//title')</code> </li> <li> <code>Out[6]: [<Selector xpath='//title' data='<title>婚恋交友-生活与服务-目录分类-DMOZ中文网站分类目录</tit'>]</code> </li> </ol> 我们使用上面的语句得到 title，'//标签的名字' 表示选出这个网页里面所有这个标签的元素，大家可以看到，title只有一个。返回的是一个 Selector 对象的列表。 你想把这个列表给字符串化，可以使用 extract() ，如下，就得到了一个 unicode 的字符串。 <pre></pre> <ol> <li> <code>#CMD窗口</code> </li> <li> <code>In [7]: response.selector.xpath('//title').extract()</code> </li> <li> <code>Out[7]: ['<title>婚恋交友-生活与服务-目录分类-DMOZ中文网站分类目录']

你如果想要得到 title 里面的文字（只显示title 的文字，不要标签），你就可以：
#CMD窗口

In [9]: response.selector.xpath('//title/text()').extract()

Out[9]: ['婚恋交友-生活与服务-目录分类-DMOZ中文网站分类目录']

非常方便，比你挖空心思去写正则表达式要容易得多，而且不会出错，因为它是根据节点（也就是网页中的标签）来一个一个去查找的。

我们接下来就是提取数据了，尝试从页面中提取出对我们有用的数据。你可以从 response.body 里面去找，但我们极力不建议这样做，因为这浪费时间又不讨好，之前不是说了，有一个审查元素吗，我们来看看我们想要的 title，link 和 desc 的规律。

布袋除尘器_袋式脉冲除尘器_小型除尘器_除尘器骨架_除尘器布袋_UV光氧催化设备_VOC催化燃烧设备生产厂家，型号齐全，价格合理，批发定做。河北富宇环保设备有限公司

我们发现，在一个 ul 标签和 li 标签中间，而且每个 li 标签对应一组数据，所以，我们先找 ul ，再找 li 就对了。

好，那我们来试一下:
#CMD窗口

In [12]: response.selector.xpath('//ul/li')

Out[12]:

[,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

]

response.selector.xpath('//ul/li') 命令就把 response 里面所有的 ul/li 给打印出来了，我们要获得网站的描述的内容（desc）,就还需要再加上一个 /p:
#CMD窗口

In [18]: response.selector.xpath('//ul/li/p')

Out[18]:

[,

,

,

,

,

,

,

,

,

]

这里看不完整，我们可以使用 extract()：
#CMD窗口

In [19]: response.selector.xpath('//ul/li/p').extract()

Out[19]:

['
天喜缘婚介婚庆网是济南最专业的婚介网站、婚庆网站，交友网站，及济南征婚、济南交友、济南婚介、济南庆典、济南礼仪于一体，网下有实体店面-济南市市中区天喜缘婚介婚庆中心，不定期举办联谊活动，保证会员成功率
',

'
诚信投资控股集团属于四川省大型企业集团，川内排于前20名，注册资金3.5亿元，拥有固定资产46.5亿。公司总部位于成都市致民东路1号。在北京、上海、新疆等地设有分公司。诚信盛世阳光婚庆公司是其子公司。
',

'
情人网交友中心为你提供最佳的网上情人交友机会，足不出户便能让你有更多的选择！
',

'
国际免费婚介交友网站是相约100提供的完全免费的国际交友网站。会员以华人为主遍布五湖四海,所有会员完全免费。所有寻找国际免费婚介交友网站的朋友都能在国际交友网站在找到完全免费的国际免费婚介交友网站服务
',

'
安徽婚庆网
',

'
聚缘北海交友网是北海地区较规范的婚恋交友网站，致力于营造有趣而安全的网络交友社区，提供搜索、美文、约会、日记、聊天、等多项交友服务。并与地方婚介部门建立了良好的合作关系。
',

'
爱我吧婚恋网是一个真实、严肃、高品位的婚恋平台，提供科学、高效的全程服务，帮助真心寻找终身伴侣的人士实现和谐婚恋，努力营造国内最专业、严肃的婚恋交友平
',

'
纯公益性，爱心社交网站，为广大青年及单身人士提供的全免费交友平台。
',

'
东莞韩风尚婚纱摄影工作室是具有独特的韩国风格的东莞婚纱摄影工作室，韩风尚位于东莞东城区旗峰路国泰大厦10号,我们永远满怀创意与温情,通过一对一的服务为您提供超越您期望
',

'
百合婚礼社区讨论话题涵盖婚纱照、婚纱摄影、婚礼筹备、婚纱礼服、婚庆等方面
']

如果再加上 text() ，就只显示文本内容，删除了标签 p
#CMD窗口

In [20]: response.selector.xpath('//ul/li/p/text()').extract()

Out[20]:

['天喜缘婚介婚庆网是济南最专业的婚介网站、婚庆网站，交友网站，及济南征婚、济南交友、济南婚介、济南庆典、济南礼仪于一体，网下有实体店面-济南市市中区天喜缘婚介婚庆中心，不定期举办联谊活动，保证会员成功率',

'诚信投资控股集团属于四川省大型企业集团，川内排于前20名，注册资金3.5亿元，拥有固定资产46.5亿。公司总部位于成都市致民东路1号。在北京、上海、新疆等地设有分公司。诚信盛世阳光婚庆公司是其子公司。',

'情人网交友中心为你提供最佳的网上情人交友机会，足不出户便能让你有更多的选择！',

'国际免费婚介交友网站是相约100提供的完全免费的国际交友网站。会员以华人为主遍布五湖四海,所有会员完全免费。所有寻找国际免费婚介交友网站的朋友都能在国际交友网站在找到完全免费的国际免费婚介交友网站服务',

'安徽婚庆网',

'聚缘北海交友网是北海地区较规范的婚恋交友网站，致力于营造有趣而安全的网络交友社区，提供搜索、美文、约会、日记、聊天、等多项交友服务。并与地方婚介部门建立了良好的合作关系。',

'爱我吧婚恋网是一个真实、严肃、高品位的婚恋平台，提供科学、高效的全程服务，帮助真心寻找终身伴侣的人士实现和谐婚恋，努力营造国内最专业、严肃的婚恋交友平',

'纯公益性，爱心社交网站，为广大青年及单身人士提供的全免费交友平台。',

'东莞韩风尚婚纱摄影工作室是具有独特的韩国风格的东莞婚纱摄影工作室，韩风尚位于东莞东城区旗峰路国泰大厦10号,我们永远满怀创意与温情,通过一对一的服务为您提供超越您期望',

'百合婚礼社区讨论话题涵盖婚纱照、婚纱摄影、婚礼筹备、婚纱礼服、婚庆等方面']

我们想要得到各网站的标题（title）：我们审查元素看到，标题的内容是在 h4 标签里面的 a 标签的文本里面，所以：
#CMD窗口

In [25]: response.selector.xpath('//ul/li/h4/a/text()').extract()

Out[25]:

['天喜缘婚介网-最好的婚征婚介网站',

'成都盛世阳光婚庆策划有限公司',

'情人网',

'国际免费婚介交友网站-相约100',

'安徽婚庆网',

'聚缘北海交友网',

'爱我吧婚恋网',

'77国际交友网',

'东莞韩风尚婚纱摄影工作室',

'百合婚礼社区']

接下来，我们想得到网址的超链接（link），我们可以使用 response.selector.xpath('//ul/li/h4/a/@href').extract()
#CMD窗口

In [28]: response.selector.xpath('//ul/li/h4/a/@href').extract()

Out[28]:

['http://www.dmozdir.org/SiteInformation/?www.love219.com-----14846-----.shtml',

'http://www.dmozdir.org/SiteInformation/?www.ssyg520.com-----27215-----.shtml',

'http://www.dmozdir.org/SiteInformation/?www.591lover.net-----36999-----.shtml',

'http://www.dmozdir.org/SiteInformation/?www.free-onlinedating.me-----10110-----.shtml',

'http://www.dmozdir.org/SiteInformation/?www.ahhqw.com-----18983-----.shtml',

'http://www.dmozdir.org/SiteInformation/?www.jyjjyy.com-----19343-----.shtml',

'http://www.dmozdir.org/SiteInformation/?www.lovemeba.com-----9983-----.shtml',

'http://www.dmozdir.org/SiteInformation/?www.77lds.com-----37176-----.shtml',

'http://www.dmozdir.org/SiteInformation/?www.dg-hfs.com-----18760-----.shtml',

'http://www.dmozdir.org/SiteInformation/?www.lilywed.cn-----9976-----.shtml']

上面所有的命令，如果没有假设 extract() ，就是得到 selector 对象的列表，加上 extract() 之后呢，得到的就是将 selector 对象中的 data 变成字符串提取出来。

我们这里还可以写一个循环来打印内容：
#CMD窗口

In [44]: a=response.selector.xpath('//ul/li/h4/a/text()').extract()

In [45]: for each in a:

...: print(each)

...:

天喜缘婚介网-最好的婚征婚介网站

成都盛世阳光婚庆策划有限公司

情人网

国际免费婚介交友网站-相约100

安徽婚庆网

聚缘北海交友网

爱我吧婚恋网

77国际交友网

东莞韩风尚婚纱摄影工作室

百合婚礼社区

一切OK了，接下来就是写我们的代码了，把它投入到生产线上去实现：

我们退出 shell （使用命令 exit()），回到我们的 CMD，
#CMD窗口

In [48]: exit()

C:\Users\XiangyangDai\Desktop\tutorial>

修改我们的 Spider 代码，也就是 dmoz_spider.py。我们就按刚才从 shell 获得的经验来写 parse() 函数。
#dmoz_spider.py

import scrapy

class DmozSpider(scrapy.Spider):

name = "dmoz"

allowed_domains = ['dmozdir.org/Category']

start_urls = ['http://www.dmozdir.org/Category/?SmallPath=411']

# 'http://www.dmozdir.org/Category/?SmallPath=411']

def parse(self, response):

titles = response.selector.xpath('//ul/li/h4/a/text()').extract() #标题 title

links = response.selector.xpath('//ul/li/h4/a/@href').extract() #超链接 link

decss = response.selector.xpath('//ul/li/p/text()').extract() #描述 decs

if len(titles) == len(links) == len(decss):

for i in range(len(titles)):

print(titles[i], links[i], decss[i])

写好之后，保存，进入 CMD，在 tutorial 根目录下执行命令：scrapy crawl dmoz
#CMD窗口

C:\Users\XiangyangDai\Desktop\tutorial>scrapy crawl dmoz

2018-12-17 19:32:48 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: tutorial)

2018-12-17 19:32:48 [scrapy.utils.log] INFO: Versions: lxml 4.2.5.0, libxml2 2.9.5, cssselect 1.0.3, parsel 1.5.1, w3lib 1.19.0, Twisted 18.9.0, Python 3.5.2 |Anaconda 4.2.0 (64-bit)| (default, Jul 5 2016, 11:41:13) [MSC v.1900 64 bit (AMD64)], pyOpenSSL 18.0.0 (OpenSSL 1.1.0j 20 Nov 2018), cryptography 2.4.2, Platform Windows-10-10.0.17134-SP0

2018-12-17 19:32:48 [scrapy.crawler] INFO: Overridden settings: {'SPIDER_MODULES': ['tutorial.spiders'], 'ROBOTSTXT_OBEY': True, 'BOT_NAME': 'tutorial', 'NEWSPIDER_MODULE': 'tutorial.spiders'}

2018-12-17 19:32:48 [scrapy.middleware] INFO: Enabled extensions:

['scrapy.extensions.telnet.TelnetConsole',

'scrapy.extensions.corestats.CoreStats',

'scrapy.extensions.logstats.LogStats']

2018-12-17 19:32:49 [scrapy.middleware] INFO: Enabled downloader middlewares:

['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',

'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',

'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',

'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',

'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',

'scrapy.downloadermiddlewares.retry.RetryMiddleware',

'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',

'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',

'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',

'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',

'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',

'scrapy.downloadermiddlewares.stats.DownloaderStats']

2018-12-17 19:32:49 [scrapy.middleware] INFO: Enabled spider middlewares:

['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',

'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',

'scrapy.spidermiddlewares.referer.RefererMiddleware',

'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',

'scrapy.spidermiddlewares.depth.DepthMiddleware']

2018-12-17 19:32:49 [scrapy.middleware] INFO: Enabled item pipelines:

[]

2018-12-17 19:32:49 [scrapy.core.engine] INFO: Spider opened

2018-12-17 19:32:49 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)

2018-12-17 19:32:49 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023

2018-12-17 19:32:49 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)

2018-12-17 19:32:49 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)

2018-12-17 19:32:49 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)

中国论文写发网 http://www.dmozdir.org/SiteInformation/?www.lwxfw.com-----13589-----.shtml 中国论文写发网提供免费论文,职称论文,毕业论文,硕士论文,本科论文,MBA论文,电大论文,述职报告,论文下载,工作总结,论文推荐发表,论文写作指导,论文翻译等服务,网址www.lwxfw.com

专注代写论文网,论文代写,硕士论文代写,博士论文代写 http://www.dmozdir.org/SiteInformation/?www.zzlunwen010.com-----28351-----.shtml 专注代写论文网,论文代写,硕士论文代写,博士论文代写,各类职称论文代写代发!

论文天下 http://www.dmozdir.org/SiteInformation/?www.su30.net-----20547-----.shtml 论文天下，免费提供：论文范文，免费论文，论文大全，论文下载，论文格式，论文提纲，论文发表，论文开题报告，论文题目等资料的查阅，有偿提供：论文代写、代发服务！

河南教师网 http://www.dmozdir.org/SiteInformation/?www.hateacher.com-----31307-----.shtml 河南教师网/河南教师考试网/河南教师资格网/河南教育信息网/河南教师资格证历年真题/河南教师资格证复习资料/河南招教考试真题/河南招教考试复习资料/学习笔记/中国招教网/河南招教网/河南教师资格网

久久论文检测 http://www.dmozdir.org/SiteInformation/?www.99fx.net-----38891-----.shtml 久久论文检测网专业提供免费论文检测、论文检测软件、论文抄袭检测、知网论文检测、万方论文检测、论文修改资料以及免费论文检测系统。让您毕业答辩无忧！

李国旺工作室 http://www.dmozdir.org/SiteInformation/?www.lgwlncy.com-----12221-----.shtml 高三政治教学，政治高考，高中政治新课标，政治试卷，高中政治网址。

笔杆子论文 http://www.dmozdir.org/SiteInformation/?www.bgzlw.com-----45851-----.shtml 笔杆子论文网提供免费论文、毕业论文、论文范文、论文下载、各专业论文、工作总结、论文定制、发表论文、购买论文、论文写作指导等服务

中国论文热线网 http://www.dmozdir.org/SiteInformation/?www.lwrxw.com-----15692-----.shtml 中国论文热线网提供职称论文推荐发表、省级刊物、核心刊物、CN、ISSN刊物推荐发表等服务,可以推荐发表多专业职称论文,是您职称评审论文发表的最佳伙伴,网址www.lwrxw.com

就要学习网 http://www.dmozdir.org/SiteInformation/?www.62355065.cn-----11960-----.shtml 就要学习网是集教案，课件，试卷，毕业论文，教学视频为一体的免费资源网。

新论文代写网 http://www.dmozdir.org/SiteInformation/?www.newlw.com-----25276-----.shtml 毕业论文|毕业设计|毕业论文范文|计算机毕业设计|毕业论文格式范文|机械毕业设计|行政管理毕业论文|毕业设计开题报告|计算机网络毕业论文|毕业设计论文|毕业论文网|代做毕业设计|怎样写毕业论文

天喜缘婚介网-最好的婚征婚介网站 http://www.dmozdir.org/SiteInformation/?www.love219.com-----14846-----.shtml 天喜缘婚介婚庆网是济南最专业的婚介网站、婚庆网站，交友网站，及济南征婚、济南交友、济南婚介、济南庆典、济南礼仪于一体，网下有实体店面-济南市市中区天喜缘婚介婚庆中心，不定期举办联谊活动，保证会员成功率

成都盛世阳光婚庆策划有限公司 http://www.dmozdir.org/SiteInformation/?www.ssyg520.com-----27215-----.shtml 诚信投资控股集团属于四川省大型企业集团，川内排于前20名，注册资金3.5亿元，拥有固定资产46.5亿。公司总部位于成都市致民东路1号。在北京、上海、新疆等地设有分公司。诚信盛世阳光婚庆公司是其子公司。

情人网 http://www.dmozdir.org/SiteInformation/?www.591lover.net-----36999-----.shtml 情人网交友中心为你提供最佳的网上情人交友机会，足不出户便能让你有更多的选择！

国际免费婚介交友网站-相约100 http://www.dmozdir.org/SiteInformation/?www.free-onlinedating.me-----10110-----.shtml 国际免费婚介交友网站是相约100提供的完全免费的国际交友网站。会员以华人为主遍布五湖四海,所有会员完全免费。所有寻找国际免费婚介交友网站的朋友都能在国际交友网站在找到完全免费的国际免费婚介交友网站服务

安徽婚庆网 http://www.dmozdir.org/SiteInformation/?www.ahhqw.com-----18983-----.shtml 安徽婚庆网

聚缘北海交友网 http://www.dmozdir.org/SiteInformation/?www.jyjjyy.com-----19343-----.shtml 聚缘北海交友网是北海地区较规范的婚恋交友网站，致力于营造有趣而安全的网络交友社区，提供搜索、美文、约会、日记、聊天、等多项交友服务。并与地方婚介部门建立了良好的合作关系。

爱我吧婚恋网 http://www.dmozdir.org/SiteInformation/?www.lovemeba.com-----9983-----.shtml 爱我吧婚恋网是一个真实、严肃、高品位的婚恋平台，提供科学、高效的全程服务，帮助真心寻找终身伴侣的人士实现和谐婚恋，努力营造国内最专业、严肃的婚恋交友平

77国际交友网 http://www.dmozdir.org/SiteInformation/?www.77lds.com-----37176-----.shtml 纯公益性，爱心社交网站，为广大青年及单身人士提供的全免费交友平台。

东莞韩风尚婚纱摄影工作室 http://www.dmozdir.org/SiteInformation/?www.dg-hfs.com-----18760-----.shtml 东莞韩风尚婚纱摄影工作室是具有独特的韩国风格的东莞婚纱摄影工作室，韩风尚位于东莞东城区旗峰路国泰大厦10号,我们永远满怀创意与温情,通过一对一的服务为您提供超越您期望

百合婚礼社区 http://www.dmozdir.org/SiteInformation/?www.lilywed.cn-----9976-----.shtml 百合婚礼社区讨论话题涵盖婚纱照、婚纱摄影、婚礼筹备、婚纱礼服、婚庆等方面

2018-12-17 19:32:49 [scrapy.core.engine] INFO: Closing spider (finished)

2018-12-17 19:32:49 [scrapy.statscollectors] INFO: Dumping Scrapy stats:

{'downloader/request_bytes': 698,

'downloader/request_count': 3,

'downloader/request_method_count/GET': 3,

'downloader/response_bytes': 14618,

'downloader/response_count': 3,

'downloader/response_status_count/200': 3,

'finish_reason': 'finished',

'finish_time': datetime.datetime(2018, 12, 17, 11, 32, 49, 552593),

'log_count/DEBUG': 4,

'log_count/INFO': 7,

'response_received_count': 3,

'scheduler/dequeued': 2,

'scheduler/dequeued/memory': 2,

'scheduler/enqueued': 2,

'scheduler/enqueued/memory': 2,

'start_time': datetime.datetime(2018, 12, 17, 11, 32, 49, 93393)}

2018-12-17 19:32:49 [scrapy.core.engine] INFO: Spider closed (finished)

我们就看中间这一部分：
2018-12-17 19:32:49 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)

2018-12-17 19:32:49 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)

中国论文写发网 http://www.dmozdir.org/SiteInformation/?www.lwxfw.com-----13589-----.shtml 中国论文写发网提供免费论文,职称论文,毕业论文,硕士论文,本科论文,MBA论文,电大论文,述职报告,论文下载,工作总结,论文推荐发表,论文写作指导,论文翻译等服务,网址www.lwxfw.com

专注代写论文网,论文代写,硕士论文代写,博士论文代写 http://www.dmozdir.org/SiteInformation/?www.zzlunwen010.com-----28351-----.shtml 专注代写论文网,论文代写,硕士论文代写,博士论文代写,各类职称论文代写代发!

论文天下 http://www.dmozdir.org/SiteInformation/?www.su30.net-----20547-----.shtml 论文天下，免费提供：论文范文，免费论文，论文大全，论文下载，论文格式，论文提纲，论文发表，论文开题报告，论文题目等资料的查阅，有偿提供：论文代写、代发服务！

河南教师网 http://www.dmozdir.org/SiteInformation/?www.hateacher.com-----31307-----.shtml 河南教师网/河南教师考试网/河南教师资格网/河南教育信息网/河南教师资格证历年真题/河南教师资格证复习资料/河南招教考试真题/河南招教考试复习资料/学习笔记/中国招教网/河南招教网/河南教师资格网

久久论文检测 http://www.dmozdir.org/SiteInformation/?www.99fx.net-----38891-----.shtml 久久论文检测网专业提供免费论文检测、论文检测软件、论文抄袭检测、知网论文检测、万方论文检测、论文修改资料以及免费论文检测系统。让您毕业答辩无忧！

李国旺工作室 http://www.dmozdir.org/SiteInformation/?www.lgwlncy.com-----12221-----.shtml 高三政治教学，政治高考，高中政治新课标，政治试卷，高中政治网址。

笔杆子论文 http://www.dmozdir.org/SiteInformation/?www.bgzlw.com-----45851-----.shtml 笔杆子论文网提供免费论文、毕业论文、论文范文、论文下载、各专业论文、工作总结、论文定制、发表论文、购买论文、论文写作指导等服务

中国论文热线网 http://www.dmozdir.org/SiteInformation/?www.lwrxw.com-----15692-----.shtml 中国论文热线网提供职称论文推荐发表、省级刊物、核心刊物、CN、ISSN刊物推荐发表等服务,可以推荐发表多专业职称论文,是您职称评审论文发表的最佳伙伴,网址www.lwrxw.com

就要学习网 http://www.dmozdir.org/SiteInformation/?www.62355065.cn-----11960-----.shtml 就要学习网是集教案，课件，试卷，毕业论文，教学视频为一体的免费资源网。

新论文代写网 http://www.dmozdir.org/SiteInformation/?www.newlw.com-----25276-----.shtml 毕业论文|毕业设计|毕业论文范文|计算机毕业设计|毕业论文格式范文|机械毕业设计|行政管理毕业论文|毕业设计开题报告|计算机网络毕业论文|毕业设计论文|毕业论文网|代做毕业设计|怎样写毕业论文

天喜缘婚介网-最好的婚征婚介网站 http://www.dmozdir.org/SiteInformation/?www.love219.com-----14846-----.shtml 天喜缘婚介婚庆网是济南最专业的婚介网站、婚庆网站，交友网站，及济南征婚、济南交友、济南婚介、济南庆典、济南礼仪于一体，网下有实体店面-济南市市中区天喜缘婚介婚庆中心，不定期举办联谊活动，保证会员成功率

成都盛世阳光婚庆策划有限公司 http://www.dmozdir.org/SiteInformation/?www.ssyg520.com-----27215-----.shtml 诚信投资控股集团属于四川省大型企业集团，川内排于前20名，注册资金3.5亿元，拥有固定资产46.5亿。公司总部位于成都市致民东路1号。在北京、上海、新疆等地设有分公司。诚信盛世阳光婚庆公司是其子公司。

情人网 http://www.dmozdir.org/SiteInformation/?www.591lover.net-----36999-----.shtml 情人网交友中心为你提供最佳的网上情人交友机会，足不出户便能让你有更多的选择！

国际免费婚介交友网站-相约100 http://www.dmozdir.org/SiteInformation/?www.free-onlinedating.me-----10110-----.shtml 国际免费婚介交友网站是相约100提供的完全免费的国际交友网站。会员以华人为主遍布五湖四海,所有会员完全免费。所有寻找国际免费婚介交友网站的朋友都能在国际交友网站在找到完全免费的国际免费婚介交友网站服务

安徽婚庆网 http://www.dmozdir.org/SiteInformation/?www.ahhqw.com-----18983-----.shtml 安徽婚庆网

聚缘北海交友网 http://www.dmozdir.org/SiteInformation/?www.jyjjyy.com-----19343-----.shtml 聚缘北海交友网是北海地区较规范的婚恋交友网站，致力于营造有趣而安全的网络交友社区，提供搜索、美文、约会、日记、聊天、等多项交友服务。并与地方婚介部门建立了良好的合作关系。

爱我吧婚恋网 http://www.dmozdir.org/SiteInformation/?www.lovemeba.com-----9983-----.shtml 爱我吧婚恋网是一个真实、严肃、高品位的婚恋平台，提供科学、高效的全程服务，帮助真心寻找终身伴侣的人士实现和谐婚恋，努力营造国内最专业、严肃的婚恋交友平

77国际交友网 http://www.dmozdir.org/SiteInformation/?www.77lds.com-----37176-----.shtml 纯公益性，爱心社交网站，为广大青年及单身人士提供的全免费交友平台。

东莞韩风尚婚纱摄影工作室 http://www.dmozdir.org/SiteInformation/?www.dg-hfs.com-----18760-----.shtml 东莞韩风尚婚纱摄影工作室是具有独特的韩国风格的东莞婚纱摄影工作室，韩风尚位于东莞东城区旗峰路国泰大厦10号,我们永远满怀创意与温情,通过一对一的服务为您提供超越您期望

百合婚礼社区 http://www.dmozdir.org/SiteInformation/?www.lilywed.cn-----9976-----.shtml 百合婚礼社区讨论话题涵盖婚纱照、婚纱摄影、婚礼筹备、婚纱礼服、婚庆等方面

上面的结果没有错误。

这个是爬和取的过程，我们接下来就要使用 Items，我们前面说过，Items 是我们自定义的容器，用法和Python的字典是一样的，我们希望 Spider 将爬取然后筛选后的数据存放到 Items 容器里面，我们刚才也在 parse 里写了筛选出 Items 对应的数据的方法了。筛选之后，我希望将它存放到 Items 中去。

我们的 items.py 在 tutorial/items.py 路径下，items 既是容器，也是一个类，类名我们在这个项目中定义为 DmozItem。

我们需要把 items 导入到 spider 中，才可以使用它，于是，我们在 dmoz_spider.py 文件中写道：

from turtorial.items import DmozItem
#dmoz_spider.py

import scrapy

from tutorial.items import DmozItem

class DmozSpider(scrapy.Spider):

name = "dmoz"

allowed_domains = ['dmozdir.org/Category']

start_urls = ['http://www.dmozdir.org/Category/?SmallPath=230',

'http://www.dmozdir.org/Category/?SmallPath=411']

def parse(self, response):

titles = response.selector.xpath('//ul/li/h4/a/text()').extract() #标题 title

links = response.selector.xpath('//ul/li/h4/a/@href').extract() #超链接 link

descs = response.selector.xpath('//ul/li/p/text()').extract() #描述 desc

items = []

if len(titles) == len(links) == len(descs):

for i in range(len(titles)):

#print(titles[i], links[i], decss[i])

item = DmozItem()

#每一组保存为一个字典

item['title'] = titles[i]

item['link'] = links[i]

item['desc'] = descs[i]

#将每个字典添加到列表中

items.append(item)

return items

然后我们在CMD 中，tutorail 的根目录下，执行命令：scrapy crawl dmoz -o items.json -t json

-o 文件名 -t 保存形式。
#CMD窗口

C:\Users\XiangyangDai\Desktop\tutorial>scrapy crawl dmoz -o items.json -t json

2018-12-17 20:49:28 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: tutorial)

2018-12-17 20:49:28 [scrapy.utils.log] INFO: Versions: lxml 4.2.5.0, libxml2 2.9.5, cssselect 1.0.3, parsel 1.5.1, w3lib 1.19.0, Twisted 18.9.0, Python 3.5.2 |Anaconda 4.2.0 (64-bit)| (default, Jul 5 2016, 11:41:13) [MSC v.1900 64 bit (AMD64)], pyOpenSSL 18.0.0 (OpenSSL 1.1.0j 20 Nov 2018), cryptography 2.4.2, Platform Windows-10-10.0.17134-SP0

2018-12-17 20:49:28 [scrapy.crawler] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'tutorial.spiders', 'SPIDER_MODULES': ['tutorial.spiders'], 'FEED_URI': 'items.json', 'BOT_NAME': 'tutorial', 'ROBOTSTXT_OBEY': True, 'FEED_FORMAT': 'json'}

2018-12-17 20:49:28 [scrapy.middleware] INFO: Enabled extensions:

['scrapy.extensions.feedexport.FeedExporter',

'scrapy.extensions.corestats.CoreStats',

'scrapy.extensions.telnet.TelnetConsole',

'scrapy.extensions.logstats.LogStats']

2018-12-17 20:49:29 [scrapy.middleware] INFO: Enabled downloader middlewares:

['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',

'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',

'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',

'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',

'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',

'scrapy.downloadermiddlewares.retry.RetryMiddleware',

'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',

'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',

'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',

'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',

'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',

'scrapy.downloadermiddlewares.stats.DownloaderStats']

2018-12-17 20:49:29 [scrapy.middleware] INFO: Enabled spider middlewares:

['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',

'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',

'scrapy.spidermiddlewares.referer.RefererMiddleware',

'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',

'scrapy.spidermiddlewares.depth.DepthMiddleware']

2018-12-17 20:49:29 [scrapy.middleware] INFO: Enabled item pipelines:

['tutorial.pipelines.TutorialPipeline']

2018-12-17 20:49:29 [scrapy.core.engine] INFO: Spider opened

2018-12-17 20:49:29 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)

2018-12-17 20:49:29 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023

2018-12-17 20:49:29 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)

2018-12-17 20:49:29 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)

2018-12-17 20:49:29 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)

2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>

{'desc': '中国论文写发网提供免费论文,职称论文,毕业论文,硕士论文,本科论文,MBA论文,电大论文,述职报告,论文下载,工作总结,论文推荐发表,论文写作指导,论文翻译等服务,网址www.lwxfw.com',

'link': 'http://www.dmozdir.org/SiteInformation/?www.lwxfw.com-----13589-----.shtml',

'title': '中国论文写发网'}

2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>

{'desc': '专注代写论文网,论文代写,硕士论文代写,博士论文代写,各类职称论文代写代发!',

'link': 'http://www.dmozdir.org/SiteInformation/?www.zzlunwen010.com-----28351-----.shtml',

'title': '专注代写论文网,论文代写,硕士论文代写,博士论文代写'}

2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>

{'desc': '论文天下，免费提供：论文范文，免费论文，论文大全， '

'论文下载，论文格式，论文提纲，论文发表，论文开题报告，论文题目等资料的查阅，有偿提供：论文代写、代发服务！',

'link': 'http://www.dmozdir.org/SiteInformation/?www.su30.net-----20547-----.shtml',

'title': '论文天下'}

2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>

{'desc': '河南教师网/河南教师考试网/河南教师资格网/河南教育信息网/河南教师资格证历年真题/河南教师资格证复习资料/河南招教考试真题/河南招教考试复习资料/学习笔记/中国招教网/河南招教网/河南教师资格网',

'link': 'http://www.dmozdir.org/SiteInformation/?www.hateacher.com-----31307-----.shtml',

'title': '河南教师网'}

2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>

{'desc': '久久论文检测网专业提供免费论文检测、论文检测软件、论文抄袭检测、知网论文检测、万方论文检测、论文修改资料以及免费论文检测系统。让您毕业答辩无忧！',

'link': 'http://www.dmozdir.org/SiteInformation/?www.99fx.net-----38891-----.shtml',

'title': '久久论文检测'}

2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>

{'desc': '高三政治教学，政治高考，高中政治新课标，政治试卷，高中政治网址。',

'link': 'http://www.dmozdir.org/SiteInformation/?www.lgwlncy.com-----12221-----.shtml',

'title': '李国旺工作室'}

2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>

{'desc': '笔杆子论文网提供免费论文、毕业论文、论文范文、论文下载、各专业论文、工作总结、论文定制、发表论文、购买论文、论文写作指导等服务',

'link': 'http://www.dmozdir.org/SiteInformation/?www.bgzlw.com-----45851-----.shtml',

'title': '笔杆子论文'}

2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>

{'desc': '中国论文热线网提供职称论文推荐发表、省级刊物、核心刊物、CN、ISSN刊物推荐发表等服务,可以推荐发表多专业职称论文,是您职称评审论文发表的最佳伙伴,网址www.lwrxw.com',

'link': 'http://www.dmozdir.org/SiteInformation/?www.lwrxw.com-----15692-----.shtml',

'title': '中国论文热线网'}

2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>

{'desc': '就要学习网是集教案，课件，试卷，毕业论文，教学视频为一体的免费资源网。',

'link': 'http://www.dmozdir.org/SiteInformation/?www.62355065.cn-----11960-----.shtml',

'title': '就要学习网'}

2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>

{'desc': '毕业论文|毕业设计|毕业论文范文|计算机毕业设计|毕业论文格式范文|机械毕业设计|行政管理毕业论文|毕业设计开题报告|计算机网络毕业论文|毕业设计论文|毕业论文网|代做毕业设计|怎样写毕业论文',

'link': 'http://www.dmozdir.org/SiteInformation/?www.newlw.com-----25276-----.shtml',

'title': '新论文代写网'}

2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>

{'desc': '天喜缘婚介婚庆网是济南最专业的婚介网站、婚庆网站，交友网站，及济南征婚、济南交友、济南婚介、济南庆典、济南礼仪于一体，网下有实体店面-济南市市中区天喜缘婚介婚庆中心，不定期举办联谊活动，保证会员成功率',

'link': 'http://www.dmozdir.org/SiteInformation/?www.love219.com-----14846-----.shtml',

'title': '天喜缘婚介网-最好的婚征婚介网站'}

2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>

{'desc': '诚信投资控股集团属于四川省大型企业集团，川内排于前20名，注册资金3.5亿元，拥有固定资产46.5亿。公司总部位于成都市致民东路1号。在北京、上海、新疆等地设有分公司。诚信盛世阳光婚庆公司是其子公司。',

'link': 'http://www.dmozdir.org/SiteInformation/?www.ssyg520.com-----27215-----.shtml',

'title': '成都盛世阳光婚庆策划有限公司'}

2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>

{'desc': '情人网交友中心为你提供最佳的网上情人交友机会，足不出户便能让你有更多的选择！',

'link': 'http://www.dmozdir.org/SiteInformation/?www.591lover.net-----36999-----.shtml',

'title': '情人网'}

2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>

{'desc': '国际免费婚介交友网站是相约100提供的完全免费的国际交友网站。会员以华人为主遍布五湖四海,所有会员完全免费。所有寻找国际免费婚介交友网站的朋友都能在国际交友网站在找到完全免费的国际免费婚介交友网站服务',

'link': 'http://www.dmozdir.org/SiteInformation/?www.free-onlinedating.me-----10110-----.shtml',

'title': '国际免费婚介交友网站-相约100'}

2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>

{'desc': '安徽婚庆网',

'link': 'http://www.dmozdir.org/SiteInformation/?www.ahhqw.com-----18983-----.shtml',

'title': '安徽婚庆网'}

2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>

{'desc': '聚缘北海交友网是北海地区较规范的婚恋交友网站，致力于营造有趣而安全的网络交友社区，提供搜索、美文、约会、日记、聊天、等多项交友服务。并与地方婚介部门建立了良好的合作关系。',

'link': 'http://www.dmozdir.org/SiteInformation/?www.jyjjyy.com-----19343-----.shtml',

'title': '聚缘北海交友网'}

2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>

{'desc': '爱我吧婚恋网是一个真实、严肃、高品位的婚恋平台，提供科学、高效的全程服务，帮助真心寻找终身伴侣的人士实现和谐婚恋，努力营造国内最专业、严肃的婚恋交友平',

'link': 'http://www.dmozdir.org/SiteInformation/?www.lovemeba.com-----9983-----.shtml',

'title': '爱我吧婚恋网'}

2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>

{'desc': '纯公益性，爱心社交网站，为广大青年及单身人士提供的全免费交友平台。',

'link': 'http://www.dmozdir.org/SiteInformation/?www.77lds.com-----37176-----.shtml',

'title': '77国际交友网'}

2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>

{'desc': '东莞韩风尚婚纱摄影工作室是具有独特的韩国风格的东莞婚纱摄影工作室，韩风尚位于东莞东城区旗峰路国泰大厦10号,我们永远满怀创意与温情,通过一对一的服务为您提供超越您期望',

'link': 'http://www.dmozdir.org/SiteInformation/?www.dg-hfs.com-----18760-----.shtml',

'title': '东莞韩风尚婚纱摄影工作室'}

2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>

{'desc': '百合婚礼社区讨论话题涵盖婚纱照、婚纱摄影、婚礼筹备、婚纱礼服、婚庆等方面',

'link': 'http://www.dmozdir.org/SiteInformation/?www.lilywed.cn-----9976-----.shtml',

'title': '百合婚礼社区'}

2018-12-17 20:49:30 [scrapy.core.engine] INFO: Closing spider (finished)

2018-12-17 20:49:30 [scrapy.extensions.feedexport] INFO: Stored json feed (20 items) in: items.json

2018-12-17 20:49:30 [scrapy.statscollectors] INFO: Dumping Scrapy stats:

{'downloader/request_bytes': 698,

'downloader/request_count': 3,

'downloader/request_method_count/GET': 3,

'downloader/response_bytes': 14618,

'downloader/response_count': 3,

'downloader/response_status_count/200': 3,

'finish_reason': 'finished',

'finish_time': datetime.datetime(2018, 12, 17, 12, 49, 30, 79269),

'item_scraped_count': 20,

'log_count/DEBUG': 24,

'log_count/INFO': 8,

'response_received_count': 3,

'scheduler/dequeued': 2,

'scheduler/dequeued/memory': 2,

'scheduler/enqueued': 2,

'scheduler/enqueued/memory': 2,

'start_time': datetime.datetime(2018, 12, 17, 12, 49, 29, 574379)}

2018-12-17 20:49:30 [scrapy.core.engine] INFO: Spider closed (finished)

执行完毕后，在 tutorial 根目录下就会有一个名为 items.json 的文件。

内容如下：
#items.json 文件内容

[

{"title": "\u4e2d\u56fd\u8bba\u6587\u5199\u53d1\u7f51", "desc": "\u4e2d\u56fd\u8bba\u6587\u5199\u53d1\u7f51\u63d0\u4f9b\u514d\u8d39\u8bba\u6587,\u804c\u79f0\u8bba\u6587,\u6bd5\u4e1a\u8bba\u6587,\u7855\u58eb\u8bba\u6587,\u672c\u79d1\u8bba\u6587,MBA\u8bba\u6587,\u7535\u5927\u8bba\u6587,\u8ff0\u804c\u62a5\u544a,\u8bba\u6587\u4e0b\u8f7d,\u5de5\u4f5c\u603b\u7ed3,\u8bba\u6587\u63a8\u8350\u53d1\u8868,\u8bba\u6587\u5199\u4f5c\u6307\u5bfc,\u8bba\u6587\u7ffb\u8bd1\u7b49\u670d\u52a1,\u7f51\u5740www.lwxfw.com", "link": "http://www.dmozdir.org/SiteInformation/?www.lwxfw.com-----13589-----.shtml"},

{"title": "\u4e13\u6ce8\u4ee3\u5199\u8bba\u6587\u7f51,\u8bba\u6587\u4ee3\u5199,\u7855\u58eb\u8bba\u6587\u4ee3\u5199,\u535a\u58eb\u8bba\u6587\u4ee3\u5199", "desc": "\u4e13\u6ce8\u4ee3\u5199\u8bba\u6587\u7f51,\u8bba\u6587\u4ee3\u5199,\u7855\u58eb\u8bba\u6587\u4ee3\u5199,\u535a\u58eb\u8bba\u6587\u4ee3\u5199,\u5404\u7c7b\u804c\u79f0\u8bba\u6587\u4ee3\u5199\u4ee3\u53d1!", "link": "http://www.dmozdir.org/SiteInformation/?www.zzlunwen010.com-----28351-----.shtml"},

{"title": "\u8bba\u6587\u5929\u4e0b", "desc": "\u8bba\u6587\u5929\u4e0b\uff0c\u514d\u8d39\u63d0\u4f9b\uff1a\u8bba\u6587\u8303\u6587\uff0c\u514d\u8d39\u8bba\u6587\uff0c\u8bba\u6587\u5927\u5168\uff0c \u8bba\u6587\u4e0b\u8f7d\uff0c\u8bba\u6587\u683c\u5f0f\uff0c\u8bba\u6587\u63d0\u7eb2\uff0c\u8bba\u6587\u53d1\u8868\uff0c\u8bba\u6587\u5f00\u9898\u62a5\u544a\uff0c\u8bba\u6587\u9898\u76ee\u7b49\u8d44\u6599\u7684\u67e5\u9605\uff0c\u6709\u507f\u63d0\u4f9b\uff1a\u8bba\u6587\u4ee3\u5199\u3001\u4ee3\u53d1\u670d\u52a1\uff01", "link": "http://www.dmozdir.org/SiteInformation/?www.su30.net-----20547-----.shtml"},

{"title": "\u6cb3\u5357\u6559\u5e08\u7f51", "desc": "\u6cb3\u5357\u6559\u5e08\u7f51/\u6cb3\u5357\u6559\u5e08\u8003\u8bd5\u7f51/\u6cb3\u5357\u6559\u5e08\u8d44\u683c\u7f51/\u6cb3\u5357\u6559\u80b2\u4fe1\u606f\u7f51/\u6cb3\u5357\u6559\u5e08\u8d44\u683c\u8bc1\u5386\u5e74\u771f\u9898/\u6cb3\u5357\u6559\u5e08\u8d44\u683c\u8bc1\u590d\u4e60\u8d44\u6599/\u6cb3\u5357\u62db\u6559\u8003\u8bd5\u771f\u9898/\u6cb3\u5357\u62db\u6559\u8003\u8bd5\u590d\u4e60\u8d44\u6599/\u5b66\u4e60\u7b14\u8bb0/\u4e2d\u56fd\u62db\u6559\u7f51/\u6cb3\u5357\u62db\u6559\u7f51/\u6cb3\u5357\u6559\u5e08\u8d44\u683c\u7f51", "link": "http://www.dmozdir.org/SiteInformation/?www.hateacher.com-----31307-----.shtml"},

{"title": "\u4e45\u4e45\u8bba\u6587\u68c0\u6d4b", "desc": "\u4e45\u4e45\u8bba\u6587\u68c0\u6d4b\u7f51\u4e13\u4e1a\u63d0\u4f9b\u514d\u8d39\u8bba\u6587\u68c0\u6d4b\u3001\u8bba\u6587\u68c0\u6d4b\u8f6f\u4ef6\u3001\u8bba\u6587\u6284\u88ad\u68c0\u6d4b\u3001\u77e5\u7f51\u8bba\u6587\u68c0\u6d4b\u3001\u4e07\u65b9\u8bba\u6587\u68c0\u6d4b\u3001\u8bba\u6587\u4fee\u6539\u8d44\u6599\u4ee5\u53ca\u514d\u8d39\u8bba\u6587\u68c0\u6d4b\u7cfb\u7edf\u3002\u8ba9\u60a8\u6bd5\u4e1a\u7b54\u8fa9\u65e0\u5fe7\uff01", "link": "http://www.dmozdir.org/SiteInformation/?www.99fx.net-----38891-----.shtml"},

{"title": "\u674e\u56fd\u65fa\u5de5\u4f5c\u5ba4", "desc": "\u9ad8\u4e09\u653f\u6cbb\u6559\u5b66\uff0c\u653f\u6cbb\u9ad8\u8003\uff0c\u9ad8\u4e2d\u653f\u6cbb\u65b0\u8bfe\u6807\uff0c\u653f\u6cbb\u8bd5\u5377\uff0c\u9ad8\u4e2d\u653f\u6cbb\u7f51\u5740\u3002", "link": "http://www.dmozdir.org/SiteInformation/?www.lgwlncy.com-----12221-----.shtml"},

{"title": "\u7b14\u6746\u5b50\u8bba\u6587", "desc": "\u7b14\u6746\u5b50\u8bba\u6587\u7f51\u63d0\u4f9b\u514d\u8d39\u8bba\u6587\u3001\u6bd5\u4e1a\u8bba\u6587\u3001\u8bba\u6587\u8303\u6587\u3001\u8bba\u6587\u4e0b\u8f7d\u3001\u5404\u4e13\u4e1a\u8bba\u6587\u3001\u5de5\u4f5c\u603b\u7ed3\u3001\u8bba\u6587\u5b9a\u5236\u3001\u53d1\u8868\u8bba\u6587\u3001\u8d2d\u4e70\u8bba\u6587\u3001\u8bba\u6587\u5199\u4f5c\u6307\u5bfc\u7b49\u670d\u52a1", "link": "http://www.dmozdir.org/SiteInformation/?www.bgzlw.com-----45851-----.shtml"},

{"title": "\u4e2d\u56fd\u8bba\u6587\u70ed\u7ebf\u7f51", "desc": "\u4e2d\u56fd\u8bba\u6587\u70ed\u7ebf\u7f51\u63d0\u4f9b\u804c\u79f0\u8bba\u6587\u63a8\u8350\u53d1\u8868\u3001\u7701\u7ea7\u520a\u7269\u3001\u6838\u5fc3\u520a\u7269\u3001CN\u3001ISSN\u520a\u7269\u63a8\u8350\u53d1\u8868\u7b49\u670d\u52a1,\u53ef\u4ee5\u63a8\u8350\u53d1\u8868\u591a\u4e13\u4e1a\u804c\u79f0\u8bba\u6587,\u662f\u60a8\u804c\u79f0\u8bc4\u5ba1\u8bba\u6587\u53d1\u8868\u7684\u6700\u4f73\u4f19\u4f34,\u7f51\u5740www.lwrxw.com", "link": "http://www.dmozdir.org/SiteInformation/?www.lwrxw.com-----15692-----.shtml"},

{"title": "\u5c31\u8981\u5b66\u4e60\u7f51", "desc": "\u5c31\u8981\u5b66\u4e60\u7f51\u662f\u96c6\u6559\u6848\uff0c\u8bfe\u4ef6\uff0c\u8bd5\u5377\uff0c\u6bd5\u4e1a\u8bba\u6587\uff0c\u6559\u5b66\u89c6\u9891\u4e3a\u4e00\u4f53\u7684\u514d\u8d39\u8d44\u6e90\u7f51\u3002", "link": "http://www.dmozdir.org/SiteInformation/?www.62355065.cn-----11960-----.shtml"},

{"title": "\u65b0\u8bba\u6587\u4ee3\u5199\u7f51", "desc": "\u6bd5\u4e1a\u8bba\u6587|\u6bd5\u4e1a\u8bbe\u8ba1|\u6bd5\u4e1a\u8bba\u6587\u8303\u6587|\u8ba1\u7b97\u673a\u6bd5\u4e1a\u8bbe\u8ba1|\u6bd5\u4e1a\u8bba\u6587\u683c\u5f0f\u8303\u6587|\u673a\u68b0\u6bd5\u4e1a\u8bbe\u8ba1|\u884c\u653f\u7ba1\u7406\u6bd5\u4e1a\u8bba\u6587|\u6bd5\u4e1a\u8bbe\u8ba1\u5f00\u9898\u62a5\u544a|\u8ba1\u7b97\u673a\u7f51\u7edc\u6bd5\u4e1a\u8bba\u6587|\u6bd5\u4e1a\u8bbe\u8ba1\u8bba\u6587|\u6bd5\u4e1a\u8bba\u6587\u7f51|\u4ee3\u505a\u6bd5\u4e1a\u8bbe\u8ba1|\u600e\u6837\u5199\u6bd5\u4e1a\u8bba\u6587", "link": "http://www.dmozdir.org/SiteInformation/?www.newlw.com-----25276-----.shtml"},

{"title": "\u5929\u559c\u7f18\u5a5a\u4ecb\u7f51-\u6700\u597d\u7684\u5a5a\u5f81\u5a5a\u4ecb\u7f51\u7ad9", "desc": "\u5929\u559c\u7f18\u5a5a\u4ecb\u5a5a\u5e86\u7f51\u662f\u6d4e\u5357\u6700\u4e13\u4e1a\u7684\u5a5a\u4ecb\u7f51\u7ad9\u3001\u5a5a\u5e86\u7f51\u7ad9\uff0c\u4ea4\u53cb\u7f51\u7ad9\uff0c\u53ca\u6d4e\u5357\u5f81\u5a5a\u3001\u6d4e\u5357\u4ea4\u53cb\u3001\u6d4e\u5357\u5a5a\u4ecb\u3001\u6d4e\u5357\u5e86\u5178\u3001\u6d4e\u5357\u793c\u4eea\u4e8e\u4e00\u4f53\uff0c\u7f51\u4e0b\u6709\u5b9e\u4f53\u5e97\u9762-\u6d4e\u5357\u5e02\u5e02\u4e2d\u533a\u5929\u559c\u7f18\u5a5a\u4ecb\u5a5a\u5e86\u4e2d\u5fc3\uff0c\u4e0d\u5b9a\u671f\u4e3e\u529e\u8054\u8c0a\u6d3b\u52a8\uff0c\u4fdd\u8bc1\u4f1a\u5458\u6210\u529f\u7387", "link": "http://www.dmozdir.org/SiteInformation/?www.love219.com-----14846-----.shtml"},

{"title": "\u6210\u90fd\u76db\u4e16\u9633\u5149\u5a5a\u5e86\u7b56\u5212\u6709\u9650\u516c\u53f8", "desc": "\u8bda\u4fe1\u6295\u8d44\u63a7\u80a1\u96c6\u56e2\u5c5e\u4e8e\u56db\u5ddd\u7701\u5927\u578b\u4f01\u4e1a\u96c6\u56e2\uff0c\u5ddd\u5185\u6392\u4e8e\u524d20\u540d\uff0c\u6ce8\u518c\u8d44\u91d13.5\u4ebf\u5143\uff0c\u62e5\u6709\u56fa\u5b9a\u8d44\u4ea746.5\u4ebf\u3002\u516c\u53f8\u603b\u90e8\u4f4d\u4e8e\u6210\u90fd\u5e02\u81f4\u6c11\u4e1c\u8def1\u53f7\u3002\u5728\u5317\u4eac\u3001\u4e0a\u6d77\u3001\u65b0\u7586\u7b49\u5730\u8bbe\u6709\u5206\u516c\u53f8\u3002\u8bda\u4fe1\u76db\u4e16\u9633\u5149\u5a5a\u5e86\u516c\u53f8\u662f\u5176\u5b50\u516c\u53f8\u3002", "link": "http://www.dmozdir.org/SiteInformation/?www.ssyg520.com-----27215-----.shtml"},

{"title": "\u60c5\u4eba\u7f51", "desc": "\u60c5\u4eba\u7f51\u4ea4\u53cb\u4e2d\u5fc3\u4e3a\u4f60\u63d0\u4f9b\u6700\u4f73\u7684\u7f51\u4e0a\u60c5\u4eba\u4ea4\u53cb\u673a\u4f1a\uff0c\u8db3\u4e0d\u51fa\u6237\u4fbf\u80fd\u8ba9\u4f60\u6709\u66f4\u591a\u7684\u9009\u62e9\uff01", "link": "http://www.dmozdir.org/SiteInformation/?www.591lover.net-----36999-----.shtml"},

{"title": "\u56fd\u9645\u514d\u8d39\u5a5a\u4ecb\u4ea4\u53cb\u7f51\u7ad9-\u76f8\u7ea6100", "desc": "\u56fd\u9645\u514d\u8d39\u5a5a\u4ecb\u4ea4\u53cb\u7f51\u7ad9\u662f\u76f8\u7ea6100\u63d0\u4f9b\u7684\u5b8c\u5168\u514d\u8d39\u7684\u56fd\u9645\u4ea4\u53cb\u7f51\u7ad9\u3002\u4f1a\u5458\u4ee5\u534e\u4eba\u4e3a\u4e3b\u904d\u5e03\u4e94\u6e56\u56db\u6d77,\u6240\u6709\u4f1a\u5458\u5b8c\u5168\u514d\u8d39\u3002\u6240\u6709\u5bfb\u627e\u56fd\u9645\u514d\u8d39\u5a5a\u4ecb\u4ea4\u53cb\u7f51\u7ad9\u7684\u670b\u53cb\u90fd\u80fd\u5728\u56fd\u9645\u4ea4\u53cb\u7f51\u7ad9\u5728\u627e\u5230\u5b8c\u5168\u514d\u8d39\u7684\u56fd\u9645\u514d\u8d39\u5a5a\u4ecb\u4ea4\u53cb\u7f51\u7ad9\u670d\u52a1", "link": "http://www.dmozdir.org/SiteInformation/?www.free-onlinedating.me-----10110-----.shtml"},

{"title": "\u5b89\u5fbd\u5a5a\u5e86\u7f51", "desc": "\u5b89\u5fbd\u5a5a\u5e86\u7f51", "link": "http://www.dmozdir.org/SiteInformation/?www.ahhqw.com-----18983-----.shtml"},

{"title": "\u805a\u7f18\u5317\u6d77\u4ea4\u53cb\u7f51", "desc": "\u805a\u7f18\u5317\u6d77\u4ea4\u53cb\u7f51\u662f\u5317\u6d77\u5730\u533a\u8f83\u89c4\u8303\u7684\u5a5a\u604b\u4ea4\u53cb\u7f51\u7ad9\uff0c\u81f4\u529b\u4e8e\u8425\u9020\u6709\u8da3\u800c\u5b89\u5168\u7684\u7f51\u7edc\u4ea4\u53cb\u793e\u533a\uff0c\u63d0\u4f9b\u641c\u7d22\u3001\u7f8e\u6587\u3001\u7ea6\u4f1a\u3001\u65e5\u8bb0\u3001\u804a\u5929\u3001\u7b49\u591a\u9879\u4ea4\u53cb\u670d\u52a1\u3002\u5e76\u4e0e\u5730\u65b9\u5a5a\u4ecb\u90e8\u95e8\u5efa\u7acb\u4e86\u826f\u597d\u7684\u5408\u4f5c\u5173\u7cfb\u3002", "link": "http://www.dmozdir.org/SiteInformation/?www.jyjjyy.com-----19343-----.shtml"},

{"title": "\u7231\u6211\u5427\u5a5a\u604b\u7f51", "desc": "\u7231\u6211\u5427\u5a5a\u604b\u7f51\u662f\u4e00\u4e2a\u771f\u5b9e\u3001\u4e25\u8083\u3001\u9ad8\u54c1\u4f4d\u7684\u5a5a\u604b\u5e73\u53f0\uff0c\u63d0\u4f9b\u79d1\u5b66\u3001\u9ad8\u6548\u7684\u5168\u7a0b\u670d\u52a1\uff0c\u5e2e\u52a9\u771f\u5fc3\u5bfb\u627e\u7ec8\u8eab\u4f34\u4fa3\u7684\u4eba\u58eb\u5b9e\u73b0\u548c\u8c10\u5a5a\u604b\uff0c\u52aa\u529b\u8425\u9020\u56fd\u5185\u6700\u4e13\u4e1a\u3001\u4e25\u8083\u7684\u5a5a\u604b\u4ea4\u53cb\u5e73", "link": "http://www.dmozdir.org/SiteInformation/?www.lovemeba.com-----9983-----.shtml"},

{"title": "77\u56fd\u9645\u4ea4\u53cb\u7f51", "desc": "\u7eaf\u516c\u76ca\u6027\uff0c\u7231\u5fc3\u793e\u4ea4\u7f51\u7ad9\uff0c\u4e3a\u5e7f\u5927\u9752\u5e74\u53ca\u5355\u8eab\u4eba\u58eb\u63d0\u4f9b\u7684\u5168\u514d\u8d39\u4ea4\u53cb\u5e73\u53f0\u3002", "link": "http://www.dmozdir.org/SiteInformation/?www.77lds.com-----37176-----.shtml"},

{"title": "\u4e1c\u839e\u97e9\u98ce\u5c1a\u5a5a\u7eb1\u6444\u5f71\u5de5\u4f5c\u5ba4", "desc": "\u4e1c\u839e\u97e9\u98ce\u5c1a\u5a5a\u7eb1\u6444\u5f71\u5de5\u4f5c\u5ba4\u662f\u5177\u6709\u72ec\u7279\u7684\u97e9\u56fd\u98ce\u683c\u7684\u4e1c\u839e\u5a5a\u7eb1\u6444\u5f71\u5de5\u4f5c\u5ba4\uff0c\u97e9\u98ce\u5c1a\u4f4d\u4e8e\u4e1c\u839e\u4e1c\u57ce\u533a\u65d7\u5cf0\u8def\u56fd\u6cf0\u5927\u53a610\u53f7,\u6211\u4eec\u6c38\u8fdc\u6ee1\u6000\u521b\u610f\u4e0e\u6e29\u60c5,\u901a\u8fc7\u4e00\u5bf9\u4e00\u7684\u670d\u52a1\u4e3a\u60a8\u63d0\u4f9b\u8d85\u8d8a\u60a8\u671f\u671b", "link": "http://www.dmozdir.org/SiteInformation/?www.dg-hfs.com-----18760-----.shtml"},

{"title": "\u767e\u5408\u5a5a\u793c\u793e\u533a", "desc": "\u767e\u5408\u5a5a\u793c\u793e\u533a\u8ba8\u8bba\u8bdd\u9898\u6db5\u76d6\u5a5a\u7eb1\u7167\u3001\u5a5a\u7eb1\u6444\u5f71\u3001\u5a5a\u793c\u7b79\u5907\u3001\u5a5a\u7eb1\u793c\u670d\u3001\u5a5a\u5e86\u7b49\u65b9\u9762", "link": "http://www.dmozdir.org/SiteInformation/?www.lilywed.cn-----9976-----.shtml"}

]

得到的保存的文件的内容就是我们需要的，但是这是二进制编码的形式。

（我目前还没有找到用于 Python 3 的解决方案，以后解决了再补充，也希望各位大佬看到了，能够不吝赐教。谢谢！）

哈哈，问题已经解决了，请看下面：

首先需要解释一点就是：pipeline.py 就是用于处理 item 的，所以，我们在pipeline.py 文件中对保存的文件进行处理操作：

将pipeline.py 写成这样：
# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

import json

class TutorialPipeline(object):

def __init__(self):

self.f = open('items.json', 'wb')

def process_item(self, item, spider):

line = json.dumps(dict(item), ensure_ascii = False) + "\n"

self.f.write(line.encode('utf-8'))

return item

def close_spider(self, spider):

self.f.close()

因为读取到的网页是二进制文件，所以我们在__init__ 方法中，建一个名为 items.json 的文件，以二进制形式写入。

在 process_item 方法中，对 item 文件进行编码写入操作，最后在 close_spider 方法中，关闭文件。

接下来，就在settings.py 文件中开启 pipeline，加入下面的命令即可：
ITEM_PIPELINES = {

'tutorial.pipelines.TutorialPipeline': 300,

}

其中，TutorialPipeline 就是 pipeline.py 文件中的类名

另外有一点需要提醒的是：

因为我们在 pipeline.py 中完成了新建文件的操作，所以在CMD 中输入的命令应该改为：scrapy crawl dmoz -t json
C:\Users\XiangyangDai\Desktop\tutorial>scrapy crawl dmoz -t json

2018-12-17 21:43:57 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: tutorial)

2018-12-17 21:43:57 [scrapy.utils.log] INFO: Versions: lxml 4.2.5.0, libxml2 2.9.5, cssselect 1.0.3, parsel 1.5.1, w3lib 1.19.0, Twisted 18.9.0, Python 3.5.2 |Anaconda 4.2.0 (64-bit)| (default, Jul 5 2016, 11:41:13) [MSC v.1900 64 bit (AMD64)], pyOpenSSL 18.0.0 (OpenSSL 1.1.0j 20 Nov 2018), cryptography 2.4.2, Platform Windows-10-10.0.17134-SP0

2018-12-17 21:43:57 [scrapy.crawler] INFO: Overridden settings: {'BOT_NAME': 'tutorial', 'NEWSPIDER_MODULE': 'tutorial.spiders', 'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES': ['tutorial.spiders']}

2018-12-17 21:43:57 [scrapy.middleware] INFO: Enabled extensions:

['scrapy.extensions.logstats.LogStats',

'scrapy.extensions.telnet.TelnetConsole',

'scrapy.extensions.corestats.CoreStats']

2018-12-17 21:43:58 [scrapy.middleware] INFO: Enabled downloader middlewares:

['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',

'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',

'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',

'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',

'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',

'scrapy.downloadermiddlewares.retry.RetryMiddleware',

'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',

'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',

'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',

'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',

'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',

'scrapy.downloadermiddlewares.stats.DownloaderStats']

2018-12-17 21:43:58 [scrapy.middleware] INFO: Enabled spider middlewares:

['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',

'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',

'scrapy.spidermiddlewares.referer.RefererMiddleware',

'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',

'scrapy.spidermiddlewares.depth.DepthMiddleware']

2018-12-17 21:43:58 [scrapy.middleware] INFO: Enabled item pipelines:

['tutorial.pipelines.TutorialPipeline']

2018-12-17 21:43:58 [scrapy.core.engine] INFO: Spider opened

2018-12-17 21:43:58 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)

2018-12-17 21:43:58 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023

2018-12-17 21:43:58 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)

2018-12-17 21:43:58 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)

2018-12-17 21:43:58 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)

2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>

{'desc': '中国论文写发网提供免费论文,职称论文,毕业论文,硕士论文,本科论文,MBA论文,电大论文,述职报告,论文下载,工作总结,论文推荐发表,论文写作指导,论文翻译等服务,网址www.lwxfw.com',

'link': 'http://www.dmozdir.org/SiteInformation/?www.lwxfw.com-----13589-----.shtml',

'title': '中国论文写发网'}

2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>

{'desc': '专注代写论文网,论文代写,硕士论文代写,博士论文代写,各类职称论文代写代发!',

'link': 'http://www.dmozdir.org/SiteInformation/?www.zzlunwen010.com-----28351-----.shtml',

'title': '专注代写论文网,论文代写,硕士论文代写,博士论文代写'}

2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>

{'desc': '论文天下，免费提供：论文范文，免费论文，论文大全， '

'论文下载，论文格式，论文提纲，论文发表，论文开题报告，论文题目等资料的查阅，有偿提供：论文代写、代发服务！',

'link': 'http://www.dmozdir.org/SiteInformation/?www.su30.net-----20547-----.shtml',

'title': '论文天下'}

2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>

{'desc': '河南教师网/河南教师考试网/河南教师资格网/河南教育信息网/河南教师资格证历年真题/河南教师资格证复习资料/河南招教考试真题/河南招教考试复习资料/学习笔记/中国招教网/河南招教网/河南教师资格网',

'link': 'http://www.dmozdir.org/SiteInformation/?www.hateacher.com-----31307-----.shtml',

'title': '河南教师网'}

2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>

{'desc': '久久论文检测网专业提供免费论文检测、论文检测软件、论文抄袭检测、知网论文检测、万方论文检测、论文修改资料以及免费论文检测系统。让您毕业答辩无忧！',

'link': 'http://www.dmozdir.org/SiteInformation/?www.99fx.net-----38891-----.shtml',

'title': '久久论文检测'}

2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>

{'desc': '高三政治教学，政治高考，高中政治新课标，政治试卷，高中政治网址。',

'link': 'http://www.dmozdir.org/SiteInformation/?www.lgwlncy.com-----12221-----.shtml',

'title': '李国旺工作室'}

2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>

{'desc': '笔杆子论文网提供免费论文、毕业论文、论文范文、论文下载、各专业论文、工作总结、论文定制、发表论文、购买论文、论文写作指导等服务',

'link': 'http://www.dmozdir.org/SiteInformation/?www.bgzlw.com-----45851-----.shtml',

'title': '笔杆子论文'}

2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>

{'desc': '中国论文热线网提供职称论文推荐发表、省级刊物、核心刊物、CN、ISSN刊物推荐发表等服务,可以推荐发表多专业职称论文,是您职称评审论文发表的最佳伙伴,网址www.lwrxw.com',

'link': 'http://www.dmozdir.org/SiteInformation/?www.lwrxw.com-----15692-----.shtml',

'title': '中国论文热线网'}

2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>

{'desc': '就要学习网是集教案，课件，试卷，毕业论文，教学视频为一体的免费资源网。',

'link': 'http://www.dmozdir.org/SiteInformation/?www.62355065.cn-----11960-----.shtml',

'title': '就要学习网'}

2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>

{'desc': '毕业论文|毕业设计|毕业论文范文|计算机毕业设计|毕业论文格式范文|机械毕业设计|行政管理毕业论文|毕业设计开题报告|计算机网络毕业论文|毕业设计论文|毕业论文网|代做毕业设计|怎样写毕业论文',

'link': 'http://www.dmozdir.org/SiteInformation/?www.newlw.com-----25276-----.shtml',

'title': '新论文代写网'}

2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>

{'desc': '天喜缘婚介婚庆网是济南最专业的婚介网站、婚庆网站，交友网站，及济南征婚、济南交友、济南婚介、济南庆典、济南礼仪于一体，网下有实体店面-济南市市中区天喜缘婚介婚庆中心，不定期举办联谊活动，保证会员成功率',

'link': 'http://www.dmozdir.org/SiteInformation/?www.love219.com-----14846-----.shtml',

'title': '天喜缘婚介网-最好的婚征婚介网站'}

2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>

{'desc': '诚信投资控股集团属于四川省大型企业集团，川内排于前20名，注册资金3.5亿元，拥有固定资产46.5亿。公司总部位于成都市致民东路1号。在北京、上海、新疆等地设有分公司。诚信盛世阳光婚庆公司是其子公司。',

'link': 'http://www.dmozdir.org/SiteInformation/?www.ssyg520.com-----27215-----.shtml',

'title': '成都盛世阳光婚庆策划有限公司'}

2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>

{'desc': '情人网交友中心为你提供最佳的网上情人交友机会，足不出户便能让你有更多的选择！',

'link': 'http://www.dmozdir.org/SiteInformation/?www.591lover.net-----36999-----.shtml',

'title': '情人网'}

2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>

{'desc': '国际免费婚介交友网站是相约100提供的完全免费的国际交友网站。会员以华人为主遍布五湖四海,所有会员完全免费。所有寻找国际免费婚介交友网站的朋友都能在国际交友网站在找到完全免费的国际免费婚介交友网站服务',

'link': 'http://www.dmozdir.org/SiteInformation/?www.free-onlinedating.me-----10110-----.shtml',

'title': '国际免费婚介交友网站-相约100'}

2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>

{'desc': '安徽婚庆网',

'link': 'http://www.dmozdir.org/SiteInformation/?www.ahhqw.com-----18983-----.shtml',

'title': '安徽婚庆网'}

2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>

{'desc': '聚缘北海交友网是北海地区较规范的婚恋交友网站，致力于营造有趣而安全的网络交友社区，提供搜索、美文、约会、日记、聊天、等多项交友服务。并与地方婚介部门建立了良好的合作关系。',

'link': 'http://www.dmozdir.org/SiteInformation/?www.jyjjyy.com-----19343-----.shtml',

'title': '聚缘北海交友网'}

2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>

{'desc': '爱我吧婚恋网是一个真实、严肃、高品位的婚恋平台，提供科学、高效的全程服务，帮助真心寻找终身伴侣的人士实现和谐婚恋，努力营造国内最专业、严肃的婚恋交友平',

'link': 'http://www.dmozdir.org/SiteInformation/?www.lovemeba.com-----9983-----.shtml',

'title': '爱我吧婚恋网'}

2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>

{'desc': '纯公益性，爱心社交网站，为广大青年及单身人士提供的全免费交友平台。',

'link': 'http://www.dmozdir.org/SiteInformation/?www.77lds.com-----37176-----.shtml',

'title': '77国际交友网'}

2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>

{'desc': '东莞韩风尚婚纱摄影工作室是具有独特的韩国风格的东莞婚纱摄影工作室，韩风尚位于东莞东城区旗峰路国泰大厦10号,我们永远满怀创意与温情,通过一对一的服务为您提供超越您期望',

'link': 'http://www.dmozdir.org/SiteInformation/?www.dg-hfs.com-----18760-----.shtml',

'title': '东莞韩风尚婚纱摄影工作室'}

2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>

{'desc': '百合婚礼社区讨论话题涵盖婚纱照、婚纱摄影、婚礼筹备、婚纱礼服、婚庆等方面',

'link': 'http://www.dmozdir.org/SiteInformation/?www.lilywed.cn-----9976-----.shtml',

'title': '百合婚礼社区'}

2018-12-17 21:43:59 [scrapy.core.engine] INFO: Closing spider (finished)

2018-12-17 21:43:59 [scrapy.statscollectors] INFO: Dumping Scrapy stats:

{'downloader/request_bytes': 698,

'downloader/request_count': 3,

'downloader/request_method_count/GET': 3,

'downloader/response_bytes': 14618,

'downloader/response_count': 3,

'downloader/response_status_count/200': 3,

'finish_reason': 'finished',

'finish_time': datetime.datetime(2018, 12, 17, 13, 43, 59, 33263),

'item_scraped_count': 20,

'log_count/DEBUG': 24,

'log_count/INFO': 7,

'response_received_count': 3,

'scheduler/dequeued': 2,

'scheduler/dequeued/memory': 2,

'scheduler/enqueued': 2,

'scheduler/enqueued/memory': 2,

'start_time': datetime.datetime(2018, 12, 17, 13, 43, 58, 626475)}

2018-12-17 21:43:59 [scrapy.core.engine] INFO: Spider closed (finished)

items.json 文件内容如下：
{"link": "http://www.dmozdir.org/SiteInformation/?www.lwxfw.com-----13589-----.shtml", "title": "中国论文写发网", "desc": "中国论文写发网提供免费论文,职称论文,毕业论文,硕士论文,本科论文,MBA论文,电大论文,述职报告,论文下载,工作总结,论文推荐发表,论文写作指导,论文翻译等服务,网址www.lwxfw.com"}

{"link": "http://www.dmozdir.org/SiteInformation/?www.zzlunwen010.com-----28351-----.shtml", "title": "专注代写论文网,论文代写,硕士论文代写,博士论文代写", "desc": "专注代写论文网,论文代写,硕士论文代写,博士论文代写,各类职称论文代写代发!"}

{"link": "http://www.dmozdir.org/SiteInformation/?www.su30.net-----20547-----.shtml", "title": "论文天下", "desc": "论文天下，免费提供：论文范文，免费论文，论文大全，论文下载，论文格式，论文提纲，论文发表，论文开题报告，论文题目等资料的查阅，有偿提供：论文代写、代发服务！"}

{"link": "http://www.dmozdir.org/SiteInformation/?www.hateacher.com-----31307-----.shtml", "title": "河南教师网", "desc": "河南教师网/河南教师考试网/河南教师资格网/河南教育信息网/河南教师资格证历年真题/河南教师资格证复习资料/河南招教考试真题/河南招教考试复习资料/学习笔记/中国招教网/河南招教网/河南教师资格网"}

{"link": "http://www.dmozdir.org/SiteInformation/?www.99fx.net-----38891-----.shtml", "title": "久久论文检测", "desc": "久久论文检测网专业提供免费论文检测、论文检测软件、论文抄袭检测、知网论文检测、万方论文检测、论文修改资料以及免费论文检测系统。让您毕业答辩无忧！"}

{"link": "http://www.dmozdir.org/SiteInformation/?www.lgwlncy.com-----12221-----.shtml", "title": "李国旺工作室", "desc": "高三政治教学，政治高考，高中政治新课标，政治试卷，高中政治网址。"}

{"link": "http://www.dmozdir.org/SiteInformation/?www.bgzlw.com-----45851-----.shtml", "title": "笔杆子论文", "desc": "笔杆子论文网提供免费论文、毕业论文、论文范文、论文下载、各专业论文、工作总结、论文定制、发表论文、购买论文、论文写作指导等服务"}

{"link": "http://www.dmozdir.org/SiteInformation/?www.lwrxw.com-----15692-----.shtml", "title": "中国论文热线网", "desc": "中国论文热线网提供职称论文推荐发表、省级刊物、核心刊物、CN、ISSN刊物推荐发表等服务,可以推荐发表多专业职称论文,是您职称评审论文发表的最佳伙伴,网址www.lwrxw.com"}

{"link": "http://www.dmozdir.org/SiteInformation/?www.62355065.cn-----11960-----.shtml", "title": "就要学习网", "desc": "就要学习网是集教案，课件，试卷，毕业论文，教学视频为一体的免费资源网。"}

{"link": "http://www.dmozdir.org/SiteInformation/?www.newlw.com-----25276-----.shtml", "title": "新论文代写网", "desc": "毕业论文|毕业设计|毕业论文范文|计算机毕业设计|毕业论文格式范文|机械毕业设计|行政管理毕业论文|毕业设计开题报告|计算机网络毕业论文|毕业设计论文|毕业论文网|代做毕业设计|怎样写毕业论文"}

{"link": "http://www.dmozdir.org/SiteInformation/?www.love219.com-----14846-----.shtml", "title": "天喜缘婚介网-最好的婚征婚介网站", "desc": "天喜缘婚介婚庆网是济南最专业的婚介网站、婚庆网站，交友网站，及济南征婚、济南交友、济南婚介、济南庆典、济南礼仪于一体，网下有实体店面-济南市市中区天喜缘婚介婚庆中心，不定期举办联谊活动，保证会员成功率"}

{"link": "http://www.dmozdir.org/SiteInformation/?www.ssyg520.com-----27215-----.shtml", "title": "成都盛世阳光婚庆策划有限公司", "desc": "诚信投资控股集团属于四川省大型企业集团，川内排于前20名，注册资金3.5亿元，拥有固定资产46.5亿。公司总部位于成都市致民东路1号。在北京、上海、新疆等地设有分公司。诚信盛世阳光婚庆公司是其子公司。"}

{"link": "http://www.dmozdir.org/SiteInformation/?www.591lover.net-----36999-----.shtml", "title": "情人网", "desc": "情人网交友中心为你提供最佳的网上情人交友机会，足不出户便能让你有更多的选择！"}

{"link": "http://www.dmozdir.org/SiteInformation/?www.free-onlinedating.me-----10110-----.shtml", "title": "国际免费婚介交友网站-相约100", "desc": "国际免费婚介交友网站是相约100提供的完全免费的国际交友网站。会员以华人为主遍布五湖四海,所有会员完全免费。所有寻找国际免费婚介交友网站的朋友都能在国际交友网站在找到完全免费的国际免费婚介交友网站服务"}

{"link": "http://www.dmozdir.org/SiteInformation/?www.ahhqw.com-----18983-----.shtml", "title": "安徽婚庆网", "desc": "安徽婚庆网"}

{"link": "http://www.dmozdir.org/SiteInformation/?www.jyjjyy.com-----19343-----.shtml", "title": "聚缘北海交友网", "desc": "聚缘北海交友网是北海地区较规范的婚恋交友网站，致力于营造有趣而安全的网络交友社区，提供搜索、美文、约会、日记、聊天、等多项交友服务。并与地方婚介部门建立了良好的合作关系。"}

{"link": "http://www.dmozdir.org/SiteInformation/?www.lovemeba.com-----9983-----.shtml", "title": "爱我吧婚恋网", "desc": "爱我吧婚恋网是一个真实、严肃、高品位的婚恋平台，提供科学、高效的全程服务，帮助真心寻找终身伴侣的人士实现和谐婚恋，努力营造国内最专业、严肃的婚恋交友平"}

{"link": "http://www.dmozdir.org/SiteInformation/?www.77lds.com-----37176-----.shtml", "title": "77国际交友网", "desc": "纯公益性，爱心社交网站，为广大青年及单身人士提供的全免费交友平台。"}

{"link": "http://www.dmozdir.org/SiteInformation/?www.dg-hfs.com-----18760-----.shtml", "title": "东莞韩风尚婚纱摄影工作室", "desc": "东莞韩风尚婚纱摄影工作室是具有独特的韩国风格的东莞婚纱摄影工作室，韩风尚位于东莞东城区旗峰路国泰大厦10号,我们永远满怀创意与温情,通过一对一的服务为您提供超越您期望"}

{"link": "http://www.dmozdir.org/SiteInformation/?www.lilywed.cn-----9976-----.shtml", "title": "百合婚礼社区", "desc": "百合婚礼社区讨论话题涵盖婚纱照、婚纱摄影、婚礼筹备、婚纱礼服、婚庆等方面"}

终于是中文了，看着就是舒服。

你可能感兴趣的:(python零基础,python)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

《零基础入门学习Python》第063讲：论一只爬虫的自我修养11：Scrapy框架之初窥门径

致此，完成了步骤一：创建一个Scrapy项目；

接下来就是 步骤二：定义 Item 容器

致此，完成了步骤二：定义 Item 容器；

接下来就是 步骤三：编写爬虫；

首先是爬：

我们接下来继续深入讲解，那这个是爬的过程，爬完整个网页，接下来就是取的过程啦。

进入 shell

\xe7\x94\x9f\xe6\xb4\xbb\xe4\xb8\x8e\xe6\x9c\x8d\xe5\x8a\xa1 > \xe5\xa9\x9a\xe6\x81\x8b\xe4\xba\xa4\xe5\x8f\x8b

\r\n\t\t\t\t\t\xe6\x88\x91\xe4\xb9\x9f\xe8\xa6\x81\xe5\x87\xba\xe7\x8e\xb0\xe5\x9c\xa8\xe8\xbf\x99\xe9\x87\x8c | \xe6\x9b\xb4\xe5\xa4\x9a\r\n\t\t\t\t\t\xe6\x9c\x80\xe6\x96\xb0\xe6\x8e\xa8\xe8\x8d\x90\r\n\t\t\t\t

\xe5\xbb\xba\xe7\xab\x99\xe5\xbd\x92\xe6\xa1\xa3 | \xe8\xb5\x84\xe8\xae\xaf\xe5\xbd\x92\xe6\xa1\xa3

\r\n\t\t\t\t目录分类\r\n\t\t\t\t\r\n\t\t\t\t\t娱乐休闲工商与经济电脑与网络公司与企业教育与培训文学艺术体 育与健身新闻与媒体卫生与健康科学/文化生 活与服务旅游与交通政治/法律/军事社会科学\r\n\t\t\t\t\r\n\t\t\t

生活与服务 > 婚恋交友

\r\n\t\t\t\t\t我也要出现在这里 | 更多\r\n\t\t\t\t\t最新推荐\r\n\t\t\t\t

建站归档 | 资讯归档

selector 选择器就是这么一个筛子，正如我们刚才所讲到的，可以使用 response.selector.xpath() 或者 response.selector.css() 或者 response.selector.extract() 或者 response.selector.re() 这四个基本方法来进行筛选。

上面所有的命令，如果没有假设 extract() ，就是得到 selector 对象的列表，加上 extract() 之后呢，得到的就是 将 selector 对象中的 data 变成字符串 提取出来。

一切OK了，接下来就是写我们的代码了，把它投入到生产线上去实现：

我们 退出 shell （使用命令 exit()），回到我们的 CMD，

from turtorial.items import DmozItem

得到的保存的文件的内容就是我们需要的，但是这是二进制编码的形式。

（我目前还没有找到用于 Python 3 的解决方案，以后解决了再补充，也希望各位大佬看到了，能够不吝赐教。谢谢！）

因为读取到的网页是 二进制文件，所以我们在__init__ 方法中， 建一个名为 items.json 的文件，以二进制形式写入。

在 process_item 方法中，对 item 文件进行编码 写入操作，最后在 close_spider 方法中，关闭文件。

接下来，就在settings.py 文件中开启 pipeline，加入下面的命令即可：

其中，TutorialPipeline 就是 pipeline.py 文件中的 类名

另外有一点需要提醒的是：

因为我们在 pipeline.py 中完成了新建文件的操作，所以 在CMD 中输入的命令 应该改为：scrapy crawl dmoz -t json

终于是中文了，看着就是舒服。

你可能感兴趣的:(python零基础,python)

接下来就是步骤二：定义 Item 容器

接下来就是步骤三：编写爬虫；

\r\n\t\t\t\t目录分类\r\n\t\t\t\t
\r\n\t\t\t\t\t
娱乐休闲
工商与经济
电脑与网络
公司与企业
教育与培训
文学
艺术
体育与健身
新闻与媒体
卫生与健康
科学/文化
生活与服务
旅游与交通
政治/法律/军事
社会科学
\r\n\t\t\t\t
\r\n\t\t\t

上面所有的命令，如果没有假设 extract() ，就是得到 selector 对象的列表，加上 extract() 之后呢，得到的就是将 selector 对象中的 data 变成字符串提取出来。

我们退出 shell （使用命令 exit()），回到我们的 CMD，

因为读取到的网页是二进制文件，所以我们在init 方法中，建一个名为 items.json 的文件，以二进制形式写入。

在 process_item 方法中，对 item 文件进行编码写入操作，最后在 close_spider 方法中，关闭文件。

其中，TutorialPipeline 就是 pipeline.py 文件中的类名

因为我们在 pipeline.py 中完成了新建文件的操作，所以在CMD 中输入的命令应该改为：scrapy crawl dmoz -t json