元素的文字
//td:选择所有的
元素
//div[@class="mine"]:选择所有具有 class="mine"属性的 div 元素
我们这里给大家演示一下:(值的一提的是:reponse.xpath() 已经映射到了 response.selector.xpath() ,所以,我们以后就只使用 response.selector.xpath() )
#CMD窗口
In [6]: response.selector.xpath('//title')
Out[6]: []
我们使用上面的语句得到 title,'//标签的名字' 表示选出这个网页里面所有这个标签的元素,大家可以看到,title只有一个。返回的是一个 Selector 对象的列表。
你想把这个列表给字符串化,可以使用 extract() ,如下,就得到了一个 unicode 的字符串。
#CMD窗口
In [7]: response.selector.xpath('//title').extract()
Out[7]: ['婚恋交友-生活与服务-目录分类-DMOZ中文网站分类目录 ']
你如果想要得到 title 里面的文字(只显示title 的文字,不要标签),你就可以:
#CMD窗口
In [9]: response.selector.xpath('//title/text()').extract()
Out[9]: ['婚恋交友-生活与服务-目录分类-DMOZ中文网站分类目录']
非常方便,比你挖空心思去写正则表达式要容易得多,而且不会出错,因为它是根据节点(也就是网页中的标签)来一个一个去查找的。
我们接下来就是提取数据了,尝试从页面中提取出对我们有用的数据。你可以从 response.body 里面去找,但我们极力不建议这样做,因为这浪费时间又不讨好,之前不是说了,有一个审查元素吗,我们来看看 我们想要的 title,link 和 desc 的规律。
布袋除尘器_袋式脉冲除尘器_小型除尘器_除尘器骨架_除尘器布袋_UV光氧催化设备_VOC催化燃烧设备生产厂家,型号齐全,价格合理,批发定做。河北富宇环保设备有限公司
我们发现,在一个 ul 标签 和 li 标签中间,而且每个 li 标签对应一组数据,所以,我们先找 ul ,再找 li 就对了。
好,那我们来试一下:
#CMD窗口
In [12]: response.selector.xpath('//ul/li')
Out[12]:
[,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
]
response.selector.xpath('//ul/li') 命令就把 response 里面所有的 ul/li 给打印出来了,我们要获得网站的描述的内容(desc),就还需要再加上一个 /p :
#CMD窗口
In [18]: response.selector.xpath('//ul/li/p')
Out[18]:
[,
,
,
,
,
,
,
,
,
]
这里看不完整,我们可以使用 extract():
#CMD窗口
In [19]: response.selector.xpath('//ul/li/p').extract()
Out[19]:
['天喜缘婚介婚庆网是济南最专业的婚介网站、婚庆网站,交友网站,及济南征婚、济南交友、济南婚介、济南庆典、济南礼仪于一体,网下有实体店面-济南市市中区天喜缘婚介婚庆中心,不定期举办联谊活动,保证会员成功率
',
'诚信投资控股集团属于四川省大型企业集团,川内排于前20名,注册资金3.5亿元,拥有固定资产46.5亿。公司总部位于成都市致民东路1号。在北京、上海、新疆等地设有分公司。诚信盛世阳光婚庆公司是其子公司。
',
'情人网交友中心为你提供最佳的网上情人交友机会,足不出户便能让你有更多的选择!
',
'国际免费婚介交友网站是相约100提供的完全免费的国际交友网站。会员以华人为主遍布五湖四海,所有会员完全免费。所有寻找国际免费婚介交友网站的朋友都能在国际交友网站在找到完全免费的国际免费婚介交友网站服务
',
'安徽婚庆网
',
'聚缘北海交友网是北海地区较规范的婚恋交友网站,致力于营造有趣而安全的网络交友社区,提供搜索、美文、约会、日记、聊天、等多项交友服务。并与地方婚介部门建立了良好的合作关系。
',
'爱我吧婚恋网是一个真实、严肃、高品位的婚恋平台,提供科学、高效的全程服务,帮助真心寻找终身伴侣的人士实现和谐婚恋,努力营造国内最专业、严肃的婚恋交友平
',
'纯公益性,爱心社交网站,为广大青年及单身人士提供的全免费交友平台。
',
'东莞韩风尚婚纱摄影工作室是具有独特的韩国风格的东莞婚纱摄影工作室,韩风尚位于东莞东城区旗峰路国泰大厦10号,我们永远满怀创意与温情,通过一对一的服务为您提供超越您期望
',
'百合婚礼社区讨论话题涵盖婚纱照、婚纱摄影、婚礼筹备、婚纱礼服、婚庆等方面
']
如果再加上 text() ,就只显示文本内容,删除了标签 p
#CMD窗口
In [20]: response.selector.xpath('//ul/li/p/text()').extract()
Out[20]:
['天喜缘婚介婚庆网是济南最专业的婚介网站、婚庆网站,交友网站,及济南征婚、济南交友、济南婚介、济南庆典、济南礼仪于一体,网下有实体店面-济南市市中区天喜缘婚介婚庆中心,不定期举办联谊活动,保证会员成功率',
'诚信投资控股集团属于四川省大型企业集团,川内排于前20名,注册资金3.5亿元,拥有固定资产46.5亿。公司总部位于成都市致民东路1号。在北京、上海、新疆等地设有分公司。诚信盛世阳光婚庆公司是其子公司。',
'情人网交友中心为你提供最佳的网上情人交友机会,足不出户便能让你有更多的选择!',
'国际免费婚介交友网站是相约100提供的完全免费的国际交友网站。会员以华人为主遍布五湖四海,所有会员完全免费。所有寻找国际免费婚介交友网站的朋友都能在国际交友网站在找到完全免费的国际免费婚介交友网站服务',
'安徽婚庆网',
'聚缘北海交友网是北海地区较规范的婚恋交友网站,致力于营造有趣而安全的网络交友社区,提供搜索、美文、约会、日记、聊天、等多项交友服务。并与地方婚介部门建立了良好的合作关系。',
'爱我吧婚恋网是一个真实、严肃、高品位的婚恋平台,提供科学、高效的全程服务,帮助真心寻找终身伴侣的人士实现和谐婚恋,努力营造国内最专业、严肃的婚恋交友平',
'纯公益性,爱心社交网站,为广大青年及单身人士提供的全免费交友平台。',
'东莞韩风尚婚纱摄影工作室是具有独特的韩国风格的东莞婚纱摄影工作室,韩风尚位于东莞东城区旗峰路国泰大厦10号,我们永远满怀创意与温情,通过一对一的服务为您提供超越您期望',
'百合婚礼社区讨论话题涵盖婚纱照、婚纱摄影、婚礼筹备、婚纱礼服、婚庆等方面']
我们想要得到各网站的标题(title):我们审查元素看到,标题的内容是在 h4 标签里面的 a 标签的文本里面,所以:
#CMD窗口
In [25]: response.selector.xpath('//ul/li/h4/a/text()').extract()
Out[25]:
['天喜缘婚介网-最好的婚征婚介网站',
'成都盛世阳光婚庆策划有限公司',
'情人网',
'国际免费婚介交友网站-相约100',
'安徽婚庆网',
'聚缘北海交友网',
'爱我吧婚恋网',
'77国际交友网',
'东莞韩风尚婚纱摄影工作室',
'百合婚礼社区']
接下来,我们想得到网址的超链接(link),我们可以使用 response.selector.xpath('//ul/li/h4/a/@href').extract()
#CMD窗口
In [28]: response.selector.xpath('//ul/li/h4/a/@href').extract()
Out[28]:
['http://www.dmozdir.org/SiteInformation/?www.love219.com-----14846-----.shtml',
'http://www.dmozdir.org/SiteInformation/?www.ssyg520.com-----27215-----.shtml',
'http://www.dmozdir.org/SiteInformation/?www.591lover.net-----36999-----.shtml',
'http://www.dmozdir.org/SiteInformation/?www.free-onlinedating.me-----10110-----.shtml',
'http://www.dmozdir.org/SiteInformation/?www.ahhqw.com-----18983-----.shtml',
'http://www.dmozdir.org/SiteInformation/?www.jyjjyy.com-----19343-----.shtml',
'http://www.dmozdir.org/SiteInformation/?www.lovemeba.com-----9983-----.shtml',
'http://www.dmozdir.org/SiteInformation/?www.77lds.com-----37176-----.shtml',
'http://www.dmozdir.org/SiteInformation/?www.dg-hfs.com-----18760-----.shtml',
'http://www.dmozdir.org/SiteInformation/?www.lilywed.cn-----9976-----.shtml']
上面所有的命令,如果没有假设 extract() ,就是得到 selector 对象的列表,加上 extract() 之后呢,得到的就是 将 selector 对象中的 data 变成字符串 提取出来。
我们这里还可以写一个循环来打印内容:
#CMD窗口
In [44]: a=response.selector.xpath('//ul/li/h4/a/text()').extract()
In [45]: for each in a:
...: print(each)
...:
天喜缘婚介网-最好的婚征婚介网站
成都盛世阳光婚庆策划有限公司
情人网
国际免费婚介交友网站-相约100
安徽婚庆网
聚缘北海交友网
爱我吧婚恋网
77国际交友网
东莞韩风尚婚纱摄影工作室
百合婚礼社区
一切OK了,接下来就是写我们的代码了,把它投入到生产线上去实现:
我们 退出 shell (使用命令 exit()),回到我们的 CMD,
#CMD窗口
In [48]: exit()
C:\Users\XiangyangDai\Desktop\tutorial>
修改我们的 Spider 代码,也就是 dmoz_spider.py。我们就按刚才从 shell 获得的经验来写 parse() 函数。
#dmoz_spider.py
import scrapy
class DmozSpider(scrapy.Spider):
name = "dmoz"
allowed_domains = ['dmozdir.org/Category']
start_urls = ['http://www.dmozdir.org/Category/?SmallPath=411']
# 'http://www.dmozdir.org/Category/?SmallPath=411']
def parse(self, response):
titles = response.selector.xpath('//ul/li/h4/a/text()').extract() #标题 title
links = response.selector.xpath('//ul/li/h4/a/@href').extract() #超链接 link
decss = response.selector.xpath('//ul/li/p/text()').extract() #描述 decs
if len(titles) == len(links) == len(decss):
for i in range(len(titles)):
print(titles[i], links[i], decss[i])
写好之后,保存,进入 CMD,在 tutorial 根目录下执行命令:scrapy crawl dmoz
#CMD窗口
C:\Users\XiangyangDai\Desktop\tutorial>scrapy crawl dmoz
2018-12-17 19:32:48 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: tutorial)
2018-12-17 19:32:48 [scrapy.utils.log] INFO: Versions: lxml 4.2.5.0, libxml2 2.9.5, cssselect 1.0.3, parsel 1.5.1, w3lib 1.19.0, Twisted 18.9.0, Python 3.5.2 |Anaconda 4.2.0 (64-bit)| (default, Jul 5 2016, 11:41:13) [MSC v.1900 64 bit (AMD64)], pyOpenSSL 18.0.0 (OpenSSL 1.1.0j 20 Nov 2018), cryptography 2.4.2, Platform Windows-10-10.0.17134-SP0
2018-12-17 19:32:48 [scrapy.crawler] INFO: Overridden settings: {'SPIDER_MODULES': ['tutorial.spiders'], 'ROBOTSTXT_OBEY': True, 'BOT_NAME': 'tutorial', 'NEWSPIDER_MODULE': 'tutorial.spiders'}
2018-12-17 19:32:48 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.telnet.TelnetConsole',
'scrapy.extensions.corestats.CoreStats',
'scrapy.extensions.logstats.LogStats']
2018-12-17 19:32:49 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
'scrapy.downloadermiddlewares.retry.RetryMiddleware',
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
'scrapy.downloadermiddlewares.stats.DownloaderStats']
2018-12-17 19:32:49 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
'scrapy.spidermiddlewares.referer.RefererMiddleware',
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
'scrapy.spidermiddlewares.depth.DepthMiddleware']
2018-12-17 19:32:49 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2018-12-17 19:32:49 [scrapy.core.engine] INFO: Spider opened
2018-12-17 19:32:49 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2018-12-17 19:32:49 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2018-12-17 19:32:49 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
2018-12-17 19:32:49 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
2018-12-17 19:32:49 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
中国论文写发网 http://www.dmozdir.org/SiteInformation/?www.lwxfw.com-----13589-----.shtml 中国论文写发网提供免费论文,职称论文,毕业论文,硕士论文,本科论文,MBA论文,电大论文,述职报告,论文下载,工作总结,论文推荐发表,论文写作指导,论文翻译等服务,网址www.lwxfw.com
专注代写论文网,论文代写,硕士论文代写,博士论文代写 http://www.dmozdir.org/SiteInformation/?www.zzlunwen010.com-----28351-----.shtml 专注代写论文网,论文代写,硕士论文代写,博士论文代写,各类职称论文代写代发!
论文天下 http://www.dmozdir.org/SiteInformation/?www.su30.net-----20547-----.shtml 论文天下,免费提供:论文范文,免费论文,论文大全, 论文下载,论文格式,论文提纲,论文发表,论文开题报告,论文题目等资料的查阅,有偿提供:论文代写、代发服 务!
河南教师网 http://www.dmozdir.org/SiteInformation/?www.hateacher.com-----31307-----.shtml 河南教师网/河南教师考试网/河南教师资格网/河南教育信息网/河南教师资格证历年真题/河南教师资格证复习资料/河南招教考试真题/河南招教考试复习资料/学习笔 记/中国招教网/河南招教网/河南教师资格网
久久论文检测 http://www.dmozdir.org/SiteInformation/?www.99fx.net-----38891-----.shtml 久久论文检测网专业提供免费论文检测、论文检测软件、论文抄袭检测、知网论文检测、万方论文检测、论文修改资料以及免费论文检测系统。让您毕业答辩无忧!
李国旺工作室 http://www.dmozdir.org/SiteInformation/?www.lgwlncy.com-----12221-----.shtml 高三政治教学,政治高考,高中政治新课标,政治试卷,高中政治网址。
笔杆子论文 http://www.dmozdir.org/SiteInformation/?www.bgzlw.com-----45851-----.shtml 笔杆子论文网提供免费论文、毕业论文、论文范文、论文下载、各专业论文、工作总结、论文定制、发表论文、购买论文、论文写作指导等服务
中国论文热线网 http://www.dmozdir.org/SiteInformation/?www.lwrxw.com-----15692-----.shtml 中国论文热线网提供职称论文推荐发表、省级刊物、核心刊物、CN、ISSN刊物推荐发表等服务,可以推荐发表多专业职称论文,是您职称评审论文发表的最佳伙伴,网址www.lwrxw.com
就要学习网 http://www.dmozdir.org/SiteInformation/?www.62355065.cn-----11960-----.shtml 就要学习网是集教案,课件,试卷,毕业论文,教学视频为一体的免费资源网。
新论文代写网 http://www.dmozdir.org/SiteInformation/?www.newlw.com-----25276-----.shtml 毕业论文|毕业设计|毕业论文范文|计算机毕业设计|毕业论文格式范文|机械毕业设计|行政管理毕业论文|毕业设计开题报告|计算机网络毕业论文|毕业设计论文|毕业论 文网|代做毕业设计|怎样写毕业论文
天喜缘婚介网-最好的婚征婚介网站 http://www.dmozdir.org/SiteInformation/?www.love219.com-----14846-----.shtml 天喜缘婚介婚庆网是济南最专业的婚介网站、婚庆网站,交友网站,及济南征婚、济南交友、济南婚介、济南庆典、济南礼仪于一体,网下有实体店面-济南市市中区天喜缘婚介婚庆中心,不定期举办联谊活动,保证会员成功率
成都盛世阳光婚庆策划有限公司 http://www.dmozdir.org/SiteInformation/?www.ssyg520.com-----27215-----.shtml 诚信投资控股集团属于四川省大型企业集团,川内排于前20名,注册资金3.5亿元,拥有固定资产46.5亿。公司总部位于成都市致民东路1号。在北京 、上海、新疆等地设有分公司。诚信盛世阳光婚庆公司是其子公司。
情人网 http://www.dmozdir.org/SiteInformation/?www.591lover.net-----36999-----.shtml 情人网交友中心为你提供最佳的网上情人交友机会,足不出户便能让你有更多的选择!
国际免费婚介交友网站-相约100 http://www.dmozdir.org/SiteInformation/?www.free-onlinedating.me-----10110-----.shtml 国际免费婚介交友网站是相约100提供的完全免费的国际交友网站。会员以华人为主遍布五湖四海,所有会员完全免费。所有寻找国际免费婚介交友网站的朋友都能在国际交友网站在找到完全免费的国际免费婚介交友网站服务
安徽婚庆网 http://www.dmozdir.org/SiteInformation/?www.ahhqw.com-----18983-----.shtml 安徽婚庆网
聚缘北海交友网 http://www.dmozdir.org/SiteInformation/?www.jyjjyy.com-----19343-----.shtml 聚缘北海交友网是北海地区较规范的婚恋交友网站,致力于营造有趣而安全的网络交友社区,提供搜索、美文、约会、日记、聊天、等多项交友服务。并与地方婚介部门建立了良好的合作关系。
爱我吧婚恋网 http://www.dmozdir.org/SiteInformation/?www.lovemeba.com-----9983-----.shtml 爱我吧婚恋网是一个真实、严肃、高品位的婚恋平台,提供科学、高效的全程服务,帮助真心寻找终身伴侣的人士实现和谐婚恋,努力营造国内最专业、严肃的婚恋交 友平
77国际交友网 http://www.dmozdir.org/SiteInformation/?www.77lds.com-----37176-----.shtml 纯公益性,爱心社交网站,为广大青年及单身人士提供的全免费交友平台。
东莞韩风尚婚纱摄影工作室 http://www.dmozdir.org/SiteInformation/?www.dg-hfs.com-----18760-----.shtml 东莞韩风尚婚纱摄影工作室是具有独特的韩国风格的东莞婚纱摄影工作室,韩风尚位于东莞东城区旗峰路国泰大厦10号,我们永远满怀创意与温情,通过一对一的服务为您提供超越您期望
百合婚礼社区 http://www.dmozdir.org/SiteInformation/?www.lilywed.cn-----9976-----.shtml 百合婚礼社区讨论话题涵盖婚纱照、婚纱摄影、婚礼筹备、婚纱礼服、婚庆等方面
2018-12-17 19:32:49 [scrapy.core.engine] INFO: Closing spider (finished)
2018-12-17 19:32:49 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 698,
'downloader/request_count': 3,
'downloader/request_method_count/GET': 3,
'downloader/response_bytes': 14618,
'downloader/response_count': 3,
'downloader/response_status_count/200': 3,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2018, 12, 17, 11, 32, 49, 552593),
'log_count/DEBUG': 4,
'log_count/INFO': 7,
'response_received_count': 3,
'scheduler/dequeued': 2,
'scheduler/dequeued/memory': 2,
'scheduler/enqueued': 2,
'scheduler/enqueued/memory': 2,
'start_time': datetime.datetime(2018, 12, 17, 11, 32, 49, 93393)}
2018-12-17 19:32:49 [scrapy.core.engine] INFO: Spider closed (finished)
我们就看中间这一部分:
2018-12-17 19:32:49 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
2018-12-17 19:32:49 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
中国论文写发网 http://www.dmozdir.org/SiteInformation/?www.lwxfw.com-----13589-----.shtml 中国论文写发网提供免费论文,职称论文,毕业论文,硕士论文,本科论文,MBA论文,电大论文,述职报告,论文下载,工作总结,论文推荐发表,论文写作指导,论文翻译等服务,网址www.lwxfw.com
专注代写论文网,论文代写,硕士论文代写,博士论文代写 http://www.dmozdir.org/SiteInformation/?www.zzlunwen010.com-----28351-----.shtml 专注代写论文网,论文代写,硕士论文代写,博士论文代写,各类职称论文代写代发!
论文天下 http://www.dmozdir.org/SiteInformation/?www.su30.net-----20547-----.shtml 论文天下,免费提供:论文范文,免费论文,论文大全, 论文下载,论文格式,论文提纲,论文发表,论文开题报告,论文题目等资料的查阅,有偿提供:论文代写、代发服 务!
河南教师网 http://www.dmozdir.org/SiteInformation/?www.hateacher.com-----31307-----.shtml 河南教师网/河南教师考试网/河南教师资格网/河南教育信息网/河南教师资格证历年真题/河南教师资格证复习资料/河南招教考试真题/河南招教考试复习资料/学习笔 记/中国招教网/河南招教网/河南教师资格网
久久论文检测 http://www.dmozdir.org/SiteInformation/?www.99fx.net-----38891-----.shtml 久久论文检测网专业提供免费论文检测、论文检测软件、论文抄袭检测、知网论文检测、万方论文检测、论文修改资料以及免费论文检测系统。让您毕业答辩无忧!
李国旺工作室 http://www.dmozdir.org/SiteInformation/?www.lgwlncy.com-----12221-----.shtml 高三政治教学,政治高考,高中政治新课标,政治试卷,高中政治网址。
笔杆子论文 http://www.dmozdir.org/SiteInformation/?www.bgzlw.com-----45851-----.shtml 笔杆子论文网提供免费论文、毕业论文、论文范文、论文下载、各专业论文、工作总结、论文定制、发表论文、购买论文、论文写作指导等服务
中国论文热线网 http://www.dmozdir.org/SiteInformation/?www.lwrxw.com-----15692-----.shtml 中国论文热线网提供职称论文推荐发表、省级刊物、核心刊物、CN、ISSN刊物推荐发表等服务,可以推荐发表多专业职称论文,是您职称评审论文发表的最佳伙伴,网址www.lwrxw.com
就要学习网 http://www.dmozdir.org/SiteInformation/?www.62355065.cn-----11960-----.shtml 就要学习网是集教案,课件,试卷,毕业论文,教学视频为一体的免费资源网。
新论文代写网 http://www.dmozdir.org/SiteInformation/?www.newlw.com-----25276-----.shtml 毕业论文|毕业设计|毕业论文范文|计算机毕业设计|毕业论文格式范文|机械毕业设计|行政管理毕业论文|毕业设计开题报告|计算机网络毕业论文|毕业设计论文|毕业论 文网|代做毕业设计|怎样写毕业论文
天喜缘婚介网-最好的婚征婚介网站 http://www.dmozdir.org/SiteInformation/?www.love219.com-----14846-----.shtml 天喜缘婚介婚庆网是济南最专业的婚介网站、婚庆网站,交友网站,及济南征婚、济南交友、济南婚介、济南庆典、济南礼仪于一体,网下有实体店面-济南市市中区天喜缘婚介婚庆中心,不定期举办联谊活动,保证会员成功率
成都盛世阳光婚庆策划有限公司 http://www.dmozdir.org/SiteInformation/?www.ssyg520.com-----27215-----.shtml 诚信投资控股集团属于四川省大型企业集团,川内排于前20名,注册资金3.5亿元,拥有固定资产46.5亿。公司总部位于成都市致民东路1号。在北京 、上海、新疆等地设有分公司。诚信盛世阳光婚庆公司是其子公司。
情人网 http://www.dmozdir.org/SiteInformation/?www.591lover.net-----36999-----.shtml 情人网交友中心为你提供最佳的网上情人交友机会,足不出户便能让你有更多的选择!
国际免费婚介交友网站-相约100 http://www.dmozdir.org/SiteInformation/?www.free-onlinedating.me-----10110-----.shtml 国际免费婚介交友网站是相约100提供的完全免费的国际交友网站。会员以华人为主遍布五湖四海,所有会员完全免费。所有寻找国际免费婚介交友网站的朋友都能在国际交友网站在找到完全免费的国际免费婚介交友网站服务
安徽婚庆网 http://www.dmozdir.org/SiteInformation/?www.ahhqw.com-----18983-----.shtml 安徽婚庆网
聚缘北海交友网 http://www.dmozdir.org/SiteInformation/?www.jyjjyy.com-----19343-----.shtml 聚缘北海交友网是北海地区较规范的婚恋交友网站,致力于营造有趣而安全的网络交友社区,提供搜索、美文、约会、日记、聊天、等多项交友服务。并与地方婚介部门建立了良好的合作关系。
爱我吧婚恋网 http://www.dmozdir.org/SiteInformation/?www.lovemeba.com-----9983-----.shtml 爱我吧婚恋网是一个真实、严肃、高品位的婚恋平台,提供科学、高效的全程服务,帮助真心寻找终身伴侣的人士实现和谐婚恋,努力营造国内最专业、严肃的婚恋交 友平
77国际交友网 http://www.dmozdir.org/SiteInformation/?www.77lds.com-----37176-----.shtml 纯公益性,爱心社交网站,为广大青年及单身人士提供的全免费交友平台。
东莞韩风尚婚纱摄影工作室 http://www.dmozdir.org/SiteInformation/?www.dg-hfs.com-----18760-----.shtml 东莞韩风尚婚纱摄影工作室是具有独特的韩国风格的东莞婚纱摄影工作室,韩风尚位于东莞东城区旗峰路国泰大厦10号,我们永远满怀创意与温情,通过一对一的服务为您提供超越您期望
百合婚礼社区 http://www.dmozdir.org/SiteInformation/?www.lilywed.cn-----9976-----.shtml 百合婚礼社区讨论话题涵盖婚纱照、婚纱摄影、婚礼筹备、婚纱礼服、婚庆等方面
上面的结果没有错误。
这个是爬和取的过程,我们接下来就要使用 Items,我们前面说过,Items 是我们自定义的容器,用法和Python的字典是一样的,我们希望 Spider 将爬取然后筛选后的数据存放到 Items 容器里面,我们刚才也在 parse 里写了筛选出 Items 对应的数据的方法了。筛选之后,我希望将它存放到 Items 中去。
我们的 items.py 在 tutorial/items.py 路径下,items 既是容器,也是一个类,类名我们在这个项目中定义为 DmozItem 。
我们需要把 items 导入到 spider 中,才可以使用它, 于是,我们在 dmoz_spider.py 文件中写道:
from turtorial.items import DmozItem
#dmoz_spider.py
import scrapy
from tutorial.items import DmozItem
class DmozSpider(scrapy.Spider):
name = "dmoz"
allowed_domains = ['dmozdir.org/Category']
start_urls = ['http://www.dmozdir.org/Category/?SmallPath=230',
'http://www.dmozdir.org/Category/?SmallPath=411']
def parse(self, response):
titles = response.selector.xpath('//ul/li/h4/a/text()').extract() #标题 title
links = response.selector.xpath('//ul/li/h4/a/@href').extract() #超链接 link
descs = response.selector.xpath('//ul/li/p/text()').extract() #描述 desc
items = []
if len(titles) == len(links) == len(descs):
for i in range(len(titles)):
#print(titles[i], links[i], decss[i])
item = DmozItem()
#每一组保存为一个字典
item['title'] = titles[i]
item['link'] = links[i]
item['desc'] = descs[i]
#将每个字典添加到列表中
items.append(item)
return items
然后我们在CMD 中,tutorail 的根目录下,执行命令:scrapy crawl dmoz -o items.json -t json
-o 文件名 -t 保存形式。
#CMD窗口
C:\Users\XiangyangDai\Desktop\tutorial>scrapy crawl dmoz -o items.json -t json
2018-12-17 20:49:28 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: tutorial)
2018-12-17 20:49:28 [scrapy.utils.log] INFO: Versions: lxml 4.2.5.0, libxml2 2.9.5, cssselect 1.0.3, parsel 1.5.1, w3lib 1.19.0, Twisted 18.9.0, Python 3.5.2 |Anaconda 4.2.0 (64-bit)| (default, Jul 5 2016, 11:41:13) [MSC v.1900 64 bit (AMD64)], pyOpenSSL 18.0.0 (OpenSSL 1.1.0j 20 Nov 2018), cryptography 2.4.2, Platform Windows-10-10.0.17134-SP0
2018-12-17 20:49:28 [scrapy.crawler] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'tutorial.spiders', 'SPIDER_MODULES': ['tutorial.spiders'], 'FEED_URI': 'items.json', 'BOT_NAME': 'tutorial', 'ROBOTSTXT_OBEY': True, 'FEED_FORMAT': 'json'}
2018-12-17 20:49:28 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.feedexport.FeedExporter',
'scrapy.extensions.corestats.CoreStats',
'scrapy.extensions.telnet.TelnetConsole',
'scrapy.extensions.logstats.LogStats']
2018-12-17 20:49:29 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
'scrapy.downloadermiddlewares.retry.RetryMiddleware',
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
'scrapy.downloadermiddlewares.stats.DownloaderStats']
2018-12-17 20:49:29 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
'scrapy.spidermiddlewares.referer.RefererMiddleware',
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
'scrapy.spidermiddlewares.depth.DepthMiddleware']
2018-12-17 20:49:29 [scrapy.middleware] INFO: Enabled item pipelines:
['tutorial.pipelines.TutorialPipeline']
2018-12-17 20:49:29 [scrapy.core.engine] INFO: Spider opened
2018-12-17 20:49:29 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2018-12-17 20:49:29 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2018-12-17 20:49:29 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
2018-12-17 20:49:29 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
2018-12-17 20:49:29 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '中国论文写发网提供免费论文,职称论文,毕业论文,硕士论文,本科论文,MBA论文,电大论文,述职报告,论文下载,工作总结,论文推荐发表,论文写作指导,论文翻译等服务,网址www.lwxfw.com',
'link': 'http://www.dmozdir.org/SiteInformation/?www.lwxfw.com-----13589-----.shtml',
'title': '中国论文写发网'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '专注代写论文网,论文代写,硕士论文代写,博士论文代写,各类职称论文代写代发!',
'link': 'http://www.dmozdir.org/SiteInformation/?www.zzlunwen010.com-----28351-----.shtml',
'title': '专注代写论文网,论文代写,硕士论文代写,博士论文代写'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '论文天下,免费提供:论文范文,免费论文,论文大全, '
'论文下载,论文格式,论文提纲,论文发表,论文开题报告,论文题目等资料的查阅,有偿提供:论文代写、代发服务!',
'link': 'http://www.dmozdir.org/SiteInformation/?www.su30.net-----20547-----.shtml',
'title': '论文天下'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '河南教师网/河南教师考试网/河南教师资格网/河南教育信息网/河南教师资格证历年真题/河南教师资格证复习资料/河南招教考试真题/河南招教考试复习资料/学习笔记/中国招教网/河南招教网/河南教师资格网',
'link': 'http://www.dmozdir.org/SiteInformation/?www.hateacher.com-----31307-----.shtml',
'title': '河南教师网'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '久久论文检测网专业提供免费论文检测、论文检测软件、论文抄袭检测、知网论文检测、万方论文检测、论文修改资料以及免费论文检测系统。让您毕业答辩无忧!',
'link': 'http://www.dmozdir.org/SiteInformation/?www.99fx.net-----38891-----.shtml',
'title': '久久论文检测'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '高三政治教学,政治高考,高中政治新课标,政治试卷,高中政治网址。',
'link': 'http://www.dmozdir.org/SiteInformation/?www.lgwlncy.com-----12221-----.shtml',
'title': '李国旺工作室'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '笔杆子论文网提供免费论文、毕业论文、论文范文、论文下载、各专业论文、工作总结、论文定制、发表论文、购买论文、论文写作指导等服务',
'link': 'http://www.dmozdir.org/SiteInformation/?www.bgzlw.com-----45851-----.shtml',
'title': '笔杆子论文'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '中国论文热线网提供职称论文推荐发表、省级刊物、核心刊物、CN、ISSN刊物推荐发表等服务,可以推荐发表多专业职称论文,是您职称评审论文发表的最佳伙伴,网址www.lwrxw.com',
'link': 'http://www.dmozdir.org/SiteInformation/?www.lwrxw.com-----15692-----.shtml',
'title': '中国论文热线网'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '就要学习网是集教案,课件,试卷,毕业论文,教学视频为一体的免费资源网。',
'link': 'http://www.dmozdir.org/SiteInformation/?www.62355065.cn-----11960-----.shtml',
'title': '就要学习网'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '毕业论文|毕业设计|毕业论文范文|计算机毕业设计|毕业论文格式范文|机械毕业设计|行政管理毕业论文|毕业设计开题报告|计算机网络毕业论文|毕业设计论文|毕业论文网|代做毕业设计|怎样写毕业论文',
'link': 'http://www.dmozdir.org/SiteInformation/?www.newlw.com-----25276-----.shtml',
'title': '新论文代写网'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '天喜缘婚介婚庆网是济南最专业的婚介网站、婚庆网站,交友网站,及济南征婚、济南交友、济南婚介、济南庆典、济南礼仪于一体,网下有实体店面-济南市市中区天喜缘婚介婚庆中心,不定期举办联谊活动,保证会员成功率',
'link': 'http://www.dmozdir.org/SiteInformation/?www.love219.com-----14846-----.shtml',
'title': '天喜缘婚介网-最好的婚征婚介网站'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '诚信投资控股集团属于四川省大型企业集团,川内排于前20名,注册资金3.5亿元,拥有固定资产46.5亿。公司总部位于成都市致民东路1号。在北京、上海、新疆等地设有分公司。诚信盛世阳光婚庆公司是其子公司。',
'link': 'http://www.dmozdir.org/SiteInformation/?www.ssyg520.com-----27215-----.shtml',
'title': '成都盛世阳光婚庆策划有限公司'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '情人网交友中心为你提供最佳的网上情人交友机会,足不出户便能让你有更多的选择!',
'link': 'http://www.dmozdir.org/SiteInformation/?www.591lover.net-----36999-----.shtml',
'title': '情人网'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '国际免费婚介交友网站是相约100提供的完全免费的国际交友网站。会员以华人为主遍布五湖四海,所有会员完全免费。所有寻找国际免费婚介交友网站的朋友都能在国际交友网站在找到完全免费的国际免费婚介交友网站服务',
'link': 'http://www.dmozdir.org/SiteInformation/?www.free-onlinedating.me-----10110-----.shtml',
'title': '国际免费婚介交友网站-相约100'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '安徽婚庆网',
'link': 'http://www.dmozdir.org/SiteInformation/?www.ahhqw.com-----18983-----.shtml',
'title': '安徽婚庆网'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '聚缘北海交友网是北海地区较规范的婚恋交友网站,致力于营造有趣而安全的网络交友社区,提供搜索、美文、约会、日记、聊天、等多项交友服务。并与地方婚介部门建立了良好的合作关系。',
'link': 'http://www.dmozdir.org/SiteInformation/?www.jyjjyy.com-----19343-----.shtml',
'title': '聚缘北海交友网'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '爱我吧婚恋网是一个真实、严肃、高品位的婚恋平台,提供科学、高效的全程服务,帮助真心寻找终身伴侣的人士实现和谐婚恋,努力营造国内最专业、严肃的婚恋交友平',
'link': 'http://www.dmozdir.org/SiteInformation/?www.lovemeba.com-----9983-----.shtml',
'title': '爱我吧婚恋网'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '纯公益性,爱心社交网站,为广大青年及单身人士提供的全免费交友平台。',
'link': 'http://www.dmozdir.org/SiteInformation/?www.77lds.com-----37176-----.shtml',
'title': '77国际交友网'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '东莞韩风尚婚纱摄影工作室是具有独特的韩国风格的东莞婚纱摄影工作室,韩风尚位于东莞东城区旗峰路国泰大厦10号,我们永远满怀创意与温情,通过一对一的服务为您提供超越您期望',
'link': 'http://www.dmozdir.org/SiteInformation/?www.dg-hfs.com-----18760-----.shtml',
'title': '东莞韩风尚婚纱摄影工作室'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '百合婚礼社区讨论话题涵盖婚纱照、婚纱摄影、婚礼筹备、婚纱礼服、婚庆等方面',
'link': 'http://www.dmozdir.org/SiteInformation/?www.lilywed.cn-----9976-----.shtml',
'title': '百合婚礼社区'}
2018-12-17 20:49:30 [scrapy.core.engine] INFO: Closing spider (finished)
2018-12-17 20:49:30 [scrapy.extensions.feedexport] INFO: Stored json feed (20 items) in: items.json
2018-12-17 20:49:30 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 698,
'downloader/request_count': 3,
'downloader/request_method_count/GET': 3,
'downloader/response_bytes': 14618,
'downloader/response_count': 3,
'downloader/response_status_count/200': 3,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2018, 12, 17, 12, 49, 30, 79269),
'item_scraped_count': 20,
'log_count/DEBUG': 24,
'log_count/INFO': 8,
'response_received_count': 3,
'scheduler/dequeued': 2,
'scheduler/dequeued/memory': 2,
'scheduler/enqueued': 2,
'scheduler/enqueued/memory': 2,
'start_time': datetime.datetime(2018, 12, 17, 12, 49, 29, 574379)}
2018-12-17 20:49:30 [scrapy.core.engine] INFO: Spider closed (finished)
执行完毕后,在 tutorial 根目录 下就会有一个名为 items.json 的文件。
内容如下:
#items.json 文件内容
[
{"title": "\u4e2d\u56fd\u8bba\u6587\u5199\u53d1\u7f51", "desc": "\u4e2d\u56fd\u8bba\u6587\u5199\u53d1\u7f51\u63d0\u4f9b\u514d\u8d39\u8bba\u6587,\u804c\u79f0\u8bba\u6587,\u6bd5\u4e1a\u8bba\u6587,\u7855\u58eb\u8bba\u6587,\u672c\u79d1\u8bba\u6587,MBA\u8bba\u6587,\u7535\u5927\u8bba\u6587,\u8ff0\u804c\u62a5\u544a,\u8bba\u6587\u4e0b\u8f7d,\u5de5\u4f5c\u603b\u7ed3,\u8bba\u6587\u63a8\u8350\u53d1\u8868,\u8bba\u6587\u5199\u4f5c\u6307\u5bfc,\u8bba\u6587\u7ffb\u8bd1\u7b49\u670d\u52a1,\u7f51\u5740www.lwxfw.com", "link": "http://www.dmozdir.org/SiteInformation/?www.lwxfw.com-----13589-----.shtml"},
{"title": "\u4e13\u6ce8\u4ee3\u5199\u8bba\u6587\u7f51,\u8bba\u6587\u4ee3\u5199,\u7855\u58eb\u8bba\u6587\u4ee3\u5199,\u535a\u58eb\u8bba\u6587\u4ee3\u5199", "desc": "\u4e13\u6ce8\u4ee3\u5199\u8bba\u6587\u7f51,\u8bba\u6587\u4ee3\u5199,\u7855\u58eb\u8bba\u6587\u4ee3\u5199,\u535a\u58eb\u8bba\u6587\u4ee3\u5199,\u5404\u7c7b\u804c\u79f0\u8bba\u6587\u4ee3\u5199\u4ee3\u53d1!", "link": "http://www.dmozdir.org/SiteInformation/?www.zzlunwen010.com-----28351-----.shtml"},
{"title": "\u8bba\u6587\u5929\u4e0b", "desc": "\u8bba\u6587\u5929\u4e0b\uff0c\u514d\u8d39\u63d0\u4f9b\uff1a\u8bba\u6587\u8303\u6587\uff0c\u514d\u8d39\u8bba\u6587\uff0c\u8bba\u6587\u5927\u5168\uff0c \u8bba\u6587\u4e0b\u8f7d\uff0c\u8bba\u6587\u683c\u5f0f\uff0c\u8bba\u6587\u63d0\u7eb2\uff0c\u8bba\u6587\u53d1\u8868\uff0c\u8bba\u6587\u5f00\u9898\u62a5\u544a\uff0c\u8bba\u6587\u9898\u76ee\u7b49\u8d44\u6599\u7684\u67e5\u9605\uff0c\u6709\u507f\u63d0\u4f9b\uff1a\u8bba\u6587\u4ee3\u5199\u3001\u4ee3\u53d1\u670d\u52a1\uff01", "link": "http://www.dmozdir.org/SiteInformation/?www.su30.net-----20547-----.shtml"},
{"title": "\u6cb3\u5357\u6559\u5e08\u7f51", "desc": "\u6cb3\u5357\u6559\u5e08\u7f51/\u6cb3\u5357\u6559\u5e08\u8003\u8bd5\u7f51/\u6cb3\u5357\u6559\u5e08\u8d44\u683c\u7f51/\u6cb3\u5357\u6559\u80b2\u4fe1\u606f\u7f51/\u6cb3\u5357\u6559\u5e08\u8d44\u683c\u8bc1\u5386\u5e74\u771f\u9898/\u6cb3\u5357\u6559\u5e08\u8d44\u683c\u8bc1\u590d\u4e60\u8d44\u6599/\u6cb3\u5357\u62db\u6559\u8003\u8bd5\u771f\u9898/\u6cb3\u5357\u62db\u6559\u8003\u8bd5\u590d\u4e60\u8d44\u6599/\u5b66\u4e60\u7b14\u8bb0/\u4e2d\u56fd\u62db\u6559\u7f51/\u6cb3\u5357\u62db\u6559\u7f51/\u6cb3\u5357\u6559\u5e08\u8d44\u683c\u7f51", "link": "http://www.dmozdir.org/SiteInformation/?www.hateacher.com-----31307-----.shtml"},
{"title": "\u4e45\u4e45\u8bba\u6587\u68c0\u6d4b", "desc": "\u4e45\u4e45\u8bba\u6587\u68c0\u6d4b\u7f51\u4e13\u4e1a\u63d0\u4f9b\u514d\u8d39\u8bba\u6587\u68c0\u6d4b\u3001\u8bba\u6587\u68c0\u6d4b\u8f6f\u4ef6\u3001\u8bba\u6587\u6284\u88ad\u68c0\u6d4b\u3001\u77e5\u7f51\u8bba\u6587\u68c0\u6d4b\u3001\u4e07\u65b9\u8bba\u6587\u68c0\u6d4b\u3001\u8bba\u6587\u4fee\u6539\u8d44\u6599\u4ee5\u53ca\u514d\u8d39\u8bba\u6587\u68c0\u6d4b\u7cfb\u7edf\u3002\u8ba9\u60a8\u6bd5\u4e1a\u7b54\u8fa9\u65e0\u5fe7\uff01", "link": "http://www.dmozdir.org/SiteInformation/?www.99fx.net-----38891-----.shtml"},
{"title": "\u674e\u56fd\u65fa\u5de5\u4f5c\u5ba4", "desc": "\u9ad8\u4e09\u653f\u6cbb\u6559\u5b66\uff0c\u653f\u6cbb\u9ad8\u8003\uff0c\u9ad8\u4e2d\u653f\u6cbb\u65b0\u8bfe\u6807\uff0c\u653f\u6cbb\u8bd5\u5377\uff0c\u9ad8\u4e2d\u653f\u6cbb\u7f51\u5740\u3002", "link": "http://www.dmozdir.org/SiteInformation/?www.lgwlncy.com-----12221-----.shtml"},
{"title": "\u7b14\u6746\u5b50\u8bba\u6587", "desc": "\u7b14\u6746\u5b50\u8bba\u6587\u7f51\u63d0\u4f9b\u514d\u8d39\u8bba\u6587\u3001\u6bd5\u4e1a\u8bba\u6587\u3001\u8bba\u6587\u8303\u6587\u3001\u8bba\u6587\u4e0b\u8f7d\u3001\u5404\u4e13\u4e1a\u8bba\u6587\u3001\u5de5\u4f5c\u603b\u7ed3\u3001\u8bba\u6587\u5b9a\u5236\u3001\u53d1\u8868\u8bba\u6587\u3001\u8d2d\u4e70\u8bba\u6587\u3001\u8bba\u6587\u5199\u4f5c\u6307\u5bfc\u7b49\u670d\u52a1", "link": "http://www.dmozdir.org/SiteInformation/?www.bgzlw.com-----45851-----.shtml"},
{"title": "\u4e2d\u56fd\u8bba\u6587\u70ed\u7ebf\u7f51", "desc": "\u4e2d\u56fd\u8bba\u6587\u70ed\u7ebf\u7f51\u63d0\u4f9b\u804c\u79f0\u8bba\u6587\u63a8\u8350\u53d1\u8868\u3001\u7701\u7ea7\u520a\u7269\u3001\u6838\u5fc3\u520a\u7269\u3001CN\u3001ISSN\u520a\u7269\u63a8\u8350\u53d1\u8868\u7b49\u670d\u52a1,\u53ef\u4ee5\u63a8\u8350\u53d1\u8868\u591a\u4e13\u4e1a\u804c\u79f0\u8bba\u6587,\u662f\u60a8\u804c\u79f0\u8bc4\u5ba1\u8bba\u6587\u53d1\u8868\u7684\u6700\u4f73\u4f19\u4f34,\u7f51\u5740www.lwrxw.com", "link": "http://www.dmozdir.org/SiteInformation/?www.lwrxw.com-----15692-----.shtml"},
{"title": "\u5c31\u8981\u5b66\u4e60\u7f51", "desc": "\u5c31\u8981\u5b66\u4e60\u7f51\u662f\u96c6\u6559\u6848\uff0c\u8bfe\u4ef6\uff0c\u8bd5\u5377\uff0c\u6bd5\u4e1a\u8bba\u6587\uff0c\u6559\u5b66\u89c6\u9891\u4e3a\u4e00\u4f53\u7684\u514d\u8d39\u8d44\u6e90\u7f51\u3002", "link": "http://www.dmozdir.org/SiteInformation/?www.62355065.cn-----11960-----.shtml"},
{"title": "\u65b0\u8bba\u6587\u4ee3\u5199\u7f51", "desc": "\u6bd5\u4e1a\u8bba\u6587|\u6bd5\u4e1a\u8bbe\u8ba1|\u6bd5\u4e1a\u8bba\u6587\u8303\u6587|\u8ba1\u7b97\u673a\u6bd5\u4e1a\u8bbe\u8ba1|\u6bd5\u4e1a\u8bba\u6587\u683c\u5f0f\u8303\u6587|\u673a\u68b0\u6bd5\u4e1a\u8bbe\u8ba1|\u884c\u653f\u7ba1\u7406\u6bd5\u4e1a\u8bba\u6587|\u6bd5\u4e1a\u8bbe\u8ba1\u5f00\u9898\u62a5\u544a|\u8ba1\u7b97\u673a\u7f51\u7edc\u6bd5\u4e1a\u8bba\u6587|\u6bd5\u4e1a\u8bbe\u8ba1\u8bba\u6587|\u6bd5\u4e1a\u8bba\u6587\u7f51|\u4ee3\u505a\u6bd5\u4e1a\u8bbe\u8ba1|\u600e\u6837\u5199\u6bd5\u4e1a\u8bba\u6587", "link": "http://www.dmozdir.org/SiteInformation/?www.newlw.com-----25276-----.shtml"},
{"title": "\u5929\u559c\u7f18\u5a5a\u4ecb\u7f51-\u6700\u597d\u7684\u5a5a\u5f81\u5a5a\u4ecb\u7f51\u7ad9", "desc": "\u5929\u559c\u7f18\u5a5a\u4ecb\u5a5a\u5e86\u7f51\u662f\u6d4e\u5357\u6700\u4e13\u4e1a\u7684\u5a5a\u4ecb\u7f51\u7ad9\u3001\u5a5a\u5e86\u7f51\u7ad9\uff0c\u4ea4\u53cb\u7f51\u7ad9\uff0c\u53ca\u6d4e\u5357\u5f81\u5a5a\u3001\u6d4e\u5357\u4ea4\u53cb\u3001\u6d4e\u5357\u5a5a\u4ecb\u3001\u6d4e\u5357\u5e86\u5178\u3001\u6d4e\u5357\u793c\u4eea\u4e8e\u4e00\u4f53\uff0c\u7f51\u4e0b\u6709\u5b9e\u4f53\u5e97\u9762-\u6d4e\u5357\u5e02\u5e02\u4e2d\u533a\u5929\u559c\u7f18\u5a5a\u4ecb\u5a5a\u5e86\u4e2d\u5fc3\uff0c\u4e0d\u5b9a\u671f\u4e3e\u529e\u8054\u8c0a\u6d3b\u52a8\uff0c\u4fdd\u8bc1\u4f1a\u5458\u6210\u529f\u7387", "link": "http://www.dmozdir.org/SiteInformation/?www.love219.com-----14846-----.shtml"},
{"title": "\u6210\u90fd\u76db\u4e16\u9633\u5149\u5a5a\u5e86\u7b56\u5212\u6709\u9650\u516c\u53f8", "desc": "\u8bda\u4fe1\u6295\u8d44\u63a7\u80a1\u96c6\u56e2\u5c5e\u4e8e\u56db\u5ddd\u7701\u5927\u578b\u4f01\u4e1a\u96c6\u56e2\uff0c\u5ddd\u5185\u6392\u4e8e\u524d20\u540d\uff0c\u6ce8\u518c\u8d44\u91d13.5\u4ebf\u5143\uff0c\u62e5\u6709\u56fa\u5b9a\u8d44\u4ea746.5\u4ebf\u3002\u516c\u53f8\u603b\u90e8\u4f4d\u4e8e\u6210\u90fd\u5e02\u81f4\u6c11\u4e1c\u8def1\u53f7\u3002\u5728\u5317\u4eac\u3001\u4e0a\u6d77\u3001\u65b0\u7586\u7b49\u5730\u8bbe\u6709\u5206\u516c\u53f8\u3002\u8bda\u4fe1\u76db\u4e16\u9633\u5149\u5a5a\u5e86\u516c\u53f8\u662f\u5176\u5b50\u516c\u53f8\u3002", "link": "http://www.dmozdir.org/SiteInformation/?www.ssyg520.com-----27215-----.shtml"},
{"title": "\u60c5\u4eba\u7f51", "desc": "\u60c5\u4eba\u7f51\u4ea4\u53cb\u4e2d\u5fc3\u4e3a\u4f60\u63d0\u4f9b\u6700\u4f73\u7684\u7f51\u4e0a\u60c5\u4eba\u4ea4\u53cb\u673a\u4f1a\uff0c\u8db3\u4e0d\u51fa\u6237\u4fbf\u80fd\u8ba9\u4f60\u6709\u66f4\u591a\u7684\u9009\u62e9\uff01", "link": "http://www.dmozdir.org/SiteInformation/?www.591lover.net-----36999-----.shtml"},
{"title": "\u56fd\u9645\u514d\u8d39\u5a5a\u4ecb\u4ea4\u53cb\u7f51\u7ad9-\u76f8\u7ea6100", "desc": "\u56fd\u9645\u514d\u8d39\u5a5a\u4ecb\u4ea4\u53cb\u7f51\u7ad9\u662f\u76f8\u7ea6100\u63d0\u4f9b\u7684\u5b8c\u5168\u514d\u8d39\u7684\u56fd\u9645\u4ea4\u53cb\u7f51\u7ad9\u3002\u4f1a\u5458\u4ee5\u534e\u4eba\u4e3a\u4e3b\u904d\u5e03\u4e94\u6e56\u56db\u6d77,\u6240\u6709\u4f1a\u5458\u5b8c\u5168\u514d\u8d39\u3002\u6240\u6709\u5bfb\u627e\u56fd\u9645\u514d\u8d39\u5a5a\u4ecb\u4ea4\u53cb\u7f51\u7ad9\u7684\u670b\u53cb\u90fd\u80fd\u5728\u56fd\u9645\u4ea4\u53cb\u7f51\u7ad9\u5728\u627e\u5230\u5b8c\u5168\u514d\u8d39\u7684\u56fd\u9645\u514d\u8d39\u5a5a\u4ecb\u4ea4\u53cb\u7f51\u7ad9\u670d\u52a1", "link": "http://www.dmozdir.org/SiteInformation/?www.free-onlinedating.me-----10110-----.shtml"},
{"title": "\u5b89\u5fbd\u5a5a\u5e86\u7f51", "desc": "\u5b89\u5fbd\u5a5a\u5e86\u7f51", "link": "http://www.dmozdir.org/SiteInformation/?www.ahhqw.com-----18983-----.shtml"},
{"title": "\u805a\u7f18\u5317\u6d77\u4ea4\u53cb\u7f51", "desc": "\u805a\u7f18\u5317\u6d77\u4ea4\u53cb\u7f51\u662f\u5317\u6d77\u5730\u533a\u8f83\u89c4\u8303\u7684\u5a5a\u604b\u4ea4\u53cb\u7f51\u7ad9\uff0c\u81f4\u529b\u4e8e\u8425\u9020\u6709\u8da3\u800c\u5b89\u5168\u7684\u7f51\u7edc\u4ea4\u53cb\u793e\u533a\uff0c\u63d0\u4f9b\u641c\u7d22\u3001\u7f8e\u6587\u3001\u7ea6\u4f1a\u3001\u65e5\u8bb0\u3001\u804a\u5929\u3001\u7b49\u591a\u9879\u4ea4\u53cb\u670d\u52a1\u3002\u5e76\u4e0e\u5730\u65b9\u5a5a\u4ecb\u90e8\u95e8\u5efa\u7acb\u4e86\u826f\u597d\u7684\u5408\u4f5c\u5173\u7cfb\u3002", "link": "http://www.dmozdir.org/SiteInformation/?www.jyjjyy.com-----19343-----.shtml"},
{"title": "\u7231\u6211\u5427\u5a5a\u604b\u7f51", "desc": "\u7231\u6211\u5427\u5a5a\u604b\u7f51\u662f\u4e00\u4e2a\u771f\u5b9e\u3001\u4e25\u8083\u3001\u9ad8\u54c1\u4f4d\u7684\u5a5a\u604b\u5e73\u53f0\uff0c\u63d0\u4f9b\u79d1\u5b66\u3001\u9ad8\u6548\u7684\u5168\u7a0b\u670d\u52a1\uff0c\u5e2e\u52a9\u771f\u5fc3\u5bfb\u627e\u7ec8\u8eab\u4f34\u4fa3\u7684\u4eba\u58eb\u5b9e\u73b0\u548c\u8c10\u5a5a\u604b\uff0c\u52aa\u529b\u8425\u9020\u56fd\u5185\u6700\u4e13\u4e1a\u3001\u4e25\u8083\u7684\u5a5a\u604b\u4ea4\u53cb\u5e73", "link": "http://www.dmozdir.org/SiteInformation/?www.lovemeba.com-----9983-----.shtml"},
{"title": "77\u56fd\u9645\u4ea4\u53cb\u7f51", "desc": "\u7eaf\u516c\u76ca\u6027\uff0c\u7231\u5fc3\u793e\u4ea4\u7f51\u7ad9\uff0c\u4e3a\u5e7f\u5927\u9752\u5e74\u53ca\u5355\u8eab\u4eba\u58eb\u63d0\u4f9b\u7684\u5168\u514d\u8d39\u4ea4\u53cb\u5e73\u53f0\u3002", "link": "http://www.dmozdir.org/SiteInformation/?www.77lds.com-----37176-----.shtml"},
{"title": "\u4e1c\u839e\u97e9\u98ce\u5c1a\u5a5a\u7eb1\u6444\u5f71\u5de5\u4f5c\u5ba4", "desc": "\u4e1c\u839e\u97e9\u98ce\u5c1a\u5a5a\u7eb1\u6444\u5f71\u5de5\u4f5c\u5ba4\u662f\u5177\u6709\u72ec\u7279\u7684\u97e9\u56fd\u98ce\u683c\u7684\u4e1c\u839e\u5a5a\u7eb1\u6444\u5f71\u5de5\u4f5c\u5ba4\uff0c\u97e9\u98ce\u5c1a\u4f4d\u4e8e\u4e1c\u839e\u4e1c\u57ce\u533a\u65d7\u5cf0\u8def\u56fd\u6cf0\u5927\u53a610\u53f7,\u6211\u4eec\u6c38\u8fdc\u6ee1\u6000\u521b\u610f\u4e0e\u6e29\u60c5,\u901a\u8fc7\u4e00\u5bf9\u4e00\u7684\u670d\u52a1\u4e3a\u60a8\u63d0\u4f9b\u8d85\u8d8a\u60a8\u671f\u671b", "link": "http://www.dmozdir.org/SiteInformation/?www.dg-hfs.com-----18760-----.shtml"},
{"title": "\u767e\u5408\u5a5a\u793c\u793e\u533a", "desc": "\u767e\u5408\u5a5a\u793c\u793e\u533a\u8ba8\u8bba\u8bdd\u9898\u6db5\u76d6\u5a5a\u7eb1\u7167\u3001\u5a5a\u7eb1\u6444\u5f71\u3001\u5a5a\u793c\u7b79\u5907\u3001\u5a5a\u7eb1\u793c\u670d\u3001\u5a5a\u5e86\u7b49\u65b9\u9762", "link": "http://www.dmozdir.org/SiteInformation/?www.lilywed.cn-----9976-----.shtml"}
]
得到的保存的文件的内容就是我们需要的,但是这是二进制编码的形式。
(我目前还没有找到用于 Python 3 的解决方案,以后解决了再补充,也希望各位大佬看到了,能够不吝赐教。谢谢!)
哈哈,问题已经解决了,请看下面:
首先需要解释一点就是:pipeline.py 就是用于处理 item 的,所以,我们在pipeline.py 文件中对保存的文件进行处理操作:
将pipeline.py 写成这样:
# -*- coding: utf-8 -*-
# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
import json
class TutorialPipeline(object):
def __init__(self):
self.f = open('items.json', 'wb')
def process_item(self, item, spider):
line = json.dumps(dict(item), ensure_ascii = False) + "\n"
self.f.write(line.encode('utf-8'))
return item
def close_spider(self, spider):
self.f.close()
因为读取到的网页是 二进制文件,所以我们在__init__ 方法中, 建一个名为 items.json 的文件,以二进制形式写入。
在 process_item 方法中,对 item 文件进行编码 写入操作,最后在 close_spider 方法中,关闭文件。
接下来,就在settings.py 文件中开启 pipeline,加入下面的命令即可:
ITEM_PIPELINES = {
'tutorial.pipelines.TutorialPipeline': 300,
}
其中,TutorialPipeline 就是 pipeline.py 文件中的 类名
另外有一点需要提醒的是:
因为我们在 pipeline.py 中完成了新建文件的操作,所以 在CMD 中输入的命令 应该改为:scrapy crawl dmoz -t json
C:\Users\XiangyangDai\Desktop\tutorial>scrapy crawl dmoz -t json
2018-12-17 21:43:57 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: tutorial)
2018-12-17 21:43:57 [scrapy.utils.log] INFO: Versions: lxml 4.2.5.0, libxml2 2.9.5, cssselect 1.0.3, parsel 1.5.1, w3lib 1.19.0, Twisted 18.9.0, Python 3.5.2 |Anaconda 4.2.0 (64-bit)| (default, Jul 5 2016, 11:41:13) [MSC v.1900 64 bit (AMD64)], pyOpenSSL 18.0.0 (OpenSSL 1.1.0j 20 Nov 2018), cryptography 2.4.2, Platform Windows-10-10.0.17134-SP0
2018-12-17 21:43:57 [scrapy.crawler] INFO: Overridden settings: {'BOT_NAME': 'tutorial', 'NEWSPIDER_MODULE': 'tutorial.spiders', 'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES': ['tutorial.spiders']}
2018-12-17 21:43:57 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.logstats.LogStats',
'scrapy.extensions.telnet.TelnetConsole',
'scrapy.extensions.corestats.CoreStats']
2018-12-17 21:43:58 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
'scrapy.downloadermiddlewares.retry.RetryMiddleware',
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
'scrapy.downloadermiddlewares.stats.DownloaderStats']
2018-12-17 21:43:58 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
'scrapy.spidermiddlewares.referer.RefererMiddleware',
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
'scrapy.spidermiddlewares.depth.DepthMiddleware']
2018-12-17 21:43:58 [scrapy.middleware] INFO: Enabled item pipelines:
['tutorial.pipelines.TutorialPipeline']
2018-12-17 21:43:58 [scrapy.core.engine] INFO: Spider opened
2018-12-17 21:43:58 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2018-12-17 21:43:58 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2018-12-17 21:43:58 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
2018-12-17 21:43:58 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
2018-12-17 21:43:58 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '中国论文写发网提供免费论文,职称论文,毕业论文,硕士论文,本科论文,MBA论文,电大论文,述职报告,论文下载,工作总结,论 文推荐发表,论文写作指导,论文翻译等服务,网址www.lwxfw.com',
'link': 'http://www.dmozdir.org/SiteInformation/?www.lwxfw.com-----13589-----.shtml',
'title': '中国论文写发网'}
2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '专注代写论文网,论文代写,硕士论文代写,博士论文代写,各类职称论文代写代发!',
'link': 'http://www.dmozdir.org/SiteInformation/?www.zzlunwen010.com-----28351-----.shtml',
'title': '专注代写论文网,论文代写,硕士论文代写,博士论文代写'}
2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '论文天下,免费提供:论文范文,免费论文,论文大全, '
'论文下载,论文格式,论文提纲,论文发表,论文开题报告,论文题目等资料的查阅,有偿提供:论文代写、代发服务!',
'link': 'http://www.dmozdir.org/SiteInformation/?www.su30.net-----20547-----.shtml',
'title': '论文天下'}
2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '河南教师网/河南教师考试网/河南教师资格网/河南教育信息网/河南教师资格证历年真题/河南教师资格证复习资料/河南招教考试真题/河南招教考试复习资料/学习笔记/中国招教网/河南招教网/河南教师资格网',
'link': 'http://www.dmozdir.org/SiteInformation/?www.hateacher.com-----31307-----.shtml',
'title': '河南教师网'}
2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '久久论文检测网专业提供免费论文检测、论文检测软件、论文抄袭检测、知网论文检测、万方论文检测、论文修改资料以及免费论文检测系统。让您毕业答辩无忧!',
'link': 'http://www.dmozdir.org/SiteInformation/?www.99fx.net-----38891-----.shtml',
'title': '久久论文检测'}
2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '高三政治教学,政治高考,高中政治新课标,政治试卷,高中政治网址。',
'link': 'http://www.dmozdir.org/SiteInformation/?www.lgwlncy.com-----12221-----.shtml',
'title': '李国旺工作室'}
2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '笔杆子论文网提供免费论文、毕业论文、论文范文、论文下载、各专业论文、工作总结、论文定制、发表论文、购买论文、论文写作指导等服务',
'link': 'http://www.dmozdir.org/SiteInformation/?www.bgzlw.com-----45851-----.shtml',
'title': '笔杆子论文'}
2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '中国论文热线网提供职称论文推荐发表、省级刊物、核心刊物、CN、ISSN刊物推荐发表等服务,可以推荐发表多专业职称论文,是您职称评审论文发表的最佳伙伴,网址www.lwrxw.com',
'link': 'http://www.dmozdir.org/SiteInformation/?www.lwrxw.com-----15692-----.shtml',
'title': '中国论文热线网'}
2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '就要学习网是集教案,课件,试卷,毕业论文,教学视频为一体的免费资源网。',
'link': 'http://www.dmozdir.org/SiteInformation/?www.62355065.cn-----11960-----.shtml',
'title': '就要学习网'}
2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '毕业论文|毕业设计|毕业论文范文|计算机毕业设计|毕业论文格式范文|机械毕业设计|行政管理毕业论文|毕业设计开题报告|计算机网络毕业论文|毕业设计论文|毕业论文网|代做毕业设计|怎样写毕业论文',
'link': 'http://www.dmozdir.org/SiteInformation/?www.newlw.com-----25276-----.shtml',
'title': '新论文代写网'}
2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '天喜缘婚介婚庆网是济南最专业的婚介网站、婚庆网站,交友网站,及济南征婚、济南交友、济南婚介、济南庆典、济南礼仪于一体,网下有实体店面-济南市市中区天喜缘婚介婚庆中心,不定期举办联谊活动,保证会员成功率',
'link': 'http://www.dmozdir.org/SiteInformation/?www.love219.com-----14846-----.shtml',
'title': '天喜缘婚介网-最好的婚征婚介网站'}
2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '诚信投资控股集团属于四川省大型企业集团,川内排于前20名,注册资金3.5亿元,拥有固定资产46.5亿。公司总部位于成都 市致民东路1号。在北京、上海、新疆等地设有分公司。诚信盛世阳光婚庆公司是其子公司。',
'link': 'http://www.dmozdir.org/SiteInformation/?www.ssyg520.com-----27215-----.shtml',
'title': '成都盛世阳光婚庆策划有限公司'}
2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '情人网交友中心为你提供最佳的网上情人交友机会,足不出户便能让你有更多的选择!',
'link': 'http://www.dmozdir.org/SiteInformation/?www.591lover.net-----36999-----.shtml',
'title': '情人网'}
2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '国际免费婚介交友网站是相约100提供的完全免费的国际交友网站。会员以华人为主遍布五湖四海,所有会员完全免费。所有寻找国际免费婚介交友网站的朋友都能在国际交友网站在找到完全免费的国际免费婚介交友网站服务',
'link': 'http://www.dmozdir.org/SiteInformation/?www.free-onlinedating.me-----10110-----.shtml',
'title': '国际免费婚介交友网站-相约100'}
2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '安徽婚庆网',
'link': 'http://www.dmozdir.org/SiteInformation/?www.ahhqw.com-----18983-----.shtml',
'title': '安徽婚庆网'}
2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '聚缘北海交友网是北海地区较规范的婚恋交友网站,致力于营造有趣而安全的网络交友社区,提供搜索、美文、约会、日记、聊天、等多项交友服务。并与地方婚介部门建立了良好的合作关系。',
'link': 'http://www.dmozdir.org/SiteInformation/?www.jyjjyy.com-----19343-----.shtml',
'title': '聚缘北海交友网'}
2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '爱我吧婚恋网是一个真实、严肃、高品位的婚恋平台,提供科学、高效的全程服务,帮助真心寻找终身伴侣的人士实现和谐婚恋,努力营造国内最专业、严肃的婚恋交友平',
'link': 'http://www.dmozdir.org/SiteInformation/?www.lovemeba.com-----9983-----.shtml',
'title': '爱我吧婚恋网'}
2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '纯公益性,爱心社交网站,为广大青年及单身人士提供的全免费交友平台。',
'link': 'http://www.dmozdir.org/SiteInformation/?www.77lds.com-----37176-----.shtml',
'title': '77国际交友网'}
2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '东莞韩风尚婚纱摄影工作室是具有独特的韩国风格的东莞婚纱摄影工作室,韩风尚位于东莞东城区旗峰路国泰大厦10号,我们 永远满怀创意与温情,通过一对一的服务为您提供超越您期望',
'link': 'http://www.dmozdir.org/SiteInformation/?www.dg-hfs.com-----18760-----.shtml',
'title': '东莞韩风尚婚纱摄影工作室'}
2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '百合婚礼社区讨论话题涵盖婚纱照、婚纱摄影、婚礼筹备、婚纱礼服、婚庆等方面',
'link': 'http://www.dmozdir.org/SiteInformation/?www.lilywed.cn-----9976-----.shtml',
'title': '百合婚礼社区'}
2018-12-17 21:43:59 [scrapy.core.engine] INFO: Closing spider (finished)
2018-12-17 21:43:59 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 698,
'downloader/request_count': 3,
'downloader/request_method_count/GET': 3,
'downloader/response_bytes': 14618,
'downloader/response_count': 3,
'downloader/response_status_count/200': 3,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2018, 12, 17, 13, 43, 59, 33263),
'item_scraped_count': 20,
'log_count/DEBUG': 24,
'log_count/INFO': 7,
'response_received_count': 3,
'scheduler/dequeued': 2,
'scheduler/dequeued/memory': 2,
'scheduler/enqueued': 2,
'scheduler/enqueued/memory': 2,
'start_time': datetime.datetime(2018, 12, 17, 13, 43, 58, 626475)}
2018-12-17 21:43:59 [scrapy.core.engine] INFO: Spider closed (finished)
items.json 文件内容如下:
{"link": "http://www.dmozdir.org/SiteInformation/?www.lwxfw.com-----13589-----.shtml", "title": "中国论文写发网", "desc": "中国论文写发网提供免费论文,职称论文,毕业论文,硕士论文,本科论文,MBA论文,电大论文,述职报告,论文下载,工作总结,论文推荐发表,论文写作指导,论文翻译等服务,网址www.lwxfw.com"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.zzlunwen010.com-----28351-----.shtml", "title": "专注代写论文网,论文代写,硕士论文代写,博士论文代写", "desc": "专注代写论文网,论文代写,硕士论文代写,博士论文代写,各类职称论文代写代发!"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.su30.net-----20547-----.shtml", "title": "论文天下", "desc": "论文天下,免费提供:论文范文,免费论文,论文大全, 论文下载,论文格式,论文提纲,论文发表,论文开题报告,论文题目等资料的查阅,有偿提供:论文代写、代发服务!"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.hateacher.com-----31307-----.shtml", "title": "河南教师网", "desc": "河南教师网/河南教师考试网/河南教师资格网/河南教育信息网/河南教师资格证历年真题/河南教师资格证复习资料/河南招教考试真题/河南招教考试复习资料/学习笔记/中国招教网/河南招教网/河南教师资格网"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.99fx.net-----38891-----.shtml", "title": "久久论文检测", "desc": "久久论文检测网专业提供免费论文检测、论文检测软件、论文抄袭检测、知网论文检测、万方论文检测、论文修改资料以及免费论文检测系统。让您毕业答辩无忧!"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.lgwlncy.com-----12221-----.shtml", "title": "李国旺工作室", "desc": "高三政治教学,政治高考,高中政治新课标,政治试卷,高中政治网址。"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.bgzlw.com-----45851-----.shtml", "title": "笔杆子论文", "desc": "笔杆子论文网提供免费论文、毕业论文、论文范文、论文下载、各专业论文、工作总结、论文定制、发表论文、购买论文、论文写作指导等服务"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.lwrxw.com-----15692-----.shtml", "title": "中国论文热线网", "desc": "中国论文热线网提供职称论文推荐发表、省级刊物、核心刊物、CN、ISSN刊物推荐发表等服务,可以推荐发表多专业职称论文,是您职称评审论文发表的最佳伙伴,网址www.lwrxw.com"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.62355065.cn-----11960-----.shtml", "title": "就要学习网", "desc": "就要学习网是集教案,课件,试卷,毕业论文,教学视频为一体的免费资源网。"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.newlw.com-----25276-----.shtml", "title": "新论文代写网", "desc": "毕业论文|毕业设计|毕业论文范文|计算机毕业设计|毕业论文格式范文|机械毕业设计|行政管理毕业论文|毕业设计开题报告|计算机网络毕业论文|毕业设计论文|毕业论文网|代做毕业设计|怎样写毕业论文"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.love219.com-----14846-----.shtml", "title": "天喜缘婚介网-最好的婚征婚介网站", "desc": "天喜缘婚介婚庆网是济南最专业的婚介网站、婚庆网站,交友网站,及济南征婚、济南交友、济南婚介、济南庆典、济南礼仪于一体,网下有实体店面-济南市市中区天喜缘婚介婚庆中心,不定期举办联谊活动,保证会员成功率"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.ssyg520.com-----27215-----.shtml", "title": "成都盛世阳光婚庆策划有限公司", "desc": "诚信投资控股集团属于四川省大型企业集团,川内排于前20名,注册资金3.5亿元,拥有固定资产46.5亿。公司总部位于成都市致民东路1号。在北京、上海、新疆等地设有分公司。诚信盛世阳光婚庆公司是其子公司。"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.591lover.net-----36999-----.shtml", "title": "情人网", "desc": "情人网交友中心为你提供最佳的网上情人交友机会,足不出户便能让你有更多的选择!"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.free-onlinedating.me-----10110-----.shtml", "title": "国际免费婚介交友网站-相约100", "desc": "国际免费婚介交友网站是相约100提供的完全免费的国际交友网站。会员以华人为主遍布五湖四海,所有会员完全免费。所有寻找国际免费婚介交友网站的朋友都能在国际交友网站在找到完全免费的国际免费婚介交友网站服务"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.ahhqw.com-----18983-----.shtml", "title": "安徽婚庆网", "desc": "安徽婚庆网"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.jyjjyy.com-----19343-----.shtml", "title": "聚缘北海交友网", "desc": "聚缘北海交友网是北海地区较规范的婚恋交友网站,致力于营造有趣而安全的网络交友社区,提供搜索、美文、约会、日记、聊天、等多项交友服务。并与地方婚介部门建立了良好的合作关系。"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.lovemeba.com-----9983-----.shtml", "title": "爱我吧婚恋网", "desc": "爱我吧婚恋网是一个真实、严肃、高品位的婚恋平台,提供科学、高效的全程服务,帮助真心寻找终身伴侣的人士实现和谐婚恋,努力营造国内最专业、严肃的婚恋交友平"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.77lds.com-----37176-----.shtml", "title": "77国际交友网", "desc": "纯公益性,爱心社交网站,为广大青年及单身人士提供的全免费交友平台。"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.dg-hfs.com-----18760-----.shtml", "title": "东莞韩风尚婚纱摄影工作室", "desc": "东莞韩风尚婚纱摄影工作室是具有独特的韩国风格的东莞婚纱摄影工作室,韩风尚位于东莞东城区旗峰路国泰大厦10号,我们永远满怀创意与温情,通过一对一的服务为您提供超越您期望"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.lilywed.cn-----9976-----.shtml", "title": "百合婚礼社区", "desc": "百合婚礼社区讨论话题涵盖婚纱照、婚纱摄影、婚礼筹备、婚纱礼服、婚庆等方面"}
终于是中文了,看着就是舒服。
你可能感兴趣的:(python零基础,python)
理解Gunicorn:Python WSGI服务器的基石
范范0825
ipython linux 运维
理解Gunicorn:PythonWSGI服务器的基石介绍Gunicorn,全称GreenUnicorn,是一个为PythonWSGI(WebServerGatewayInterface)应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具,Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置,帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南
William数据分析
python python 数据
在数据驱动的时代,Python因其简洁的语法、强大的库生态系统以及活跃的社区,成为了数据分析与可视化的首选语言。本文将通过一个详细的案例,带领大家学习如何使用Python进行数据分析,并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前,我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ
江湖偌大
python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值,输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息(INFO)os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息(INFO\WARNING)os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法
鹤冲天Pro
# Python python 服务器 开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏:打造沉浸式数据分析体验
我的运维人生
信息可视化 数据分析 数据挖掘 运维开发 技术共享
Pyecharts数据可视化大屏:打造沉浸式数据分析体验在当今这个数据驱动的时代,如何将海量数据以直观、生动的方式展现出来,成为了数据分析师和企业决策者关注的焦点。Pyecharts,作为一款基于Python的开源数据可视化库,凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力,成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏,并通过实际代码案例
Python教程:一文了解使用Python处理XPath
旦莫
Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath?2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量
weixin_39605414
python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索
llzwxh888
faiss python
在现代AI应用中,快速和高效的相似度搜索是至关重要的。Faiss(FacebookAISimilaritySearch)是一个专门用于快速相似度搜索和聚类的库,特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索,并结合Python代码演示其基本用法。什么是Faiss?Faiss是一个由FacebookAIResearch团队开发的开源库,主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思
编程大乐趣
Python中%有两种:1、数值运算:%代表取模,返回除法的余数。如:>>>7%212、%操作符(字符串格式化,stringformatting),说明如下:%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+,-,''或0。+表示右对齐。-表示左对齐。''为一个空格,表示在正数的左侧填充一个空格,从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出
~在杰难逃~
Python python 开发语言 大数据 数据分析 数据挖掘
大家好,从今天开始呢,杰哥开展一个新的专栏,当然,数据分析部分也会不定时更新的,这个新的专栏主要是讲解一些Python的基础语法和知识,帮助0基础的小伙伴入门和学习Python,感兴趣的小伙伴可以开始认真学习啦!一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码,再通过语言处理程序执行向计算机发送指令,让计算机完成对应的工作,编程
python八股文面试题分享及解析(1)
Shawn________
python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果:21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型,不仅仅改变
每日算法&面试题,大厂特训二十八天——第二十天(树)
肥学
⚡算法题⚡面试题每日精进 java 算法 数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题,最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧!!特别介绍小白练手专栏,适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节:类与对象
孤华暗香
Python快速入门 python 开发语言
第三节:类与对象目标:了解面向对象编程的基础概念,并学会如何定义类和创建对象。内容:类与对象:定义类:class关键字。类的构造函数:__init__()。类的属性和方法。对象的创建与使用。示例:classStudent:def__init__(self,name,age,major):self.name
pyecharts——绘制柱形图折线图
2224070247
信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd)数据可视化团队研发的ECharts1.0发布到GitHub网站以来,ECharts一直备受业界权威的关注并获得广泛好评,成为目前成熟且流行的数据可视化图表工具,被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言,也加入ECharts的使用行列,并研发出方便Python开发者使用的数据
Python 实现图片裁剪(附代码) | Python工具
剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法,一如既往的实用主义。环境依赖ffmpeg环境安装,可以参考我的另一篇文章:windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg,而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装:pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了,上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库(4)
算法大师
华为od 面试 python
华为OD面试真题精选专栏:华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例:文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片(Slicing)操作**基本切片语法
python os 环境变量
CV矿工
python 开发语言 numpy
环境变量:环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里,比如数据库密码,个人账户密码,如果写进自己本机的环境变量里,程序用的时候通过os.environ.get()取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量:os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解
eqa11
python 爬虫 开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中,数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库(1)
算法大师
华为od 面试 python
华为OD面试真题精选专栏:华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归(LinearRegression)模型形式:关键点:逻辑回归(LogisticRegression)模型形式:关键点:参数估计与评估:3.python浅拷贝及深拷贝浅拷贝(Shal
nosql数据库技术与应用知识点
皆过客,揽星河
NoSQL nosql 数据库 大数据 数据分析 数据结构 非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》
xjt921122
python 数据分析 开发语言
对于分析师来说,大家在学习Python数据分析的路上,多多少少都遇到过很多大坑**,有关于技能和思维的**:Excel已经没办法处理现有的数据量了,应该学Python吗?找了一大堆Python和Pandas的资料来学习,为什么自己动手就懵了?跟着比赛类公开数据分析案例练了很久,为什么当自己面对数据需求还是只会数据处理而没有分析思路?学了对比、细分、聚类分析,也会用PEST、波特五力这类分析法,为啥
Python中深拷贝与浅拷贝的区别
yuxiaoyu.
转自:http://blog.csdn.net/u014745194/article/details/70271868定义:在Python中对象的赋值其实就是对象的引用。当创建一个对象,把它赋值给另一个变量的时候,python并没有拷贝这个对象,只是拷贝了这个对象的引用而已。浅拷贝:拷贝了最外围的对象本身,内部的元素都只是拷贝了一个引用而已。也就是,把对象复制一遍,但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下:
换个网名有点难
python 开发语言
Python是一门功能强大的编程语言,拥有丰富的第三方库,这些库为开发者提供了极大的便利。以下是100个常用的Python库,涵盖了多个领域:1、NumPy,用于科学计算的基础库。2、Pandas,提供数据结构和数据分析工具。3、Matplotlib,一个绘图库。4、Scikit-learn,机器学习库。5、SciPy,用于数学、科学和工程的库。6、TensorFlow,由Google开发的开源机
Python编译器
鹿鹿~
Python编译器 Python python 开发语言 后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的,也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用,其实你还说对了这个还真的不可以吃也不可以穿,但是它用来干嘛的呢。用来编译你所打出的代码进行运行(可能这里说的有点不对但是只是个人认为)现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE,带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法(二)
程序员neil
python python 开发语言
接上篇:一文掌握python面向对象魔术方法(一)-CSDN博客目录六、迭代和序列化:1、__iter__(self):定义迭代器,使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作,如obj[key]。3、__setitem__(self,key,value):定义赋值操作,如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list(列表)操作
程序员neil
python python 开发语言
目录一、创建列表1.直接创建列表:2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素,索引从0开始:2.还可以使用切片操作访问列表的一部分:三、修改列表元素四、添加元素1.append():在末尾添加元素2.insert():在指定位置插入元素五、删除元素1.del:删除指定位置的元素2.remove():删除指定值的第一个匹配项3.pop():
Python实现简单的机器学习算法
master_chenchengg
python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇:初探机器学习的奇妙之旅搭建环境:一切从安装开始必备工具箱第一步:安装Anaconda和JupyterNotebook小贴士:如何配置Python环境变量算法初体验:从零开始的Python机器学习线性回归:让数据说话数据准备:从哪里找数据编码实战:Python实现线性回归模型评估:如何判断模型好坏逻辑回归:从分类开始理论入门:什么是逻辑回归代码实现:使用skl
python中的深拷贝与浅拷贝
anshejd70787
python
深拷贝和浅拷贝浅拷贝的时候,修改原来的对象,浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用:当创建一个对象,然后将这个对象赋值给另外一个变量的时候,python并没有拷贝这个对象,而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候,总是传递原始对象的引用,而不是一个副本。如下所示:>>>aList=["kel","abc",123]>>>bLis
用Python实现简单的猜数字游戏
程序媛了了
python 游戏 java
猜数字游戏代码:importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字:"))whilen!=a:ifn>a:print("很遗憾,猜大了")n=int(input("请再次输入你猜想的数字:"))elifna::如果玩家猜的数字n大于随机数字a,则输出"很遗憾,猜大了",并提示玩家再次输入。elifn
用Python实现读取统计单词个数
程序媛了了
python 游戏 java
完整实例代码:fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
基本数据类型和引用类型的初始值
3213213333332132
java基础
package com.array;
/**
* @Description 测试初始值
* @author FuJianyong
* 2015-1-22上午10:31:53
*/
public class ArrayTest {
ArrayTest at;
String str;
byte bt;
short s;
int i;
long
摘抄笔记--《编写高质量代码:改善Java程序的151个建议》
白糖_
高质量代码
记得3年前刚到公司,同桌同事见我无事可做就借我看《编写高质量代码:改善Java程序的151个建议》这本书,当时看了几页没上心就没研究了。到上个月在公司偶然看到,于是乎又找来看看,我的天,真是非常多的干货,对于我这种静不下心的人真是帮助莫大呀。
看完整本书,也记了不少笔记
【备忘】Django 常用命令及最佳实践
dongwei_6688
django
注意:本文基于 Django 1.8.2 版本
生成数据库迁移脚本(python 脚本)
python manage.py makemigrations polls
说明:polls 是你的应用名字,运行该命令时需要根据你的应用名字进行调整
查看该次迁移需要执行的 SQL 语句(只查看语句,并不应用到数据库上):
python manage.p
阶乘算法之一N! 末尾有多少个零
周凡杨
java 算法 阶乘 面试 效率
&n
spring注入servlet
g21121
Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的,配置代理servlet亦比较麻烦,这里其实有比较简单的方法,其实就是在servlet的init()方法中加入要注入的内容:
ServletContext application = getServletContext();
WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档
510888780
centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/
基本的格式为
java
基本的格式为
java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args]
下面具体介绍各个命令的作用及基本使用方法
1. &nb
UnicodeBlock检测中文用法
布衣凌宇
UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数
aijuans
java orale
1.创建表:STOCK_PRICES
2.插入测试数据:
3.建立一个返回游标:
PKG_PUB_UTILS
4.创建和存储过程:P_GET_PRICE
5.创建函数:
6.JAVA调用存储过程返回结果集
JDBCoracle10G_INVO
Velocity Toolbox
antlove
模板 tool box velocity
velocity.VelocityUtil
package velocity;
import org.apache.velocity.Template;
import org.apache.velocity.app.Velocity;
import org.apache.velocity.app.VelocityEngine;
import org.apache.velocity.c
JAVA正则表达式匹配基础
百合不是茶
java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作
正则表达式的用途;
字符串的匹配
字符串的分割
字符串的查找
字符串的替换
正则表达式的验证语法
[a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置
bijian1013
jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题,由于前端采用EasyTemplate模板方法实现数据展示,但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了,导致我的模板不能正常展示后台数据。
网
精通Oracle10编程SQL(1-3)PLSQL基础
bijian1013
oracle 数据库 plsql
--只包含执行部分的PL/SQL块
--set serveroutput off
begin
dbms_output.put_line('Hello,everyone!');
end;
select * from emp;
--包含定义部分和执行部分的PL/SQL块
declare
v_ename varchar2(5);
begin
select
【Nginx三】Nginx作为反向代理服务器
bit1129
nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能:
接受客户端请求
将请求转发给被代理的服务器
从被代理的服务器获得响应结果
把响应结果返回给客户端
实例
本文把Nginx配置成一个简单的代理服务器
对于静态的html和图片,直接从Nginx获取
对于动态的页面,例如JSP或者Servlet,Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin
blackproof
maven 报错
转:http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin
maven报错:
Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon
ronin47
docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry
docker pull docker-registry
docker run -t -p 5000:5000 docker-registry
下载docker镜像并发布到私有registry
docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈
bylijinnan
java
import java.util.ArrayList;
import java.util.List;
import java.util.Stack;
/*
* Q 57 用两个栈实现队列
*/
public class QueueImplementByTwoStacks {
private Stack<Integer> stack1;
pr
Nginx配置性能优化
cfyme
nginx
转载地址:http://blog.csdn.net/xifeijian/article/details/20956605
大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装,修改这里或那里的几行配置,好了,你已经有了一个Web服务器了。而且,在大多数情况下,一个常规安装的nginx对你的网站来说已经能很好地工作了。然而,如果你真的想挤压出Nginx的性能,你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术
comsci
java
对图形图像进行精确处理,需要大量的数学工具,即使是从底层硬件模拟层开始设计,也离不开大量的数学工具包,因为我认为,JAVA语言体系在图形图像处理模块上面的研发工作,需要从开发一些基础的,类似实时数学函数构造器和解析器的软件包入手,而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件......
&nb
MonkeyRunner的使用
dai_lm
android MonkeyRunner
要使用MonkeyRunner,就要学习使用Python,哎
先抄一段官方doc里的代码
作用是启动一个程序(应该是启动程序默认的Activity),然后按MENU键,并截屏
# Imports the monkeyrunner modules used by this program
from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案
datamachine
mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案,存档。
原帖:http://blog.csdn.net/calvinxiu/article/details/1506112。
Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入
dcj3sjt126com
yii
以資料庫驗證登入
由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks:[2]php版本自动触发更新
dcj3sjt126com
github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。
工具/原料
git
github
方法/步骤
在github的setting里面的webhooks里把我们的url地址填进去。
钩子更新的代码如下: error_reportin
Eos开发常用表达式
蕃薯耀
Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
蕃薯耀 2014年8月18日 15:03:35 星期一
&
SpringSecurity3.X--SpEL 表达式
hanqunfeng
SpringSecurity
使用 Spring 表达式语言配置访问控制,要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性:
<http auto-config="true" use-expressions="true">
这样就会在投票器中自动增加一个投票器:org.springframework
Redis vs Memcache
IXHONG
redis
1. Redis中,并不是所有的数据都一直存储在内存中的,这是和Memcached相比一个最大的区别。
2. Redis不仅仅支持简单的k/v类型的数据,同时还提供list,set,hash等数据结构的存储。
3. Redis支持数据的备份,即master-slave模式的数据备份。
4. Redis支持数据的持久化,可以将内存中的数据保持在磁盘中,重启的时候可以再次加载进行使用。
Red
Python - 装饰器使用过程中的误区解读
kvhur
JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式,经常被用于AOP(面向切面编程)的场景,较为经典的有插入日志,性能测试,事务处理,Web权限校验, Cache等。
原文链接:http://www.gbtags.com/gb/share/5563.htm
Python语言本身提供了装饰器语法(@),典型的装饰器实现如下:
@function_wrapper
de
架构师之mybatis-----update 带case when 针对多种情况更新
nannan408
case when
1.前言.
如题.
2. 代码.
<update id="batchUpdate" parameterType="java.util.List">
<foreach collection="list" item="list" index=&
Algorithm算法视频教程
栏目记者
Algorithm 算法
课程:Algorithm算法视频教程
百度网盘下载地址: http://pan.baidu.com/s/1qWFjjQW 密码: 2mji
程序写的好不好,还得看算法屌不屌!Algorithm算法博大精深。
一、课程内容:
课时1、算法的基本概念 + Sequential search
课时2、Binary search
课时3、Hash table
课时4、Algor
C语言算法之冒泡排序
qiufeihu
c 算法
任意输入10个数字由小到大进行排序。
代码:
#include <stdio.h>
int main()
{
int i,j,t,a[11]; /*定义变量及数组为基本类型*/
for(i = 1;i < 11;i++){
scanf("%d",&a[i]); /*从键盘中输入10个数*/
}
for
JSP异常处理
wyzuomumu
Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中:
<%@ page errorPage="errors.jsp"%>
2.在处理异常的网页中做如下声明:
errors.jsp:
<%@ page isErrorPage="true"%>,这样设置完后就可以在网页中直接访问exc