元素的文字
//td:选择所有的
元素
//div[@class="mine"]:选择所有具有 class="mine"属性的 div 元素
我们这里给大家演示一下:(值的一提的是:reponse.xpath() 已经映射到了 response.selector.xpath() ,所以,我们以后就只使用 response.selector.xpath() )
#CMD窗口
In [6]: response.selector.xpath('//title')
Out[6]: []
我们使用上面的语句得到 title,'//标签的名字' 表示选出这个网页里面所有这个标签的元素,大家可以看到,title只有一个。返回的是一个 Selector 对象的列表。
你想把这个列表给字符串化,可以使用 extract() ,如下,就得到了一个 unicode 的字符串。
#CMD窗口
In [7]: response.selector.xpath('//title').extract()
Out[7]: ['婚恋交友-生活与服务-目录分类-DMOZ中文网站分类目录 ']
你如果想要得到 title 里面的文字(只显示title 的文字,不要标签),你就可以:
#CMD窗口
In [9]: response.selector.xpath('//title/text()').extract()
Out[9]: ['婚恋交友-生活与服务-目录分类-DMOZ中文网站分类目录']
非常方便,比你挖空心思去写正则表达式要容易得多,而且不会出错,因为它是根据节点(也就是网页中的标签)来一个一个去查找的。
我们接下来就是提取数据了,尝试从页面中提取出对我们有用的数据。你可以从 response.body 里面去找,但我们极力不建议这样做,因为这浪费时间又不讨好,之前不是说了,有一个审查元素吗,我们来看看 我们想要的 title,link 和 desc 的规律。
布袋除尘器_袋式脉冲除尘器_小型除尘器_除尘器骨架_除尘器布袋_UV光氧催化设备_VOC催化燃烧设备生产厂家,型号齐全,价格合理,批发定做。河北富宇环保设备有限公司
我们发现,在一个 ul 标签 和 li 标签中间,而且每个 li 标签对应一组数据,所以,我们先找 ul ,再找 li 就对了。
好,那我们来试一下:
#CMD窗口
In [12]: response.selector.xpath('//ul/li')
Out[12]:
[,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
]
response.selector.xpath('//ul/li') 命令就把 response 里面所有的 ul/li 给打印出来了,我们要获得网站的描述的内容(desc),就还需要再加上一个 /p :
#CMD窗口
In [18]: response.selector.xpath('//ul/li/p')
Out[18]:
[,
,
,
,
,
,
,
,
,
]
这里看不完整,我们可以使用 extract():
#CMD窗口
In [19]: response.selector.xpath('//ul/li/p').extract()
Out[19]:
['天喜缘婚介婚庆网是济南最专业的婚介网站、婚庆网站,交友网站,及济南征婚、济南交友、济南婚介、济南庆典、济南礼仪于一体,网下有实体店面-济南市市中区天喜缘婚介婚庆中心,不定期举办联谊活动,保证会员成功率
',
'诚信投资控股集团属于四川省大型企业集团,川内排于前20名,注册资金3.5亿元,拥有固定资产46.5亿。公司总部位于成都市致民东路1号。在北京、上海、新疆等地设有分公司。诚信盛世阳光婚庆公司是其子公司。
',
'情人网交友中心为你提供最佳的网上情人交友机会,足不出户便能让你有更多的选择!
',
'国际免费婚介交友网站是相约100提供的完全免费的国际交友网站。会员以华人为主遍布五湖四海,所有会员完全免费。所有寻找国际免费婚介交友网站的朋友都能在国际交友网站在找到完全免费的国际免费婚介交友网站服务
',
'安徽婚庆网
',
'聚缘北海交友网是北海地区较规范的婚恋交友网站,致力于营造有趣而安全的网络交友社区,提供搜索、美文、约会、日记、聊天、等多项交友服务。并与地方婚介部门建立了良好的合作关系。
',
'爱我吧婚恋网是一个真实、严肃、高品位的婚恋平台,提供科学、高效的全程服务,帮助真心寻找终身伴侣的人士实现和谐婚恋,努力营造国内最专业、严肃的婚恋交友平
',
'纯公益性,爱心社交网站,为广大青年及单身人士提供的全免费交友平台。
',
'东莞韩风尚婚纱摄影工作室是具有独特的韩国风格的东莞婚纱摄影工作室,韩风尚位于东莞东城区旗峰路国泰大厦10号,我们永远满怀创意与温情,通过一对一的服务为您提供超越您期望
',
'百合婚礼社区讨论话题涵盖婚纱照、婚纱摄影、婚礼筹备、婚纱礼服、婚庆等方面
']
如果再加上 text() ,就只显示文本内容,删除了标签 p
#CMD窗口
In [20]: response.selector.xpath('//ul/li/p/text()').extract()
Out[20]:
['天喜缘婚介婚庆网是济南最专业的婚介网站、婚庆网站,交友网站,及济南征婚、济南交友、济南婚介、济南庆典、济南礼仪于一体,网下有实体店面-济南市市中区天喜缘婚介婚庆中心,不定期举办联谊活动,保证会员成功率',
'诚信投资控股集团属于四川省大型企业集团,川内排于前20名,注册资金3.5亿元,拥有固定资产46.5亿。公司总部位于成都市致民东路1号。在北京、上海、新疆等地设有分公司。诚信盛世阳光婚庆公司是其子公司。',
'情人网交友中心为你提供最佳的网上情人交友机会,足不出户便能让你有更多的选择!',
'国际免费婚介交友网站是相约100提供的完全免费的国际交友网站。会员以华人为主遍布五湖四海,所有会员完全免费。所有寻找国际免费婚介交友网站的朋友都能在国际交友网站在找到完全免费的国际免费婚介交友网站服务',
'安徽婚庆网',
'聚缘北海交友网是北海地区较规范的婚恋交友网站,致力于营造有趣而安全的网络交友社区,提供搜索、美文、约会、日记、聊天、等多项交友服务。并与地方婚介部门建立了良好的合作关系。',
'爱我吧婚恋网是一个真实、严肃、高品位的婚恋平台,提供科学、高效的全程服务,帮助真心寻找终身伴侣的人士实现和谐婚恋,努力营造国内最专业、严肃的婚恋交友平',
'纯公益性,爱心社交网站,为广大青年及单身人士提供的全免费交友平台。',
'东莞韩风尚婚纱摄影工作室是具有独特的韩国风格的东莞婚纱摄影工作室,韩风尚位于东莞东城区旗峰路国泰大厦10号,我们永远满怀创意与温情,通过一对一的服务为您提供超越您期望',
'百合婚礼社区讨论话题涵盖婚纱照、婚纱摄影、婚礼筹备、婚纱礼服、婚庆等方面']
我们想要得到各网站的标题(title):我们审查元素看到,标题的内容是在 h4 标签里面的 a 标签的文本里面,所以:
#CMD窗口
In [25]: response.selector.xpath('//ul/li/h4/a/text()').extract()
Out[25]:
['天喜缘婚介网-最好的婚征婚介网站',
'成都盛世阳光婚庆策划有限公司',
'情人网',
'国际免费婚介交友网站-相约100',
'安徽婚庆网',
'聚缘北海交友网',
'爱我吧婚恋网',
'77国际交友网',
'东莞韩风尚婚纱摄影工作室',
'百合婚礼社区']
接下来,我们想得到网址的超链接(link),我们可以使用 response.selector.xpath('//ul/li/h4/a/@href').extract()
#CMD窗口
In [28]: response.selector.xpath('//ul/li/h4/a/@href').extract()
Out[28]:
['http://www.dmozdir.org/SiteInformation/?www.love219.com-----14846-----.shtml',
'http://www.dmozdir.org/SiteInformation/?www.ssyg520.com-----27215-----.shtml',
'http://www.dmozdir.org/SiteInformation/?www.591lover.net-----36999-----.shtml',
'http://www.dmozdir.org/SiteInformation/?www.free-onlinedating.me-----10110-----.shtml',
'http://www.dmozdir.org/SiteInformation/?www.ahhqw.com-----18983-----.shtml',
'http://www.dmozdir.org/SiteInformation/?www.jyjjyy.com-----19343-----.shtml',
'http://www.dmozdir.org/SiteInformation/?www.lovemeba.com-----9983-----.shtml',
'http://www.dmozdir.org/SiteInformation/?www.77lds.com-----37176-----.shtml',
'http://www.dmozdir.org/SiteInformation/?www.dg-hfs.com-----18760-----.shtml',
'http://www.dmozdir.org/SiteInformation/?www.lilywed.cn-----9976-----.shtml']
上面所有的命令,如果没有假设 extract() ,就是得到 selector 对象的列表,加上 extract() 之后呢,得到的就是 将 selector 对象中的 data 变成字符串 提取出来。
我们这里还可以写一个循环来打印内容:
#CMD窗口
In [44]: a=response.selector.xpath('//ul/li/h4/a/text()').extract()
In [45]: for each in a:
...: print(each)
...:
天喜缘婚介网-最好的婚征婚介网站
成都盛世阳光婚庆策划有限公司
情人网
国际免费婚介交友网站-相约100
安徽婚庆网
聚缘北海交友网
爱我吧婚恋网
77国际交友网
东莞韩风尚婚纱摄影工作室
百合婚礼社区
一切OK了,接下来就是写我们的代码了,把它投入到生产线上去实现:
我们 退出 shell (使用命令 exit()),回到我们的 CMD,
#CMD窗口
In [48]: exit()
C:\Users\XiangyangDai\Desktop\tutorial>
修改我们的 Spider 代码,也就是 dmoz_spider.py。我们就按刚才从 shell 获得的经验来写 parse() 函数。
#dmoz_spider.py
import scrapy
class DmozSpider(scrapy.Spider):
name = "dmoz"
allowed_domains = ['dmozdir.org/Category']
start_urls = ['http://www.dmozdir.org/Category/?SmallPath=411']
# 'http://www.dmozdir.org/Category/?SmallPath=411']
def parse(self, response):
titles = response.selector.xpath('//ul/li/h4/a/text()').extract() #标题 title
links = response.selector.xpath('//ul/li/h4/a/@href').extract() #超链接 link
decss = response.selector.xpath('//ul/li/p/text()').extract() #描述 decs
if len(titles) == len(links) == len(decss):
for i in range(len(titles)):
print(titles[i], links[i], decss[i])
写好之后,保存,进入 CMD,在 tutorial 根目录下执行命令:scrapy crawl dmoz
#CMD窗口
C:\Users\XiangyangDai\Desktop\tutorial>scrapy crawl dmoz
2018-12-17 19:32:48 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: tutorial)
2018-12-17 19:32:48 [scrapy.utils.log] INFO: Versions: lxml 4.2.5.0, libxml2 2.9.5, cssselect 1.0.3, parsel 1.5.1, w3lib 1.19.0, Twisted 18.9.0, Python 3.5.2 |Anaconda 4.2.0 (64-bit)| (default, Jul 5 2016, 11:41:13) [MSC v.1900 64 bit (AMD64)], pyOpenSSL 18.0.0 (OpenSSL 1.1.0j 20 Nov 2018), cryptography 2.4.2, Platform Windows-10-10.0.17134-SP0
2018-12-17 19:32:48 [scrapy.crawler] INFO: Overridden settings: {'SPIDER_MODULES': ['tutorial.spiders'], 'ROBOTSTXT_OBEY': True, 'BOT_NAME': 'tutorial', 'NEWSPIDER_MODULE': 'tutorial.spiders'}
2018-12-17 19:32:48 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.telnet.TelnetConsole',
'scrapy.extensions.corestats.CoreStats',
'scrapy.extensions.logstats.LogStats']
2018-12-17 19:32:49 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
'scrapy.downloadermiddlewares.retry.RetryMiddleware',
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
'scrapy.downloadermiddlewares.stats.DownloaderStats']
2018-12-17 19:32:49 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
'scrapy.spidermiddlewares.referer.RefererMiddleware',
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
'scrapy.spidermiddlewares.depth.DepthMiddleware']
2018-12-17 19:32:49 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2018-12-17 19:32:49 [scrapy.core.engine] INFO: Spider opened
2018-12-17 19:32:49 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2018-12-17 19:32:49 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2018-12-17 19:32:49 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
2018-12-17 19:32:49 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
2018-12-17 19:32:49 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
中国论文写发网 http://www.dmozdir.org/SiteInformation/?www.lwxfw.com-----13589-----.shtml 中国论文写发网提供免费论文,职称论文,毕业论文,硕士论文,本科论文,MBA论文,电大论文,述职报告,论文下载,工作总结,论文推荐发表,论文写作指导,论文翻译等服务,网址www.lwxfw.com
专注代写论文网,论文代写,硕士论文代写,博士论文代写 http://www.dmozdir.org/SiteInformation/?www.zzlunwen010.com-----28351-----.shtml 专注代写论文网,论文代写,硕士论文代写,博士论文代写,各类职称论文代写代发!
论文天下 http://www.dmozdir.org/SiteInformation/?www.su30.net-----20547-----.shtml 论文天下,免费提供:论文范文,免费论文,论文大全, 论文下载,论文格式,论文提纲,论文发表,论文开题报告,论文题目等资料的查阅,有偿提供:论文代写、代发服 务!
河南教师网 http://www.dmozdir.org/SiteInformation/?www.hateacher.com-----31307-----.shtml 河南教师网/河南教师考试网/河南教师资格网/河南教育信息网/河南教师资格证历年真题/河南教师资格证复习资料/河南招教考试真题/河南招教考试复习资料/学习笔 记/中国招教网/河南招教网/河南教师资格网
久久论文检测 http://www.dmozdir.org/SiteInformation/?www.99fx.net-----38891-----.shtml 久久论文检测网专业提供免费论文检测、论文检测软件、论文抄袭检测、知网论文检测、万方论文检测、论文修改资料以及免费论文检测系统。让您毕业答辩无忧!
李国旺工作室 http://www.dmozdir.org/SiteInformation/?www.lgwlncy.com-----12221-----.shtml 高三政治教学,政治高考,高中政治新课标,政治试卷,高中政治网址。
笔杆子论文 http://www.dmozdir.org/SiteInformation/?www.bgzlw.com-----45851-----.shtml 笔杆子论文网提供免费论文、毕业论文、论文范文、论文下载、各专业论文、工作总结、论文定制、发表论文、购买论文、论文写作指导等服务
中国论文热线网 http://www.dmozdir.org/SiteInformation/?www.lwrxw.com-----15692-----.shtml 中国论文热线网提供职称论文推荐发表、省级刊物、核心刊物、CN、ISSN刊物推荐发表等服务,可以推荐发表多专业职称论文,是您职称评审论文发表的最佳伙伴,网址www.lwrxw.com
就要学习网 http://www.dmozdir.org/SiteInformation/?www.62355065.cn-----11960-----.shtml 就要学习网是集教案,课件,试卷,毕业论文,教学视频为一体的免费资源网。
新论文代写网 http://www.dmozdir.org/SiteInformation/?www.newlw.com-----25276-----.shtml 毕业论文|毕业设计|毕业论文范文|计算机毕业设计|毕业论文格式范文|机械毕业设计|行政管理毕业论文|毕业设计开题报告|计算机网络毕业论文|毕业设计论文|毕业论 文网|代做毕业设计|怎样写毕业论文
天喜缘婚介网-最好的婚征婚介网站 http://www.dmozdir.org/SiteInformation/?www.love219.com-----14846-----.shtml 天喜缘婚介婚庆网是济南最专业的婚介网站、婚庆网站,交友网站,及济南征婚、济南交友、济南婚介、济南庆典、济南礼仪于一体,网下有实体店面-济南市市中区天喜缘婚介婚庆中心,不定期举办联谊活动,保证会员成功率
成都盛世阳光婚庆策划有限公司 http://www.dmozdir.org/SiteInformation/?www.ssyg520.com-----27215-----.shtml 诚信投资控股集团属于四川省大型企业集团,川内排于前20名,注册资金3.5亿元,拥有固定资产46.5亿。公司总部位于成都市致民东路1号。在北京 、上海、新疆等地设有分公司。诚信盛世阳光婚庆公司是其子公司。
情人网 http://www.dmozdir.org/SiteInformation/?www.591lover.net-----36999-----.shtml 情人网交友中心为你提供最佳的网上情人交友机会,足不出户便能让你有更多的选择!
国际免费婚介交友网站-相约100 http://www.dmozdir.org/SiteInformation/?www.free-onlinedating.me-----10110-----.shtml 国际免费婚介交友网站是相约100提供的完全免费的国际交友网站。会员以华人为主遍布五湖四海,所有会员完全免费。所有寻找国际免费婚介交友网站的朋友都能在国际交友网站在找到完全免费的国际免费婚介交友网站服务
安徽婚庆网 http://www.dmozdir.org/SiteInformation/?www.ahhqw.com-----18983-----.shtml 安徽婚庆网
聚缘北海交友网 http://www.dmozdir.org/SiteInformation/?www.jyjjyy.com-----19343-----.shtml 聚缘北海交友网是北海地区较规范的婚恋交友网站,致力于营造有趣而安全的网络交友社区,提供搜索、美文、约会、日记、聊天、等多项交友服务。并与地方婚介部门建立了良好的合作关系。
爱我吧婚恋网 http://www.dmozdir.org/SiteInformation/?www.lovemeba.com-----9983-----.shtml 爱我吧婚恋网是一个真实、严肃、高品位的婚恋平台,提供科学、高效的全程服务,帮助真心寻找终身伴侣的人士实现和谐婚恋,努力营造国内最专业、严肃的婚恋交 友平
77国际交友网 http://www.dmozdir.org/SiteInformation/?www.77lds.com-----37176-----.shtml 纯公益性,爱心社交网站,为广大青年及单身人士提供的全免费交友平台。
东莞韩风尚婚纱摄影工作室 http://www.dmozdir.org/SiteInformation/?www.dg-hfs.com-----18760-----.shtml 东莞韩风尚婚纱摄影工作室是具有独特的韩国风格的东莞婚纱摄影工作室,韩风尚位于东莞东城区旗峰路国泰大厦10号,我们永远满怀创意与温情,通过一对一的服务为您提供超越您期望
百合婚礼社区 http://www.dmozdir.org/SiteInformation/?www.lilywed.cn-----9976-----.shtml 百合婚礼社区讨论话题涵盖婚纱照、婚纱摄影、婚礼筹备、婚纱礼服、婚庆等方面
2018-12-17 19:32:49 [scrapy.core.engine] INFO: Closing spider (finished)
2018-12-17 19:32:49 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 698,
'downloader/request_count': 3,
'downloader/request_method_count/GET': 3,
'downloader/response_bytes': 14618,
'downloader/response_count': 3,
'downloader/response_status_count/200': 3,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2018, 12, 17, 11, 32, 49, 552593),
'log_count/DEBUG': 4,
'log_count/INFO': 7,
'response_received_count': 3,
'scheduler/dequeued': 2,
'scheduler/dequeued/memory': 2,
'scheduler/enqueued': 2,
'scheduler/enqueued/memory': 2,
'start_time': datetime.datetime(2018, 12, 17, 11, 32, 49, 93393)}
2018-12-17 19:32:49 [scrapy.core.engine] INFO: Spider closed (finished)
我们就看中间这一部分:
2018-12-17 19:32:49 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
2018-12-17 19:32:49 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
中国论文写发网 http://www.dmozdir.org/SiteInformation/?www.lwxfw.com-----13589-----.shtml 中国论文写发网提供免费论文,职称论文,毕业论文,硕士论文,本科论文,MBA论文,电大论文,述职报告,论文下载,工作总结,论文推荐发表,论文写作指导,论文翻译等服务,网址www.lwxfw.com
专注代写论文网,论文代写,硕士论文代写,博士论文代写 http://www.dmozdir.org/SiteInformation/?www.zzlunwen010.com-----28351-----.shtml 专注代写论文网,论文代写,硕士论文代写,博士论文代写,各类职称论文代写代发!
论文天下 http://www.dmozdir.org/SiteInformation/?www.su30.net-----20547-----.shtml 论文天下,免费提供:论文范文,免费论文,论文大全, 论文下载,论文格式,论文提纲,论文发表,论文开题报告,论文题目等资料的查阅,有偿提供:论文代写、代发服 务!
河南教师网 http://www.dmozdir.org/SiteInformation/?www.hateacher.com-----31307-----.shtml 河南教师网/河南教师考试网/河南教师资格网/河南教育信息网/河南教师资格证历年真题/河南教师资格证复习资料/河南招教考试真题/河南招教考试复习资料/学习笔 记/中国招教网/河南招教网/河南教师资格网
久久论文检测 http://www.dmozdir.org/SiteInformation/?www.99fx.net-----38891-----.shtml 久久论文检测网专业提供免费论文检测、论文检测软件、论文抄袭检测、知网论文检测、万方论文检测、论文修改资料以及免费论文检测系统。让您毕业答辩无忧!
李国旺工作室 http://www.dmozdir.org/SiteInformation/?www.lgwlncy.com-----12221-----.shtml 高三政治教学,政治高考,高中政治新课标,政治试卷,高中政治网址。
笔杆子论文 http://www.dmozdir.org/SiteInformation/?www.bgzlw.com-----45851-----.shtml 笔杆子论文网提供免费论文、毕业论文、论文范文、论文下载、各专业论文、工作总结、论文定制、发表论文、购买论文、论文写作指导等服务
中国论文热线网 http://www.dmozdir.org/SiteInformation/?www.lwrxw.com-----15692-----.shtml 中国论文热线网提供职称论文推荐发表、省级刊物、核心刊物、CN、ISSN刊物推荐发表等服务,可以推荐发表多专业职称论文,是您职称评审论文发表的最佳伙伴,网址www.lwrxw.com
就要学习网 http://www.dmozdir.org/SiteInformation/?www.62355065.cn-----11960-----.shtml 就要学习网是集教案,课件,试卷,毕业论文,教学视频为一体的免费资源网。
新论文代写网 http://www.dmozdir.org/SiteInformation/?www.newlw.com-----25276-----.shtml 毕业论文|毕业设计|毕业论文范文|计算机毕业设计|毕业论文格式范文|机械毕业设计|行政管理毕业论文|毕业设计开题报告|计算机网络毕业论文|毕业设计论文|毕业论 文网|代做毕业设计|怎样写毕业论文
天喜缘婚介网-最好的婚征婚介网站 http://www.dmozdir.org/SiteInformation/?www.love219.com-----14846-----.shtml 天喜缘婚介婚庆网是济南最专业的婚介网站、婚庆网站,交友网站,及济南征婚、济南交友、济南婚介、济南庆典、济南礼仪于一体,网下有实体店面-济南市市中区天喜缘婚介婚庆中心,不定期举办联谊活动,保证会员成功率
成都盛世阳光婚庆策划有限公司 http://www.dmozdir.org/SiteInformation/?www.ssyg520.com-----27215-----.shtml 诚信投资控股集团属于四川省大型企业集团,川内排于前20名,注册资金3.5亿元,拥有固定资产46.5亿。公司总部位于成都市致民东路1号。在北京 、上海、新疆等地设有分公司。诚信盛世阳光婚庆公司是其子公司。
情人网 http://www.dmozdir.org/SiteInformation/?www.591lover.net-----36999-----.shtml 情人网交友中心为你提供最佳的网上情人交友机会,足不出户便能让你有更多的选择!
国际免费婚介交友网站-相约100 http://www.dmozdir.org/SiteInformation/?www.free-onlinedating.me-----10110-----.shtml 国际免费婚介交友网站是相约100提供的完全免费的国际交友网站。会员以华人为主遍布五湖四海,所有会员完全免费。所有寻找国际免费婚介交友网站的朋友都能在国际交友网站在找到完全免费的国际免费婚介交友网站服务
安徽婚庆网 http://www.dmozdir.org/SiteInformation/?www.ahhqw.com-----18983-----.shtml 安徽婚庆网
聚缘北海交友网 http://www.dmozdir.org/SiteInformation/?www.jyjjyy.com-----19343-----.shtml 聚缘北海交友网是北海地区较规范的婚恋交友网站,致力于营造有趣而安全的网络交友社区,提供搜索、美文、约会、日记、聊天、等多项交友服务。并与地方婚介部门建立了良好的合作关系。
爱我吧婚恋网 http://www.dmozdir.org/SiteInformation/?www.lovemeba.com-----9983-----.shtml 爱我吧婚恋网是一个真实、严肃、高品位的婚恋平台,提供科学、高效的全程服务,帮助真心寻找终身伴侣的人士实现和谐婚恋,努力营造国内最专业、严肃的婚恋交 友平
77国际交友网 http://www.dmozdir.org/SiteInformation/?www.77lds.com-----37176-----.shtml 纯公益性,爱心社交网站,为广大青年及单身人士提供的全免费交友平台。
东莞韩风尚婚纱摄影工作室 http://www.dmozdir.org/SiteInformation/?www.dg-hfs.com-----18760-----.shtml 东莞韩风尚婚纱摄影工作室是具有独特的韩国风格的东莞婚纱摄影工作室,韩风尚位于东莞东城区旗峰路国泰大厦10号,我们永远满怀创意与温情,通过一对一的服务为您提供超越您期望
百合婚礼社区 http://www.dmozdir.org/SiteInformation/?www.lilywed.cn-----9976-----.shtml 百合婚礼社区讨论话题涵盖婚纱照、婚纱摄影、婚礼筹备、婚纱礼服、婚庆等方面
上面的结果没有错误。
这个是爬和取的过程,我们接下来就要使用 Items,我们前面说过,Items 是我们自定义的容器,用法和Python的字典是一样的,我们希望 Spider 将爬取然后筛选后的数据存放到 Items 容器里面,我们刚才也在 parse 里写了筛选出 Items 对应的数据的方法了。筛选之后,我希望将它存放到 Items 中去。
我们的 items.py 在 tutorial/items.py 路径下,items 既是容器,也是一个类,类名我们在这个项目中定义为 DmozItem 。
我们需要把 items 导入到 spider 中,才可以使用它, 于是,我们在 dmoz_spider.py 文件中写道:
from turtorial.items import DmozItem
#dmoz_spider.py
import scrapy
from tutorial.items import DmozItem
class DmozSpider(scrapy.Spider):
name = "dmoz"
allowed_domains = ['dmozdir.org/Category']
start_urls = ['http://www.dmozdir.org/Category/?SmallPath=230',
'http://www.dmozdir.org/Category/?SmallPath=411']
def parse(self, response):
titles = response.selector.xpath('//ul/li/h4/a/text()').extract() #标题 title
links = response.selector.xpath('//ul/li/h4/a/@href').extract() #超链接 link
descs = response.selector.xpath('//ul/li/p/text()').extract() #描述 desc
items = []
if len(titles) == len(links) == len(descs):
for i in range(len(titles)):
#print(titles[i], links[i], decss[i])
item = DmozItem()
#每一组保存为一个字典
item['title'] = titles[i]
item['link'] = links[i]
item['desc'] = descs[i]
#将每个字典添加到列表中
items.append(item)
return items
然后我们在CMD 中,tutorail 的根目录下,执行命令:scrapy crawl dmoz -o items.json -t json
-o 文件名 -t 保存形式。
#CMD窗口
C:\Users\XiangyangDai\Desktop\tutorial>scrapy crawl dmoz -o items.json -t json
2018-12-17 20:49:28 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: tutorial)
2018-12-17 20:49:28 [scrapy.utils.log] INFO: Versions: lxml 4.2.5.0, libxml2 2.9.5, cssselect 1.0.3, parsel 1.5.1, w3lib 1.19.0, Twisted 18.9.0, Python 3.5.2 |Anaconda 4.2.0 (64-bit)| (default, Jul 5 2016, 11:41:13) [MSC v.1900 64 bit (AMD64)], pyOpenSSL 18.0.0 (OpenSSL 1.1.0j 20 Nov 2018), cryptography 2.4.2, Platform Windows-10-10.0.17134-SP0
2018-12-17 20:49:28 [scrapy.crawler] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'tutorial.spiders', 'SPIDER_MODULES': ['tutorial.spiders'], 'FEED_URI': 'items.json', 'BOT_NAME': 'tutorial', 'ROBOTSTXT_OBEY': True, 'FEED_FORMAT': 'json'}
2018-12-17 20:49:28 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.feedexport.FeedExporter',
'scrapy.extensions.corestats.CoreStats',
'scrapy.extensions.telnet.TelnetConsole',
'scrapy.extensions.logstats.LogStats']
2018-12-17 20:49:29 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
'scrapy.downloadermiddlewares.retry.RetryMiddleware',
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
'scrapy.downloadermiddlewares.stats.DownloaderStats']
2018-12-17 20:49:29 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
'scrapy.spidermiddlewares.referer.RefererMiddleware',
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
'scrapy.spidermiddlewares.depth.DepthMiddleware']
2018-12-17 20:49:29 [scrapy.middleware] INFO: Enabled item pipelines:
['tutorial.pipelines.TutorialPipeline']
2018-12-17 20:49:29 [scrapy.core.engine] INFO: Spider opened
2018-12-17 20:49:29 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2018-12-17 20:49:29 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2018-12-17 20:49:29 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
2018-12-17 20:49:29 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
2018-12-17 20:49:29 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '中国论文写发网提供免费论文,职称论文,毕业论文,硕士论文,本科论文,MBA论文,电大论文,述职报告,论文下载,工作总结,论文推荐发表,论文写作指导,论文翻译等服务,网址www.lwxfw.com',
'link': 'http://www.dmozdir.org/SiteInformation/?www.lwxfw.com-----13589-----.shtml',
'title': '中国论文写发网'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '专注代写论文网,论文代写,硕士论文代写,博士论文代写,各类职称论文代写代发!',
'link': 'http://www.dmozdir.org/SiteInformation/?www.zzlunwen010.com-----28351-----.shtml',
'title': '专注代写论文网,论文代写,硕士论文代写,博士论文代写'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '论文天下,免费提供:论文范文,免费论文,论文大全, '
'论文下载,论文格式,论文提纲,论文发表,论文开题报告,论文题目等资料的查阅,有偿提供:论文代写、代发服务!',
'link': 'http://www.dmozdir.org/SiteInformation/?www.su30.net-----20547-----.shtml',
'title': '论文天下'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '河南教师网/河南教师考试网/河南教师资格网/河南教育信息网/河南教师资格证历年真题/河南教师资格证复习资料/河南招教考试真题/河南招教考试复习资料/学习笔记/中国招教网/河南招教网/河南教师资格网',
'link': 'http://www.dmozdir.org/SiteInformation/?www.hateacher.com-----31307-----.shtml',
'title': '河南教师网'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '久久论文检测网专业提供免费论文检测、论文检测软件、论文抄袭检测、知网论文检测、万方论文检测、论文修改资料以及免费论文检测系统。让您毕业答辩无忧!',
'link': 'http://www.dmozdir.org/SiteInformation/?www.99fx.net-----38891-----.shtml',
'title': '久久论文检测'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '高三政治教学,政治高考,高中政治新课标,政治试卷,高中政治网址。',
'link': 'http://www.dmozdir.org/SiteInformation/?www.lgwlncy.com-----12221-----.shtml',
'title': '李国旺工作室'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '笔杆子论文网提供免费论文、毕业论文、论文范文、论文下载、各专业论文、工作总结、论文定制、发表论文、购买论文、论文写作指导等服务',
'link': 'http://www.dmozdir.org/SiteInformation/?www.bgzlw.com-----45851-----.shtml',
'title': '笔杆子论文'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '中国论文热线网提供职称论文推荐发表、省级刊物、核心刊物、CN、ISSN刊物推荐发表等服务,可以推荐发表多专业职称论文,是您职称评审论文发表的最佳伙伴,网址www.lwrxw.com',
'link': 'http://www.dmozdir.org/SiteInformation/?www.lwrxw.com-----15692-----.shtml',
'title': '中国论文热线网'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '就要学习网是集教案,课件,试卷,毕业论文,教学视频为一体的免费资源网。',
'link': 'http://www.dmozdir.org/SiteInformation/?www.62355065.cn-----11960-----.shtml',
'title': '就要学习网'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '毕业论文|毕业设计|毕业论文范文|计算机毕业设计|毕业论文格式范文|机械毕业设计|行政管理毕业论文|毕业设计开题报告|计算机网络毕业论文|毕业设计论文|毕业论文网|代做毕业设计|怎样写毕业论文',
'link': 'http://www.dmozdir.org/SiteInformation/?www.newlw.com-----25276-----.shtml',
'title': '新论文代写网'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '天喜缘婚介婚庆网是济南最专业的婚介网站、婚庆网站,交友网站,及济南征婚、济南交友、济南婚介、济南庆典、济南礼仪于一体,网下有实体店面-济南市市中区天喜缘婚介婚庆中心,不定期举办联谊活动,保证会员成功率',
'link': 'http://www.dmozdir.org/SiteInformation/?www.love219.com-----14846-----.shtml',
'title': '天喜缘婚介网-最好的婚征婚介网站'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '诚信投资控股集团属于四川省大型企业集团,川内排于前20名,注册资金3.5亿元,拥有固定资产46.5亿。公司总部位于成都市致民东路1号。在北京、上海、新疆等地设有分公司。诚信盛世阳光婚庆公司是其子公司。',
'link': 'http://www.dmozdir.org/SiteInformation/?www.ssyg520.com-----27215-----.shtml',
'title': '成都盛世阳光婚庆策划有限公司'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '情人网交友中心为你提供最佳的网上情人交友机会,足不出户便能让你有更多的选择!',
'link': 'http://www.dmozdir.org/SiteInformation/?www.591lover.net-----36999-----.shtml',
'title': '情人网'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '国际免费婚介交友网站是相约100提供的完全免费的国际交友网站。会员以华人为主遍布五湖四海,所有会员完全免费。所有寻找国际免费婚介交友网站的朋友都能在国际交友网站在找到完全免费的国际免费婚介交友网站服务',
'link': 'http://www.dmozdir.org/SiteInformation/?www.free-onlinedating.me-----10110-----.shtml',
'title': '国际免费婚介交友网站-相约100'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '安徽婚庆网',
'link': 'http://www.dmozdir.org/SiteInformation/?www.ahhqw.com-----18983-----.shtml',
'title': '安徽婚庆网'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '聚缘北海交友网是北海地区较规范的婚恋交友网站,致力于营造有趣而安全的网络交友社区,提供搜索、美文、约会、日记、聊天、等多项交友服务。并与地方婚介部门建立了良好的合作关系。',
'link': 'http://www.dmozdir.org/SiteInformation/?www.jyjjyy.com-----19343-----.shtml',
'title': '聚缘北海交友网'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '爱我吧婚恋网是一个真实、严肃、高品位的婚恋平台,提供科学、高效的全程服务,帮助真心寻找终身伴侣的人士实现和谐婚恋,努力营造国内最专业、严肃的婚恋交友平',
'link': 'http://www.dmozdir.org/SiteInformation/?www.lovemeba.com-----9983-----.shtml',
'title': '爱我吧婚恋网'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '纯公益性,爱心社交网站,为广大青年及单身人士提供的全免费交友平台。',
'link': 'http://www.dmozdir.org/SiteInformation/?www.77lds.com-----37176-----.shtml',
'title': '77国际交友网'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '东莞韩风尚婚纱摄影工作室是具有独特的韩国风格的东莞婚纱摄影工作室,韩风尚位于东莞东城区旗峰路国泰大厦10号,我们永远满怀创意与温情,通过一对一的服务为您提供超越您期望',
'link': 'http://www.dmozdir.org/SiteInformation/?www.dg-hfs.com-----18760-----.shtml',
'title': '东莞韩风尚婚纱摄影工作室'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '百合婚礼社区讨论话题涵盖婚纱照、婚纱摄影、婚礼筹备、婚纱礼服、婚庆等方面',
'link': 'http://www.dmozdir.org/SiteInformation/?www.lilywed.cn-----9976-----.shtml',
'title': '百合婚礼社区'}
2018-12-17 20:49:30 [scrapy.core.engine] INFO: Closing spider (finished)
2018-12-17 20:49:30 [scrapy.extensions.feedexport] INFO: Stored json feed (20 items) in: items.json
2018-12-17 20:49:30 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 698,
'downloader/request_count': 3,
'downloader/request_method_count/GET': 3,
'downloader/response_bytes': 14618,
'downloader/response_count': 3,
'downloader/response_status_count/200': 3,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2018, 12, 17, 12, 49, 30, 79269),
'item_scraped_count': 20,
'log_count/DEBUG': 24,
'log_count/INFO': 8,
'response_received_count': 3,
'scheduler/dequeued': 2,
'scheduler/dequeued/memory': 2,
'scheduler/enqueued': 2,
'scheduler/enqueued/memory': 2,
'start_time': datetime.datetime(2018, 12, 17, 12, 49, 29, 574379)}
2018-12-17 20:49:30 [scrapy.core.engine] INFO: Spider closed (finished)
执行完毕后,在 tutorial 根目录 下就会有一个名为 items.json 的文件。
内容如下:
#items.json 文件内容
[
{"title": "\u4e2d\u56fd\u8bba\u6587\u5199\u53d1\u7f51", "desc": "\u4e2d\u56fd\u8bba\u6587\u5199\u53d1\u7f51\u63d0\u4f9b\u514d\u8d39\u8bba\u6587,\u804c\u79f0\u8bba\u6587,\u6bd5\u4e1a\u8bba\u6587,\u7855\u58eb\u8bba\u6587,\u672c\u79d1\u8bba\u6587,MBA\u8bba\u6587,\u7535\u5927\u8bba\u6587,\u8ff0\u804c\u62a5\u544a,\u8bba\u6587\u4e0b\u8f7d,\u5de5\u4f5c\u603b\u7ed3,\u8bba\u6587\u63a8\u8350\u53d1\u8868,\u8bba\u6587\u5199\u4f5c\u6307\u5bfc,\u8bba\u6587\u7ffb\u8bd1\u7b49\u670d\u52a1,\u7f51\u5740www.lwxfw.com", "link": "http://www.dmozdir.org/SiteInformation/?www.lwxfw.com-----13589-----.shtml"},
{"title": "\u4e13\u6ce8\u4ee3\u5199\u8bba\u6587\u7f51,\u8bba\u6587\u4ee3\u5199,\u7855\u58eb\u8bba\u6587\u4ee3\u5199,\u535a\u58eb\u8bba\u6587\u4ee3\u5199", "desc": "\u4e13\u6ce8\u4ee3\u5199\u8bba\u6587\u7f51,\u8bba\u6587\u4ee3\u5199,\u7855\u58eb\u8bba\u6587\u4ee3\u5199,\u535a\u58eb\u8bba\u6587\u4ee3\u5199,\u5404\u7c7b\u804c\u79f0\u8bba\u6587\u4ee3\u5199\u4ee3\u53d1!", "link": "http://www.dmozdir.org/SiteInformation/?www.zzlunwen010.com-----28351-----.shtml"},
{"title": "\u8bba\u6587\u5929\u4e0b", "desc": "\u8bba\u6587\u5929\u4e0b\uff0c\u514d\u8d39\u63d0\u4f9b\uff1a\u8bba\u6587\u8303\u6587\uff0c\u514d\u8d39\u8bba\u6587\uff0c\u8bba\u6587\u5927\u5168\uff0c \u8bba\u6587\u4e0b\u8f7d\uff0c\u8bba\u6587\u683c\u5f0f\uff0c\u8bba\u6587\u63d0\u7eb2\uff0c\u8bba\u6587\u53d1\u8868\uff0c\u8bba\u6587\u5f00\u9898\u62a5\u544a\uff0c\u8bba\u6587\u9898\u76ee\u7b49\u8d44\u6599\u7684\u67e5\u9605\uff0c\u6709\u507f\u63d0\u4f9b\uff1a\u8bba\u6587\u4ee3\u5199\u3001\u4ee3\u53d1\u670d\u52a1\uff01", "link": "http://www.dmozdir.org/SiteInformation/?www.su30.net-----20547-----.shtml"},
{"title": "\u6cb3\u5357\u6559\u5e08\u7f51", "desc": "\u6cb3\u5357\u6559\u5e08\u7f51/\u6cb3\u5357\u6559\u5e08\u8003\u8bd5\u7f51/\u6cb3\u5357\u6559\u5e08\u8d44\u683c\u7f51/\u6cb3\u5357\u6559\u80b2\u4fe1\u606f\u7f51/\u6cb3\u5357\u6559\u5e08\u8d44\u683c\u8bc1\u5386\u5e74\u771f\u9898/\u6cb3\u5357\u6559\u5e08\u8d44\u683c\u8bc1\u590d\u4e60\u8d44\u6599/\u6cb3\u5357\u62db\u6559\u8003\u8bd5\u771f\u9898/\u6cb3\u5357\u62db\u6559\u8003\u8bd5\u590d\u4e60\u8d44\u6599/\u5b66\u4e60\u7b14\u8bb0/\u4e2d\u56fd\u62db\u6559\u7f51/\u6cb3\u5357\u62db\u6559\u7f51/\u6cb3\u5357\u6559\u5e08\u8d44\u683c\u7f51", "link": "http://www.dmozdir.org/SiteInformation/?www.hateacher.com-----31307-----.shtml"},
{"title": "\u4e45\u4e45\u8bba\u6587\u68c0\u6d4b", "desc": "\u4e45\u4e45\u8bba\u6587\u68c0\u6d4b\u7f51\u4e13\u4e1a\u63d0\u4f9b\u514d\u8d39\u8bba\u6587\u68c0\u6d4b\u3001\u8bba\u6587\u68c0\u6d4b\u8f6f\u4ef6\u3001\u8bba\u6587\u6284\u88ad\u68c0\u6d4b\u3001\u77e5\u7f51\u8bba\u6587\u68c0\u6d4b\u3001\u4e07\u65b9\u8bba\u6587\u68c0\u6d4b\u3001\u8bba\u6587\u4fee\u6539\u8d44\u6599\u4ee5\u53ca\u514d\u8d39\u8bba\u6587\u68c0\u6d4b\u7cfb\u7edf\u3002\u8ba9\u60a8\u6bd5\u4e1a\u7b54\u8fa9\u65e0\u5fe7\uff01", "link": "http://www.dmozdir.org/SiteInformation/?www.99fx.net-----38891-----.shtml"},
{"title": "\u674e\u56fd\u65fa\u5de5\u4f5c\u5ba4", "desc": "\u9ad8\u4e09\u653f\u6cbb\u6559\u5b66\uff0c\u653f\u6cbb\u9ad8\u8003\uff0c\u9ad8\u4e2d\u653f\u6cbb\u65b0\u8bfe\u6807\uff0c\u653f\u6cbb\u8bd5\u5377\uff0c\u9ad8\u4e2d\u653f\u6cbb\u7f51\u5740\u3002", "link": "http://www.dmozdir.org/SiteInformation/?www.lgwlncy.com-----12221-----.shtml"},
{"title": "\u7b14\u6746\u5b50\u8bba\u6587", "desc": "\u7b14\u6746\u5b50\u8bba\u6587\u7f51\u63d0\u4f9b\u514d\u8d39\u8bba\u6587\u3001\u6bd5\u4e1a\u8bba\u6587\u3001\u8bba\u6587\u8303\u6587\u3001\u8bba\u6587\u4e0b\u8f7d\u3001\u5404\u4e13\u4e1a\u8bba\u6587\u3001\u5de5\u4f5c\u603b\u7ed3\u3001\u8bba\u6587\u5b9a\u5236\u3001\u53d1\u8868\u8bba\u6587\u3001\u8d2d\u4e70\u8bba\u6587\u3001\u8bba\u6587\u5199\u4f5c\u6307\u5bfc\u7b49\u670d\u52a1", "link": "http://www.dmozdir.org/SiteInformation/?www.bgzlw.com-----45851-----.shtml"},
{"title": "\u4e2d\u56fd\u8bba\u6587\u70ed\u7ebf\u7f51", "desc": "\u4e2d\u56fd\u8bba\u6587\u70ed\u7ebf\u7f51\u63d0\u4f9b\u804c\u79f0\u8bba\u6587\u63a8\u8350\u53d1\u8868\u3001\u7701\u7ea7\u520a\u7269\u3001\u6838\u5fc3\u520a\u7269\u3001CN\u3001ISSN\u520a\u7269\u63a8\u8350\u53d1\u8868\u7b49\u670d\u52a1,\u53ef\u4ee5\u63a8\u8350\u53d1\u8868\u591a\u4e13\u4e1a\u804c\u79f0\u8bba\u6587,\u662f\u60a8\u804c\u79f0\u8bc4\u5ba1\u8bba\u6587\u53d1\u8868\u7684\u6700\u4f73\u4f19\u4f34,\u7f51\u5740www.lwrxw.com", "link": "http://www.dmozdir.org/SiteInformation/?www.lwrxw.com-----15692-----.shtml"},
{"title": "\u5c31\u8981\u5b66\u4e60\u7f51", "desc": "\u5c31\u8981\u5b66\u4e60\u7f51\u662f\u96c6\u6559\u6848\uff0c\u8bfe\u4ef6\uff0c\u8bd5\u5377\uff0c\u6bd5\u4e1a\u8bba\u6587\uff0c\u6559\u5b66\u89c6\u9891\u4e3a\u4e00\u4f53\u7684\u514d\u8d39\u8d44\u6e90\u7f51\u3002", "link": "http://www.dmozdir.org/SiteInformation/?www.62355065.cn-----11960-----.shtml"},
{"title": "\u65b0\u8bba\u6587\u4ee3\u5199\u7f51", "desc": "\u6bd5\u4e1a\u8bba\u6587|\u6bd5\u4e1a\u8bbe\u8ba1|\u6bd5\u4e1a\u8bba\u6587\u8303\u6587|\u8ba1\u7b97\u673a\u6bd5\u4e1a\u8bbe\u8ba1|\u6bd5\u4e1a\u8bba\u6587\u683c\u5f0f\u8303\u6587|\u673a\u68b0\u6bd5\u4e1a\u8bbe\u8ba1|\u884c\u653f\u7ba1\u7406\u6bd5\u4e1a\u8bba\u6587|\u6bd5\u4e1a\u8bbe\u8ba1\u5f00\u9898\u62a5\u544a|\u8ba1\u7b97\u673a\u7f51\u7edc\u6bd5\u4e1a\u8bba\u6587|\u6bd5\u4e1a\u8bbe\u8ba1\u8bba\u6587|\u6bd5\u4e1a\u8bba\u6587\u7f51|\u4ee3\u505a\u6bd5\u4e1a\u8bbe\u8ba1|\u600e\u6837\u5199\u6bd5\u4e1a\u8bba\u6587", "link": "http://www.dmozdir.org/SiteInformation/?www.newlw.com-----25276-----.shtml"},
{"title": "\u5929\u559c\u7f18\u5a5a\u4ecb\u7f51-\u6700\u597d\u7684\u5a5a\u5f81\u5a5a\u4ecb\u7f51\u7ad9", "desc": "\u5929\u559c\u7f18\u5a5a\u4ecb\u5a5a\u5e86\u7f51\u662f\u6d4e\u5357\u6700\u4e13\u4e1a\u7684\u5a5a\u4ecb\u7f51\u7ad9\u3001\u5a5a\u5e86\u7f51\u7ad9\uff0c\u4ea4\u53cb\u7f51\u7ad9\uff0c\u53ca\u6d4e\u5357\u5f81\u5a5a\u3001\u6d4e\u5357\u4ea4\u53cb\u3001\u6d4e\u5357\u5a5a\u4ecb\u3001\u6d4e\u5357\u5e86\u5178\u3001\u6d4e\u5357\u793c\u4eea\u4e8e\u4e00\u4f53\uff0c\u7f51\u4e0b\u6709\u5b9e\u4f53\u5e97\u9762-\u6d4e\u5357\u5e02\u5e02\u4e2d\u533a\u5929\u559c\u7f18\u5a5a\u4ecb\u5a5a\u5e86\u4e2d\u5fc3\uff0c\u4e0d\u5b9a\u671f\u4e3e\u529e\u8054\u8c0a\u6d3b\u52a8\uff0c\u4fdd\u8bc1\u4f1a\u5458\u6210\u529f\u7387", "link": "http://www.dmozdir.org/SiteInformation/?www.love219.com-----14846-----.shtml"},
{"title": "\u6210\u90fd\u76db\u4e16\u9633\u5149\u5a5a\u5e86\u7b56\u5212\u6709\u9650\u516c\u53f8", "desc": "\u8bda\u4fe1\u6295\u8d44\u63a7\u80a1\u96c6\u56e2\u5c5e\u4e8e\u56db\u5ddd\u7701\u5927\u578b\u4f01\u4e1a\u96c6\u56e2\uff0c\u5ddd\u5185\u6392\u4e8e\u524d20\u540d\uff0c\u6ce8\u518c\u8d44\u91d13.5\u4ebf\u5143\uff0c\u62e5\u6709\u56fa\u5b9a\u8d44\u4ea746.5\u4ebf\u3002\u516c\u53f8\u603b\u90e8\u4f4d\u4e8e\u6210\u90fd\u5e02\u81f4\u6c11\u4e1c\u8def1\u53f7\u3002\u5728\u5317\u4eac\u3001\u4e0a\u6d77\u3001\u65b0\u7586\u7b49\u5730\u8bbe\u6709\u5206\u516c\u53f8\u3002\u8bda\u4fe1\u76db\u4e16\u9633\u5149\u5a5a\u5e86\u516c\u53f8\u662f\u5176\u5b50\u516c\u53f8\u3002", "link": "http://www.dmozdir.org/SiteInformation/?www.ssyg520.com-----27215-----.shtml"},
{"title": "\u60c5\u4eba\u7f51", "desc": "\u60c5\u4eba\u7f51\u4ea4\u53cb\u4e2d\u5fc3\u4e3a\u4f60\u63d0\u4f9b\u6700\u4f73\u7684\u7f51\u4e0a\u60c5\u4eba\u4ea4\u53cb\u673a\u4f1a\uff0c\u8db3\u4e0d\u51fa\u6237\u4fbf\u80fd\u8ba9\u4f60\u6709\u66f4\u591a\u7684\u9009\u62e9\uff01", "link": "http://www.dmozdir.org/SiteInformation/?www.591lover.net-----36999-----.shtml"},
{"title": "\u56fd\u9645\u514d\u8d39\u5a5a\u4ecb\u4ea4\u53cb\u7f51\u7ad9-\u76f8\u7ea6100", "desc": "\u56fd\u9645\u514d\u8d39\u5a5a\u4ecb\u4ea4\u53cb\u7f51\u7ad9\u662f\u76f8\u7ea6100\u63d0\u4f9b\u7684\u5b8c\u5168\u514d\u8d39\u7684\u56fd\u9645\u4ea4\u53cb\u7f51\u7ad9\u3002\u4f1a\u5458\u4ee5\u534e\u4eba\u4e3a\u4e3b\u904d\u5e03\u4e94\u6e56\u56db\u6d77,\u6240\u6709\u4f1a\u5458\u5b8c\u5168\u514d\u8d39\u3002\u6240\u6709\u5bfb\u627e\u56fd\u9645\u514d\u8d39\u5a5a\u4ecb\u4ea4\u53cb\u7f51\u7ad9\u7684\u670b\u53cb\u90fd\u80fd\u5728\u56fd\u9645\u4ea4\u53cb\u7f51\u7ad9\u5728\u627e\u5230\u5b8c\u5168\u514d\u8d39\u7684\u56fd\u9645\u514d\u8d39\u5a5a\u4ecb\u4ea4\u53cb\u7f51\u7ad9\u670d\u52a1", "link": "http://www.dmozdir.org/SiteInformation/?www.free-onlinedating.me-----10110-----.shtml"},
{"title": "\u5b89\u5fbd\u5a5a\u5e86\u7f51", "desc": "\u5b89\u5fbd\u5a5a\u5e86\u7f51", "link": "http://www.dmozdir.org/SiteInformation/?www.ahhqw.com-----18983-----.shtml"},
{"title": "\u805a\u7f18\u5317\u6d77\u4ea4\u53cb\u7f51", "desc": "\u805a\u7f18\u5317\u6d77\u4ea4\u53cb\u7f51\u662f\u5317\u6d77\u5730\u533a\u8f83\u89c4\u8303\u7684\u5a5a\u604b\u4ea4\u53cb\u7f51\u7ad9\uff0c\u81f4\u529b\u4e8e\u8425\u9020\u6709\u8da3\u800c\u5b89\u5168\u7684\u7f51\u7edc\u4ea4\u53cb\u793e\u533a\uff0c\u63d0\u4f9b\u641c\u7d22\u3001\u7f8e\u6587\u3001\u7ea6\u4f1a\u3001\u65e5\u8bb0\u3001\u804a\u5929\u3001\u7b49\u591a\u9879\u4ea4\u53cb\u670d\u52a1\u3002\u5e76\u4e0e\u5730\u65b9\u5a5a\u4ecb\u90e8\u95e8\u5efa\u7acb\u4e86\u826f\u597d\u7684\u5408\u4f5c\u5173\u7cfb\u3002", "link": "http://www.dmozdir.org/SiteInformation/?www.jyjjyy.com-----19343-----.shtml"},
{"title": "\u7231\u6211\u5427\u5a5a\u604b\u7f51", "desc": "\u7231\u6211\u5427\u5a5a\u604b\u7f51\u662f\u4e00\u4e2a\u771f\u5b9e\u3001\u4e25\u8083\u3001\u9ad8\u54c1\u4f4d\u7684\u5a5a\u604b\u5e73\u53f0\uff0c\u63d0\u4f9b\u79d1\u5b66\u3001\u9ad8\u6548\u7684\u5168\u7a0b\u670d\u52a1\uff0c\u5e2e\u52a9\u771f\u5fc3\u5bfb\u627e\u7ec8\u8eab\u4f34\u4fa3\u7684\u4eba\u58eb\u5b9e\u73b0\u548c\u8c10\u5a5a\u604b\uff0c\u52aa\u529b\u8425\u9020\u56fd\u5185\u6700\u4e13\u4e1a\u3001\u4e25\u8083\u7684\u5a5a\u604b\u4ea4\u53cb\u5e73", "link": "http://www.dmozdir.org/SiteInformation/?www.lovemeba.com-----9983-----.shtml"},
{"title": "77\u56fd\u9645\u4ea4\u53cb\u7f51", "desc": "\u7eaf\u516c\u76ca\u6027\uff0c\u7231\u5fc3\u793e\u4ea4\u7f51\u7ad9\uff0c\u4e3a\u5e7f\u5927\u9752\u5e74\u53ca\u5355\u8eab\u4eba\u58eb\u63d0\u4f9b\u7684\u5168\u514d\u8d39\u4ea4\u53cb\u5e73\u53f0\u3002", "link": "http://www.dmozdir.org/SiteInformation/?www.77lds.com-----37176-----.shtml"},
{"title": "\u4e1c\u839e\u97e9\u98ce\u5c1a\u5a5a\u7eb1\u6444\u5f71\u5de5\u4f5c\u5ba4", "desc": "\u4e1c\u839e\u97e9\u98ce\u5c1a\u5a5a\u7eb1\u6444\u5f71\u5de5\u4f5c\u5ba4\u662f\u5177\u6709\u72ec\u7279\u7684\u97e9\u56fd\u98ce\u683c\u7684\u4e1c\u839e\u5a5a\u7eb1\u6444\u5f71\u5de5\u4f5c\u5ba4\uff0c\u97e9\u98ce\u5c1a\u4f4d\u4e8e\u4e1c\u839e\u4e1c\u57ce\u533a\u65d7\u5cf0\u8def\u56fd\u6cf0\u5927\u53a610\u53f7,\u6211\u4eec\u6c38\u8fdc\u6ee1\u6000\u521b\u610f\u4e0e\u6e29\u60c5,\u901a\u8fc7\u4e00\u5bf9\u4e00\u7684\u670d\u52a1\u4e3a\u60a8\u63d0\u4f9b\u8d85\u8d8a\u60a8\u671f\u671b", "link": "http://www.dmozdir.org/SiteInformation/?www.dg-hfs.com-----18760-----.shtml"},
{"title": "\u767e\u5408\u5a5a\u793c\u793e\u533a", "desc": "\u767e\u5408\u5a5a\u793c\u793e\u533a\u8ba8\u8bba\u8bdd\u9898\u6db5\u76d6\u5a5a\u7eb1\u7167\u3001\u5a5a\u7eb1\u6444\u5f71\u3001\u5a5a\u793c\u7b79\u5907\u3001\u5a5a\u7eb1\u793c\u670d\u3001\u5a5a\u5e86\u7b49\u65b9\u9762", "link": "http://www.dmozdir.org/SiteInformation/?www.lilywed.cn-----9976-----.shtml"}
]
得到的保存的文件的内容就是我们需要的,但是这是二进制编码的形式。
(我目前还没有找到用于 Python 3 的解决方案,以后解决了再补充,也希望各位大佬看到了,能够不吝赐教。谢谢!)
哈哈,问题已经解决了,请看下面:
首先需要解释一点就是:pipeline.py 就是用于处理 item 的,所以,我们在pipeline.py 文件中对保存的文件进行处理操作:
将pipeline.py 写成这样:
# -*- coding: utf-8 -*-
# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
import json
class TutorialPipeline(object):
def __init__(self):
self.f = open('items.json', 'wb')
def process_item(self, item, spider):
line = json.dumps(dict(item), ensure_ascii = False) + "\n"
self.f.write(line.encode('utf-8'))
return item
def close_spider(self, spider):
self.f.close()
因为读取到的网页是 二进制文件,所以我们在__init__ 方法中, 建一个名为 items.json 的文件,以二进制形式写入。
在 process_item 方法中,对 item 文件进行编码 写入操作,最后在 close_spider 方法中,关闭文件。
接下来,就在settings.py 文件中开启 pipeline,加入下面的命令即可:
ITEM_PIPELINES = {
'tutorial.pipelines.TutorialPipeline': 300,
}
其中,TutorialPipeline 就是 pipeline.py 文件中的 类名
另外有一点需要提醒的是:
因为我们在 pipeline.py 中完成了新建文件的操作,所以 在CMD 中输入的命令 应该改为:scrapy crawl dmoz -t json
C:\Users\XiangyangDai\Desktop\tutorial>scrapy crawl dmoz -t json
2018-12-17 21:43:57 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: tutorial)
2018-12-17 21:43:57 [scrapy.utils.log] INFO: Versions: lxml 4.2.5.0, libxml2 2.9.5, cssselect 1.0.3, parsel 1.5.1, w3lib 1.19.0, Twisted 18.9.0, Python 3.5.2 |Anaconda 4.2.0 (64-bit)| (default, Jul 5 2016, 11:41:13) [MSC v.1900 64 bit (AMD64)], pyOpenSSL 18.0.0 (OpenSSL 1.1.0j 20 Nov 2018), cryptography 2.4.2, Platform Windows-10-10.0.17134-SP0
2018-12-17 21:43:57 [scrapy.crawler] INFO: Overridden settings: {'BOT_NAME': 'tutorial', 'NEWSPIDER_MODULE': 'tutorial.spiders', 'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES': ['tutorial.spiders']}
2018-12-17 21:43:57 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.logstats.LogStats',
'scrapy.extensions.telnet.TelnetConsole',
'scrapy.extensions.corestats.CoreStats']
2018-12-17 21:43:58 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
'scrapy.downloadermiddlewares.retry.RetryMiddleware',
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
'scrapy.downloadermiddlewares.stats.DownloaderStats']
2018-12-17 21:43:58 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
'scrapy.spidermiddlewares.referer.RefererMiddleware',
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
'scrapy.spidermiddlewares.depth.DepthMiddleware']
2018-12-17 21:43:58 [scrapy.middleware] INFO: Enabled item pipelines:
['tutorial.pipelines.TutorialPipeline']
2018-12-17 21:43:58 [scrapy.core.engine] INFO: Spider opened
2018-12-17 21:43:58 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2018-12-17 21:43:58 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2018-12-17 21:43:58 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
2018-12-17 21:43:58 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
2018-12-17 21:43:58 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '中国论文写发网提供免费论文,职称论文,毕业论文,硕士论文,本科论文,MBA论文,电大论文,述职报告,论文下载,工作总结,论 文推荐发表,论文写作指导,论文翻译等服务,网址www.lwxfw.com',
'link': 'http://www.dmozdir.org/SiteInformation/?www.lwxfw.com-----13589-----.shtml',
'title': '中国论文写发网'}
2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '专注代写论文网,论文代写,硕士论文代写,博士论文代写,各类职称论文代写代发!',
'link': 'http://www.dmozdir.org/SiteInformation/?www.zzlunwen010.com-----28351-----.shtml',
'title': '专注代写论文网,论文代写,硕士论文代写,博士论文代写'}
2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '论文天下,免费提供:论文范文,免费论文,论文大全, '
'论文下载,论文格式,论文提纲,论文发表,论文开题报告,论文题目等资料的查阅,有偿提供:论文代写、代发服务!',
'link': 'http://www.dmozdir.org/SiteInformation/?www.su30.net-----20547-----.shtml',
'title': '论文天下'}
2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '河南教师网/河南教师考试网/河南教师资格网/河南教育信息网/河南教师资格证历年真题/河南教师资格证复习资料/河南招教考试真题/河南招教考试复习资料/学习笔记/中国招教网/河南招教网/河南教师资格网',
'link': 'http://www.dmozdir.org/SiteInformation/?www.hateacher.com-----31307-----.shtml',
'title': '河南教师网'}
2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '久久论文检测网专业提供免费论文检测、论文检测软件、论文抄袭检测、知网论文检测、万方论文检测、论文修改资料以及免费论文检测系统。让您毕业答辩无忧!',
'link': 'http://www.dmozdir.org/SiteInformation/?www.99fx.net-----38891-----.shtml',
'title': '久久论文检测'}
2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '高三政治教学,政治高考,高中政治新课标,政治试卷,高中政治网址。',
'link': 'http://www.dmozdir.org/SiteInformation/?www.lgwlncy.com-----12221-----.shtml',
'title': '李国旺工作室'}
2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '笔杆子论文网提供免费论文、毕业论文、论文范文、论文下载、各专业论文、工作总结、论文定制、发表论文、购买论文、论文写作指导等服务',
'link': 'http://www.dmozdir.org/SiteInformation/?www.bgzlw.com-----45851-----.shtml',
'title': '笔杆子论文'}
2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '中国论文热线网提供职称论文推荐发表、省级刊物、核心刊物、CN、ISSN刊物推荐发表等服务,可以推荐发表多专业职称论文,是您职称评审论文发表的最佳伙伴,网址www.lwrxw.com',
'link': 'http://www.dmozdir.org/SiteInformation/?www.lwrxw.com-----15692-----.shtml',
'title': '中国论文热线网'}
2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '就要学习网是集教案,课件,试卷,毕业论文,教学视频为一体的免费资源网。',
'link': 'http://www.dmozdir.org/SiteInformation/?www.62355065.cn-----11960-----.shtml',
'title': '就要学习网'}
2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '毕业论文|毕业设计|毕业论文范文|计算机毕业设计|毕业论文格式范文|机械毕业设计|行政管理毕业论文|毕业设计开题报告|计算机网络毕业论文|毕业设计论文|毕业论文网|代做毕业设计|怎样写毕业论文',
'link': 'http://www.dmozdir.org/SiteInformation/?www.newlw.com-----25276-----.shtml',
'title': '新论文代写网'}
2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '天喜缘婚介婚庆网是济南最专业的婚介网站、婚庆网站,交友网站,及济南征婚、济南交友、济南婚介、济南庆典、济南礼仪于一体,网下有实体店面-济南市市中区天喜缘婚介婚庆中心,不定期举办联谊活动,保证会员成功率',
'link': 'http://www.dmozdir.org/SiteInformation/?www.love219.com-----14846-----.shtml',
'title': '天喜缘婚介网-最好的婚征婚介网站'}
2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '诚信投资控股集团属于四川省大型企业集团,川内排于前20名,注册资金3.5亿元,拥有固定资产46.5亿。公司总部位于成都 市致民东路1号。在北京、上海、新疆等地设有分公司。诚信盛世阳光婚庆公司是其子公司。',
'link': 'http://www.dmozdir.org/SiteInformation/?www.ssyg520.com-----27215-----.shtml',
'title': '成都盛世阳光婚庆策划有限公司'}
2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '情人网交友中心为你提供最佳的网上情人交友机会,足不出户便能让你有更多的选择!',
'link': 'http://www.dmozdir.org/SiteInformation/?www.591lover.net-----36999-----.shtml',
'title': '情人网'}
2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '国际免费婚介交友网站是相约100提供的完全免费的国际交友网站。会员以华人为主遍布五湖四海,所有会员完全免费。所有寻找国际免费婚介交友网站的朋友都能在国际交友网站在找到完全免费的国际免费婚介交友网站服务',
'link': 'http://www.dmozdir.org/SiteInformation/?www.free-onlinedating.me-----10110-----.shtml',
'title': '国际免费婚介交友网站-相约100'}
2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '安徽婚庆网',
'link': 'http://www.dmozdir.org/SiteInformation/?www.ahhqw.com-----18983-----.shtml',
'title': '安徽婚庆网'}
2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '聚缘北海交友网是北海地区较规范的婚恋交友网站,致力于营造有趣而安全的网络交友社区,提供搜索、美文、约会、日记、聊天、等多项交友服务。并与地方婚介部门建立了良好的合作关系。',
'link': 'http://www.dmozdir.org/SiteInformation/?www.jyjjyy.com-----19343-----.shtml',
'title': '聚缘北海交友网'}
2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '爱我吧婚恋网是一个真实、严肃、高品位的婚恋平台,提供科学、高效的全程服务,帮助真心寻找终身伴侣的人士实现和谐婚恋,努力营造国内最专业、严肃的婚恋交友平',
'link': 'http://www.dmozdir.org/SiteInformation/?www.lovemeba.com-----9983-----.shtml',
'title': '爱我吧婚恋网'}
2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '纯公益性,爱心社交网站,为广大青年及单身人士提供的全免费交友平台。',
'link': 'http://www.dmozdir.org/SiteInformation/?www.77lds.com-----37176-----.shtml',
'title': '77国际交友网'}
2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '东莞韩风尚婚纱摄影工作室是具有独特的韩国风格的东莞婚纱摄影工作室,韩风尚位于东莞东城区旗峰路国泰大厦10号,我们 永远满怀创意与温情,通过一对一的服务为您提供超越您期望',
'link': 'http://www.dmozdir.org/SiteInformation/?www.dg-hfs.com-----18760-----.shtml',
'title': '东莞韩风尚婚纱摄影工作室'}
2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '百合婚礼社区讨论话题涵盖婚纱照、婚纱摄影、婚礼筹备、婚纱礼服、婚庆等方面',
'link': 'http://www.dmozdir.org/SiteInformation/?www.lilywed.cn-----9976-----.shtml',
'title': '百合婚礼社区'}
2018-12-17 21:43:59 [scrapy.core.engine] INFO: Closing spider (finished)
2018-12-17 21:43:59 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 698,
'downloader/request_count': 3,
'downloader/request_method_count/GET': 3,
'downloader/response_bytes': 14618,
'downloader/response_count': 3,
'downloader/response_status_count/200': 3,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2018, 12, 17, 13, 43, 59, 33263),
'item_scraped_count': 20,
'log_count/DEBUG': 24,
'log_count/INFO': 7,
'response_received_count': 3,
'scheduler/dequeued': 2,
'scheduler/dequeued/memory': 2,
'scheduler/enqueued': 2,
'scheduler/enqueued/memory': 2,
'start_time': datetime.datetime(2018, 12, 17, 13, 43, 58, 626475)}
2018-12-17 21:43:59 [scrapy.core.engine] INFO: Spider closed (finished)
items.json 文件内容如下:
{"link": "http://www.dmozdir.org/SiteInformation/?www.lwxfw.com-----13589-----.shtml", "title": "中国论文写发网", "desc": "中国论文写发网提供免费论文,职称论文,毕业论文,硕士论文,本科论文,MBA论文,电大论文,述职报告,论文下载,工作总结,论文推荐发表,论文写作指导,论文翻译等服务,网址www.lwxfw.com"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.zzlunwen010.com-----28351-----.shtml", "title": "专注代写论文网,论文代写,硕士论文代写,博士论文代写", "desc": "专注代写论文网,论文代写,硕士论文代写,博士论文代写,各类职称论文代写代发!"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.su30.net-----20547-----.shtml", "title": "论文天下", "desc": "论文天下,免费提供:论文范文,免费论文,论文大全, 论文下载,论文格式,论文提纲,论文发表,论文开题报告,论文题目等资料的查阅,有偿提供:论文代写、代发服务!"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.hateacher.com-----31307-----.shtml", "title": "河南教师网", "desc": "河南教师网/河南教师考试网/河南教师资格网/河南教育信息网/河南教师资格证历年真题/河南教师资格证复习资料/河南招教考试真题/河南招教考试复习资料/学习笔记/中国招教网/河南招教网/河南教师资格网"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.99fx.net-----38891-----.shtml", "title": "久久论文检测", "desc": "久久论文检测网专业提供免费论文检测、论文检测软件、论文抄袭检测、知网论文检测、万方论文检测、论文修改资料以及免费论文检测系统。让您毕业答辩无忧!"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.lgwlncy.com-----12221-----.shtml", "title": "李国旺工作室", "desc": "高三政治教学,政治高考,高中政治新课标,政治试卷,高中政治网址。"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.bgzlw.com-----45851-----.shtml", "title": "笔杆子论文", "desc": "笔杆子论文网提供免费论文、毕业论文、论文范文、论文下载、各专业论文、工作总结、论文定制、发表论文、购买论文、论文写作指导等服务"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.lwrxw.com-----15692-----.shtml", "title": "中国论文热线网", "desc": "中国论文热线网提供职称论文推荐发表、省级刊物、核心刊物、CN、ISSN刊物推荐发表等服务,可以推荐发表多专业职称论文,是您职称评审论文发表的最佳伙伴,网址www.lwrxw.com"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.62355065.cn-----11960-----.shtml", "title": "就要学习网", "desc": "就要学习网是集教案,课件,试卷,毕业论文,教学视频为一体的免费资源网。"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.newlw.com-----25276-----.shtml", "title": "新论文代写网", "desc": "毕业论文|毕业设计|毕业论文范文|计算机毕业设计|毕业论文格式范文|机械毕业设计|行政管理毕业论文|毕业设计开题报告|计算机网络毕业论文|毕业设计论文|毕业论文网|代做毕业设计|怎样写毕业论文"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.love219.com-----14846-----.shtml", "title": "天喜缘婚介网-最好的婚征婚介网站", "desc": "天喜缘婚介婚庆网是济南最专业的婚介网站、婚庆网站,交友网站,及济南征婚、济南交友、济南婚介、济南庆典、济南礼仪于一体,网下有实体店面-济南市市中区天喜缘婚介婚庆中心,不定期举办联谊活动,保证会员成功率"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.ssyg520.com-----27215-----.shtml", "title": "成都盛世阳光婚庆策划有限公司", "desc": "诚信投资控股集团属于四川省大型企业集团,川内排于前20名,注册资金3.5亿元,拥有固定资产46.5亿。公司总部位于成都市致民东路1号。在北京、上海、新疆等地设有分公司。诚信盛世阳光婚庆公司是其子公司。"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.591lover.net-----36999-----.shtml", "title": "情人网", "desc": "情人网交友中心为你提供最佳的网上情人交友机会,足不出户便能让你有更多的选择!"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.free-onlinedating.me-----10110-----.shtml", "title": "国际免费婚介交友网站-相约100", "desc": "国际免费婚介交友网站是相约100提供的完全免费的国际交友网站。会员以华人为主遍布五湖四海,所有会员完全免费。所有寻找国际免费婚介交友网站的朋友都能在国际交友网站在找到完全免费的国际免费婚介交友网站服务"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.ahhqw.com-----18983-----.shtml", "title": "安徽婚庆网", "desc": "安徽婚庆网"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.jyjjyy.com-----19343-----.shtml", "title": "聚缘北海交友网", "desc": "聚缘北海交友网是北海地区较规范的婚恋交友网站,致力于营造有趣而安全的网络交友社区,提供搜索、美文、约会、日记、聊天、等多项交友服务。并与地方婚介部门建立了良好的合作关系。"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.lovemeba.com-----9983-----.shtml", "title": "爱我吧婚恋网", "desc": "爱我吧婚恋网是一个真实、严肃、高品位的婚恋平台,提供科学、高效的全程服务,帮助真心寻找终身伴侣的人士实现和谐婚恋,努力营造国内最专业、严肃的婚恋交友平"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.77lds.com-----37176-----.shtml", "title": "77国际交友网", "desc": "纯公益性,爱心社交网站,为广大青年及单身人士提供的全免费交友平台。"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.dg-hfs.com-----18760-----.shtml", "title": "东莞韩风尚婚纱摄影工作室", "desc": "东莞韩风尚婚纱摄影工作室是具有独特的韩国风格的东莞婚纱摄影工作室,韩风尚位于东莞东城区旗峰路国泰大厦10号,我们永远满怀创意与温情,通过一对一的服务为您提供超越您期望"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.lilywed.cn-----9976-----.shtml", "title": "百合婚礼社区", "desc": "百合婚礼社区讨论话题涵盖婚纱照、婚纱摄影、婚礼筹备、婚纱礼服、婚庆等方面"}
终于是中文了,看着就是舒服。
你可能感兴趣的:(python零基础,python)
软件测试面试题(Python全栈自动化测试面试题)
爱学习的执念
软件测试 面试 软件测试面试 python 开发语言 面试 软件测试面试 软件测试
1、你的测试职业发展是什么?测试经验越多,测试能力越高。所以我的职业发展是需要时间积累的,一步步向着高级测试工程师奔去。而且我也有初步的职业规划,前3年积累测试经验,按如何做好测试工程师的要点去要求自己,不断更新自己改正自己,做好测试任务。2、你认为测试人员需要具备哪些素质做测试应该要有一定的协调能力,因为测试人员经常要与开发接触处理一些问题,如果处理不好的话会引起一些冲突,这样的话工作上就会不好
各种编程语言的优缺点
无聊的一个人啊
golang 开发语言 后端 vue.js python
当谈论编程语言时,我们进入了一个充满激情和争议的领域。每种编程语言都有其独特的优点和局限性,适用于不同的场景。让我们简要评价一些主流编程语言,探讨它们的优缺点和应用领域。来来来,老铁们,男人女人都需要的技术活拿去不谢:远程调试,发布网站到公网演示,远程内网服务,游戏联机推荐链接Python优点:简单易学:Python的语法简单明了,易于理解和掌握。开源:免费使用,自由修改和分发源代码,促进了Pyt
Windows系统上更换pip源的详细指南
2402_85758349
windows pip
Python的包管理工具pip允许用户从Python包索引(PyPI)下载和安装第三方库。然而,默认的PyPI源有时可能因为网络问题或地理位置导致访问速度较慢。更换为更快的源可以显著提高下载和安装Python包的速度。本文将详细介绍如何在Windows系统上更换pip的源。1.理解pip源的重要性更换pip源是优化Python开发环境的重要步骤之一。一个快速且稳定的源可以提高包管理的效率,尤其是在
蒙特卡罗方法——布丰投针实验近似计算圆周率python代码实现
潮汐退涨月冷风霜
python 开发语言 蒙特卡罗
布丰实验数学原理python代码importrandomasrdimportnumpyasnpimportmathimportmatplotlib.pyplotaspltimportmatplotlibmatplotlib.rcParams['font.family']='SimHei'#或者'MicrosoftYaHei'matplotlib.rcParams['axes.unicode_min
python使用rocketmq发送消息_阿里云消息队列RocketMQ使用示例
weixin_39953481
本文代码示例参见:https://gitee.com/imlichao/RocketMQ-exampleApacheRocketMQ文档:http://rocketmq.apache.org/docs/quick-start/阿里云RocketMQ文档:https://help.aliyun.com/product/29530.html简介消息队列RocketMQ是阿里巴巴集团自主研发的专业消息中
python调用rocketmq的api_Python:Rocketmq消息队列使用
weixin_39914868
rocketmq可以与kafka等一起使用,用于实时消息处理。安装rocketmq:pipinstallrocketmq[-ihttps://pypi.tuna.tsinghua.edu.cn/simple]生产消息producer:fromrocketmq.clientimportProducer,Messageimportjsonproducer=Producer('PID-test')pro
python调用pyd文件_python的py文件生成pyd文件,pycharm直接调用pyd文件
weixin_39799561
python调用pyd文件
这段时间做接口自动化测试,用python直接调用接口,sign值是经过系列复杂算法加密后生成的字符串,保密级别高,不能直接以py文件供大家调用~~pyc文件呢,很容易就被反编译了,pyd文件和一般dll类似,不容易被反编译。生成pyd很容易,网上百度一堆堆,但是调用pyd文件会遇到好多错误。在此贴一下生成pyd到调用pyd文件的方法供参考:1.新建一个setup.py文件:#用cpython生成p
Python聊天服务器(一)
weixin_34375251
python 网络 数据结构与算法
对于镜像服务端来说,支持同时多个连接的能力是非常有用的,但是这也对服务端的实际功能没有多大的改变。每个客户端只跟服务端交互,甚至不跟其它客户端进行间接地交互。这是一个流行的模型,WEB服务器和MAIL服务器都使用这种模型。这里还有另外的一个类型的服务端:用于连接每个客户端。对很多程序来说,他们关注的并不是服务端,而是还有什么人连接到它。在线聊天室和游戏是这种类型的流行应用。在这一章,我们将设计和建
用python写1个简单的聊天服务器3-TCP服务器选择
watsy
python ios开发
有了文章2的分析以后下面需要做的事情是选择1个TCP服务器。自己写1个TCP服务器考虑到快速实现,不现实。最终有3个框架twistedgeventtornadogoogle了一下资料以后。考虑geventtornado比较理想的目标是gevent,不过测试1天,作为tcp服务器时候。read函数并没有补丁为非阻塞方法。放弃剩下的就是tornadogoogle一下tornadotcp服务器资料,发现
python学习笔记08_赋值运算、逻辑运算、表达式、短路原则
flamingocc
python笔记081.赋值运算符num+=1等价于num=num+1num-=1等价于num=num-1num*=1等价于num=num*1num/=1等价于num=num/1num//2等价于num=num//2num%=2等价于num/2的余数num**2等价于num=num*num2.逻辑运算符逻辑运算符包含:not、and、or2.1and的用法:(且、并且)写法:条件1and条件2eg
Python 创建一个简单的在线聊天系统
LIY若依
服务器 网络 linux
在这篇博客中,我们将创建一个简单的在线聊天系统,使用Python的socket库和多线程技术来实现服务器和客户端之间的通信。通过这个项目,你将学到如何使用socket创建网络连接,以及如何处理多个客户端的并发连接。1.准备工作在开始之前,请确保你的环境中已经安装了socket。如果尚未安装,请运行以下命令:pipinstallsocket2.服务器端代码服务器端代码负责监听客户端的连接请求,并在接
561. 数组拆分 递归思想 数学规律 python 力扣
西柚与蓝莓
力扣 递归 python leetcode 算法
561.数组拆分已解答简单相关标签相关企业提示给定长度为2n的整数数组nums,你的任务是将这些数分成n对,例如(a1,b1),(a2,b2),...,(an,bn),使得从1到n的min(ai,bi)总和最大。返回该最大总和。示例1:输入:nums=[1,4,3,2]输出:4解释:所有可能的分法(忽略元素顺序)为:1.(1,4),(2,3)->min(1,4)+min(2,3)=1+2=32.(
2287. 重排字符形成目标字符串 Python 力扣
西柚与蓝莓
力扣 字符串 算法 python
2287.重排字符形成目标字符串简单给你两个下标从0开始的字符串s和target。你可以从s取出一些字符并将其重排,得到若干新的字符串。从s中取出字符并重新排列,返回可以形成target的最大副本数。示例1:输入:s="ilovecodingonleetcode",target="code"输出:2解释:对于"code"的第1个副本,选取下标为4、5、6和7的字符。对于"code"的第2个副本,选
Python API操作RocketMQ
京城小筑
# Python编程 python
背景:开发背景:公司相关报表需求需要将订单业务数据同步至RocketMQ中,由于需要保证开发的一致性(多个部门协同开发),所以采用读取Hive离线数据的方式通过PythonAPI写入RocketMQ中,便于其他开发同事调用~开发环境:本地调试系统MacPython3.7.5rocketmq0.4.4(Python模块)rocketmq-client-python2.0.0(Python模块)服务器
Python(PyTorch和TensorFlow)图像分割卷积网络导图(生物医学)
亚图跨际
交叉知识 Python 生物医学 脑肿瘤图像 皮肤病变 多模态医学图像 多尺度特征生物医学 腹部胰腺图像 病灶边界 气胸图像
要点语义分割图像三层分割椭圆图像脑肿瘤图像分割动物图像分割皮肤病变分割多模态医学图像多尺度特征生物医学肖像多类和医学分割通用图像分割模板腹部胰腺图像分割分类注意力网络病灶边界分割气胸图像分割Python生物医学图像卷积网络该网络由收缩路径和扩展路径组成,收缩路径是一种典型的卷积网络,由重复应用卷积组成,每个卷积后跟一个整流线性单元(ReLU)和一个最大池化操作。在收缩过程中,空间信息减少,而特征信
python操作rocket-mq
AQH~
Python
1、参考源码看源码,可以修改消息字节长度限制(rocketmq/client.py)2、推送消息fromrocketmq.clientimportProducer,Messageproducer=Producer('PID-001')#随便producer.set_namesrv_addr('ip:port')#ip和端口producer.start()msg=Message('rocket_mq
3月编程语言Go进入TIOBE指数前十,Java重回第三的位置
骨灰级收藏家
Java 编程 互联网 java 开发语言 Java编程 TIOBE指数
3月Tiobe编程排行榜已出,烈火试真金,在竞争激烈的编程界,能连续多个月位居第一,足以说明Python强大的实力!Tiobe编程排行榜前20名Top10Tiobe指数走势素材来源https://www.tiobe.com/tiobe-index/,如侵删本期Tiobe看点:编程语言Go进入TIOBE指数前十,Java重回第三的位置!今天要聊的话题是编程界常青藤-Java生命力非常旺盛Java,今
python 一个命令行的聊天服务器
Kw!G
python python
使用telnet连接可以连接成功,但是客户端发送消息就会报类型不匹配的错byte和str不匹配,这个错我实在找不到怎么改如果有大佬知道,请告知我,谢谢!解决了collect_incoming_data传来的参数data是byte类型的,需要用decode转换#异步套接字fromasyncoreimportdispatcherfromasynchatimportasync_chatimportsoc
python中的pyc, pyd文件及生成使用
whereismatrix
python
简介python源码文件是py后缀,看到py扩展名的文件,那就可用判断其为python代码文件。在python系统里,还有pyc文件和pyd文件。注意:本操作使用的python为v3.11版本。pyc文件pyc是python编译后,生成的字节码文件。使用pyc可以加快程序的加载速度,但不能加快程序的实际执行速度,这就是解释为什么我们安装python目录很多第三方库下是pyc文件的原因,因为它可以使
Python的三种方式显示图片
西柚与蓝莓
python python
fromPILimportImageimportnumpyasnpim=Image.open("img.png")#方法一:使用PIL库显示图片a=np.array(im)im=Image.fromarray(a)im.show()importmatplotlib.pyplotasplt#方法二:使用matplotlib库显示图片plt.imshow(a)plt.show()#方法三:使用open
python基础:10.面向对象之简介
海阔and天空
python全栈自动化测试
0.前言如果可以的话,请先关注(专栏和账号),然后点赞和收藏,最后学习和进步。你的支持是我继续写下去的最大动力,个人定当倾囊而送,不负所望。谢谢!!!1.前提基于win10专业版64位系统+64位jdk1.8+64位python3.6.5+社区版pycharm2018.1.3+unittest+selenium3.141.0。要学好自动化测试,我们先从python语言基础开始学习,一步一个脚印,欲
django报错 ) from exc ^ SyntaxError: invalid syntax
irrationality
django django python
新创建的Django项目,进入后直接运行pythonmanage.pyrunserver时报错如下:user@UserdeMacBook-ProdjangoProject%pythonmanage.pyrunserverFile"manage.py",line17)fromexc^SyntaxError:invalidsyntax感觉有点莫名其妙,后来发现python版本指定的有问题,应该指定py
pandas/numpy数据结构算法(之行列变换)(二) (tag:行列转换,迪卡尔积,内置函数,数据结构)
MrStubborn_aebe
目录:****1.Numpy-diag矩阵变换stack()/unstack()pd.pivot_table()pd.melt()groupby聚类算法mapping小技巧numpy.vectorize()**在这**里插入图片描述前言最近遇到很多需要迭代和归并数据的情况,一直以来的做法,都是循环主要的键,去进行后续操作。这是最典型的Python操作,然而还是上次提到的效率问题。记得之前朋友和我讲
Python 安装 Django时pip install django报错
CJenny
Python python django pip
Python安装Django时pipinstalldjango报错超时报错解决方法超时报错解决方法将原语句改为pipinstallDjango-ihttps://mirrors.aliyun.com/pypi/simple
Python中的列表(清晰易懂)
L蓝镜J
Python python 开发语言
列表是用来存放数据的Python中的列表关键字是list我们来定义一个列表lista=["a","b","c",666,"a"]可以看到列表lista中有字符型数据"a","b","c"还有整型数据666而且还有两个重复的字符"a"小结1:1、Python列表中可以存放多种类型的数据2、Pyton列表中的数据可以重复怎么获取Python列表中的值了通过下标即可例如:lista[0]里面存放的就是字
micropython串口通信_MicroPython-ESP32串口通信-1Z实验室
weixin_39896839
micropython串口通信
出品:1Z实验室(1ZLAB:MakeThingsEasy)概要在本节课程阿凯为大家讲解了串口通信的接线方式,ESP32中的串口UART资源与相关API,并给出了一个UART的小应用实例。目录串口通信UART执行标准UART/USART双工串行通信协议,关于串口通信你需要的预备知识有码元,波特率,奇偶校验等概念。可以在B站上观看串口通信科普视频.TODO英文的,1Z实验室后面有精力也会考虑做一些科
python面向对象简介_python基础:10.面向对象之简介
奋哥时代
python面向对象简介
0.前言如果可以的话,请先关注(专栏和账号),然后点赞和收藏,最后学习和进步。你的支持是我继续写下去的最大动力,个人定当倾囊而送,不负所望。谢谢!!!1.前提基于win10专业版64位系统+64位jdk1.8+64位python3.6.5+社区版pycharm2018.1.3+unittest+selenium3.141.0。要学好自动化测试,我们先从python语言基础开始学习,一步一个脚印,欲
Python实现多线程、多进程及协程
闲人编程
python python 开发语言 多线程 多进程 协程 并发 异步
目录Python实现多线程、多进程及协程引言1.多线程(Threading)1.1多线程的基本概念1.2多线程的优点和缺点1.3Python多线程的实现2.多进程(Multiprocessing)2.1多进程的基本概念2.2多进程的优点和缺点2.3Python多进程的实现3.协程(Coroutine)3.1协程的基本概念3.2协程的优点和缺点3.3Python协程的实现4.三种并发模型的对比与选择
Python学习笔记(三):列表的定义、访问及修改
RANDY_Sw
Python入门 python
今天学习了有关列表的定义、访问及修改的方法,在此整理一下。列表的定义与访问name_list=['zhangsan','lisi','wangwu']#创建一个列表name_list[0]='xiaobai'#修改列表中的单个元素print(name_list)#遍历的方式打印列表1foriteminname_list:print(item)#遍历的方式打印列表2i=0foriinrange(le
【python基础语法十】面向对象
monoplasty
Python python 开发语言 python面向对象
面向对象的程序开发"""用几大特征表达一类事物称为一个类,类更像是一张图纸,表达的是一个抽象概念对象是类的具体实现,更像是由这图纸产出的具体物品,类只有一个,但对象可以通过这个类实例化出多个对象是类的实例,类是对象的模板*类中的成员只有方法和属性,不要裸露的把判断和循环直接写在类中,而是用方法包起来(1)类的定义(2)类的实例化(3)类的基本结构(4)类的命名"""1.类的定义#1classCar
基本数据类型和引用类型的初始值
3213213333332132
java基础
package com.array;
/**
* @Description 测试初始值
* @author FuJianyong
* 2015-1-22上午10:31:53
*/
public class ArrayTest {
ArrayTest at;
String str;
byte bt;
short s;
int i;
long
摘抄笔记--《编写高质量代码:改善Java程序的151个建议》
白糖_
高质量代码
记得3年前刚到公司,同桌同事见我无事可做就借我看《编写高质量代码:改善Java程序的151个建议》这本书,当时看了几页没上心就没研究了。到上个月在公司偶然看到,于是乎又找来看看,我的天,真是非常多的干货,对于我这种静不下心的人真是帮助莫大呀。
看完整本书,也记了不少笔记
【备忘】Django 常用命令及最佳实践
dongwei_6688
django
注意:本文基于 Django 1.8.2 版本
生成数据库迁移脚本(python 脚本)
python manage.py makemigrations polls
说明:polls 是你的应用名字,运行该命令时需要根据你的应用名字进行调整
查看该次迁移需要执行的 SQL 语句(只查看语句,并不应用到数据库上):
python manage.p
阶乘算法之一N! 末尾有多少个零
周凡杨
java 算法 阶乘 面试 效率
&n
spring注入servlet
g21121
Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的,配置代理servlet亦比较麻烦,这里其实有比较简单的方法,其实就是在servlet的init()方法中加入要注入的内容:
ServletContext application = getServletContext();
WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档
510888780
centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/
基本的格式为
java
基本的格式为
java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args]
下面具体介绍各个命令的作用及基本使用方法
1. &nb
UnicodeBlock检测中文用法
布衣凌宇
UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数
aijuans
java orale
1.创建表:STOCK_PRICES
2.插入测试数据:
3.建立一个返回游标:
PKG_PUB_UTILS
4.创建和存储过程:P_GET_PRICE
5.创建函数:
6.JAVA调用存储过程返回结果集
JDBCoracle10G_INVO
Velocity Toolbox
antlove
模板 tool box velocity
velocity.VelocityUtil
package velocity;
import org.apache.velocity.Template;
import org.apache.velocity.app.Velocity;
import org.apache.velocity.app.VelocityEngine;
import org.apache.velocity.c
JAVA正则表达式匹配基础
百合不是茶
java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作
正则表达式的用途;
字符串的匹配
字符串的分割
字符串的查找
字符串的替换
正则表达式的验证语法
[a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置
bijian1013
jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题,由于前端采用EasyTemplate模板方法实现数据展示,但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了,导致我的模板不能正常展示后台数据。
网
精通Oracle10编程SQL(1-3)PLSQL基础
bijian1013
oracle 数据库 plsql
--只包含执行部分的PL/SQL块
--set serveroutput off
begin
dbms_output.put_line('Hello,everyone!');
end;
select * from emp;
--包含定义部分和执行部分的PL/SQL块
declare
v_ename varchar2(5);
begin
select
【Nginx三】Nginx作为反向代理服务器
bit1129
nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能:
接受客户端请求
将请求转发给被代理的服务器
从被代理的服务器获得响应结果
把响应结果返回给客户端
实例
本文把Nginx配置成一个简单的代理服务器
对于静态的html和图片,直接从Nginx获取
对于动态的页面,例如JSP或者Servlet,Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin
blackproof
maven 报错
转:http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin
maven报错:
Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon
ronin47
docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry
docker pull docker-registry
docker run -t -p 5000:5000 docker-registry
下载docker镜像并发布到私有registry
docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈
bylijinnan
java
import java.util.ArrayList;
import java.util.List;
import java.util.Stack;
/*
* Q 57 用两个栈实现队列
*/
public class QueueImplementByTwoStacks {
private Stack<Integer> stack1;
pr
Nginx配置性能优化
cfyme
nginx
转载地址:http://blog.csdn.net/xifeijian/article/details/20956605
大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装,修改这里或那里的几行配置,好了,你已经有了一个Web服务器了。而且,在大多数情况下,一个常规安装的nginx对你的网站来说已经能很好地工作了。然而,如果你真的想挤压出Nginx的性能,你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术
comsci
java
对图形图像进行精确处理,需要大量的数学工具,即使是从底层硬件模拟层开始设计,也离不开大量的数学工具包,因为我认为,JAVA语言体系在图形图像处理模块上面的研发工作,需要从开发一些基础的,类似实时数学函数构造器和解析器的软件包入手,而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件......
&nb
MonkeyRunner的使用
dai_lm
android MonkeyRunner
要使用MonkeyRunner,就要学习使用Python,哎
先抄一段官方doc里的代码
作用是启动一个程序(应该是启动程序默认的Activity),然后按MENU键,并截屏
# Imports the monkeyrunner modules used by this program
from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案
datamachine
mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案,存档。
原帖:http://blog.csdn.net/calvinxiu/article/details/1506112。
Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入
dcj3sjt126com
yii
以資料庫驗證登入
由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks:[2]php版本自动触发更新
dcj3sjt126com
github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。
工具/原料
git
github
方法/步骤
在github的setting里面的webhooks里把我们的url地址填进去。
钩子更新的代码如下: error_reportin
Eos开发常用表达式
蕃薯耀
Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
蕃薯耀 2014年8月18日 15:03:35 星期一
&
SpringSecurity3.X--SpEL 表达式
hanqunfeng
SpringSecurity
使用 Spring 表达式语言配置访问控制,要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性:
<http auto-config="true" use-expressions="true">
这样就会在投票器中自动增加一个投票器:org.springframework
Redis vs Memcache
IXHONG
redis
1. Redis中,并不是所有的数据都一直存储在内存中的,这是和Memcached相比一个最大的区别。
2. Redis不仅仅支持简单的k/v类型的数据,同时还提供list,set,hash等数据结构的存储。
3. Redis支持数据的备份,即master-slave模式的数据备份。
4. Redis支持数据的持久化,可以将内存中的数据保持在磁盘中,重启的时候可以再次加载进行使用。
Red
Python - 装饰器使用过程中的误区解读
kvhur
JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式,经常被用于AOP(面向切面编程)的场景,较为经典的有插入日志,性能测试,事务处理,Web权限校验, Cache等。
原文链接:http://www.gbtags.com/gb/share/5563.htm
Python语言本身提供了装饰器语法(@),典型的装饰器实现如下:
@function_wrapper
de
架构师之mybatis-----update 带case when 针对多种情况更新
nannan408
case when
1.前言.
如题.
2. 代码.
<update id="batchUpdate" parameterType="java.util.List">
<foreach collection="list" item="list" index=&
Algorithm算法视频教程
栏目记者
Algorithm 算法
课程:Algorithm算法视频教程
百度网盘下载地址: http://pan.baidu.com/s/1qWFjjQW 密码: 2mji
程序写的好不好,还得看算法屌不屌!Algorithm算法博大精深。
一、课程内容:
课时1、算法的基本概念 + Sequential search
课时2、Binary search
课时3、Hash table
课时4、Algor
C语言算法之冒泡排序
qiufeihu
c 算法
任意输入10个数字由小到大进行排序。
代码:
#include <stdio.h>
int main()
{
int i,j,t,a[11]; /*定义变量及数组为基本类型*/
for(i = 1;i < 11;i++){
scanf("%d",&a[i]); /*从键盘中输入10个数*/
}
for
JSP异常处理
wyzuomumu
Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中:
<%@ page errorPage="errors.jsp"%>
2.在处理异常的网页中做如下声明:
errors.jsp:
<%@ page isErrorPage="true"%>,这样设置完后就可以在网页中直接访问exc