元素的文字
//td:选择所有的
元素
//div[@class="mine"]:选择所有具有 class="mine"属性的 div 元素
我们这里给大家演示一下:(值的一提的是:reponse.xpath() 已经映射到了 response.selector.xpath() ,所以,我们以后就只使用 response.selector.xpath() )
#CMD窗口
In [6]: response.selector.xpath('//title')
Out[6]: []
我们使用上面的语句得到 title,'//标签的名字' 表示选出这个网页里面所有这个标签的元素,大家可以看到,title只有一个。返回的是一个 Selector 对象的列表。
你想把这个列表给字符串化,可以使用 extract() ,如下,就得到了一个 unicode 的字符串。
#CMD窗口
In [7]: response.selector.xpath('//title').extract()
Out[7]: ['婚恋交友-生活与服务-目录分类-DMOZ中文网站分类目录 ']
你如果想要得到 title 里面的文字(只显示title 的文字,不要标签),你就可以:
#CMD窗口
In [9]: response.selector.xpath('//title/text()').extract()
Out[9]: ['婚恋交友-生活与服务-目录分类-DMOZ中文网站分类目录']
非常方便,比你挖空心思去写正则表达式要容易得多,而且不会出错,因为它是根据节点(也就是网页中的标签)来一个一个去查找的。
我们接下来就是提取数据了,尝试从页面中提取出对我们有用的数据。你可以从 response.body 里面去找,但我们极力不建议这样做,因为这浪费时间又不讨好,之前不是说了,有一个审查元素吗,我们来看看 我们想要的 title,link 和 desc 的规律。
布袋除尘器_袋式脉冲除尘器_小型除尘器_除尘器骨架_除尘器布袋_UV光氧催化设备_VOC催化燃烧设备生产厂家,型号齐全,价格合理,批发定做。河北富宇环保设备有限公司
我们发现,在一个 ul 标签 和 li 标签中间,而且每个 li 标签对应一组数据,所以,我们先找 ul ,再找 li 就对了。
好,那我们来试一下:
#CMD窗口
In [12]: response.selector.xpath('//ul/li')
Out[12]:
[,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
]
response.selector.xpath('//ul/li') 命令就把 response 里面所有的 ul/li 给打印出来了,我们要获得网站的描述的内容(desc),就还需要再加上一个 /p :
#CMD窗口
In [18]: response.selector.xpath('//ul/li/p')
Out[18]:
[,
,
,
,
,
,
,
,
,
]
这里看不完整,我们可以使用 extract():
#CMD窗口
In [19]: response.selector.xpath('//ul/li/p').extract()
Out[19]:
['天喜缘婚介婚庆网是济南最专业的婚介网站、婚庆网站,交友网站,及济南征婚、济南交友、济南婚介、济南庆典、济南礼仪于一体,网下有实体店面-济南市市中区天喜缘婚介婚庆中心,不定期举办联谊活动,保证会员成功率
',
'诚信投资控股集团属于四川省大型企业集团,川内排于前20名,注册资金3.5亿元,拥有固定资产46.5亿。公司总部位于成都市致民东路1号。在北京、上海、新疆等地设有分公司。诚信盛世阳光婚庆公司是其子公司。
',
'情人网交友中心为你提供最佳的网上情人交友机会,足不出户便能让你有更多的选择!
',
'国际免费婚介交友网站是相约100提供的完全免费的国际交友网站。会员以华人为主遍布五湖四海,所有会员完全免费。所有寻找国际免费婚介交友网站的朋友都能在国际交友网站在找到完全免费的国际免费婚介交友网站服务
',
'安徽婚庆网
',
'聚缘北海交友网是北海地区较规范的婚恋交友网站,致力于营造有趣而安全的网络交友社区,提供搜索、美文、约会、日记、聊天、等多项交友服务。并与地方婚介部门建立了良好的合作关系。
',
'爱我吧婚恋网是一个真实、严肃、高品位的婚恋平台,提供科学、高效的全程服务,帮助真心寻找终身伴侣的人士实现和谐婚恋,努力营造国内最专业、严肃的婚恋交友平
',
'纯公益性,爱心社交网站,为广大青年及单身人士提供的全免费交友平台。
',
'东莞韩风尚婚纱摄影工作室是具有独特的韩国风格的东莞婚纱摄影工作室,韩风尚位于东莞东城区旗峰路国泰大厦10号,我们永远满怀创意与温情,通过一对一的服务为您提供超越您期望
',
'百合婚礼社区讨论话题涵盖婚纱照、婚纱摄影、婚礼筹备、婚纱礼服、婚庆等方面
']
如果再加上 text() ,就只显示文本内容,删除了标签 p
#CMD窗口
In [20]: response.selector.xpath('//ul/li/p/text()').extract()
Out[20]:
['天喜缘婚介婚庆网是济南最专业的婚介网站、婚庆网站,交友网站,及济南征婚、济南交友、济南婚介、济南庆典、济南礼仪于一体,网下有实体店面-济南市市中区天喜缘婚介婚庆中心,不定期举办联谊活动,保证会员成功率',
'诚信投资控股集团属于四川省大型企业集团,川内排于前20名,注册资金3.5亿元,拥有固定资产46.5亿。公司总部位于成都市致民东路1号。在北京、上海、新疆等地设有分公司。诚信盛世阳光婚庆公司是其子公司。',
'情人网交友中心为你提供最佳的网上情人交友机会,足不出户便能让你有更多的选择!',
'国际免费婚介交友网站是相约100提供的完全免费的国际交友网站。会员以华人为主遍布五湖四海,所有会员完全免费。所有寻找国际免费婚介交友网站的朋友都能在国际交友网站在找到完全免费的国际免费婚介交友网站服务',
'安徽婚庆网',
'聚缘北海交友网是北海地区较规范的婚恋交友网站,致力于营造有趣而安全的网络交友社区,提供搜索、美文、约会、日记、聊天、等多项交友服务。并与地方婚介部门建立了良好的合作关系。',
'爱我吧婚恋网是一个真实、严肃、高品位的婚恋平台,提供科学、高效的全程服务,帮助真心寻找终身伴侣的人士实现和谐婚恋,努力营造国内最专业、严肃的婚恋交友平',
'纯公益性,爱心社交网站,为广大青年及单身人士提供的全免费交友平台。',
'东莞韩风尚婚纱摄影工作室是具有独特的韩国风格的东莞婚纱摄影工作室,韩风尚位于东莞东城区旗峰路国泰大厦10号,我们永远满怀创意与温情,通过一对一的服务为您提供超越您期望',
'百合婚礼社区讨论话题涵盖婚纱照、婚纱摄影、婚礼筹备、婚纱礼服、婚庆等方面']
我们想要得到各网站的标题(title):我们审查元素看到,标题的内容是在 h4 标签里面的 a 标签的文本里面,所以:
#CMD窗口
In [25]: response.selector.xpath('//ul/li/h4/a/text()').extract()
Out[25]:
['天喜缘婚介网-最好的婚征婚介网站',
'成都盛世阳光婚庆策划有限公司',
'情人网',
'国际免费婚介交友网站-相约100',
'安徽婚庆网',
'聚缘北海交友网',
'爱我吧婚恋网',
'77国际交友网',
'东莞韩风尚婚纱摄影工作室',
'百合婚礼社区']
接下来,我们想得到网址的超链接(link),我们可以使用 response.selector.xpath('//ul/li/h4/a/@href').extract()
#CMD窗口
In [28]: response.selector.xpath('//ul/li/h4/a/@href').extract()
Out[28]:
['http://www.dmozdir.org/SiteInformation/?www.love219.com-----14846-----.shtml',
'http://www.dmozdir.org/SiteInformation/?www.ssyg520.com-----27215-----.shtml',
'http://www.dmozdir.org/SiteInformation/?www.591lover.net-----36999-----.shtml',
'http://www.dmozdir.org/SiteInformation/?www.free-onlinedating.me-----10110-----.shtml',
'http://www.dmozdir.org/SiteInformation/?www.ahhqw.com-----18983-----.shtml',
'http://www.dmozdir.org/SiteInformation/?www.jyjjyy.com-----19343-----.shtml',
'http://www.dmozdir.org/SiteInformation/?www.lovemeba.com-----9983-----.shtml',
'http://www.dmozdir.org/SiteInformation/?www.77lds.com-----37176-----.shtml',
'http://www.dmozdir.org/SiteInformation/?www.dg-hfs.com-----18760-----.shtml',
'http://www.dmozdir.org/SiteInformation/?www.lilywed.cn-----9976-----.shtml']
上面所有的命令,如果没有假设 extract() ,就是得到 selector 对象的列表,加上 extract() 之后呢,得到的就是 将 selector 对象中的 data 变成字符串 提取出来。
我们这里还可以写一个循环来打印内容:
#CMD窗口
In [44]: a=response.selector.xpath('//ul/li/h4/a/text()').extract()
In [45]: for each in a:
...: print(each)
...:
天喜缘婚介网-最好的婚征婚介网站
成都盛世阳光婚庆策划有限公司
情人网
国际免费婚介交友网站-相约100
安徽婚庆网
聚缘北海交友网
爱我吧婚恋网
77国际交友网
东莞韩风尚婚纱摄影工作室
百合婚礼社区
一切OK了,接下来就是写我们的代码了,把它投入到生产线上去实现:
我们 退出 shell (使用命令 exit()),回到我们的 CMD,
#CMD窗口
In [48]: exit()
C:\Users\XiangyangDai\Desktop\tutorial>
修改我们的 Spider 代码,也就是 dmoz_spider.py。我们就按刚才从 shell 获得的经验来写 parse() 函数。
#dmoz_spider.py
import scrapy
class DmozSpider(scrapy.Spider):
name = "dmoz"
allowed_domains = ['dmozdir.org/Category']
start_urls = ['http://www.dmozdir.org/Category/?SmallPath=411']
# 'http://www.dmozdir.org/Category/?SmallPath=411']
def parse(self, response):
titles = response.selector.xpath('//ul/li/h4/a/text()').extract() #标题 title
links = response.selector.xpath('//ul/li/h4/a/@href').extract() #超链接 link
decss = response.selector.xpath('//ul/li/p/text()').extract() #描述 decs
if len(titles) == len(links) == len(decss):
for i in range(len(titles)):
print(titles[i], links[i], decss[i])
写好之后,保存,进入 CMD,在 tutorial 根目录下执行命令:scrapy crawl dmoz
#CMD窗口
C:\Users\XiangyangDai\Desktop\tutorial>scrapy crawl dmoz
2018-12-17 19:32:48 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: tutorial)
2018-12-17 19:32:48 [scrapy.utils.log] INFO: Versions: lxml 4.2.5.0, libxml2 2.9.5, cssselect 1.0.3, parsel 1.5.1, w3lib 1.19.0, Twisted 18.9.0, Python 3.5.2 |Anaconda 4.2.0 (64-bit)| (default, Jul 5 2016, 11:41:13) [MSC v.1900 64 bit (AMD64)], pyOpenSSL 18.0.0 (OpenSSL 1.1.0j 20 Nov 2018), cryptography 2.4.2, Platform Windows-10-10.0.17134-SP0
2018-12-17 19:32:48 [scrapy.crawler] INFO: Overridden settings: {'SPIDER_MODULES': ['tutorial.spiders'], 'ROBOTSTXT_OBEY': True, 'BOT_NAME': 'tutorial', 'NEWSPIDER_MODULE': 'tutorial.spiders'}
2018-12-17 19:32:48 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.telnet.TelnetConsole',
'scrapy.extensions.corestats.CoreStats',
'scrapy.extensions.logstats.LogStats']
2018-12-17 19:32:49 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
'scrapy.downloadermiddlewares.retry.RetryMiddleware',
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
'scrapy.downloadermiddlewares.stats.DownloaderStats']
2018-12-17 19:32:49 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
'scrapy.spidermiddlewares.referer.RefererMiddleware',
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
'scrapy.spidermiddlewares.depth.DepthMiddleware']
2018-12-17 19:32:49 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2018-12-17 19:32:49 [scrapy.core.engine] INFO: Spider opened
2018-12-17 19:32:49 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2018-12-17 19:32:49 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2018-12-17 19:32:49 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
2018-12-17 19:32:49 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
2018-12-17 19:32:49 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
中国论文写发网 http://www.dmozdir.org/SiteInformation/?www.lwxfw.com-----13589-----.shtml 中国论文写发网提供免费论文,职称论文,毕业论文,硕士论文,本科论文,MBA论文,电大论文,述职报告,论文下载,工作总结,论文推荐发表,论文写作指导,论文翻译等服务,网址www.lwxfw.com
专注代写论文网,论文代写,硕士论文代写,博士论文代写 http://www.dmozdir.org/SiteInformation/?www.zzlunwen010.com-----28351-----.shtml 专注代写论文网,论文代写,硕士论文代写,博士论文代写,各类职称论文代写代发!
论文天下 http://www.dmozdir.org/SiteInformation/?www.su30.net-----20547-----.shtml 论文天下,免费提供:论文范文,免费论文,论文大全, 论文下载,论文格式,论文提纲,论文发表,论文开题报告,论文题目等资料的查阅,有偿提供:论文代写、代发服 务!
河南教师网 http://www.dmozdir.org/SiteInformation/?www.hateacher.com-----31307-----.shtml 河南教师网/河南教师考试网/河南教师资格网/河南教育信息网/河南教师资格证历年真题/河南教师资格证复习资料/河南招教考试真题/河南招教考试复习资料/学习笔 记/中国招教网/河南招教网/河南教师资格网
久久论文检测 http://www.dmozdir.org/SiteInformation/?www.99fx.net-----38891-----.shtml 久久论文检测网专业提供免费论文检测、论文检测软件、论文抄袭检测、知网论文检测、万方论文检测、论文修改资料以及免费论文检测系统。让您毕业答辩无忧!
李国旺工作室 http://www.dmozdir.org/SiteInformation/?www.lgwlncy.com-----12221-----.shtml 高三政治教学,政治高考,高中政治新课标,政治试卷,高中政治网址。
笔杆子论文 http://www.dmozdir.org/SiteInformation/?www.bgzlw.com-----45851-----.shtml 笔杆子论文网提供免费论文、毕业论文、论文范文、论文下载、各专业论文、工作总结、论文定制、发表论文、购买论文、论文写作指导等服务
中国论文热线网 http://www.dmozdir.org/SiteInformation/?www.lwrxw.com-----15692-----.shtml 中国论文热线网提供职称论文推荐发表、省级刊物、核心刊物、CN、ISSN刊物推荐发表等服务,可以推荐发表多专业职称论文,是您职称评审论文发表的最佳伙伴,网址www.lwrxw.com
就要学习网 http://www.dmozdir.org/SiteInformation/?www.62355065.cn-----11960-----.shtml 就要学习网是集教案,课件,试卷,毕业论文,教学视频为一体的免费资源网。
新论文代写网 http://www.dmozdir.org/SiteInformation/?www.newlw.com-----25276-----.shtml 毕业论文|毕业设计|毕业论文范文|计算机毕业设计|毕业论文格式范文|机械毕业设计|行政管理毕业论文|毕业设计开题报告|计算机网络毕业论文|毕业设计论文|毕业论 文网|代做毕业设计|怎样写毕业论文
天喜缘婚介网-最好的婚征婚介网站 http://www.dmozdir.org/SiteInformation/?www.love219.com-----14846-----.shtml 天喜缘婚介婚庆网是济南最专业的婚介网站、婚庆网站,交友网站,及济南征婚、济南交友、济南婚介、济南庆典、济南礼仪于一体,网下有实体店面-济南市市中区天喜缘婚介婚庆中心,不定期举办联谊活动,保证会员成功率
成都盛世阳光婚庆策划有限公司 http://www.dmozdir.org/SiteInformation/?www.ssyg520.com-----27215-----.shtml 诚信投资控股集团属于四川省大型企业集团,川内排于前20名,注册资金3.5亿元,拥有固定资产46.5亿。公司总部位于成都市致民东路1号。在北京 、上海、新疆等地设有分公司。诚信盛世阳光婚庆公司是其子公司。
情人网 http://www.dmozdir.org/SiteInformation/?www.591lover.net-----36999-----.shtml 情人网交友中心为你提供最佳的网上情人交友机会,足不出户便能让你有更多的选择!
国际免费婚介交友网站-相约100 http://www.dmozdir.org/SiteInformation/?www.free-onlinedating.me-----10110-----.shtml 国际免费婚介交友网站是相约100提供的完全免费的国际交友网站。会员以华人为主遍布五湖四海,所有会员完全免费。所有寻找国际免费婚介交友网站的朋友都能在国际交友网站在找到完全免费的国际免费婚介交友网站服务
安徽婚庆网 http://www.dmozdir.org/SiteInformation/?www.ahhqw.com-----18983-----.shtml 安徽婚庆网
聚缘北海交友网 http://www.dmozdir.org/SiteInformation/?www.jyjjyy.com-----19343-----.shtml 聚缘北海交友网是北海地区较规范的婚恋交友网站,致力于营造有趣而安全的网络交友社区,提供搜索、美文、约会、日记、聊天、等多项交友服务。并与地方婚介部门建立了良好的合作关系。
爱我吧婚恋网 http://www.dmozdir.org/SiteInformation/?www.lovemeba.com-----9983-----.shtml 爱我吧婚恋网是一个真实、严肃、高品位的婚恋平台,提供科学、高效的全程服务,帮助真心寻找终身伴侣的人士实现和谐婚恋,努力营造国内最专业、严肃的婚恋交 友平
77国际交友网 http://www.dmozdir.org/SiteInformation/?www.77lds.com-----37176-----.shtml 纯公益性,爱心社交网站,为广大青年及单身人士提供的全免费交友平台。
东莞韩风尚婚纱摄影工作室 http://www.dmozdir.org/SiteInformation/?www.dg-hfs.com-----18760-----.shtml 东莞韩风尚婚纱摄影工作室是具有独特的韩国风格的东莞婚纱摄影工作室,韩风尚位于东莞东城区旗峰路国泰大厦10号,我们永远满怀创意与温情,通过一对一的服务为您提供超越您期望
百合婚礼社区 http://www.dmozdir.org/SiteInformation/?www.lilywed.cn-----9976-----.shtml 百合婚礼社区讨论话题涵盖婚纱照、婚纱摄影、婚礼筹备、婚纱礼服、婚庆等方面
2018-12-17 19:32:49 [scrapy.core.engine] INFO: Closing spider (finished)
2018-12-17 19:32:49 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 698,
'downloader/request_count': 3,
'downloader/request_method_count/GET': 3,
'downloader/response_bytes': 14618,
'downloader/response_count': 3,
'downloader/response_status_count/200': 3,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2018, 12, 17, 11, 32, 49, 552593),
'log_count/DEBUG': 4,
'log_count/INFO': 7,
'response_received_count': 3,
'scheduler/dequeued': 2,
'scheduler/dequeued/memory': 2,
'scheduler/enqueued': 2,
'scheduler/enqueued/memory': 2,
'start_time': datetime.datetime(2018, 12, 17, 11, 32, 49, 93393)}
2018-12-17 19:32:49 [scrapy.core.engine] INFO: Spider closed (finished)
我们就看中间这一部分:
2018-12-17 19:32:49 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
2018-12-17 19:32:49 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
中国论文写发网 http://www.dmozdir.org/SiteInformation/?www.lwxfw.com-----13589-----.shtml 中国论文写发网提供免费论文,职称论文,毕业论文,硕士论文,本科论文,MBA论文,电大论文,述职报告,论文下载,工作总结,论文推荐发表,论文写作指导,论文翻译等服务,网址www.lwxfw.com
专注代写论文网,论文代写,硕士论文代写,博士论文代写 http://www.dmozdir.org/SiteInformation/?www.zzlunwen010.com-----28351-----.shtml 专注代写论文网,论文代写,硕士论文代写,博士论文代写,各类职称论文代写代发!
论文天下 http://www.dmozdir.org/SiteInformation/?www.su30.net-----20547-----.shtml 论文天下,免费提供:论文范文,免费论文,论文大全, 论文下载,论文格式,论文提纲,论文发表,论文开题报告,论文题目等资料的查阅,有偿提供:论文代写、代发服 务!
河南教师网 http://www.dmozdir.org/SiteInformation/?www.hateacher.com-----31307-----.shtml 河南教师网/河南教师考试网/河南教师资格网/河南教育信息网/河南教师资格证历年真题/河南教师资格证复习资料/河南招教考试真题/河南招教考试复习资料/学习笔 记/中国招教网/河南招教网/河南教师资格网
久久论文检测 http://www.dmozdir.org/SiteInformation/?www.99fx.net-----38891-----.shtml 久久论文检测网专业提供免费论文检测、论文检测软件、论文抄袭检测、知网论文检测、万方论文检测、论文修改资料以及免费论文检测系统。让您毕业答辩无忧!
李国旺工作室 http://www.dmozdir.org/SiteInformation/?www.lgwlncy.com-----12221-----.shtml 高三政治教学,政治高考,高中政治新课标,政治试卷,高中政治网址。
笔杆子论文 http://www.dmozdir.org/SiteInformation/?www.bgzlw.com-----45851-----.shtml 笔杆子论文网提供免费论文、毕业论文、论文范文、论文下载、各专业论文、工作总结、论文定制、发表论文、购买论文、论文写作指导等服务
中国论文热线网 http://www.dmozdir.org/SiteInformation/?www.lwrxw.com-----15692-----.shtml 中国论文热线网提供职称论文推荐发表、省级刊物、核心刊物、CN、ISSN刊物推荐发表等服务,可以推荐发表多专业职称论文,是您职称评审论文发表的最佳伙伴,网址www.lwrxw.com
就要学习网 http://www.dmozdir.org/SiteInformation/?www.62355065.cn-----11960-----.shtml 就要学习网是集教案,课件,试卷,毕业论文,教学视频为一体的免费资源网。
新论文代写网 http://www.dmozdir.org/SiteInformation/?www.newlw.com-----25276-----.shtml 毕业论文|毕业设计|毕业论文范文|计算机毕业设计|毕业论文格式范文|机械毕业设计|行政管理毕业论文|毕业设计开题报告|计算机网络毕业论文|毕业设计论文|毕业论 文网|代做毕业设计|怎样写毕业论文
天喜缘婚介网-最好的婚征婚介网站 http://www.dmozdir.org/SiteInformation/?www.love219.com-----14846-----.shtml 天喜缘婚介婚庆网是济南最专业的婚介网站、婚庆网站,交友网站,及济南征婚、济南交友、济南婚介、济南庆典、济南礼仪于一体,网下有实体店面-济南市市中区天喜缘婚介婚庆中心,不定期举办联谊活动,保证会员成功率
成都盛世阳光婚庆策划有限公司 http://www.dmozdir.org/SiteInformation/?www.ssyg520.com-----27215-----.shtml 诚信投资控股集团属于四川省大型企业集团,川内排于前20名,注册资金3.5亿元,拥有固定资产46.5亿。公司总部位于成都市致民东路1号。在北京 、上海、新疆等地设有分公司。诚信盛世阳光婚庆公司是其子公司。
情人网 http://www.dmozdir.org/SiteInformation/?www.591lover.net-----36999-----.shtml 情人网交友中心为你提供最佳的网上情人交友机会,足不出户便能让你有更多的选择!
国际免费婚介交友网站-相约100 http://www.dmozdir.org/SiteInformation/?www.free-onlinedating.me-----10110-----.shtml 国际免费婚介交友网站是相约100提供的完全免费的国际交友网站。会员以华人为主遍布五湖四海,所有会员完全免费。所有寻找国际免费婚介交友网站的朋友都能在国际交友网站在找到完全免费的国际免费婚介交友网站服务
安徽婚庆网 http://www.dmozdir.org/SiteInformation/?www.ahhqw.com-----18983-----.shtml 安徽婚庆网
聚缘北海交友网 http://www.dmozdir.org/SiteInformation/?www.jyjjyy.com-----19343-----.shtml 聚缘北海交友网是北海地区较规范的婚恋交友网站,致力于营造有趣而安全的网络交友社区,提供搜索、美文、约会、日记、聊天、等多项交友服务。并与地方婚介部门建立了良好的合作关系。
爱我吧婚恋网 http://www.dmozdir.org/SiteInformation/?www.lovemeba.com-----9983-----.shtml 爱我吧婚恋网是一个真实、严肃、高品位的婚恋平台,提供科学、高效的全程服务,帮助真心寻找终身伴侣的人士实现和谐婚恋,努力营造国内最专业、严肃的婚恋交 友平
77国际交友网 http://www.dmozdir.org/SiteInformation/?www.77lds.com-----37176-----.shtml 纯公益性,爱心社交网站,为广大青年及单身人士提供的全免费交友平台。
东莞韩风尚婚纱摄影工作室 http://www.dmozdir.org/SiteInformation/?www.dg-hfs.com-----18760-----.shtml 东莞韩风尚婚纱摄影工作室是具有独特的韩国风格的东莞婚纱摄影工作室,韩风尚位于东莞东城区旗峰路国泰大厦10号,我们永远满怀创意与温情,通过一对一的服务为您提供超越您期望
百合婚礼社区 http://www.dmozdir.org/SiteInformation/?www.lilywed.cn-----9976-----.shtml 百合婚礼社区讨论话题涵盖婚纱照、婚纱摄影、婚礼筹备、婚纱礼服、婚庆等方面
上面的结果没有错误。
这个是爬和取的过程,我们接下来就要使用 Items,我们前面说过,Items 是我们自定义的容器,用法和Python的字典是一样的,我们希望 Spider 将爬取然后筛选后的数据存放到 Items 容器里面,我们刚才也在 parse 里写了筛选出 Items 对应的数据的方法了。筛选之后,我希望将它存放到 Items 中去。
我们的 items.py 在 tutorial/items.py 路径下,items 既是容器,也是一个类,类名我们在这个项目中定义为 DmozItem 。
我们需要把 items 导入到 spider 中,才可以使用它, 于是,我们在 dmoz_spider.py 文件中写道:
from turtorial.items import DmozItem
#dmoz_spider.py
import scrapy
from tutorial.items import DmozItem
class DmozSpider(scrapy.Spider):
name = "dmoz"
allowed_domains = ['dmozdir.org/Category']
start_urls = ['http://www.dmozdir.org/Category/?SmallPath=230',
'http://www.dmozdir.org/Category/?SmallPath=411']
def parse(self, response):
titles = response.selector.xpath('//ul/li/h4/a/text()').extract() #标题 title
links = response.selector.xpath('//ul/li/h4/a/@href').extract() #超链接 link
descs = response.selector.xpath('//ul/li/p/text()').extract() #描述 desc
items = []
if len(titles) == len(links) == len(descs):
for i in range(len(titles)):
#print(titles[i], links[i], decss[i])
item = DmozItem()
#每一组保存为一个字典
item['title'] = titles[i]
item['link'] = links[i]
item['desc'] = descs[i]
#将每个字典添加到列表中
items.append(item)
return items
然后我们在CMD 中,tutorail 的根目录下,执行命令:scrapy crawl dmoz -o items.json -t json
-o 文件名 -t 保存形式。
#CMD窗口
C:\Users\XiangyangDai\Desktop\tutorial>scrapy crawl dmoz -o items.json -t json
2018-12-17 20:49:28 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: tutorial)
2018-12-17 20:49:28 [scrapy.utils.log] INFO: Versions: lxml 4.2.5.0, libxml2 2.9.5, cssselect 1.0.3, parsel 1.5.1, w3lib 1.19.0, Twisted 18.9.0, Python 3.5.2 |Anaconda 4.2.0 (64-bit)| (default, Jul 5 2016, 11:41:13) [MSC v.1900 64 bit (AMD64)], pyOpenSSL 18.0.0 (OpenSSL 1.1.0j 20 Nov 2018), cryptography 2.4.2, Platform Windows-10-10.0.17134-SP0
2018-12-17 20:49:28 [scrapy.crawler] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'tutorial.spiders', 'SPIDER_MODULES': ['tutorial.spiders'], 'FEED_URI': 'items.json', 'BOT_NAME': 'tutorial', 'ROBOTSTXT_OBEY': True, 'FEED_FORMAT': 'json'}
2018-12-17 20:49:28 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.feedexport.FeedExporter',
'scrapy.extensions.corestats.CoreStats',
'scrapy.extensions.telnet.TelnetConsole',
'scrapy.extensions.logstats.LogStats']
2018-12-17 20:49:29 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
'scrapy.downloadermiddlewares.retry.RetryMiddleware',
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
'scrapy.downloadermiddlewares.stats.DownloaderStats']
2018-12-17 20:49:29 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
'scrapy.spidermiddlewares.referer.RefererMiddleware',
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
'scrapy.spidermiddlewares.depth.DepthMiddleware']
2018-12-17 20:49:29 [scrapy.middleware] INFO: Enabled item pipelines:
['tutorial.pipelines.TutorialPipeline']
2018-12-17 20:49:29 [scrapy.core.engine] INFO: Spider opened
2018-12-17 20:49:29 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2018-12-17 20:49:29 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2018-12-17 20:49:29 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
2018-12-17 20:49:29 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
2018-12-17 20:49:29 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '中国论文写发网提供免费论文,职称论文,毕业论文,硕士论文,本科论文,MBA论文,电大论文,述职报告,论文下载,工作总结,论文推荐发表,论文写作指导,论文翻译等服务,网址www.lwxfw.com',
'link': 'http://www.dmozdir.org/SiteInformation/?www.lwxfw.com-----13589-----.shtml',
'title': '中国论文写发网'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '专注代写论文网,论文代写,硕士论文代写,博士论文代写,各类职称论文代写代发!',
'link': 'http://www.dmozdir.org/SiteInformation/?www.zzlunwen010.com-----28351-----.shtml',
'title': '专注代写论文网,论文代写,硕士论文代写,博士论文代写'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '论文天下,免费提供:论文范文,免费论文,论文大全, '
'论文下载,论文格式,论文提纲,论文发表,论文开题报告,论文题目等资料的查阅,有偿提供:论文代写、代发服务!',
'link': 'http://www.dmozdir.org/SiteInformation/?www.su30.net-----20547-----.shtml',
'title': '论文天下'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '河南教师网/河南教师考试网/河南教师资格网/河南教育信息网/河南教师资格证历年真题/河南教师资格证复习资料/河南招教考试真题/河南招教考试复习资料/学习笔记/中国招教网/河南招教网/河南教师资格网',
'link': 'http://www.dmozdir.org/SiteInformation/?www.hateacher.com-----31307-----.shtml',
'title': '河南教师网'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '久久论文检测网专业提供免费论文检测、论文检测软件、论文抄袭检测、知网论文检测、万方论文检测、论文修改资料以及免费论文检测系统。让您毕业答辩无忧!',
'link': 'http://www.dmozdir.org/SiteInformation/?www.99fx.net-----38891-----.shtml',
'title': '久久论文检测'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '高三政治教学,政治高考,高中政治新课标,政治试卷,高中政治网址。',
'link': 'http://www.dmozdir.org/SiteInformation/?www.lgwlncy.com-----12221-----.shtml',
'title': '李国旺工作室'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '笔杆子论文网提供免费论文、毕业论文、论文范文、论文下载、各专业论文、工作总结、论文定制、发表论文、购买论文、论文写作指导等服务',
'link': 'http://www.dmozdir.org/SiteInformation/?www.bgzlw.com-----45851-----.shtml',
'title': '笔杆子论文'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '中国论文热线网提供职称论文推荐发表、省级刊物、核心刊物、CN、ISSN刊物推荐发表等服务,可以推荐发表多专业职称论文,是您职称评审论文发表的最佳伙伴,网址www.lwrxw.com',
'link': 'http://www.dmozdir.org/SiteInformation/?www.lwrxw.com-----15692-----.shtml',
'title': '中国论文热线网'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '就要学习网是集教案,课件,试卷,毕业论文,教学视频为一体的免费资源网。',
'link': 'http://www.dmozdir.org/SiteInformation/?www.62355065.cn-----11960-----.shtml',
'title': '就要学习网'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '毕业论文|毕业设计|毕业论文范文|计算机毕业设计|毕业论文格式范文|机械毕业设计|行政管理毕业论文|毕业设计开题报告|计算机网络毕业论文|毕业设计论文|毕业论文网|代做毕业设计|怎样写毕业论文',
'link': 'http://www.dmozdir.org/SiteInformation/?www.newlw.com-----25276-----.shtml',
'title': '新论文代写网'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '天喜缘婚介婚庆网是济南最专业的婚介网站、婚庆网站,交友网站,及济南征婚、济南交友、济南婚介、济南庆典、济南礼仪于一体,网下有实体店面-济南市市中区天喜缘婚介婚庆中心,不定期举办联谊活动,保证会员成功率',
'link': 'http://www.dmozdir.org/SiteInformation/?www.love219.com-----14846-----.shtml',
'title': '天喜缘婚介网-最好的婚征婚介网站'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '诚信投资控股集团属于四川省大型企业集团,川内排于前20名,注册资金3.5亿元,拥有固定资产46.5亿。公司总部位于成都市致民东路1号。在北京、上海、新疆等地设有分公司。诚信盛世阳光婚庆公司是其子公司。',
'link': 'http://www.dmozdir.org/SiteInformation/?www.ssyg520.com-----27215-----.shtml',
'title': '成都盛世阳光婚庆策划有限公司'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '情人网交友中心为你提供最佳的网上情人交友机会,足不出户便能让你有更多的选择!',
'link': 'http://www.dmozdir.org/SiteInformation/?www.591lover.net-----36999-----.shtml',
'title': '情人网'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '国际免费婚介交友网站是相约100提供的完全免费的国际交友网站。会员以华人为主遍布五湖四海,所有会员完全免费。所有寻找国际免费婚介交友网站的朋友都能在国际交友网站在找到完全免费的国际免费婚介交友网站服务',
'link': 'http://www.dmozdir.org/SiteInformation/?www.free-onlinedating.me-----10110-----.shtml',
'title': '国际免费婚介交友网站-相约100'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '安徽婚庆网',
'link': 'http://www.dmozdir.org/SiteInformation/?www.ahhqw.com-----18983-----.shtml',
'title': '安徽婚庆网'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '聚缘北海交友网是北海地区较规范的婚恋交友网站,致力于营造有趣而安全的网络交友社区,提供搜索、美文、约会、日记、聊天、等多项交友服务。并与地方婚介部门建立了良好的合作关系。',
'link': 'http://www.dmozdir.org/SiteInformation/?www.jyjjyy.com-----19343-----.shtml',
'title': '聚缘北海交友网'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '爱我吧婚恋网是一个真实、严肃、高品位的婚恋平台,提供科学、高效的全程服务,帮助真心寻找终身伴侣的人士实现和谐婚恋,努力营造国内最专业、严肃的婚恋交友平',
'link': 'http://www.dmozdir.org/SiteInformation/?www.lovemeba.com-----9983-----.shtml',
'title': '爱我吧婚恋网'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '纯公益性,爱心社交网站,为广大青年及单身人士提供的全免费交友平台。',
'link': 'http://www.dmozdir.org/SiteInformation/?www.77lds.com-----37176-----.shtml',
'title': '77国际交友网'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '东莞韩风尚婚纱摄影工作室是具有独特的韩国风格的东莞婚纱摄影工作室,韩风尚位于东莞东城区旗峰路国泰大厦10号,我们永远满怀创意与温情,通过一对一的服务为您提供超越您期望',
'link': 'http://www.dmozdir.org/SiteInformation/?www.dg-hfs.com-----18760-----.shtml',
'title': '东莞韩风尚婚纱摄影工作室'}
2018-12-17 20:49:30 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '百合婚礼社区讨论话题涵盖婚纱照、婚纱摄影、婚礼筹备、婚纱礼服、婚庆等方面',
'link': 'http://www.dmozdir.org/SiteInformation/?www.lilywed.cn-----9976-----.shtml',
'title': '百合婚礼社区'}
2018-12-17 20:49:30 [scrapy.core.engine] INFO: Closing spider (finished)
2018-12-17 20:49:30 [scrapy.extensions.feedexport] INFO: Stored json feed (20 items) in: items.json
2018-12-17 20:49:30 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 698,
'downloader/request_count': 3,
'downloader/request_method_count/GET': 3,
'downloader/response_bytes': 14618,
'downloader/response_count': 3,
'downloader/response_status_count/200': 3,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2018, 12, 17, 12, 49, 30, 79269),
'item_scraped_count': 20,
'log_count/DEBUG': 24,
'log_count/INFO': 8,
'response_received_count': 3,
'scheduler/dequeued': 2,
'scheduler/dequeued/memory': 2,
'scheduler/enqueued': 2,
'scheduler/enqueued/memory': 2,
'start_time': datetime.datetime(2018, 12, 17, 12, 49, 29, 574379)}
2018-12-17 20:49:30 [scrapy.core.engine] INFO: Spider closed (finished)
执行完毕后,在 tutorial 根目录 下就会有一个名为 items.json 的文件。
内容如下:
#items.json 文件内容
[
{"title": "\u4e2d\u56fd\u8bba\u6587\u5199\u53d1\u7f51", "desc": "\u4e2d\u56fd\u8bba\u6587\u5199\u53d1\u7f51\u63d0\u4f9b\u514d\u8d39\u8bba\u6587,\u804c\u79f0\u8bba\u6587,\u6bd5\u4e1a\u8bba\u6587,\u7855\u58eb\u8bba\u6587,\u672c\u79d1\u8bba\u6587,MBA\u8bba\u6587,\u7535\u5927\u8bba\u6587,\u8ff0\u804c\u62a5\u544a,\u8bba\u6587\u4e0b\u8f7d,\u5de5\u4f5c\u603b\u7ed3,\u8bba\u6587\u63a8\u8350\u53d1\u8868,\u8bba\u6587\u5199\u4f5c\u6307\u5bfc,\u8bba\u6587\u7ffb\u8bd1\u7b49\u670d\u52a1,\u7f51\u5740www.lwxfw.com", "link": "http://www.dmozdir.org/SiteInformation/?www.lwxfw.com-----13589-----.shtml"},
{"title": "\u4e13\u6ce8\u4ee3\u5199\u8bba\u6587\u7f51,\u8bba\u6587\u4ee3\u5199,\u7855\u58eb\u8bba\u6587\u4ee3\u5199,\u535a\u58eb\u8bba\u6587\u4ee3\u5199", "desc": "\u4e13\u6ce8\u4ee3\u5199\u8bba\u6587\u7f51,\u8bba\u6587\u4ee3\u5199,\u7855\u58eb\u8bba\u6587\u4ee3\u5199,\u535a\u58eb\u8bba\u6587\u4ee3\u5199,\u5404\u7c7b\u804c\u79f0\u8bba\u6587\u4ee3\u5199\u4ee3\u53d1!", "link": "http://www.dmozdir.org/SiteInformation/?www.zzlunwen010.com-----28351-----.shtml"},
{"title": "\u8bba\u6587\u5929\u4e0b", "desc": "\u8bba\u6587\u5929\u4e0b\uff0c\u514d\u8d39\u63d0\u4f9b\uff1a\u8bba\u6587\u8303\u6587\uff0c\u514d\u8d39\u8bba\u6587\uff0c\u8bba\u6587\u5927\u5168\uff0c \u8bba\u6587\u4e0b\u8f7d\uff0c\u8bba\u6587\u683c\u5f0f\uff0c\u8bba\u6587\u63d0\u7eb2\uff0c\u8bba\u6587\u53d1\u8868\uff0c\u8bba\u6587\u5f00\u9898\u62a5\u544a\uff0c\u8bba\u6587\u9898\u76ee\u7b49\u8d44\u6599\u7684\u67e5\u9605\uff0c\u6709\u507f\u63d0\u4f9b\uff1a\u8bba\u6587\u4ee3\u5199\u3001\u4ee3\u53d1\u670d\u52a1\uff01", "link": "http://www.dmozdir.org/SiteInformation/?www.su30.net-----20547-----.shtml"},
{"title": "\u6cb3\u5357\u6559\u5e08\u7f51", "desc": "\u6cb3\u5357\u6559\u5e08\u7f51/\u6cb3\u5357\u6559\u5e08\u8003\u8bd5\u7f51/\u6cb3\u5357\u6559\u5e08\u8d44\u683c\u7f51/\u6cb3\u5357\u6559\u80b2\u4fe1\u606f\u7f51/\u6cb3\u5357\u6559\u5e08\u8d44\u683c\u8bc1\u5386\u5e74\u771f\u9898/\u6cb3\u5357\u6559\u5e08\u8d44\u683c\u8bc1\u590d\u4e60\u8d44\u6599/\u6cb3\u5357\u62db\u6559\u8003\u8bd5\u771f\u9898/\u6cb3\u5357\u62db\u6559\u8003\u8bd5\u590d\u4e60\u8d44\u6599/\u5b66\u4e60\u7b14\u8bb0/\u4e2d\u56fd\u62db\u6559\u7f51/\u6cb3\u5357\u62db\u6559\u7f51/\u6cb3\u5357\u6559\u5e08\u8d44\u683c\u7f51", "link": "http://www.dmozdir.org/SiteInformation/?www.hateacher.com-----31307-----.shtml"},
{"title": "\u4e45\u4e45\u8bba\u6587\u68c0\u6d4b", "desc": "\u4e45\u4e45\u8bba\u6587\u68c0\u6d4b\u7f51\u4e13\u4e1a\u63d0\u4f9b\u514d\u8d39\u8bba\u6587\u68c0\u6d4b\u3001\u8bba\u6587\u68c0\u6d4b\u8f6f\u4ef6\u3001\u8bba\u6587\u6284\u88ad\u68c0\u6d4b\u3001\u77e5\u7f51\u8bba\u6587\u68c0\u6d4b\u3001\u4e07\u65b9\u8bba\u6587\u68c0\u6d4b\u3001\u8bba\u6587\u4fee\u6539\u8d44\u6599\u4ee5\u53ca\u514d\u8d39\u8bba\u6587\u68c0\u6d4b\u7cfb\u7edf\u3002\u8ba9\u60a8\u6bd5\u4e1a\u7b54\u8fa9\u65e0\u5fe7\uff01", "link": "http://www.dmozdir.org/SiteInformation/?www.99fx.net-----38891-----.shtml"},
{"title": "\u674e\u56fd\u65fa\u5de5\u4f5c\u5ba4", "desc": "\u9ad8\u4e09\u653f\u6cbb\u6559\u5b66\uff0c\u653f\u6cbb\u9ad8\u8003\uff0c\u9ad8\u4e2d\u653f\u6cbb\u65b0\u8bfe\u6807\uff0c\u653f\u6cbb\u8bd5\u5377\uff0c\u9ad8\u4e2d\u653f\u6cbb\u7f51\u5740\u3002", "link": "http://www.dmozdir.org/SiteInformation/?www.lgwlncy.com-----12221-----.shtml"},
{"title": "\u7b14\u6746\u5b50\u8bba\u6587", "desc": "\u7b14\u6746\u5b50\u8bba\u6587\u7f51\u63d0\u4f9b\u514d\u8d39\u8bba\u6587\u3001\u6bd5\u4e1a\u8bba\u6587\u3001\u8bba\u6587\u8303\u6587\u3001\u8bba\u6587\u4e0b\u8f7d\u3001\u5404\u4e13\u4e1a\u8bba\u6587\u3001\u5de5\u4f5c\u603b\u7ed3\u3001\u8bba\u6587\u5b9a\u5236\u3001\u53d1\u8868\u8bba\u6587\u3001\u8d2d\u4e70\u8bba\u6587\u3001\u8bba\u6587\u5199\u4f5c\u6307\u5bfc\u7b49\u670d\u52a1", "link": "http://www.dmozdir.org/SiteInformation/?www.bgzlw.com-----45851-----.shtml"},
{"title": "\u4e2d\u56fd\u8bba\u6587\u70ed\u7ebf\u7f51", "desc": "\u4e2d\u56fd\u8bba\u6587\u70ed\u7ebf\u7f51\u63d0\u4f9b\u804c\u79f0\u8bba\u6587\u63a8\u8350\u53d1\u8868\u3001\u7701\u7ea7\u520a\u7269\u3001\u6838\u5fc3\u520a\u7269\u3001CN\u3001ISSN\u520a\u7269\u63a8\u8350\u53d1\u8868\u7b49\u670d\u52a1,\u53ef\u4ee5\u63a8\u8350\u53d1\u8868\u591a\u4e13\u4e1a\u804c\u79f0\u8bba\u6587,\u662f\u60a8\u804c\u79f0\u8bc4\u5ba1\u8bba\u6587\u53d1\u8868\u7684\u6700\u4f73\u4f19\u4f34,\u7f51\u5740www.lwrxw.com", "link": "http://www.dmozdir.org/SiteInformation/?www.lwrxw.com-----15692-----.shtml"},
{"title": "\u5c31\u8981\u5b66\u4e60\u7f51", "desc": "\u5c31\u8981\u5b66\u4e60\u7f51\u662f\u96c6\u6559\u6848\uff0c\u8bfe\u4ef6\uff0c\u8bd5\u5377\uff0c\u6bd5\u4e1a\u8bba\u6587\uff0c\u6559\u5b66\u89c6\u9891\u4e3a\u4e00\u4f53\u7684\u514d\u8d39\u8d44\u6e90\u7f51\u3002", "link": "http://www.dmozdir.org/SiteInformation/?www.62355065.cn-----11960-----.shtml"},
{"title": "\u65b0\u8bba\u6587\u4ee3\u5199\u7f51", "desc": "\u6bd5\u4e1a\u8bba\u6587|\u6bd5\u4e1a\u8bbe\u8ba1|\u6bd5\u4e1a\u8bba\u6587\u8303\u6587|\u8ba1\u7b97\u673a\u6bd5\u4e1a\u8bbe\u8ba1|\u6bd5\u4e1a\u8bba\u6587\u683c\u5f0f\u8303\u6587|\u673a\u68b0\u6bd5\u4e1a\u8bbe\u8ba1|\u884c\u653f\u7ba1\u7406\u6bd5\u4e1a\u8bba\u6587|\u6bd5\u4e1a\u8bbe\u8ba1\u5f00\u9898\u62a5\u544a|\u8ba1\u7b97\u673a\u7f51\u7edc\u6bd5\u4e1a\u8bba\u6587|\u6bd5\u4e1a\u8bbe\u8ba1\u8bba\u6587|\u6bd5\u4e1a\u8bba\u6587\u7f51|\u4ee3\u505a\u6bd5\u4e1a\u8bbe\u8ba1|\u600e\u6837\u5199\u6bd5\u4e1a\u8bba\u6587", "link": "http://www.dmozdir.org/SiteInformation/?www.newlw.com-----25276-----.shtml"},
{"title": "\u5929\u559c\u7f18\u5a5a\u4ecb\u7f51-\u6700\u597d\u7684\u5a5a\u5f81\u5a5a\u4ecb\u7f51\u7ad9", "desc": "\u5929\u559c\u7f18\u5a5a\u4ecb\u5a5a\u5e86\u7f51\u662f\u6d4e\u5357\u6700\u4e13\u4e1a\u7684\u5a5a\u4ecb\u7f51\u7ad9\u3001\u5a5a\u5e86\u7f51\u7ad9\uff0c\u4ea4\u53cb\u7f51\u7ad9\uff0c\u53ca\u6d4e\u5357\u5f81\u5a5a\u3001\u6d4e\u5357\u4ea4\u53cb\u3001\u6d4e\u5357\u5a5a\u4ecb\u3001\u6d4e\u5357\u5e86\u5178\u3001\u6d4e\u5357\u793c\u4eea\u4e8e\u4e00\u4f53\uff0c\u7f51\u4e0b\u6709\u5b9e\u4f53\u5e97\u9762-\u6d4e\u5357\u5e02\u5e02\u4e2d\u533a\u5929\u559c\u7f18\u5a5a\u4ecb\u5a5a\u5e86\u4e2d\u5fc3\uff0c\u4e0d\u5b9a\u671f\u4e3e\u529e\u8054\u8c0a\u6d3b\u52a8\uff0c\u4fdd\u8bc1\u4f1a\u5458\u6210\u529f\u7387", "link": "http://www.dmozdir.org/SiteInformation/?www.love219.com-----14846-----.shtml"},
{"title": "\u6210\u90fd\u76db\u4e16\u9633\u5149\u5a5a\u5e86\u7b56\u5212\u6709\u9650\u516c\u53f8", "desc": "\u8bda\u4fe1\u6295\u8d44\u63a7\u80a1\u96c6\u56e2\u5c5e\u4e8e\u56db\u5ddd\u7701\u5927\u578b\u4f01\u4e1a\u96c6\u56e2\uff0c\u5ddd\u5185\u6392\u4e8e\u524d20\u540d\uff0c\u6ce8\u518c\u8d44\u91d13.5\u4ebf\u5143\uff0c\u62e5\u6709\u56fa\u5b9a\u8d44\u4ea746.5\u4ebf\u3002\u516c\u53f8\u603b\u90e8\u4f4d\u4e8e\u6210\u90fd\u5e02\u81f4\u6c11\u4e1c\u8def1\u53f7\u3002\u5728\u5317\u4eac\u3001\u4e0a\u6d77\u3001\u65b0\u7586\u7b49\u5730\u8bbe\u6709\u5206\u516c\u53f8\u3002\u8bda\u4fe1\u76db\u4e16\u9633\u5149\u5a5a\u5e86\u516c\u53f8\u662f\u5176\u5b50\u516c\u53f8\u3002", "link": "http://www.dmozdir.org/SiteInformation/?www.ssyg520.com-----27215-----.shtml"},
{"title": "\u60c5\u4eba\u7f51", "desc": "\u60c5\u4eba\u7f51\u4ea4\u53cb\u4e2d\u5fc3\u4e3a\u4f60\u63d0\u4f9b\u6700\u4f73\u7684\u7f51\u4e0a\u60c5\u4eba\u4ea4\u53cb\u673a\u4f1a\uff0c\u8db3\u4e0d\u51fa\u6237\u4fbf\u80fd\u8ba9\u4f60\u6709\u66f4\u591a\u7684\u9009\u62e9\uff01", "link": "http://www.dmozdir.org/SiteInformation/?www.591lover.net-----36999-----.shtml"},
{"title": "\u56fd\u9645\u514d\u8d39\u5a5a\u4ecb\u4ea4\u53cb\u7f51\u7ad9-\u76f8\u7ea6100", "desc": "\u56fd\u9645\u514d\u8d39\u5a5a\u4ecb\u4ea4\u53cb\u7f51\u7ad9\u662f\u76f8\u7ea6100\u63d0\u4f9b\u7684\u5b8c\u5168\u514d\u8d39\u7684\u56fd\u9645\u4ea4\u53cb\u7f51\u7ad9\u3002\u4f1a\u5458\u4ee5\u534e\u4eba\u4e3a\u4e3b\u904d\u5e03\u4e94\u6e56\u56db\u6d77,\u6240\u6709\u4f1a\u5458\u5b8c\u5168\u514d\u8d39\u3002\u6240\u6709\u5bfb\u627e\u56fd\u9645\u514d\u8d39\u5a5a\u4ecb\u4ea4\u53cb\u7f51\u7ad9\u7684\u670b\u53cb\u90fd\u80fd\u5728\u56fd\u9645\u4ea4\u53cb\u7f51\u7ad9\u5728\u627e\u5230\u5b8c\u5168\u514d\u8d39\u7684\u56fd\u9645\u514d\u8d39\u5a5a\u4ecb\u4ea4\u53cb\u7f51\u7ad9\u670d\u52a1", "link": "http://www.dmozdir.org/SiteInformation/?www.free-onlinedating.me-----10110-----.shtml"},
{"title": "\u5b89\u5fbd\u5a5a\u5e86\u7f51", "desc": "\u5b89\u5fbd\u5a5a\u5e86\u7f51", "link": "http://www.dmozdir.org/SiteInformation/?www.ahhqw.com-----18983-----.shtml"},
{"title": "\u805a\u7f18\u5317\u6d77\u4ea4\u53cb\u7f51", "desc": "\u805a\u7f18\u5317\u6d77\u4ea4\u53cb\u7f51\u662f\u5317\u6d77\u5730\u533a\u8f83\u89c4\u8303\u7684\u5a5a\u604b\u4ea4\u53cb\u7f51\u7ad9\uff0c\u81f4\u529b\u4e8e\u8425\u9020\u6709\u8da3\u800c\u5b89\u5168\u7684\u7f51\u7edc\u4ea4\u53cb\u793e\u533a\uff0c\u63d0\u4f9b\u641c\u7d22\u3001\u7f8e\u6587\u3001\u7ea6\u4f1a\u3001\u65e5\u8bb0\u3001\u804a\u5929\u3001\u7b49\u591a\u9879\u4ea4\u53cb\u670d\u52a1\u3002\u5e76\u4e0e\u5730\u65b9\u5a5a\u4ecb\u90e8\u95e8\u5efa\u7acb\u4e86\u826f\u597d\u7684\u5408\u4f5c\u5173\u7cfb\u3002", "link": "http://www.dmozdir.org/SiteInformation/?www.jyjjyy.com-----19343-----.shtml"},
{"title": "\u7231\u6211\u5427\u5a5a\u604b\u7f51", "desc": "\u7231\u6211\u5427\u5a5a\u604b\u7f51\u662f\u4e00\u4e2a\u771f\u5b9e\u3001\u4e25\u8083\u3001\u9ad8\u54c1\u4f4d\u7684\u5a5a\u604b\u5e73\u53f0\uff0c\u63d0\u4f9b\u79d1\u5b66\u3001\u9ad8\u6548\u7684\u5168\u7a0b\u670d\u52a1\uff0c\u5e2e\u52a9\u771f\u5fc3\u5bfb\u627e\u7ec8\u8eab\u4f34\u4fa3\u7684\u4eba\u58eb\u5b9e\u73b0\u548c\u8c10\u5a5a\u604b\uff0c\u52aa\u529b\u8425\u9020\u56fd\u5185\u6700\u4e13\u4e1a\u3001\u4e25\u8083\u7684\u5a5a\u604b\u4ea4\u53cb\u5e73", "link": "http://www.dmozdir.org/SiteInformation/?www.lovemeba.com-----9983-----.shtml"},
{"title": "77\u56fd\u9645\u4ea4\u53cb\u7f51", "desc": "\u7eaf\u516c\u76ca\u6027\uff0c\u7231\u5fc3\u793e\u4ea4\u7f51\u7ad9\uff0c\u4e3a\u5e7f\u5927\u9752\u5e74\u53ca\u5355\u8eab\u4eba\u58eb\u63d0\u4f9b\u7684\u5168\u514d\u8d39\u4ea4\u53cb\u5e73\u53f0\u3002", "link": "http://www.dmozdir.org/SiteInformation/?www.77lds.com-----37176-----.shtml"},
{"title": "\u4e1c\u839e\u97e9\u98ce\u5c1a\u5a5a\u7eb1\u6444\u5f71\u5de5\u4f5c\u5ba4", "desc": "\u4e1c\u839e\u97e9\u98ce\u5c1a\u5a5a\u7eb1\u6444\u5f71\u5de5\u4f5c\u5ba4\u662f\u5177\u6709\u72ec\u7279\u7684\u97e9\u56fd\u98ce\u683c\u7684\u4e1c\u839e\u5a5a\u7eb1\u6444\u5f71\u5de5\u4f5c\u5ba4\uff0c\u97e9\u98ce\u5c1a\u4f4d\u4e8e\u4e1c\u839e\u4e1c\u57ce\u533a\u65d7\u5cf0\u8def\u56fd\u6cf0\u5927\u53a610\u53f7,\u6211\u4eec\u6c38\u8fdc\u6ee1\u6000\u521b\u610f\u4e0e\u6e29\u60c5,\u901a\u8fc7\u4e00\u5bf9\u4e00\u7684\u670d\u52a1\u4e3a\u60a8\u63d0\u4f9b\u8d85\u8d8a\u60a8\u671f\u671b", "link": "http://www.dmozdir.org/SiteInformation/?www.dg-hfs.com-----18760-----.shtml"},
{"title": "\u767e\u5408\u5a5a\u793c\u793e\u533a", "desc": "\u767e\u5408\u5a5a\u793c\u793e\u533a\u8ba8\u8bba\u8bdd\u9898\u6db5\u76d6\u5a5a\u7eb1\u7167\u3001\u5a5a\u7eb1\u6444\u5f71\u3001\u5a5a\u793c\u7b79\u5907\u3001\u5a5a\u7eb1\u793c\u670d\u3001\u5a5a\u5e86\u7b49\u65b9\u9762", "link": "http://www.dmozdir.org/SiteInformation/?www.lilywed.cn-----9976-----.shtml"}
]
得到的保存的文件的内容就是我们需要的,但是这是二进制编码的形式。
(我目前还没有找到用于 Python 3 的解决方案,以后解决了再补充,也希望各位大佬看到了,能够不吝赐教。谢谢!)
哈哈,问题已经解决了,请看下面:
首先需要解释一点就是:pipeline.py 就是用于处理 item 的,所以,我们在pipeline.py 文件中对保存的文件进行处理操作:
将pipeline.py 写成这样:
# -*- coding: utf-8 -*-
# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
import json
class TutorialPipeline(object):
def __init__(self):
self.f = open('items.json', 'wb')
def process_item(self, item, spider):
line = json.dumps(dict(item), ensure_ascii = False) + "\n"
self.f.write(line.encode('utf-8'))
return item
def close_spider(self, spider):
self.f.close()
因为读取到的网页是 二进制文件,所以我们在__init__ 方法中, 建一个名为 items.json 的文件,以二进制形式写入。
在 process_item 方法中,对 item 文件进行编码 写入操作,最后在 close_spider 方法中,关闭文件。
接下来,就在settings.py 文件中开启 pipeline,加入下面的命令即可:
ITEM_PIPELINES = {
'tutorial.pipelines.TutorialPipeline': 300,
}
其中,TutorialPipeline 就是 pipeline.py 文件中的 类名
另外有一点需要提醒的是:
因为我们在 pipeline.py 中完成了新建文件的操作,所以 在CMD 中输入的命令 应该改为:scrapy crawl dmoz -t json
C:\Users\XiangyangDai\Desktop\tutorial>scrapy crawl dmoz -t json
2018-12-17 21:43:57 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: tutorial)
2018-12-17 21:43:57 [scrapy.utils.log] INFO: Versions: lxml 4.2.5.0, libxml2 2.9.5, cssselect 1.0.3, parsel 1.5.1, w3lib 1.19.0, Twisted 18.9.0, Python 3.5.2 |Anaconda 4.2.0 (64-bit)| (default, Jul 5 2016, 11:41:13) [MSC v.1900 64 bit (AMD64)], pyOpenSSL 18.0.0 (OpenSSL 1.1.0j 20 Nov 2018), cryptography 2.4.2, Platform Windows-10-10.0.17134-SP0
2018-12-17 21:43:57 [scrapy.crawler] INFO: Overridden settings: {'BOT_NAME': 'tutorial', 'NEWSPIDER_MODULE': 'tutorial.spiders', 'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES': ['tutorial.spiders']}
2018-12-17 21:43:57 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.logstats.LogStats',
'scrapy.extensions.telnet.TelnetConsole',
'scrapy.extensions.corestats.CoreStats']
2018-12-17 21:43:58 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
'scrapy.downloadermiddlewares.retry.RetryMiddleware',
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
'scrapy.downloadermiddlewares.stats.DownloaderStats']
2018-12-17 21:43:58 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
'scrapy.spidermiddlewares.referer.RefererMiddleware',
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
'scrapy.spidermiddlewares.depth.DepthMiddleware']
2018-12-17 21:43:58 [scrapy.middleware] INFO: Enabled item pipelines:
['tutorial.pipelines.TutorialPipeline']
2018-12-17 21:43:58 [scrapy.core.engine] INFO: Spider opened
2018-12-17 21:43:58 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2018-12-17 21:43:58 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2018-12-17 21:43:58 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
2018-12-17 21:43:58 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
2018-12-17 21:43:58 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)
2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '中国论文写发网提供免费论文,职称论文,毕业论文,硕士论文,本科论文,MBA论文,电大论文,述职报告,论文下载,工作总结,论 文推荐发表,论文写作指导,论文翻译等服务,网址www.lwxfw.com',
'link': 'http://www.dmozdir.org/SiteInformation/?www.lwxfw.com-----13589-----.shtml',
'title': '中国论文写发网'}
2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '专注代写论文网,论文代写,硕士论文代写,博士论文代写,各类职称论文代写代发!',
'link': 'http://www.dmozdir.org/SiteInformation/?www.zzlunwen010.com-----28351-----.shtml',
'title': '专注代写论文网,论文代写,硕士论文代写,博士论文代写'}
2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '论文天下,免费提供:论文范文,免费论文,论文大全, '
'论文下载,论文格式,论文提纲,论文发表,论文开题报告,论文题目等资料的查阅,有偿提供:论文代写、代发服务!',
'link': 'http://www.dmozdir.org/SiteInformation/?www.su30.net-----20547-----.shtml',
'title': '论文天下'}
2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '河南教师网/河南教师考试网/河南教师资格网/河南教育信息网/河南教师资格证历年真题/河南教师资格证复习资料/河南招教考试真题/河南招教考试复习资料/学习笔记/中国招教网/河南招教网/河南教师资格网',
'link': 'http://www.dmozdir.org/SiteInformation/?www.hateacher.com-----31307-----.shtml',
'title': '河南教师网'}
2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '久久论文检测网专业提供免费论文检测、论文检测软件、论文抄袭检测、知网论文检测、万方论文检测、论文修改资料以及免费论文检测系统。让您毕业答辩无忧!',
'link': 'http://www.dmozdir.org/SiteInformation/?www.99fx.net-----38891-----.shtml',
'title': '久久论文检测'}
2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '高三政治教学,政治高考,高中政治新课标,政治试卷,高中政治网址。',
'link': 'http://www.dmozdir.org/SiteInformation/?www.lgwlncy.com-----12221-----.shtml',
'title': '李国旺工作室'}
2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '笔杆子论文网提供免费论文、毕业论文、论文范文、论文下载、各专业论文、工作总结、论文定制、发表论文、购买论文、论文写作指导等服务',
'link': 'http://www.dmozdir.org/SiteInformation/?www.bgzlw.com-----45851-----.shtml',
'title': '笔杆子论文'}
2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '中国论文热线网提供职称论文推荐发表、省级刊物、核心刊物、CN、ISSN刊物推荐发表等服务,可以推荐发表多专业职称论文,是您职称评审论文发表的最佳伙伴,网址www.lwrxw.com',
'link': 'http://www.dmozdir.org/SiteInformation/?www.lwrxw.com-----15692-----.shtml',
'title': '中国论文热线网'}
2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '就要学习网是集教案,课件,试卷,毕业论文,教学视频为一体的免费资源网。',
'link': 'http://www.dmozdir.org/SiteInformation/?www.62355065.cn-----11960-----.shtml',
'title': '就要学习网'}
2018-12-17 21:43:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=230>
{'desc': '毕业论文|毕业设计|毕业论文范文|计算机毕业设计|毕业论文格式范文|机械毕业设计|行政管理毕业论文|毕业设计开题报告|计算机网络毕业论文|毕业设计论文|毕业论文网|代做毕业设计|怎样写毕业论文',
'link': 'http://www.dmozdir.org/SiteInformation/?www.newlw.com-----25276-----.shtml',
'title': '新论文代写网'}
2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '天喜缘婚介婚庆网是济南最专业的婚介网站、婚庆网站,交友网站,及济南征婚、济南交友、济南婚介、济南庆典、济南礼仪于一体,网下有实体店面-济南市市中区天喜缘婚介婚庆中心,不定期举办联谊活动,保证会员成功率',
'link': 'http://www.dmozdir.org/SiteInformation/?www.love219.com-----14846-----.shtml',
'title': '天喜缘婚介网-最好的婚征婚介网站'}
2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '诚信投资控股集团属于四川省大型企业集团,川内排于前20名,注册资金3.5亿元,拥有固定资产46.5亿。公司总部位于成都 市致民东路1号。在北京、上海、新疆等地设有分公司。诚信盛世阳光婚庆公司是其子公司。',
'link': 'http://www.dmozdir.org/SiteInformation/?www.ssyg520.com-----27215-----.shtml',
'title': '成都盛世阳光婚庆策划有限公司'}
2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '情人网交友中心为你提供最佳的网上情人交友机会,足不出户便能让你有更多的选择!',
'link': 'http://www.dmozdir.org/SiteInformation/?www.591lover.net-----36999-----.shtml',
'title': '情人网'}
2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '国际免费婚介交友网站是相约100提供的完全免费的国际交友网站。会员以华人为主遍布五湖四海,所有会员完全免费。所有寻找国际免费婚介交友网站的朋友都能在国际交友网站在找到完全免费的国际免费婚介交友网站服务',
'link': 'http://www.dmozdir.org/SiteInformation/?www.free-onlinedating.me-----10110-----.shtml',
'title': '国际免费婚介交友网站-相约100'}
2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '安徽婚庆网',
'link': 'http://www.dmozdir.org/SiteInformation/?www.ahhqw.com-----18983-----.shtml',
'title': '安徽婚庆网'}
2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '聚缘北海交友网是北海地区较规范的婚恋交友网站,致力于营造有趣而安全的网络交友社区,提供搜索、美文、约会、日记、聊天、等多项交友服务。并与地方婚介部门建立了良好的合作关系。',
'link': 'http://www.dmozdir.org/SiteInformation/?www.jyjjyy.com-----19343-----.shtml',
'title': '聚缘北海交友网'}
2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '爱我吧婚恋网是一个真实、严肃、高品位的婚恋平台,提供科学、高效的全程服务,帮助真心寻找终身伴侣的人士实现和谐婚恋,努力营造国内最专业、严肃的婚恋交友平',
'link': 'http://www.dmozdir.org/SiteInformation/?www.lovemeba.com-----9983-----.shtml',
'title': '爱我吧婚恋网'}
2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '纯公益性,爱心社交网站,为广大青年及单身人士提供的全免费交友平台。',
'link': 'http://www.dmozdir.org/SiteInformation/?www.77lds.com-----37176-----.shtml',
'title': '77国际交友网'}
2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '东莞韩风尚婚纱摄影工作室是具有独特的韩国风格的东莞婚纱摄影工作室,韩风尚位于东莞东城区旗峰路国泰大厦10号,我们 永远满怀创意与温情,通过一对一的服务为您提供超越您期望',
'link': 'http://www.dmozdir.org/SiteInformation/?www.dg-hfs.com-----18760-----.shtml',
'title': '东莞韩风尚婚纱摄影工作室'}
2018-12-17 21:43:59 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.dmozdir.org/Category/?SmallPath=411>
{'desc': '百合婚礼社区讨论话题涵盖婚纱照、婚纱摄影、婚礼筹备、婚纱礼服、婚庆等方面',
'link': 'http://www.dmozdir.org/SiteInformation/?www.lilywed.cn-----9976-----.shtml',
'title': '百合婚礼社区'}
2018-12-17 21:43:59 [scrapy.core.engine] INFO: Closing spider (finished)
2018-12-17 21:43:59 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 698,
'downloader/request_count': 3,
'downloader/request_method_count/GET': 3,
'downloader/response_bytes': 14618,
'downloader/response_count': 3,
'downloader/response_status_count/200': 3,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2018, 12, 17, 13, 43, 59, 33263),
'item_scraped_count': 20,
'log_count/DEBUG': 24,
'log_count/INFO': 7,
'response_received_count': 3,
'scheduler/dequeued': 2,
'scheduler/dequeued/memory': 2,
'scheduler/enqueued': 2,
'scheduler/enqueued/memory': 2,
'start_time': datetime.datetime(2018, 12, 17, 13, 43, 58, 626475)}
2018-12-17 21:43:59 [scrapy.core.engine] INFO: Spider closed (finished)
items.json 文件内容如下:
{"link": "http://www.dmozdir.org/SiteInformation/?www.lwxfw.com-----13589-----.shtml", "title": "中国论文写发网", "desc": "中国论文写发网提供免费论文,职称论文,毕业论文,硕士论文,本科论文,MBA论文,电大论文,述职报告,论文下载,工作总结,论文推荐发表,论文写作指导,论文翻译等服务,网址www.lwxfw.com"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.zzlunwen010.com-----28351-----.shtml", "title": "专注代写论文网,论文代写,硕士论文代写,博士论文代写", "desc": "专注代写论文网,论文代写,硕士论文代写,博士论文代写,各类职称论文代写代发!"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.su30.net-----20547-----.shtml", "title": "论文天下", "desc": "论文天下,免费提供:论文范文,免费论文,论文大全, 论文下载,论文格式,论文提纲,论文发表,论文开题报告,论文题目等资料的查阅,有偿提供:论文代写、代发服务!"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.hateacher.com-----31307-----.shtml", "title": "河南教师网", "desc": "河南教师网/河南教师考试网/河南教师资格网/河南教育信息网/河南教师资格证历年真题/河南教师资格证复习资料/河南招教考试真题/河南招教考试复习资料/学习笔记/中国招教网/河南招教网/河南教师资格网"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.99fx.net-----38891-----.shtml", "title": "久久论文检测", "desc": "久久论文检测网专业提供免费论文检测、论文检测软件、论文抄袭检测、知网论文检测、万方论文检测、论文修改资料以及免费论文检测系统。让您毕业答辩无忧!"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.lgwlncy.com-----12221-----.shtml", "title": "李国旺工作室", "desc": "高三政治教学,政治高考,高中政治新课标,政治试卷,高中政治网址。"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.bgzlw.com-----45851-----.shtml", "title": "笔杆子论文", "desc": "笔杆子论文网提供免费论文、毕业论文、论文范文、论文下载、各专业论文、工作总结、论文定制、发表论文、购买论文、论文写作指导等服务"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.lwrxw.com-----15692-----.shtml", "title": "中国论文热线网", "desc": "中国论文热线网提供职称论文推荐发表、省级刊物、核心刊物、CN、ISSN刊物推荐发表等服务,可以推荐发表多专业职称论文,是您职称评审论文发表的最佳伙伴,网址www.lwrxw.com"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.62355065.cn-----11960-----.shtml", "title": "就要学习网", "desc": "就要学习网是集教案,课件,试卷,毕业论文,教学视频为一体的免费资源网。"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.newlw.com-----25276-----.shtml", "title": "新论文代写网", "desc": "毕业论文|毕业设计|毕业论文范文|计算机毕业设计|毕业论文格式范文|机械毕业设计|行政管理毕业论文|毕业设计开题报告|计算机网络毕业论文|毕业设计论文|毕业论文网|代做毕业设计|怎样写毕业论文"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.love219.com-----14846-----.shtml", "title": "天喜缘婚介网-最好的婚征婚介网站", "desc": "天喜缘婚介婚庆网是济南最专业的婚介网站、婚庆网站,交友网站,及济南征婚、济南交友、济南婚介、济南庆典、济南礼仪于一体,网下有实体店面-济南市市中区天喜缘婚介婚庆中心,不定期举办联谊活动,保证会员成功率"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.ssyg520.com-----27215-----.shtml", "title": "成都盛世阳光婚庆策划有限公司", "desc": "诚信投资控股集团属于四川省大型企业集团,川内排于前20名,注册资金3.5亿元,拥有固定资产46.5亿。公司总部位于成都市致民东路1号。在北京、上海、新疆等地设有分公司。诚信盛世阳光婚庆公司是其子公司。"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.591lover.net-----36999-----.shtml", "title": "情人网", "desc": "情人网交友中心为你提供最佳的网上情人交友机会,足不出户便能让你有更多的选择!"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.free-onlinedating.me-----10110-----.shtml", "title": "国际免费婚介交友网站-相约100", "desc": "国际免费婚介交友网站是相约100提供的完全免费的国际交友网站。会员以华人为主遍布五湖四海,所有会员完全免费。所有寻找国际免费婚介交友网站的朋友都能在国际交友网站在找到完全免费的国际免费婚介交友网站服务"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.ahhqw.com-----18983-----.shtml", "title": "安徽婚庆网", "desc": "安徽婚庆网"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.jyjjyy.com-----19343-----.shtml", "title": "聚缘北海交友网", "desc": "聚缘北海交友网是北海地区较规范的婚恋交友网站,致力于营造有趣而安全的网络交友社区,提供搜索、美文、约会、日记、聊天、等多项交友服务。并与地方婚介部门建立了良好的合作关系。"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.lovemeba.com-----9983-----.shtml", "title": "爱我吧婚恋网", "desc": "爱我吧婚恋网是一个真实、严肃、高品位的婚恋平台,提供科学、高效的全程服务,帮助真心寻找终身伴侣的人士实现和谐婚恋,努力营造国内最专业、严肃的婚恋交友平"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.77lds.com-----37176-----.shtml", "title": "77国际交友网", "desc": "纯公益性,爱心社交网站,为广大青年及单身人士提供的全免费交友平台。"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.dg-hfs.com-----18760-----.shtml", "title": "东莞韩风尚婚纱摄影工作室", "desc": "东莞韩风尚婚纱摄影工作室是具有独特的韩国风格的东莞婚纱摄影工作室,韩风尚位于东莞东城区旗峰路国泰大厦10号,我们永远满怀创意与温情,通过一对一的服务为您提供超越您期望"}
{"link": "http://www.dmozdir.org/SiteInformation/?www.lilywed.cn-----9976-----.shtml", "title": "百合婚礼社区", "desc": "百合婚礼社区讨论话题涵盖婚纱照、婚纱摄影、婚礼筹备、婚纱礼服、婚庆等方面"}
终于是中文了,看着就是舒服。
你可能感兴趣的:(python零基础,python)
用python解决潍坊期末概率填空题
可以证明.
python 开发语言
题目:一个点从数轴的原点开始运动,通过投掷骰子决定运动方向:若出现1,4面之一时,向负方向移动1个单位;若出现2,3,5,6面之一时,向正方向移动2个单位,(1)投掷1次骰子,该点位置的平均值为()(2)投掷6次骰子后,概率大于的点的位置存在的最小区间为()答案:1,[3,9]importrandom#投掷骰子的模拟defroll_dice():returnrandom.randint(1,6)#
【python】什么是对象
shanks66
python 开发语言
@[toc]python对象Object在Python中,对象(Object)是面向对象编程(OOP)的核心概念。对象是类的实例,类定义了对象的属性和行为。Python中的一切都是对象,包括数字、字符串、列表、函数等。对象的基本概念类(Class):类是对象的蓝图或模板,定义了对象的属性和方法。通过类可以创建多个对象。对象(Object):对象是类的实例,具有类定义的属性和方法。每个对象都有自己的
用Python写一个视频格式转换器
python狂徒
python 开发语言
一、怎样正确安装moviepy库笔者尝试用这两个命令行安装:“pipinstallmoviepy”、“pipinstall-ihttp://mirrors.aliyun.com/pypi/simple/moviepy”都不能成功。后来用这个命令行:“pipinstallmoviepy-ihttps://pypi.tuna.tsinghua.edu.cn/simple/”方能将此库安装完成。二、视频
【格式化输入输出】python基础
啊吧啊吧,
python 开发语言
1.在字符串开头的引导前加f或F,可以在{}中输入引用的变量age=20name='张三'a=f'Heis{name}{age}'print(a)2.想快速显示变量进行调试,可以用repr()或str()函数把值转化为字符串a='watchtv'print(str(a))print(repr(a))3.生成一组整齐的列,包含给定整数及其平方与立方
华为OD机试2024年E卷-单词接龙[100分]( Java | Python3 | C++ | C语言 | JsNode | Go)实现100%通过率
梅花C
华为OD题库 算法 华为od java c++ c语言 golang
点这里去解决这道题Go!题目描述单词接龙的规则是:可用于接龙的单词首字母必须要前一个单词的尾字母相同;当存在多个首字母相同的单词时,取长度最长的单词,如果长度也相等,则取字典序最小的单词;已经参与接龙的单词不能重复使用。现给定一组全部由小写字母组成单词数组,并指定其中的一个单词作为起始单词,进行单词接龙,请输出最长的单词串,单词串是单词拼接而成,中间没有空格。输入描述输入的第一行为一个非负整数,表
MySQL数据库表的设计
weixin_34289744
数据库 python
2019独角兽企业重金招聘Python工程师标准>>>表的约束主键约束createtablestudent(idintprimarykey,namevarchar(40));createtablestudent(idintprimarykeyauto_increment,namevarchar(20));唯一约束createtablestudent(idintprimarykeyauto_incr
python转换视频格式为mp4
宁君
Python python
1.第一种方法电脑下载安装ffmpeg方法见mac电脑安装ffmpeg两种方法然后代码如下frommoviepy.editorimportVideoFileClipimportosimportffmpegdefconvert_video_to_mp4(input_video_path,output_video_path):'''速度慢,CPU狂飙:paraminput_video_path::pa
华为OD机试E卷 --寻找符合要求的最长子串 --24年OD统一考试(Java & JS & Python & C & C++)
飞码创造者
最新华为OD机试题库2024 华为od java javascript python c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述给你一个字符串s,字符串s首尾相连成一个环形,请你在环中找出‘l’、‘o’、‘x’字符都恰好出现了偶数次最长子字符串的长度。输入描述输入是一串小写的字母组成的字符串输出描述输出是一个整数备注•1≤s.length≤5*10^5•s只包含小写英文字母用例输入alolobo输出6
华为OD机试E卷 --最大值--24年OD统一考试(Java & JS & Python & C & C++)
飞码创造者
最新华为OD机试题库2024 华为od java javascript python c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述给定—组整数(非负),重排顺序后输出一个最大的整数。示例1输入:[10,9]输出:910说明:输出结果可能非常大,所以你需要返回一个字符串而不是整数。输入描述数字组合输出描述最大的整数用例输入109输出910说明无题目解析给定一组非负整数,我们需要对这些整数进行重排,使得重新
华为OD机试C卷-- 字符串变换最小字符串(Java & JS & Python & C)
飞码创造者
华为OD机试题库 华为od c语言 java javascript python
获取题库不需要订阅专栏,可直接私信我进入CSDN领军人物top1博主的华为OD交流圈观看完整题库、最新面试实况、考试报告等内容以及大佬一对一答疑。题目描述给定一个字符串s,最多只能进行一次变换,返回变换后能得到的最小字符串(按照字典序进行比较)。变换规则:交换字符串中任意两个不同位置的字符。输入描述一串小写字母组成的字符串s输出描述按照要求进行变换得到的最小字符串。备注s是都是小写字符组成1≤s.
【Triton 教程】持久矩阵乘法 (Persistent Matmul)
Triton是一种用于并行编程的语言和编译器。它旨在提供一个基于Python的编程环境,以高效编写自定义DNN计算内核,并能够在现代GPU硬件上以最大吞吐量运行。更多Triton中文文档可访问→https://triton.hyper.ai/该脚本展示了使用Triton进行矩阵乘法的持久化内核实现(persistentkernelimplementations)。包含多种矩阵乘法方法,例如基础的朴
《CPython Internals》阅读笔记:p151-p151
python
《CPythonInternals》学习第9天,p151-p1510总结,总计1页。一、技术总结无。二、英语总结(生词:1)1.marshal(1)marshalingMarshallingormarshaling(USspelling)istheprocessoftransformingthememoryrepresentationofanobjectintoadataformsuitablef
python实现自动登录12306抢票 -- selenium
python
python实现自动登录12306抢票--selenium前言其实网上也出现了很多12306的代码,但是都不是最新的,我也是从网上找别人的帖子,看B站视频,然后写成了这个程序,想分享一下。其中我会说自己遇到的问题以及自己的一个改进。一、遇到的问题?1.url-正确的表头:就是首先url不要写错了,然后一定要加正确的表头,才可以拿到数据,就是我日期填写错误,然后生成的url就有问题,浪费了好多时间。
Python单例模式中的问题
后端python
一、装饰器形式的单例模式首先先给出Python中装饰器的单例模式:python代码解读复制代码importthreadingdefsingleton(cls):_instances={}_lock=threading.Lock()defget_instance(*args,**kwargs):ifclsnotin_instances:with_lock:ifclsnotin_instances:_
《CPython Internals》阅读笔记:p118-p150
python
《CPythonInternals》学习第8天,p118-p150总结,总计33页。一、技术总结补充一些本人整理的关于Context-FreeGrammar(CFG)的知识。1.symbol(符号)Amathematicalsymbolisafigureoracombinationoffiguresthatisusedtorepresentamathematicalobject(符号是一个数字或数
巧夺天工:VSCode Python 终端环境隔离的背后原理
每个写Python的小伙伴都会感慨,VSCode对Python环境的支持太好了!当你切换Python解释器后,新开的终端会自动激活对应的环境,不同项目互不干扰,用起来简直不要太舒服。但是,你知道这背后的实现原理吗?终端环境隔离的本质:环境变量首先,我们要理解终端中环境激活的本质。当我们在终端中执行sourcevenv/bin/activate或condaactivateenv_name时,这些命令
为什么在 Python 中 hash(-1) == hash(-2)?
python
英文:https://omairmajid.com/posts/2021-07-16-why-is-hash-in-python作者:OmairMajid译者:豌豆花下猫&Claude-3.5-Sonnet时间:原文发布于2021.07.16,翻译于2025.01.11收录于:Python为什么系列https://github.com/chinesehuazhou/python-whydo当我在等
《CPython Internals》阅读笔记:p97-p117
python
《CPythonInternals》学习第7天,p97-p117总结,总计21页。一、技术总结1.词法分析(lexicalanalysis)根据《Compilers-Principles,Techniques,andTools》(《编译原理》第2版)第5页:Thefirstphaseofacompileriscalledlexicalanalysisorscanning.Thelexcicalan
《CPython Internals》阅读笔记:p96-p96
python
《CPythonInternals》学习第6天,p96-p96总结,总计1页。一、技术总结1.parser-tokenizerp92,Creatingaconcretesyntaxtreeusingaparser-tokenizer,orlexer.p96,CPythonhasaparser-tokenizermodule,writteninC.当做这在92页提到parser-tokenizer的
Python列表方法
L_lemo004
Python python
目录添加元素Pythonappend()方法添加元素Pythonextend()方法添加元素Pythoninsert()方法插入元素删除元素del:根据索引值删除元素pop():根据索引值删除元素remove():根据元素值进行删除clear():删除列表所有元素修改元素修改单个元素修改一组元素查找元素index()方法count()方法添加元素实际开发中,经常需要对Python列表进行更新,包括
requests库的安装和使用指南
Requests库安装与使用指南Requests是一个功能强大且易于使用的PythonHTTP库,广泛应用于发送各种HTTP请求,如GET、POST等。以下内容将详细介绍Requests库的安装和使用方法,帮助您高效地在Python中进行HTTP操作。️安装Requests库要使用Requests库,首先需要确保已安装pip工具。然后,在终端或命令行中运行以下命令进行安装:pipinstallre
用Python在Excel工作表中创建数据透视图
数据透视图是基于数据透视表创建的Excel图标,它能够帮助我们从复杂的数据集中提炼出有价值的信息,提供直观且易于理解的数据视图。对于需要频繁更新或处理大量数据集的人员以及任何依赖数据做出决策的人来说,用Python在Excel中创建数据透视图能够根据最新的数据快速调整和生成新的分析图表,从而提高工作效率并增强数据分析的灵活性。本文将介绍如何使用Python在Excel工作表中创建数据透视图。用Py
pip工具安装第三方库
nfenghklibra
pip python
使用pip+cmd引入第三方库pip是Python包管理工具,提供了对Python包的查找、下载、安装、卸载的功能。注意:pip已内置于Python3.4和2.7及以上版本,其他版本需另行安装常规命令:pipinstall安装第三方库的库名(以json为例)pipinstalljson指定版本号:pipinstall库名==库的版本号pipinstalljieba==0.42.1卸载库:pipun
python 词云示例
布道天下
python
python词云示例以2021年中央1号文件和政府工作报告文件为例,输出50个关键词。#testPython.pyimportjiebaimportwordclouddefoutputWordCloud(text,outPngName):#配置词云对象参数temp=wordcloud.WordCloud(width=1000,height=1000,font_path="msyh.ttc",max
requests库的安装和使用指南
Requests库安装与使用指南Requests是一个简洁且功能强大的Python库,用于发送HTTP请求。它广泛应用于数据采集、API调用等场景。本文将详细介绍Requests库的安装与基本使用方法,并通过实例和图表帮助您快速掌握其核心功能。目录安装Requests库导入Requests库发送GET请求发送POST请求添加Headers处理响应处理JSON响应异常处理附加参数会话管理文件下载工作
【Python基础 字典】汽车限行
学Python的小趴菜
python
最近在准备期末机考,看实验课的代码,发现有提升效率的空间,就改了改测评过了。这个效率提升是砍掉了循环结构判断车牌号末尾数字的奇偶,改用纯数学方法(提取数字判断奇偶)任务描述为缓解城市交通压力,武汉市交管局对于长江一桥及江汉一桥实行限行,规定如下:
Python小项目:利用U-net完成细胞图像分割
利用U-Net完成细胞图像分割的详细指南在生物医学领域,细胞图像分割是一个关键步骤,能够帮助研究人员分析细胞结构和功能。U-Net作为一种强大的卷积神经网络结构,广泛应用于医学图像分割任务。本文将详细介绍如何利用U-Net完成细胞图像分割项目,涵盖从数据准备到模型部署的各个步骤。项目步骤概览数据准备数据预处理构建U-Net模型训练模型模型评估图像分割结果可视化调优和优化部署和应用1.数据准备收集数
json相关内容(python)
大哥喝阔落
json python 开发语言
JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式,易于人阅读和编写,也易于机器解析和生成。Python提供了json模块来处理JSON数据。以下是关于Python中JSON的详细内容:1.导入json模块importjson2.将Python对象转换为JSON字符串使用json.dumps()函数可以将Python对象(如字典、列表、字符串、数字等)转换为JS
PyEcharts 基本图表之词云图
开不开心少年
头哥题目 python 开发语言
第1关:WordCloud:词云图任务描述本关任务:利用所学知识,按要求自行绘制一个词云图。相关知识为了完成本关任务,你需要掌握:1.Python的基本语法,2.PyEcharts词云图的相关内容。编程要求根据以上介绍,在右侧编辑器补充代码,使用给定数据绘制一个词云图,要求:系列名称设置为空,数据项为data,单词字体大小范围设置为20到100,词云图轮廓设置为全局变量中的SymbolType.D
Nginx Proxy Manager 反代本地服务502错误——基于 1panel 部署遇到的问题解决方案
nginx后端python
参考:NginxProxyManager反代本地服务502错误我的需求如下:我有一个需求:我有一台云服务器,ip地址为114.55.xxx.xxx然后在这个机器上部署了一个python服务http://114.55.xxx.xxx:8086我需要实现一个功能:部署一个nginx当我访问云服务器的80端口的时候,可以帮我反向代理访问python服务,我应该如何设置nginx呢?给我对应的配置文件配置
基本数据类型和引用类型的初始值
3213213333332132
java基础
package com.array;
/**
* @Description 测试初始值
* @author FuJianyong
* 2015-1-22上午10:31:53
*/
public class ArrayTest {
ArrayTest at;
String str;
byte bt;
short s;
int i;
long
摘抄笔记--《编写高质量代码:改善Java程序的151个建议》
白糖_
高质量代码
记得3年前刚到公司,同桌同事见我无事可做就借我看《编写高质量代码:改善Java程序的151个建议》这本书,当时看了几页没上心就没研究了。到上个月在公司偶然看到,于是乎又找来看看,我的天,真是非常多的干货,对于我这种静不下心的人真是帮助莫大呀。
看完整本书,也记了不少笔记
【备忘】Django 常用命令及最佳实践
dongwei_6688
django
注意:本文基于 Django 1.8.2 版本
生成数据库迁移脚本(python 脚本)
python manage.py makemigrations polls
说明:polls 是你的应用名字,运行该命令时需要根据你的应用名字进行调整
查看该次迁移需要执行的 SQL 语句(只查看语句,并不应用到数据库上):
python manage.p
阶乘算法之一N! 末尾有多少个零
周凡杨
java 算法 阶乘 面试 效率
&n
spring注入servlet
g21121
Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的,配置代理servlet亦比较麻烦,这里其实有比较简单的方法,其实就是在servlet的init()方法中加入要注入的内容:
ServletContext application = getServletContext();
WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档
510888780
centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/
基本的格式为
java
基本的格式为
java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args]
下面具体介绍各个命令的作用及基本使用方法
1. &nb
UnicodeBlock检测中文用法
布衣凌宇
UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数
aijuans
java orale
1.创建表:STOCK_PRICES
2.插入测试数据:
3.建立一个返回游标:
PKG_PUB_UTILS
4.创建和存储过程:P_GET_PRICE
5.创建函数:
6.JAVA调用存储过程返回结果集
JDBCoracle10G_INVO
Velocity Toolbox
antlove
模板 tool box velocity
velocity.VelocityUtil
package velocity;
import org.apache.velocity.Template;
import org.apache.velocity.app.Velocity;
import org.apache.velocity.app.VelocityEngine;
import org.apache.velocity.c
JAVA正则表达式匹配基础
百合不是茶
java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作
正则表达式的用途;
字符串的匹配
字符串的分割
字符串的查找
字符串的替换
正则表达式的验证语法
[a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置
bijian1013
jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题,由于前端采用EasyTemplate模板方法实现数据展示,但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了,导致我的模板不能正常展示后台数据。
网
精通Oracle10编程SQL(1-3)PLSQL基础
bijian1013
oracle 数据库 plsql
--只包含执行部分的PL/SQL块
--set serveroutput off
begin
dbms_output.put_line('Hello,everyone!');
end;
select * from emp;
--包含定义部分和执行部分的PL/SQL块
declare
v_ename varchar2(5);
begin
select
【Nginx三】Nginx作为反向代理服务器
bit1129
nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能:
接受客户端请求
将请求转发给被代理的服务器
从被代理的服务器获得响应结果
把响应结果返回给客户端
实例
本文把Nginx配置成一个简单的代理服务器
对于静态的html和图片,直接从Nginx获取
对于动态的页面,例如JSP或者Servlet,Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin
blackproof
maven 报错
转:http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin
maven报错:
Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon
ronin47
docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry
docker pull docker-registry
docker run -t -p 5000:5000 docker-registry
下载docker镜像并发布到私有registry
docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈
bylijinnan
java
import java.util.ArrayList;
import java.util.List;
import java.util.Stack;
/*
* Q 57 用两个栈实现队列
*/
public class QueueImplementByTwoStacks {
private Stack<Integer> stack1;
pr
Nginx配置性能优化
cfyme
nginx
转载地址:http://blog.csdn.net/xifeijian/article/details/20956605
大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装,修改这里或那里的几行配置,好了,你已经有了一个Web服务器了。而且,在大多数情况下,一个常规安装的nginx对你的网站来说已经能很好地工作了。然而,如果你真的想挤压出Nginx的性能,你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术
comsci
java
对图形图像进行精确处理,需要大量的数学工具,即使是从底层硬件模拟层开始设计,也离不开大量的数学工具包,因为我认为,JAVA语言体系在图形图像处理模块上面的研发工作,需要从开发一些基础的,类似实时数学函数构造器和解析器的软件包入手,而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件......
&nb
MonkeyRunner的使用
dai_lm
android MonkeyRunner
要使用MonkeyRunner,就要学习使用Python,哎
先抄一段官方doc里的代码
作用是启动一个程序(应该是启动程序默认的Activity),然后按MENU键,并截屏
# Imports the monkeyrunner modules used by this program
from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案
datamachine
mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案,存档。
原帖:http://blog.csdn.net/calvinxiu/article/details/1506112。
Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入
dcj3sjt126com
yii
以資料庫驗證登入
由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks:[2]php版本自动触发更新
dcj3sjt126com
github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。
工具/原料
git
github
方法/步骤
在github的setting里面的webhooks里把我们的url地址填进去。
钩子更新的代码如下: error_reportin
Eos开发常用表达式
蕃薯耀
Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
蕃薯耀 2014年8月18日 15:03:35 星期一
&
SpringSecurity3.X--SpEL 表达式
hanqunfeng
SpringSecurity
使用 Spring 表达式语言配置访问控制,要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性:
<http auto-config="true" use-expressions="true">
这样就会在投票器中自动增加一个投票器:org.springframework
Redis vs Memcache
IXHONG
redis
1. Redis中,并不是所有的数据都一直存储在内存中的,这是和Memcached相比一个最大的区别。
2. Redis不仅仅支持简单的k/v类型的数据,同时还提供list,set,hash等数据结构的存储。
3. Redis支持数据的备份,即master-slave模式的数据备份。
4. Redis支持数据的持久化,可以将内存中的数据保持在磁盘中,重启的时候可以再次加载进行使用。
Red
Python - 装饰器使用过程中的误区解读
kvhur
JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式,经常被用于AOP(面向切面编程)的场景,较为经典的有插入日志,性能测试,事务处理,Web权限校验, Cache等。
原文链接:http://www.gbtags.com/gb/share/5563.htm
Python语言本身提供了装饰器语法(@),典型的装饰器实现如下:
@function_wrapper
de
架构师之mybatis-----update 带case when 针对多种情况更新
nannan408
case when
1.前言.
如题.
2. 代码.
<update id="batchUpdate" parameterType="java.util.List">
<foreach collection="list" item="list" index=&
Algorithm算法视频教程
栏目记者
Algorithm 算法
课程:Algorithm算法视频教程
百度网盘下载地址: http://pan.baidu.com/s/1qWFjjQW 密码: 2mji
程序写的好不好,还得看算法屌不屌!Algorithm算法博大精深。
一、课程内容:
课时1、算法的基本概念 + Sequential search
课时2、Binary search
课时3、Hash table
课时4、Algor
C语言算法之冒泡排序
qiufeihu
c 算法
任意输入10个数字由小到大进行排序。
代码:
#include <stdio.h>
int main()
{
int i,j,t,a[11]; /*定义变量及数组为基本类型*/
for(i = 1;i < 11;i++){
scanf("%d",&a[i]); /*从键盘中输入10个数*/
}
for
JSP异常处理
wyzuomumu
Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中:
<%@ page errorPage="errors.jsp"%>
2.在处理异常的网页中做如下声明:
errors.jsp:
<%@ page isErrorPage="true"%>,这样设置完后就可以在网页中直接访问exc