dmizrvgz16007

Python爬虫实战之二 - 基于Scrapy框架抓取Boss直聘的招聘信息

　Python爬虫实战之三 - 基于Scrapy框架抓取Boss直聘的招聘信息

　---------------readme---------------

　简介：本人产品汪一枚，Python自学数月，对于小白，本文会是一篇比较容易上手的经验贴。当然毕竟是新手，欢迎大牛拍砖、狂喷～

　致谢：

　　本着了解招聘行情，以备不时之需，之所以选择转战Boss，是因为爬完拉钩网之后，发现招聘质量有待商榷；同时也感谢Boss的权威招聘信息，也使2018年的十一假期有一段不错的学习经历收获。

　　爬取Boss官网（www.zhipin.com）期间，若对Boss造成或小或大的影响，本人深感歉意。本文只为获取招聘信息和交流学习，并无恶意，再次鸣谢。

　　---------------正文分隔符---------------

　开发环境

MacBook Air (13-inch, Early 2015)
macOS High Sierra 10.13.6
1.6GHZ Inter Core i5
Python：V 3.7.0

　一、兵马未动，粮草先行

　　（1）、安装Scrapy

　　使用Mac自带终端安装，使用pip辅助安装。

　　ps：pip3的安装，可以参见我的另一篇博客：Python自学，番外篇之三 Mac的pip3的安装

　　在bash中输入命令：pip3 install scrapy

　　如果pip3安装没有问题，安装scrapy理论上应该很顺利，因为坑都在pip3的安装过程里填完了...

　　ps：一个scrapy包里面竟然有如此之多的包，也难称作scarpy框架...

　　（2）、创建项目

　　安装完成Scrapy的安装，可以使用命令行创建新项目。

　　输入命令行：scrapy startproject www_zhipin_com

　　ps：我是参考经验贴中的教程创建的项目名称，项目的名称（www_zhipin_com）可按需求自定义。

　　创建项目完成后，在python3中打开该项目。

　　打开流程如下：python3->file->open，选择刚创建的项目。

　　导入项目后，可以看到在执行创建项目命令后，Scrapy会为我们自动创建spider所需的标准文件目录。

　　ps：开始一点点的体会到scrapy的强大，另外，也验证scrapy的安装已经没有问题了。

　　创建的项目，其中的文件作用如下：

spiders（Python Package）：相当于主程序main的package，后续会在该package中创建相应spider的python file目录
item（Python File）：spider项目的item文件，用于设置本次需从页面爬取的要素信息，如：职位名称、薪资水平、平台简称...
middlewares：spider项目的middlewares文件，主要用于设置防反爬虫的相关策略，例如配置user_agent、代理IP等方法的设定。因本教程是小批量爬取，可以暂时不涉及。
pipelines：spider项目的pipelines文件，用于编写已爬取的item数据的处理和存储的文件，例如，需将数据去重清洗后，保存至数据库中，则需要在该文件中定义规则和方法
settings：spider项目的settings文件，顾名思义为配置文件，所有相关的配置信息均在此文件中定义
scrapy.cfg：spider项目部署的相关文件，因本次不涉及更改其配置，知晓作用即可

　　看下入门教程给的解释，无力吐槽...

　　中文夹杂着英文的Scrapy官网地址：Scrapy入门教程，不过依然感激有中文解释...

　　（3）、创建spider代码文件

　　在spiders的Python Package文件中创建本次的爬取的Python File文件。

　　文件名：zhipin_spider　（ps：这个命名可随意设置，你高兴就好，给你一个机智的眼神...）

　　二、备马囤粮，攻城略地

　　（1）、大战在即，先谋而后动

　　以产品经理的为例，以列表第一为参考，Boss的页面布局图如下：

　　ps：VIPKID给的薪水很诱人啊...咳、咳...打完这一仗，回家可以整理下简历了...

　　我们依次从：微观->中观->宏观，三个视角分析下Boss的html页面布局。

　　1）、微观视角

　　单条招聘信息的Html布局如下：

　　页面的主要信息如下（按出场顺序）：

招聘职位：产品经理
职位薪水：25k-50k
公司地址：北京西城区鼓楼
工作年限：3-5年
教育背景：本科
平台简称：VIPKID
所在行业：移动互联网
融资规模：D轮及以上
公司规模：10000人以上
发布时间：发布于03月28日

　　如此看来，我们的item相应的要素信息基本有了，详情见Item模块。

　　2）、中观视角

　　单页招聘信息的Html布局如下：

　　一个ul中包含30个li，对应页面的30个招聘信息，工工整整的码着，就像等待被翻牌一样...呃，脑中瞬间闪过雍正爷和乾隆爷的伟岸形象...

　　ps：看着这JS代码，想起了今年前半年自学JS的那段时光，一晃18年已过大半。

　　3）、宏观视角

　　单此检索查询，Boss只提供了10页的检索信息，这也就意味着，单次一个关键词检索，我们只能获取到300个职位。

　　此处有个问题需要思考下：针对这样的宏观视角，我们的spider策略要如何制定？

　　我是这样思考的，贴出来大家可以讨论下：

　　首先，从效率的角度，如果关键词限定的范围越宽泛，则单次检索到所需的信息越少，例如，我需要查询的是产品经理及以上职位招聘信息，如果仅输入”产品“这个关键词，检索结果就会充斥着产品专员、产品运营等无效信息，所以从效率来讲，检索精度需越精准越好；

　　其次，从边界的角度，如果定位精准，就会出现边界限制的困境，很难通过我输入的精准关键词查询到关联的招聘职位，搜索范围就只限于当前的职级限制。

　　所以，基于此，本次作战的方针如下：单个关键词精准定位，不同领域多职级的轮循。

　　ps：方针确定，战略布局也就清晰了...

　　（2）、战略目标（Item）

　　既然要攻城略地，就需要确认下，哪些城哪片地可以入我等法眼。

　　在此，就不得不提一下产品的职业病：用户视角。

　　如果我是应聘者，我会需要以怎样的信息去快速筛选有意向的职位呢？答：首先是职位、薪水、哪个公司，其次是地址、要求、公司规模等。

　　其实，在微观的Html中已经标明Boss页面中展示的招聘信息，这些信息也是我们本次行动需要斩获的首要目标。

　　所以，items.py中的要素信息配置如下：

 1 # -*- coding: utf-8 -*-
 2 
 3 # Define here the models for your scraped items
 4 #
 5 # See documentation in:
 6 # https://doc.scrapy.org/en/latest/topics/items.html
 7 
 8 import scrapy
 9 
10 
11 class WwwZhipinComItem(scrapy.Item):
12     #对应页面的data-jid
13     jid = scrapy.Field()
14     #对应页面的data-jobid
15     pid = scrapy.Field()
16     #为招聘职位的名称，对应页面的job-title
17     positionName = scrapy.Field()
18     #工作年限
19     workYear = scrapy.Field()
20     #薪水
21     salary = scrapy.Field()
22     #公司所在地
23     city = scrapy.Field()
24     #教育背景
25     education = scrapy.Field()
26     #公司平台简称
27     companyShortName = scrapy.Field()
28     #所属行业
29     industryField = scrapy.Field()
30     #融资阶段
31     financeStage = scrapy.Field()
32     #公司规模
33     companySize = scrapy.Field()
34     #发布时间
35     time = scrapy.Field()
36     #爬取时间
37     spider_at = scrapy.Field()
38     pass

item.py

　　官方入门教程给的Item教程如下：Scrapy官方入门教程

　　（3）、战略实施

　　指导方针和战略目标已经搞定，此时便可剑指城池，策马扬鞭，走起～

　　首先，看下Scrapy官方入门教程是怎么写的。Scrapy官方入门教程

　　有模板，一切就好办了，按照模版需定义相关name、start_urls和prase等信息，不多说，先粘代码，然后一步一步分解。　

  1 # -*- coding: utf-8 -*-
  2 import scrapy
  3 import random
  4 import time
  5 import datetime
  6 from www_zhipin_com.items import WwwZhipinComItem
  7 
  8 
  9 class ZhipinSpider(scrapy.Spider):
 10 
 11     name = 'zhipin'
 12     allowed_domains = ['www.zhipin.com']
 13     start_urls = ['https://www.zhipin.com/']
 14     # 目标是：北京、上海、杭州、广州、深圳、天津，先以北京去验证代码
 15     scity = ['c101010100/h_101010100']
 16     positions = ['产品经理']
 17 
 18     # 爬取的需求：一个scity下，所有positions的10页招聘信息
 19     curPage = 1  # 当前spider的页码
 20     curScityIndex = 0  # 当前spider的城市索引值
 21     curPositionIndex = 0  # 当前spider的岗位索引值
 22 
 23     headers = {
 24         'Accept': 'application/json, text/javascript, */*; q=0.01',
 25         'Accept-Encoding': 'gzip, deflate, br',
 26         'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
 27         'Cookie': 'lastCity=101010100; JSESSIONID=""; __g=-; Hm_lvt_194df3105ad7148dcf2b98a91b5e727a=1538397559; __c=1538397566; __l=r=https%3A%2F%2Fwww.zhipin.com%2F&l=%2Fwww.zhipin.com%2Fjob_detail%2F%3Fquery%3D%25E4%25BA%25A7%25E5%2593%2581%25E7%25BB%258F%25E7%2590%2586%26scity%3D101010100%26industry%3D%26position%3D; t=jPFEjDvhnhIeAV4s; wt=jPFEjDvhnhIeAV4s; __a=7566280.1538397547.1538397547.1538397566.16.2.15.16; Hm_lpvt_194df3105ad7148dcf2b98a91b5e727a=1538457781',
 28         'token': 'OPX6QDsGzqpLwns',
 29         'Host': 'www.zhipin.com',
 30         'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
 31         'x-requested-with': 'XMLHttpRequest',
 32         'Referer': 'https://www.zhipin.com/'
 33     }
 34 
 35     # 因url需要scity和position进行多次拼装，且start_requests其必须返回一个可迭代Itearable对象,所以调用url_link进行url拼装，在start_requests中进行可迭代
 36     def start_requests(self):
 37         return [self.url_link()]
 38 
 39     # 负责处理response并返回处理的数据以及(/或)跟进的URL
 40     def parse(self, response):
 41         print("request -> " + response.url)
 42         job_list = response.css('div.job-list > ul > li')  # 提取job-list的ul中的li
 43         for job in job_list:
 44             item = WwwZhipinComItem()
 45             job_primary = job.css('div.job-primary')
 46             item['jid'] = job.css(
 47                 'div.info-primary > h3 > a::attr(data-jid)').extract_first().strip()
 48             item['pid'] = job.css(
 49                 'div.info-primary > h3 > a::attr(data-jobid)').extract_first().strip()
 50             item["positionName"] = job_primary.css(
 51                 'div.info-primary > h3 > a > div::text').extract_first().strip()
 52 
 53             # 直接将salary的格式Xk-Xk，改写成high、low、avg
 54             salary = job_primary.css(
 55                 'div.info-primary > h3 > a > span::text').extract_first().strip()
 56             salary_list = salary.replace('k', '000').split('-')
 57 
 58             #将salary进行格式转换之后，我们就可以按照期望salary条件更精准的筛选
 59             #假设期望的最低标注是不低于20000，同时可以有的上限不低于25000，不符合条件的招聘直接过滤掉
 60             if int(salary_list[0]) < 20000 or int(salary_list[1]) < 25000:
 61                 continue
 62             else:
 63                 item["salary"] = {
 64                     'low': int(salary_list[0]),
 65                     'high': int(salary_list[1]),
 66                     'avg': int((int(salary_list[0]) + int(salary_list[1])) / 2)
 67                 }
 68 
 69             info_primary = job_primary.css(
 70                 'div.info-primary > p::text').extract()
 71             item['city'] = info_primary[0].strip()
 72             item['workYear'] = info_primary[1].strip()
 73             item['education'] = info_primary[2].strip()
 74             item['companyShortName'] = job_primary.css(
 75                 'div.info-company > div.company-text > h3 > a::text'
 76             ).extract_first().strip()
 77             company_infos = job_primary.css(
 78                 'div.info-company > div.company-text > p::text').extract()
 79             if len(company_infos) == 3:
 80                 item['industryField'] = company_infos[0].strip()
 81                 item['financeStage'] = company_infos[1].strip()
 82                 item['companySize'] = company_infos[2].strip()
 83 
 84             # 将发布时间的格式调整成年月日，目前有三种形式：'发布于03月31日','发布于03月31日','发布于11:31'
 85             item_time = job.css('div.info-publis > p::text').extract_first().strip()
 86             item_time = item_time.replace("发布于", "2018-")
 87             item_time = item_time.replace("月", "-")
 88             item_time = item_time.replace("日", "")
 89             if item_time.find("昨天"):
 90                 item_time = str(datetime.date.today() - datetime.timedelta(days=1))
 91             elif item_time.find(":"):
 92                 item_time = str(datetime.date.today())
 93             item['time'] = item_time
 94 
 95             item['spider_at'] = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())
 96             yield item
 97 
 98         # 实现城市->职位->页面的层级轮循
 99         if self.curScityIndex < len(self.scity):
100             if self.curPositionIndex < len(self.positions):
101                 if self.curPage < 10:
102                     self.curPage += 1
103                 elif self.curPositionIndex < len(self.positions) - 1:
104                     self.curPositionIndex += 1
105                     self.curPage = 1
106                 elif self.curScityIndex < len(self.scity) - 1:
107                     self.curScityIndex += 1
108                     self.curPositionIndex = 0
109                     self.curPage = 1
110 
111         # 随机停留时长，俗话说以时间换空间
112         time.sleep(20 + random.randint(30, 50))
113         yield self.url_link() #返回url_link()
114 
115     # 将url拼装，并调用parse
116     def url_link(self):
117         return scrapy.http.Request(
118             self.start_urls[0] + self.scity[self.curScityIndex] + (
119             '/?query=%s' % self.positions[self.curPositionIndex]) + (
120             '&page=%d&ka=page-%d' % (self.curPage, self.curPage)),
121             headers=self.headers,  # 此处可以引用settings中的headers
122             callback=self.parse
123         )

zhipin_spider.py

　　1）、基础参数的设定

　　先看下Scrapy官方入门教程中关于Spider类中的介绍。Spider官方入门教程

　　按照教程我们可以定义Spider中的要素信息如下：

　　简单说明下，name、allowed_domains和start_urls的定义，这个官网教程已经给解释和参考规则，此处不再赘述。

　　scity是用来设定需检索的城市的列表，‘c101010100/h_101010100’为Boss链接中的地址参数，代表：北京；

　　positions是用来定义需检索的职位信息列表，后续可以添加多个职位信息，可针对作战方针进行有针对的spider信息；

　　curPage、curScityIndex和curPositionIndex三个参数，分别用来标记页面、城市和岗位的当前spider情况，后续parse函数中用到。

　　headers，模拟浏览器访问，该部分信息的获取方式如下：

　　2）、start_requests(self)的方法介绍

　　在Scrapy官方入门教程中没有用到这个方法，而是直接在start_urls中存入要爬虫的网页链接，但是如果我们要爬虫的链接很多，而且是有一定规律的，我们就需要重写start_requests这个方法了，首先我们看看这个方法的技能：Scrapy官网入门教程

　　教程中有三点需要注意：

该方法必须返回一个可迭代对象
当指定了URL时，make_requests_from_url() 将被调用来创建Request对象。该方法仅仅会被Scrapy调用一次；
修改最初爬取某个网站的Request对象，我们需要重写(override)该方法

　　由此可见，我们单独使用该方法可能没有办法满足要求，一会打一枪试一下就明白了。

　　3）、Boss页面的链接结构

　　url的结构分为两部分：招聘信息列表页和招聘详情页

　　①招聘信息列表页

　　首页：https://www.zhipin.com/?ka=header-home-logo；在顶部检索位置，有四个检索条件可以配置，分别为：

　　地区：当前默认北京；

　　内容：待输入项，此处为了更大范围能进行职位的爬取，所以此处输入：‘产品’，可以筛选出经理、高级经理、总监的全部职称的招聘信息

　　职位类型：全部为空

　　公司行业：全部为空

　　检索产品招聘信息后，第一页面的链接为：https://www.zhipin.com/job_detail/?query=产品经理&scity=101010100&industry=&position=

　　“query=”查询的内容，“scity=”城市，后两个检索条件中的后两个，为空可忽略

　　当点到第二页后，链接变为：https://www.zhipin.com/c101010100/h_101010100/?query=产品经理&page=2&ka=page-2

　　对比后，与第一页的链接相差较大，尝试使用第二页面的样式模拟第一页面的请求。

　　请求链接为：https://www.zhipin.com/c101010100/h_101010100/?query=产品经理&page=1&ka=page-1

　　可以正常打开第一页面，展示信息与之前的官网链接相同。

　　所以，第一页和第二页，以及后续的页面，均可以使用相同的url模版来模拟查询招聘信息。

　　另外，如果需要查询其他地区的招聘信息，则需要变更地区码。

　　如上海地区链接如下：https://www.zhipin.com/c101020100/h_101020100/?query=产品经理&page=1&ka=page-1

　　综上所述：

　　请求招聘信息列表的url公共模版如下：

　　https://www.zhipin.com'+'/'+'地区码'+'/?query'+'职位'+'&page='+'页码'+'&ka=page-'+'页码'

　　②招聘详情页

　　招聘的详细信息，主要存在详情页面展示，例如，职位描述、任职要求、公司简介等信息。

　　以该链接为例：https://www.zhipin.com/job_detail/cea321961162ff3e1Xd539W-GVE~.html?ka=search_list_3

　　其中：ka=search_list_3为请求的页面来源标示，所以去掉不影响页面的正常访问。

　　另为，cea321961162ff3e1Xd539W-GVE~，想一个ID的标示，打开Html源码确认一下。

　　这个ID在Html中定义为data-jid，所以我们可以将详情页的url使用如下规则进行拼装。

　　请求招聘详情页的url公共模版如下：

　　'https://www.zhipin.com/job_detail/'+'jid'+'.html'

　　ps：jid为我们在item.py中定义的要素值，爬取该参数，等后期我们可以有针对性的了解单个有意向的招聘职位时，再进行招聘详情信息的爬取。

　　4）、重写start_requests(self)方法

　　根据招聘信息列表的url规则，我们可以对start_requests方法进行重写。

　　我们直接将参数url的配置方法写在start_requests()中，因其必须返回一个可迭代Itearable对应，所以参考官网教程使用列表（list）的方式'[ ]'，将返回内容转换成可迭代对象。

　　理想总是美好的，但是现实确实残酷的，因为此处有坑，所以我们跳过后续的介绍（parse(self,response)代码见上文的zhipin_spider.py），我们先放一枪整体运行试一下...

　　运行结果：第一页可以在正常爬取，但是到第二页就报错。

　　报错报文如下：

　所以借鉴参考例子的方式，利用另外一个函数专门来拼装url，将拼装后的url返回至start_requests()，同时使用列表list将返回值包装成可迭代对象，并发起第一次的Request请求。

　　同时在url_link(self)的callback回调parse，再parse()的callback回调url_link()，实现循环请求我们陆续拼装的url的页面，并爬取页面信息。

　　调整后的代码如下：

　　调整完，再执行时，则没有再报该问题。start_requersts(self)重写完成。

　　另外，此处涉及到一个Requset对象，官网给的用法如下。Scrapy官网入门教程

　　5）、定义parse(self,response)函数

　　本次参考例子中的CSS的方法摘取相关的信息，当然很有使用Xpath的方式，这两种方式均可以。

　　ps：有现成的当然是使用现成的效率高些，下次可以试一下Xpath的方式。Scarpy入门教程推荐Xpath教程

　　CSS的方式，我对比着Html页面的写了，给出了步骤分解，可供参考。　　

　　有几处地方进行了数据的特殊处理，分别介绍下：

　　①salary的数据处理

　　页面中的salary的是Xk-Xk的形式，但是基于个人定制化的需求，将薪水拆分出：high、low、avg三个档位，拆分出来就可以针对薪水进行规则设置。

　　代码中对low和high的薪水分别进行判断，如果low低于20k，或者high低于25k则直接跳出for循环，继续寻找下个招聘信息，如果符合条件，则将招聘信息按照item设定，同时输出至指定路径。

　　ps：想想自己的可怜的薪水，说多了都是泪啊...

　　②招聘信息发布时间

　　代码中也标注了，发布时间主要分为三种形式，我们将时间统一转换成：年-月-日，也是为后续的数据放方便处理。

　　③轮循规则

　　我是按照城市优先、职位次之、页面再次之的顺序轮训。

　　这样设定，是基于这样的考虑：是按照变换的难易程度来设定嵌套层级。

　　爬取招聘信息，首先会考虑城市的因素，一般情况下，是会不会轻易更换所在城市，除非一些特殊情况；另外，我们也会尝试去爬取互联网相对发达的城市，可以对比下不同城市的就业情况。另外，在相同城市，会爬取每个职位的10页检索信息，因为Boss一次检索只会返回10页的招聘信息。

　　总之，anyway...你可以尝试相同职位的不同城市的轮循规则，爬取的数据应该是相同的。

　　④睡眠?很重要

　　设定的爬取的睡眠时间，如果没有节制的一顿乱射，Boss只会告诉你，你过频了，然后...给你返回403，封你的IP...

　　设置长的睡眠时间，这也是我为什么没用代理也可以正常爬取的一个原因吧。

　　ps：我真正看一个页面的招聘列表信息，最多也就1分钟，所以设置1分钟的休眠时间，对Boss来说还是可以接受的...

　　（4）、好戏，开整

　　代码已经备好，随时可以发动总攻。Scrapy官方入门教程

　　但是在执行语句前还又一些小事情需要搞定

　　1）、设置 UTF-8 编码

　　为了让爬取到信息以utf-8的形式保存，需要添加一个设置。

　　在setting.py中添加（ps：在代码执行中也可以添加）

 FEED_EXPORT_ENCODING = 'utf-8'

　　2）、修改async关键字

　　在首次执行scrapy crawl zhipin -o item.json时，程序报错，报文如下：

　　错误原因：SyntaxError: invalid syntax

　　该解决方法参考链接：https://blog.csdn.net/weixin_39405065/article/details/81202240

　　然后寻找相应的文件夹，路径如下：

　　Macintosh HD->资源库->Frameworks->Python.framework->Versions->3.7->lib->python3.7->site-packages->twisted->conch->manhole.py

　　使用安装python3时带的IDLE打开manhole.py文件，按照参考方案中修改async关键字。修改完，command+s保存即可。

　　万事具备，开整～

　　在bash中输入：cd www_zhipin_com，然后回车，使命令切到zhipin的项目下

　　输入：scrapy crawl boss -o item.json，然后回车

　　然后看着程序开始biubiu的执行，一阵舒爽....

　　执行的截图如下：

　　该命令会在程序执行完成后，在项目中生成一个对应的item.json文件。

　　同时，该文件也可以在python3中进行查看。

　　三、打扫战场

　　上文只是按照入门教程中提到的最简单的方式保存数据，只是保存到本地的json文件中，保存的数据格式如下：

{
     'city': '北京 海淀区 西北旺',
 'companyShortName': '爱米欢',
 'companySize': '100-499人',
 'education': '本科',
 'financeStage': 'A轮',
 'industryField': 'O2O',
 'jid': '79cea95a1818b1591XR409u-GVA~',
 'pid': '20286392',
 'positionName': '产品经理',
 'salary': {
     'avg': 30000, 'high': 40000, 'low': 20000},
 'spider_at': '2018-10-06 21:28:09',
 'time': '2018-10-05',
 'workYear': '1-3年'}

　　另外，入门教程页提到将数据保存只数据库，Item Pipeline官方教程。

　　因按照好几个教程尝试将数据保存只MongoDB中都未能成功，所以只好作罢。

　　如有大神不吝赐教，还望留言联系，不胜感激～

　　四、不足

　　因这是第一次使用Scrapy框架进行spider，从10.2到10.6日写完本博客，已经用去将近整个十一假期，虽说投入了很长一段时间，但是对自己来说还有一定提升，从完全看不明白经验贴，到可以花3天时间写完整个博客分析，觉得自己还是有所长进。

　　但仍有一些不足，有待日后提升：

1、研究1天未能使用pipelines.py将数据保存至MongoDB中，略有些遗憾
2、关于招聘详细页的信息，还没有进行抓取
3、settings.py中的通用配置，以及middlewares.py中的代理IP等，未能好好研究使用一下
4、未能将spider到的数据，进行数据可视化的统计、精准的分析，还是导出数据后，一条一条的看（ps：还不如在Boss官网上查看招聘信息的效率高，哭丧脸...）

　　五、后记

　　查看招聘网站的种种不错的职位和待遇，真有一种跃跃欲试的冲动，找机会试试吧，希望能有能不错的机会...

　　同时也希望，这篇关于Scrapy的基础入门博客，能为你在python入门学习的到路上扫除一些障碍，也不枉花时间整理博客。

　　六、鸣谢

　　在本次的学习中，参考了一下的文档

　　1、Python爬虫框架Scrapy实战 - 抓取BOSS直聘招聘信息

　 2、Scrapy入门教程

　　3、Scrapy安装、爬虫入门教程、爬虫实例（豆瓣电影爬虫）

　　4、Scrapy笔记02- 完整示例

转载于:https://www.cnblogs.com/ace722/p/9736567.html

你可能感兴趣的:(Python爬虫实战之二 - 基于Scrapy框架抓取Boss直聘的招聘信息)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
瑶池防线谜影梦蝶
冥华虽然逃过了影梦的军队，但他是一个忠臣，他选择上报战况。败给影梦后成逃兵，高层亡尔还活着，七重天失守......随便一条，即可处死冥华。冥华自然是知道以仙界高层的习性此信一发自己必死无疑，但他还选择上报实情，因为责任。同样此信送到仙宫后，知道此事的人，大多数人都认定冥华要完了，所以上到仙界高层，下到扫大街的，包括冥华自己，全都准备好迎接冥华之死。如果仙界现在还属于两方之争的话，冥华必死无疑。然而
爬山后遗症璃绛
爬山，攀登，一步一步走向制高点，是一种挑战。成功抵达是一种无法言语的快乐，在山顶吹吹风，看看风景，这是从未有过的体验。然而，爬山一时爽，下山腿打颤，颠簸的路，一路向下走，腿部力量不够，走起来抖到不行，停不下来了！第二天必定腿疼，浑身酸痛，坐立难安！
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，