FlenceXu

python 爬虫如何通过scrapy框架简单爬取网站信息--以51job为例

Scrapy框架三大优点：

Scrapy框架是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。

框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。

Scrapy 可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求。

scrapy实现流程图：

scrapy各个模块简单介绍：

步骤：

1.打开pycharm3.6
2.打开terminal命令行输入’scrapy startproject 项目名’，就会建立一个scrapy项目的文件夹
3.建立scrapy主程序，爬虫主要过程都在这里实现，同样在命令行输入’scrapy crawl -t 文件夹名 url’这里url是要爬取的网址，黏贴进去，就会建立一个模板。
4.打开刚建立的py文件，填入网址，这里以51job为例
代码如下：


from scrapy.spider import CrawlSpider
from scrapy.selector import Selector
from ..items import Job51Item
from scrapy.http import Request
import  re
from copy import deepcopy


class Job51(CrawlSpider):
    name = 'job51'#与建立的py文件名相同
    url = 'https://search.51job.com/list/000000,000000,0000,00,9,99,%25E4%25BA%25BA%25E5%25B7%25A5%25E6%2599%25BA%25E8%2583%25BD,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare='

    start_urls = [url]
    #可以不用去设置settings文件，直接指定管道文件
    # custom_settings = {
    #     'ITEM_PIPELINES' : {
    #     # 'job51.pipelines.Job51Pipeline': 300,
    #     'job51.pipelines.saveToJson': 310
    #     #'job51.pipelines.saveToMongoDB': 320
    # }
    # }


    # 定义一个计数变量
    times = 0
    def parse(self, response):
        self.times+=1
        #response是下载器下载的网页内容
        selector = Selector(response)#创建selector对象

        item=Job51Item()

        parent = selector.xpath('//div[@id="resultList"]//div[@class="el"]')
        #print(parent)
        for each in parent:
        	#获取职位信息
            jobname = each.xpath('./p/span/a/@title').extract()
            jobsrc = each.xpath('./p/span/a/@href').extract()[0]
            companyname = each.xpath('./span[1]/a/text()').extract()
            address = each.xpath('./span[2]/text()').extract()
            money = each.xpath('./span[3]/text()').extract()
            ptime = each.xpath('./span[4]/text()').extract()
            #print(jobname,companyname,address,money,ptime)

            if money:
                money=money[0]
            else:
                money='面谈'
            item['jobname']=jobname[0]
            item['companyname']=companyname[0]
            item['address']=address[0]
            item['money']=money
            item['ptime']=ptime[0]

            #因为每一条都在循环内
            yield Request(jobsrc,meta={'front_item':deepcopy(item)},callback=self.parse_detail,dont_filter=True)


#实现多页爬取
        #寻找下一页的链接
        next = selector.xpath('//div[@class="dw_page"]//ul//li[@class="bk"][2]/a/@href')[0].extract()
        print("下一页：",next)



        #提交请求
        if self.times<4:
            yield Request(next,callback=self.parse)

    #爬取详情页的函数
    def parse_detail(self,response):
        item = response.meta['front_item']
        selector = Selector(response)
        #提取信息
        div = selector.xpath('//div[@class="bmsg job_msg inbox"]')
        if div:
            div=div[0]
        else:
            return
        #提取所有文本
        #txt = div.xpath('./p/font/font/text()').extract()
        txt = div.xpath('string(.)').extract()[0]
        #print(txt)
        #使用正则去除空格
        reg = re.compile('\S*',re.S)
        #提取所有非空白符
        result = re.findall(reg,txt)

        datalist = []
        for i in result:
            if i :
                datalist.append(i)
        #print(datalist)
        #给item
        item['detail']=str(datalist)
        yield item

5.打开items的py文件,将爬取的信息提交
代码如下：


import scrapy
from scrapy import Item,Field

class Job51Item(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    jobname = Field()
    companyname = Field()
    address = Field()
    money = Field()
    ptime = Field()
    detail =Field()

6.进入settings文件打开下载器中间键开关，程序如下：

根据需要打开，就会进入中间件执行代码

7.打开pipelines文件，写入存储文件的代码
代码如下：（这里提供三种存储方式，根据需要在settings中打开）

import json
class Job51Pipeline(object):
    def __init__(self):
        pass
    def process_item(self, item, spider):
        return item
    def close_spider(self,spider):
        pass
#1.存储为json文件
class saveToJson(object):
    def __init__(self):
        self.file = open('job51.json','w',encoding="utf-8")
    def process_item(self, item, spider):
        #把每一个item转化为json
        each = json.dumps(dict(item),ensure_ascii=False)
        self.file.write(each+'\n')
        return item
    def close_spider(self,spider):
        self.file.close()

from pymongo import MongoClient
#2.存储为MongoDB
class saveToMongoDB(object):
    # 1.连接本地数据库服务
    def __init__(self):
        self.connection = MongoClient('localhost')
        # 2.连接本地数据库 没有会创建
        self.db = self.connection.job
        # 3.创建集合
        self.job = self.db.job51
    def process_item(self, item, spider):
        self.job.insert_one(dict(item))
    def close_spider(self, spider):
        pass

from openpyxl import Workbook
#3.存入excel
class saveToExcel(object):
    def __init__(self):
        self.wb = Workbook()
        self.ws =self.wb.active
    def process_item(self,item,spider):

        self.ws.append(list(dict(item).values()))
    def close_spider(self,spider):
        self.wb.save('岗位详细信息.xlsx')

8.进入中间件，设置头部或代理ip，有的网站必须用到浏览器头部和ip进行爬取才更安全。
代码如下：

# -*- coding: utf-8 -*-

# Define here the models for your spider middleware
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/spider-middleware.html
import random
from scrapy import signals

#爬虫中间键
class Job51SpiderMiddleware(object):
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the spider middleware does not modify the
    # passed objects.

    @classmethod
    def from_crawler(cls, crawler):
        # This method is used by Scrapy to create your spiders.
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s

    def process_spider_input(self, response, spider):
        # Called for each response that goes through the spider
        # middleware and into the spider.

        # Should return None or raise an exception.
        return None

    def process_spider_output(self, response, result, spider):
        # Called with the results returned from the Spider, after
        # it has processed the response.

        # Must return an iterable of Request, dict or Item objects.
        for i in result:
            yield i

    def process_spider_exception(self, response, exception, spider):
        # Called when a spider or process_spider_input() method
        # (from other spider middleware) raises an exception.

        # Should return either None or an iterable of Response, dict
        # or Item objects.
        pass

    def process_start_requests(self, start_requests, spider):
        # Called with the start requests of the spider, and works
        # similarly to the process_spider_output() method, except
        # that it doesn’t have a response associated.

        # Must return only requests (not items).
        for r in start_requests:
            yield r

    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)

user_agent = [
    "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
    "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
    "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0",
    "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727; .NET CLR 3.0.30729; .NET CLR 3.5.30729; InfoPath.3; rv:11.0) like Gecko",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)",
    "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)",
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1",
    "Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1",
    "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11",
    "Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; TencentTraveler 4.0)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; The World)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Avant Browser)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)",
    "Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5",
    "Mozilla/5.0 (iPod; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5",
    "Mozilla/5.0 (iPad; U; CPU OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5",
    "Mozilla/5.0 (Linux; U; Android 2.3.7; en-us; Nexus One Build/FRF91) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1",
    "MQQBrowser/26 Mozilla/5.0 (Linux; U; Android 2.3.7; zh-cn; MB200 Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1",
    "Opera/9.80 (Android 2.3.4; Linux; Opera Mobi/build-1107180945; U; en-GB) Presto/2.8.149 Version/11.10",
    "Mozilla/5.0 (Linux; U; Android 3.0; en-us; Xoom Build/HRI39) AppleWebKit/534.13 (KHTML, like Gecko) Version/4.0 Safari/534.13",
    "Mozilla/5.0 (BlackBerry; U; BlackBerry 9800; en) AppleWebKit/534.1+ (KHTML, like Gecko) Version/6.0.0.337 Mobile Safari/534.1+",
    "Mozilla/5.0 (hp-tablet; Linux; hpwOS/3.0.0; U; en-US) AppleWebKit/534.6 (KHTML, like Gecko) wOSBrowser/233.70 Safari/534.6 TouchPad/1.0",
    "Mozilla/5.0 (SymbianOS/9.4; Series60/5.0 NokiaN97-1/20.0.019; Profile/MIDP-2.1 Configuration/CLDC-1.1) AppleWebKit/525 (KHTML, like Gecko) BrowserNG/7.1.18124",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows Phone OS 7.5; Trident/5.0; IEMobile/9.0; HTC; Titan)",
    "UCWEB7.0.2.37/28/999",
    "NOKIA5700/ UCWEB7.0.2.37/28/999",
    "Openwave/ UCWEB7.0.2.37/28/999",
    "Mozilla/4.0 (compatible; MSIE 6.0; ) Opera/UCWEB7.0.2.37/28/999",
    # iPhone 6：
    "Mozilla/6.0 (iPhone; CPU iPhone OS 8_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/8.0 Mobile/10A5376e Safari/8536.25",

]

#下载中间键
class Job51DownloaderMiddleware(object):
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the downloader middleware does not modify the
    # passed objects.

    @classmethod
    def from_crawler(cls, crawler):
        # This method is used by Scrapy to create your spiders.
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s

    def process_request(self, request, spider):
        # Called for each request that goes through the downloader
        # middleware.

        # Must either:
        # - return None: continue processing this request
        # - or return a Response object
        # - or return a Request object
        # - or raise IgnoreRequest: process_exception() methods of
        #   installed downloader middleware will be called
        #设置浏览器头部
        request.headers['user_agent']=random.choice(user_agent)
        print(22222222222222)
        # #设置代理
        # request.meta['proxy'] = '114.247.89.49:8000'
        return None

    def process_response(self, request, response, spider):
        # Called with the response returned from the downloader.

        # Must either;
        # - return a Response object
        # - return a Request object
        # - or raise IgnoreRequest
        return response

    def process_exception(self, request, exception, spider):
        # Called when a download handler or a process_request()
        # (from other downloader middleware) raises an exception.

        # Must either:
        # - return None: continue processing this exception
        # - return a Response object: stops process_exception() chain
        # - return a Request object: stops process_exception() chain
        pass

    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)

9.最后就是运行整个框架的关键，这里建议穿件一个运行的py文件，方便快捷，建立main.py文件，写入如下代码：

from scrapy import cmdline

cmdline.execute('scrapy crawl job51'.split())

每次运行main文件就会运行整个程序

2016年2月小记录 weixin_30485799 开发工具
2.2发现自己bzoj第一版屯了不少题，就先A几道吧。bzoj1016:[JSOI2008]最小生成树计数，就是kruskal求出最小生成树后暴力一下就行了，其实不知道为什么可以过，反正就是可以过。bzoj1007:[HNOI2008]水平可见直线这题的结论太强了，按斜率排序，维护一个栈，判断交点就行啦，然后被卡精度了，不过这题idea特别好bzoj1011:[HNOI2008]遥远的行星这题就是
vue中显示和隐藏如何做动画_Vue--过渡动画实现的三种方式 weixin_39638623 vue中显示和隐藏如何做动画
1@charset"UTF-8";23/*!4*animate.css-http://daneden.me/animate5*Version-3.5.26*LicensedundertheMITlicense-http://opensource.org/licenses/MIT7*8*Copyright(c)2017DanielEden9*/1011.animated{12animation-du
大三学生实习面试经历（1）无限大. 面试杂谈面试 python windows
最近听了一位学长的建议，不能等一切都准备好再去开始，于是就开始了简历投递，恰好简历过了某小厂的初筛，开启了线上面试，记录了一些问题：（通过面试也确实了解到了自己在某些方面确实做的还不够充分，需要继续努力）1.思维题毒蘑菇现在有1011种蘑菇，其中1种是毒蘑菇。人一旦吃了微量的毒蘑菇，就会在72小时后发作身亡。现在用松鼠做试验，从开始喂松鼠计时，要在72小时后马上找出毒蘑菇，问最少需要多少只松鼠?(
原码、反码、补码以及lowbit运算 Xie_Z_H c++开发语言算法 c语言
原码、反码、补码以及lowbit运算原码：可以用来计算正数加减，正数的原码、反码、补码都一样。第一位为符号位，符号位0为正数，1为负数(32位字符，这里用4位来举例子，后面皆是用4位来举例子，其中第一位是符号位)。1111（-7）1110（-6）1101（-5）1100（-4）1011（-3）1010（-2）1001（-1）1000（-0）0000（0）0001（1）0010（2）0011（3）0
【考研】南邮历年复试上机试题目与题解 SpareLin 考研算法
【考研】南邮历年复试上机试题目与题解文章目录【考研】南邮历年复试上机试题目与题解个人题目难度评估历年上机题目PROB1002求最值问题PROB1003新对称素数问题PROB1004进制转换PROB1005涂色问题(待补)PROB1006最大公约数和最小公倍数PROB1007斐波那契数列PROB1008回文回文PROB1009单源最短路PROB1010萌萌摘苹果PROB1011忠诚的骑士PROB10
选课（贪心） pta wzx_Eleven 算法
小明是个好学的程序猿，他想在一天内尽可能多的选择课程进行学习。在下列课程中，他能选择的最多课程是几门？输入格式:第一行为一个整数n，表示课程总数。接下来每行为x，y，z表示课程名，开始时间，结束时间。输出格式:输出一个整数，表示小明最多可选的课程数。输入样例:5Art910English9.310.3Math1011Computer10.311.3Music1112输出样例:在这里给出相应的输出。
PHP常用函数总结（180多个） Jim仔 PHP php 函数基础
PHP常用函数总结转载自：http://blog.csdn.net/lzuacm数学函数1.abs():求绝对值$abs=abs(-4.2);//4.211输入:数字输出:绝对值数字2.ceil():进一法取整echoceil(9.999);//1011输出:浮点数进一取整3.floor():去尾法取整echofloor(9.999);//911输出:浮点数直接舍去小数部分4.fmod():浮点数
LinkedList模拟出栈入栈虾米大王 Java java windows 开发语言
packagecom.shrimpking.t11;importjava.util.LinkedList;/***CreatedbyIntelliJIDEA.**@Author:Shrimpking*@create2024/9/1011:49*/publicclassMyStack{privateLinkedListlist=newLinkedListms=newMyStack<>();ms.pu
2024杭电10 abTao_lx 算法图论
1011.NOI2024题意：有m个人，n场比赛。第iii场比赛你获得aia_iai名，总分为bib_ibi，选手分数为111~bib_ibi。名次为分数严格大于你的人数+1.最后排名不超过kkk的人拿到冠军.问最后你是否一定能拿冠军。题解：最极端的情况，每次比赛都是0分。有ai−1a_i-1ai−1个人拿满分。那这ai−1a_i-1ai−1个人的排名一定都在你之上。最后比较排名在你之上的人数有没
洛谷 P1011 车站题解（C语言）懒阳羊 c语言算法开发语言
洛谷P1011车站题解题目[NOIP1998提高组]车站题目描述火车从始发站（称为第111站）开出，在始发站上车的人数为aaa，然后到达第222站，在第222站有人上、下车，但上、下车的人数相同，因此在第222站开出时（即在到达第333站之前）车上的人数保持为aaa人。从第333站起（包括第333站）上、下车的人数有一定规律：上车的人数都是前两站上车人数之和，而下车人数等于上一站上车人数，一直到终
67. 二进制求和 joker_zh53 算法位运算高精度
67.二进制求和给你两个二进制字符串a和b，以二进制字符串的形式返回它们的和。示例1：输入:a=“11”,b=“1”输出：“100”示例2：输入：a=“1010”,b=“1011”输出：“10101”提示：1=0||j>=0||carry>0){intsum=carry;if(i>=0)sum+=a[i--]-'0';if(j>=0)sum+=b[j--]-'0';result.push_back
Vue 3 中的 provide 和 inject 跨组件通讯 u010373106 Vue vue.js javascript 前端
在Vue3中，provide和inject的使用方式略有不同，但依然提供了强大的功能来实现跨组件通信。1.祖先组件提供数据在祖先组件中使用provide提供数据。示例祖先组件（GrandparentComponent.vue）：123改变值456789importParentComponentfrom'./ParentComponent.vue';1011constvalue=ref('这是来自祖
东方博宜【入门】1011. 空心六边形 yuanheng418 算法 c++
有点难度，但不多~~~问题描述画图形，是我们需要研究的一个重要课程。菱形好似练的差不多了啊。那么，什么东西，能够有些新意呢？弄个漂亮点的图形吧，空心六边形进入了我们的视线。那么我们就打印一个正六边型吧。根据输入的边长，输出对应大小的正六边型。输入只有一个正整数n（0usingnamespacestd;intn,i,j,t=0;intmain(){cin>>n;if(n==1){cout<<"*";
【第一章概述—计算机中的数制】无符号数二进制的运算命运之光 #微机原理与接口技术学习
无符号二进制数的运算包括加法、减法、乘法和除法等基本运算。在无符号数的二进制运算中，每个位的值都在0和1之间，不考虑符号位，因此运算过程与十进制运算类似，但需要注意进位、借位等问题。1.二进制加法无符号二进制加法遵循以下规则：0+0=00+1=11+0=11+1=10(需要进位)例如：1011(11)+1101(13)-------11000(24)2.二进制减法无符号二进制减法遵循以下规则：0-
Python编程基础-数字类型学计算机的高级程序语言开发语言 python
1.主要的数据类型：整数类型、浮点类型、复数类型、布尔类型数据类型都是类，每个数据值就是类的“实例”6种主要的内置数据类型：数字、字符串、列表、元组、集合和字典。列表、元组、集合、字典可存放多项数据。数字类型有4种：整数类型、浮点类型、复数类型和布尔类型。2.整数类型int表示整数类型>>>0b1011#二进制11>>>0o13#八进制11>>>0xb#十六进制11>>>11#十进制113.浮点类
算法-位运算风清扬-独孤九剑 golang 算法算法数据结构 go
目录前言位运算有的符号按位异或性质：指定位置的位运算位运算算法常用点实战前言机器是采用二进制对数值进行表示、存储和运输，在程序中恰当使用二进制，可以提高运行效率。本篇文章我们讲下位运算相关的问题。位运算有的符号含义运算符示例按位与&1011&0011=0011按位或｜1011｜0011=1011按位取反～～0011=1100按位异或^1011^0011=1000(相同得0不同得1)左移>0011>
67. 二进制求和 colorful_stars 算法 C/C++C++数据结构算法 leetcode c++
给你两个二进制字符串a和b，以二进制字符串的形式返回它们的和。示例1：输入:a=“11”,b=“1”输出：“100”示例2：输入：a=“1010”,b=“1011”输出：“10101”提示：1b.size())b='0'+b;while(a.size()=0;i--){inttem=a[i]-'0'+b[i]-'0'+carry;if(tem>=2){tem=tem-2;//三个数最大和为3，最大
题目 1011: [编程入门]最大公约数与最小公倍数进击的小童 C语言网题目 c语言
问题描述：输入两个正整数m和n，求其最大公约数和最小公倍数。样例输入：57样例输出：135问题分析：首先需要了解最大公约数和最小公倍数的求法。最大公约数：本篇文章重点在于解题，并不会对多种方法依次讲解。1.直接法：设置一个变量z，把两个数中最小的值赋值给z，利用&&符号判断两个数是否可以同时整除z，如果可以同时整除，则z即为所求的最大公约数，如果不能，即将z减1，继续循环判断。代码：#includ
1011 A+B 和 C (15 分) 胖胖胖到不能呼吸
给定区间[−231，231]内的3个整数A、B和C，请判断A+B是否大于C。输入格式：输入第1行给出正整数T(≤10)，是测试用例的个数。随后给出T组测试用例，每组占一行，顺序给出A、B和C。整数间以空格分隔。输出格式：对每组测试用例，在一行中输出Case#X:true如果A+B>C，否则输出Case#X:false，其中X是测试用例的编号（从1开始）。输入样例：41232342147483647
linux文件权限说明（drwxr-xr-x） PrinciplesMan #Linux linux xr 运维
在linux中查看文件的时候，在每一行的最前面会有这样的一串字符"drwxr-x---"，如下面的样例：drwxr-x---2rootroot37Apr1810:50data-rw-r--r--1rootroot68549Sep262018fields.yml-rwxr-xr-x1rootroot33903123Sep262018filebeat-rwxr-xr-x1rootroot1011Mar
洛谷P1011 [NOIP1998 提高组] 车站题解菜就多练，输不起就别玩儿 c++c语言开发语言
题目描述火车从始发站（称为第11站）开出，在始发站上车的人数为a，然后到达第2站，在第2站有人上、下车，但上、下车的人数相同，因此在第2站开出时（即在到达第3站之前）车上的人数保持为a人。从第3站起（包括第3站）上、下车的人数有一定规律：上车的人数都是前两站上车人数之和，而下车人数等于上一站上车人数，一直到终点站的前一站（第n−1站），都满足此规律。现给出的条件是：共有n个车站，始发站上车的人数为
2021-01-16 Python百日打卡学习自【夸可编程】 guoyongcan
'''题目给你两个二进制字符串，返回它们的和（用二进制表示）。例子addBinary('11','1')->'100'addBinary('1010','1011')->'10101'假设输入为非空字符串且只包含数字1和0tips模拟加法运算注意进位'''defaddBinary(a,b):res=''max_len=max(len(a),len(b))a=a.zfill(max_len)b=b.
2023-01-23 凤舞九天
中原焦点团队高级6期肖巧风，坚持分享第1011天要想培养自我负责的孩子，需要找到每件事背后来自孩子的“自主动机”具体操作时的步骤:第一步，判断孩子的自主动机是什么；第二步主语转换，明确表达:“我”要做什么；或者现在你所面临的选择；第三步，询问孩子:你打算怎么做，等待孩子自己做出选择:第四步，坚决执行家长的计划。比如说孩子想要出去玩，家长催他回家:妈妈:好了，别玩了，你该回家吃饭了。孩子:我还想多玩
刘晓飞坚持分享第1011天焦点网络中十期伊川焦点团队分享第77天花开盛夏
今天上午去超市看到一个大约两岁多的小男孩躺在地上撒泼打滚，把鞋子都给拖扔掉了，脸贴在地上，哭得撕心裂肺。妈妈对孩子说不管怎么哭也不管用的话，然后就自己在排队结账。看来妈妈对于孩子的这种情况非常了解。妈妈结完账之后就径直走出了超市，孩子一看妈妈走出去了，呲溜一下就从地上爬起来，飞快地跑出去抱住妈妈的腿，生怕妈妈不要他。妈妈看到孩子没有穿鞋，就让他来超市拿鞋，孩子一边哭一边摇头，妈妈说：“你去拿鞋，妈
PAT (Basic Level) 1011 A+B 和 C 1nvad3r
给定区间[−231,231]内的3个整数A、B和C，请判断A+B是否大于C。输入格式：输入第1行给出正整数T(≤10)，是测试用例的个数。随后给出T组测试用例，每组占一行，顺序给出A、B和C。整数间以空格分隔。输出格式：对每组测试用例，在一行中输出Case#X:true如果A+B>C，否则输出Case#X:false，其中X是测试用例的编号（从1开始）。输入样例：41232342147483647
刷题08 位运算easy hndgfnd leetcode刷题打卡 javascript 开发语言 ecmascript
67.二进制求和给你两个二进制字符串a和b，以二进制字符串的形式返回它们的和。输入:a="11",b="1"输出："100"输入：a="1010",b="1011"输出："10101"voidreserve(char*s){intl=0,r=strlen(s)-1;while(l1，若是n>0的话，最后都会返回falseboolisPowerOfTwo(intn){if(n==0)returnfa
关于16进制10进制和2进制我的理解 CodeForWater 汇编
1.2进制好，那么首先是二进制我们要如何计算二进制呢，好请看如果我们用的是11那么我们要算出二进制我们就要用11除以2余数只能是0或1算出来等于1011然后呢我们可以画一个数轴好那么我们可以发现一个点了下面的二的次方从右到左是每一次都乘以2的从左到右是每一次都除以2的，那么我们可以这么表示，0代表没有而1代表有，那么我们就可以这样8+2+1等于11这样就转换了从二进制到10进制，那么10进制到二进
2.13Java基础学习笔记铃兰花的土壤学习笔记
常用APIBigintegerBigInteger类型的数字范围较Integer，Long类型的数字范围要大得多，它支持任意精度的整数，也就是说在运算中BigInteger类型可以准确地表示任何大小的整数值而不会丢失任何信息。构造方法//进制转换@TestpublicvoidtestScale(){//在构造将函数时，把radix进制的字符串转化为BigIntegerStringstr="1011
面试题15：二进制中1的个数 scott_alpha
题目：请实现一个函数，输入一个整数，输出该数二进制表示中1的个数。例如，把9表示成二进制是1001，有两个1。因此，如果输入9，则该函数输出2.思路：数n和(n-1)进行与运算，则会消除一个1，如1100和1011与运算后为1000，精彩。解决方案：publicclassQuestion15{publicstaticintNumberOf1(intn){intcount=0;while(n!=0)
leetcode 算法 67.二进制求和（python版）奋斗哼哼算法 leetcode python
需求给你两个二进制字符串a和b，以二进制字符串的形式返回它们的和。示例1：输入:a=“11”,b=“1”输出：“100”示例2：输入：a=“1010”,b=“1011”输出：“10101”代码classSolution:defbinary_sum(self,a,b):#将二进制字符串转换为整数#int(a,2)第一个参数表示正常传入的字符串，第二个参数表示输出的进制数num1=int(a,2)pr
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

python 爬虫 如何通过scrapy框架简单爬取网站信息--以51job为例

步骤：

你可能感兴趣的:(1011)

python 爬虫如何通过scrapy框架简单爬取网站信息--以51job为例