嚺撻譶

使用scrapy框架爬取前程无忧

注：后续博客地址：https://blog.csdn.net/ITwangxiaoxu/article/details/107220339

项目要求

利用python编写爬虫程序，从招聘网上爬取数据，将数据存入到MongoDB中，将存入的数据作一定的数据清洗后分析数据，最后做数据可视化。

工具软件

python 3.7
pycharm 2020.1.2

具体知识点

python基础知识
scrapy框架知识点
pyecharts 1.5
MongoDB

爬取字段
职位名称、薪资水平、招聘单位、工作地点、工作经验、学历要求、工作内容（岗位职责）、任职要求（技能要求）

数据存储
将爬取到的数据保存在MongoDB中

数据分析与可视化

具体要求
（1）分析“数据分析”、“大数据开发工程师”、“数据采集”等岗位的平均工资、最高工资、最低工资，并作条形图将结果展示出来。
（2）分析“数据分析”、“大数据开发工程师”、“数据采集”等大数据相关岗位在成都、北京、上海、广州、深圳的岗位数，并做条形图将结果展示出来。

（3）分析大数据相关岗位1-3年工作经验的薪资水平（平均工资、最高工资、最低工资），并做出条形图展示出来；
（4）将数据采集岗位要求的技能做出词云图

具体步骤

1.分析网页
点击进入网页：https://search.51job.com/list/000000,000000,7500,00,9,99,%2520,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=
我们先来看看网页构造。再来分析思路：
由于我们需要的数据岗位的分布数据，所以我们就直接搜索条件，分析数据岗位在全国的一个分布情况。

由于我需要爬取的字段在招聘列表上面不完整，就需要进入详情里面去分析我们的字段。先来看看进去后是什么样子。

我们需要的字段都在这里面了，所以，就可以开始研究网页结构布局

首先我需要抓取全部列表信息岗位的网址，并要进入到每一个网址去，那么就必然需要每一个进去的入口，而这个入口就是这个这个职位名称所包含的网址：

新建一个爬虫项目:

scrapy startproject qiancheng

然后打开我们的项目，进入瞅瞅会发现啥都没有，我们再cd到我们的项目里面去开始一个爬虫项目
cd qiancheng
scrapy genspider qc https://search.51job.com/
这后边的网址就是你要爬取的网址。

先设置一下我们的配置文件settings.py中写上我们的配置信息：

关闭网页机器人协议

ROBOTSTXT_OBEY = False

请求头信息

DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
'User_Agent' :'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36'
}

下载管道

ITEM_PIPELINES = {
 'qiancheng.pipelines.QianchengPipeline': 300,
}

下载延时

DOWNLOAD_DELAY = 1(可忽略）

然后再去我们的pipelines.py中连接mongodb数据库

方案一：
设置setting.py的配置信息

mongodb地址

MONGODB_HOST='127.0.0.1'#（localhost）

mongodb端口号

MONGODB_PORT = 27017#（这个端口为默认端口）

设置数据库名称

MONGODB_DBNAME = 'qiancheng'

存放本数据的表名称

MONGODB_DOCNAME = 'Table'

from scrapy.utils.project import get_project_settings
settings = get_project_settings()
import pymongo
class QianchengPipeline:
    def __init__(self):
        host = settings['MONGODB_HOST']
        port = settings['MONGODB_PORT']
        self.client = pymongo.MongoClient(host=host, port=port)
        self.db = self.client[settings['MONGODB_DBNAME']]
        self.coll = self.db[settings['MONGODB_DOCNAME']]

    def process_item(self, item, spider):
    #插入数据
        data = dict(item)
        self.coll.insert(data)
        return item
#关闭数据库
    def close(self):
        self.client.close()

方案二：（推荐）
import pymongo
class YaoPipeline(object):
def init(self):
#链接数据库
self.client=pymongo.MongoClient(‘localhost’)
#创建库
self.db=self.client[‘qiangcheng’]
self.table=self.db[‘Table’]
def process_item(self,item,spider):
#插入值
self.table.insert(dict(item))
def close(self):
self.client.close()
定义好pipelines.py之后，我们还需要去items.py中去定义好我们需要爬取的字段，用来向pipelines.py中传输数据

class QianchengItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    jobname = scrapy.Field()#职位名称
    salary = scrapy.Field()#薪资水平
    company = scrapy.Field()#招聘单位
    area = scrapy.Field()#工作地点
    workingExp = scrapy.Field()#工作经验
    edulevel = scrapy.Field()#学历要求
    yaoqiu = scrapy.Field()#工作内容
    jineng = scrapy.Field()#要求技能

在敲代码之前，还是要先分析一下网页结构。打开审查工具，看看我们需要爬取的具体网址怎么用xpath语法提取出来：

可以很清晰的看到，这个整个栏目都在div class='el’下，而且所有的招聘岗位都在这下面，所以，我们为了能够拿到所有的url，就可以去定位他的上一级标签，然后拿到所有子标签。再通过子标签去拿里面的href属性。
所以，xpath语法就可以这样写：

//*[@id='resultList']/div[@class='el']/p/span/a/@href

可以试着打印一下这一页的所有详情页试试：

import scrapy
from scrapy.linkextractors import LinkExtractor
from qiancheng.items import QianchengItem
from scrapy.spiders import CrawlSpider, Rule
class QcwySpider(scrapy.Spider):
    name = 'qc'
    allowed_domains = ['https://search.51job.com/']
    start_urls = ['https://search.51job.com/list/000000,000000,7500,00,9,99,%2520,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=']
    def parse(self, response):

        all_urls = response.xpath("//*[@id='resultList']/div[@class='el']/p/span/a/@href").getall()
        for urls in all_urls:
        print（urls）

在打印前先编写一个便于后面调试的启动函数run.py（在当前项目的任何位置新建一个），然后写上这两行代码：

from scrapy.cmdline import execute
execute("scrapy crawl qc".split())#qc为爬虫名称（name）

这个意思就是从scrapy包的cmdline下导入execute模块，然后，用这个模块去运行当前项目；
运行结果：

我们拿到所有超链接之后，还不够。要记住，我们需要的所有页面的超链接。所以，我们再来分析分析每一页之间的规律。注意看最上方的url：

https://search.51job.com/list/000000,000000,7500,00,9,99,%2520,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=

当我们点击下一页的时候，看看url发生了哪些变化：

https://search.51job.com/list/000000,000000,7500,00,9,99,%2B,2,2.html?lang=c&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=

发现，中间的%2520,2,1.html?变成了%2B,2,2.html?；还有很大区别，在多看几页找规律，发现从第二页开始就只有.html?前的数字在变化,那这样怎么构造爬虫的url呢，查看了众多博客对于构造这个url都没有很好理解的方法，容易跳页，最后找到一个不用找规律的方法-------模拟点击跳页

看到这个之后，知道我要干什么了吧。我们可以直接写xpath语法去获取这个url，如果有，就交给解析函数去解析当前页的网址，没有的话就结束函数的运行：
看看xpath语法该咋写：

//div[@class=‘p_in’]//li[last()]/a/@href
所以我们只需要做如下判断：

next_page = response.xpath("//div[@class='p_in']//li[last()]/a/@href").get()
        if next_page:
            yield scrapy.Request(next_page, callback=self.parse, dont_filter=True)

如果有下一页，就继续交给parse()函数去解析网址；然后继续进入详情页爬取

我们随便点进去一个招聘信息瞅一瞅；

我们很大一部分的信息都在这个标签里面，所以，我们就可以单独在这个标签中拿到我们需要的信息

我们除了这些字段，还需要任职要求。我们再看看，下面的职位信息这个标签中的内容；

我们需要的内容都在这个标签里面。

所以，我们抓取全部的字段，就可以这样来写：

			jobname = response.xpath("//div[@class='cn']/h1/text()").getall()[0]#工作名称
            salary = response.xpath("//div[@class='cn']//strong/text()").get()#工资
            company = response.xpath("//div[@class='cn']//p[@class='cname']/a[1]/@title").get()#公司名称
            area = response.xpath("//div[@class='cn']//p[@class='msg ltype']/text()").getall()[0]#招聘地点
            workingExp = response.xpath("//div[@class='cn']//p[@class='msg ltype']/text()").getall()[1]
            edulevel = response.xpath("//div[@class='cn']//p[@class='msg ltype']/text()").getall()[2]
            yaoqius = response.xpath("//div[@class='bmsg job_msg inbox']//text()").getall()

当然，这些字段抓取到了然后呢，总得需要去想个办法保存到MongoDB中吧，所以，我们就可以通过之前定义好的items来保存数据；

所有代码：

# -*- coding: utf-8 -*-
import scrapy

from qiancheng.items import QianchengItem

class QcwySpider(scrapy.Spider):
    name = 'qc'
    allowed_domains = ['https://search.51job.com/']

    # start_urls = ['https://search.51job.com/list/000000,000000,7500,01,9,99,%2B,2,{}.html?lang=c&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare='.format(i) for i in range(1,2000)]
    start_urls = ['https://search.51job.com/list/010000%252C020000%252C040000%252C030200%252C090200,000000,0130,00,9,99,%2520,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=']
    def parse(self, response):

        all_urls = response.xpath("//*[@id='resultList']/div[@class='el']/p/span/a/@href").getall()
        for urls in all_urls:

            yield scrapy.Request(urls, callback=self.parse_html, dont_filter=True)
        next_page = response.xpath("//div[@class='p_in']//li[last()]/a/@href").get()
        if next_page:
            yield scrapy.Request(next_page, callback=self.parse, dont_filter=True)
    def parse_html(self, response):
            item = QianchengItem()

            jobname = response.xpath("//div[@class='cn']/h1/text()").getall()[0]#工作名称
            salary = response.xpath("//div[@class='cn']//strong/text()").get()#工资
            company = response.xpath("//div[@class='cn']//p[@class='cname']/a[1]/@title").get()#公司名称
            area = response.xpath("//div[@class='cn']//p[@class='msg ltype']/text()").getall()[0]#招聘地点
            workingExp = response.xpath("//div[@class='cn']//p[@class='msg ltype']/text()").getall()[1]
            edulevel = response.xpath("//div[@class='cn']//p[@class='msg ltype']/text()").getall()[2]
            yaoqius = response.xpath("//div[@class='bmsg job_msg inbox']//text()").getall()
            yaoqiu_str = ""
            for yaoqiu in yaoqius:
                yaoqiu_str += yaoqiu.strip()
            jineng = ""
            jinenglan = response.xpath("//p[@class='fp'][2]/a/text()").getall()
            for i in jinenglan:
                    jineng += i + " "

            item['jobname'] = jobname
            item['company'] = company
            item['area'] = area
            item['salary'] = salary
            item['edulevel'] = edulevel
            item['workingExp'] = workingExp
            item['yaoqiu'] = yaoqiu_str
            item['jineng']=jineng
            yield item

然后，开始我们的爬虫启动；
然后再看看我们拿到的数据是什么样子的；

到此爬取数据就差不多了
注：后续博客地址：https://blog.csdn.net/ITwangxiaoxu/article/details/107220339

C语言学习5——核心语法4(for、数组) 不加香菜的锅包肉 c语言 c语言学习
配置VS2019快捷导入代码准备快捷导入代码的脚本文件，保存在系统目录中（位置自定义）在VS2019中配置，使用上述目录中的脚本文件。工具——代码片段管理器——修改Basic为VisualC++——选择上述自定义的目录位置（不需要选择到具体脚本文件）。在程序中使用快捷导入代码。#1----tab键for循环语法for(表达式1;表达式2;表达式3){循环体。}循环从表达式1开始——>表达式2(判别
【异常】MyBatis-Plus因@TableId错误使用，导致主键未生成，SQL异常提示SQLException: Field ‘id‘ doesn‘t have a default value 本本本添哥 004 -数据库 sql mybatis java mysql spring boot
一、异常内容org.springframework.dao.DataIntegrityViolationException:###Errorupdatingdatabase.Cause:java.sql.SQLException:Field'crash_id'doesn'thaveadefaultvalue###Theerrormayexistincom/xxx/terminal/mapper/C
java23种设计模式-解释器模式千里码！设计模式后端技术 #Java 设计模式解释器模式 java
解释器模式（InterpreterPattern）学习笔记编程相关书籍分享：https://blog.csdn.net/weixin_47763579/article/details/145855793DeepSeek使用技巧pdf资料分享：https://blog.csdn.net/weixin_47763579/article/details/1458840391.模式定义行为型设计模式，给定
Redis教程(二十一)：Redis怎么保证缓存一致性 ThatMonth 缓存 redis 数据库
传送门：Redis教程汇总篇，让你从入门到精通Redis的缓存一致性Redis的缓存一致性是指在使用Redis作为缓存层时，保证缓存中的数据与数据库中的数据保持一致的状态。在分布式系统中，数据一致性是一个重要的问题，因为可能存在多个客户端同时读写同一数据，或者数据在不同节点间需要同步更新。在涉及缓存的场景中，保持缓存一致性面临以下挑战：数据更新：当数据库中的数据被修改后，相关联的缓存数据需要被相应
数据库添加数据时，主键字段报错：Field 'mid' doesn't have a default value 懂的越多不懂的也越多数据库添加数据时主键字段报错：Field 'mid'doesn't
数据库添加数据时，主键字段报错：Field'mid'doesn'thaveadefaultvalue简介1、打开mysql安装目录找到my.ini文件，查找2、MySQL5usesastrictmodewhichneedstobedisabled.3、那就可能是你的数据库字段设置有问题.简介在使用ORM框架(Mybatis.JPA…)添加数据时,报错:Field‘mid’doesn’thavead
神通数据库ShenTong7在CentOS7上的安装与MySQL迁移遇到的兼容性问题 Heartsuit 运维 Database 国产化迁移适配问题解决记录 1024程序员节神通数据库数据迁移 find_in_set CentOS7
背景最近接触了个项目，数据库用的是国产数据库：神通数据库ShenTong7。简单总结下ShenTong7在CentOS7上的安装与使用。此外，在开发环境使用的是MySQL数据库，部署时需要迁移到神通数据库ShenTong7，并且记录了在迁移过程中以及迁移之后遇到的问题及解决方法。以下信息是在安装过程中关于神通数据库ShenTong7的官方介绍：神通数据库是天津神舟通用数据技术有限公司（以下简称“神
SQL笔记9.嵌入式SQL 笑神552 sql
SQL嵌入到其它语言中，这个时候编译需要其他方法1.扩充主语言编译系统，使之能够处理SQL语句2.预处理：在编译前先扫描源程序，将SQL语句翻译成目标（或主语言程序）过程代码，并将SQL执行翻译成主语言的过程调用预处理后的源程序再交给诸语言的编译系统处理在使用时，所有的SQL语句都要加EXECSQL在前面，后面PL/1,C时，用；，COBOL用END-EXEC通信：1.SQLCODE这是一个整型变
Elasticsearch：使用阿里云 AI 服务进行向量化和重新排名
作者：来自ElasticTomásMurúa在本文中，我们将介绍如何将阿里云AI功能与Elasticsearch集成，以提高语义搜索的相关性。阿里云人工智能搜索是一种将高级人工智能功能与Elasticsearch工具相结合的解决方案，利用QwenLLM/DeepSeek-R1系列提供高级推理和分类模型。在本文中，我们将使用同一作者撰写的小说和戏剧的描述来测试阿里巴巴重新排名和稀疏嵌入端点。步骤创建
Ubuntu中 json 打包数据的使用猫猫的小茶馆嵌入式软件开发 ubuntu json linux 服务器网络 mcu
1.JSON的概念和作用为了避免不同平台下的字节对齐、类型大小不统一的问题，json库把数据封装成具有一定格式的字符流数据，进行传输。json格式：把数据与键值一一对应，数据传输双方约定好同一键值，使用接口API根据键值操作json对象（json_object）存储或取得数据。一般使用：数据-->（封装）json对象-->String格式-->...传输。。。-->String格式-->（解析）j
提升物流效率，减少错误：板栗看板为你打造完美物流管理体验项目管理软件
利用板栗看板优化物流管理，可以通过其可视化的任务管理、团队协作和实时跟踪功能，提升物流效率、减少错误并增强团队协作。以下是具体的优化方法和步骤：明确物流管理流程在开始使用板栗看板之前，先梳理企业的物流管理流程，明确各个环节（如订单接收、库存管理、运输调度、配送跟踪等）。将这些环节映射到看板中，形成清晰的工作流。示例看板列：○待处理订单○库存准备中○运输中○已送达○问题处理创建任务卡片将每个物流任务
练手代码之使用Python实现合并PDF文件 Wcowin Python python pdf 前端
如果你有合并PDF的需要，你会怎么办我们无所不能的程序员会选择写一个Python代码来实现（谁会这么无聊？是我），如果真的有PDF操作需要，我推荐你使用PDFExpert这个软件哈~话不多说直接上代码：importosimportPyPDF2fromtkinterimportTkfromtkinter.filedialogimportaskopenfilenamesdefcombine_pdfs(
Excel的两个小问题解决怜渠客实用技巧 excel
（一）因为合并单元格存在，无法使用下拉自动填充公式。解决方案：使用Ctrl+Enter组合键选中目标区域：选中需要应用公式的所有合并单元格区域，这些单元格可能是由2行或3行等合并而成。输入公式：在编辑栏中输入所需的公式，例如，如果要对C列和D列对应合并单元格区域进行乘法运算，在编辑栏输入=C2*D2，此时不要按回车键。填充公式：按下Ctrl+Enter组合键，Excel会将公式同时应用到选中的所有
SQLite Select 语句详解 lsx202406 开发语言
SQLiteSelect语句详解引言SQLite是一款轻量级的数据库管理系统，以其小巧的体积、易于使用和跨平台的特点受到广泛欢迎。在SQLite中，SELECT语句是最基本的数据查询操作，用于从数据库表中检索数据。本文将详细介绍SQLite的SELECT语句，包括其语法、功能以及一些高级用法。1.SELECT语句基础SELECT语句的基本语法如下：SELECTcolumn1,column2,...
Hive 面试题昨夜为你摘星
什么是Hive?Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的意义（最初研发的原因）?降低程序员使用Hadoop的难度，降低学习成本Hive的内部组成模块，作用
C# Socket网络通信【高并发场景】阿波茨的鹅 C#开发 c#网络开发语言
用途在C#中，Socket类是用于在网络上进行低级别通信的核心类。它提供了对TCP、UDP等协议的支持，可以实现服务器和客户端之间的数据传输。Socket提供了比TcpClient、UdpClient等更细粒度的控制，因此通常用于需要更多控制的场景。使用服务器usingSystem;usingSystem.Net;usingSystem.Net.Sockets;usingSystem.Text;c
redisCluster集群相关查询结果详解 ghostp redis redis
redisCluster集群相关查询结果详解进入redis进群查看集群信息CLUSTERINFO命令CLUSTERNODES命令info命令infoCommandstats命令查询服务器相关key的大小单个key查询某些前缀key批量查询进入redis进群在安装redis的机器上，找到安装目录的bin文件夹，使用以下命令来进入集群：[root@localhostbin]#./redis-cli-c
Spring Boot与MyBatis geinvse_seg 面试学习路线阿里巴巴 spring boot mybatis 后端
SpringBoot与MyBatis的配置一、简介SpringBoot是一个用于创建独立的、基于Spring的生产级应用程序的框架，它简化了Spring应用的初始搭建以及开发过程。MyBatis是一款优秀的持久层框架，它支持定制化SQL、存储过程以及高级映射。将SpringBoot和MyBatis结合使用，可以高效地开发数据驱动的应用程序。二、环境准备（一）创建SpringBoot项目可以使用Sp
Maven详解：从入门到进阶 CarlowZJ maven java
前言Maven是一款广泛应用于Java项目的构建和管理工具，通过标准化的项目结构和生命周期管理，极大地简化了项目构建过程。本文将从Maven的基础知识讲起，逐步深入到其核心概念、常用命令、依赖管理、插件使用以及实战应用，帮助读者全面掌握Maven。1.Maven概述1.1为什么使用Maven在传统的Java项目开发中，开发者需要手动下载依赖包、管理包的版本以及解决依赖冲突。Maven的出现解决了这
JS获取时间戳的五种方法暴怒的代码 #JavaScript javascript 开发语言 ecmascript
一、JavasCRIPT时间转时间戳JavaScript获得时间戳的方法有五种，后四种都是通过实例化时间对象newDate()来进一步获取当前的时间戳，JavaScript处理时间主要使用时间对象Date。方法一：Date.now()Date.now()可以获得当前的时间戳：console.log(Date.now())//1642471441587方法二：Date.parse()Date.par
什么是通配符证书 ssl证书数字证书
在网络安全领域，SSL证书是保障数据传输安全的重要工具，而通配符证书是其中一种特殊类型的证书，下面我们就来详细了解一下它。一、通配符证书的定义通配符证书是一种SSL/TLS证书，其特点在于可以保护一个主域名及其所有的子域名。简单来说，当你拥有一个通配符证书时，它能够为诸如主域名下的等任意子域名提供安全加密保护。证书中使用通配符“*”来表示匹配该主域名下的所有子域名，这使得它在管理多个子域名的安全时
软件测试全流程工具链：从用例管理到缺陷跟踪的完整方案程序员
软件测试是软件开发过程中至关重要的环节，它确保软件产品的质量和稳定性。而在软件测试全流程中，从用例管理到缺陷跟踪，跨部门协作工具的选择和使用起着关键作用。本文将为您介绍软件测试全流程工具链中涉及的跨部门协作工具，包括三类实时沟通工具和文档共享系统，并为您提供详细的指南和推荐。实时沟通工具的重要性在软件测试过程中，跨部门的实时沟通是确保项目顺利进行的关键。有效的沟通可以及时解决问题、协调工作、提高效
介绍下不同语言的异常处理机制高冷小伙异常错误 Golang Java PHP Rust
Golang在Go语言中，有两种用于处于异常的机制，分别是error和panic；panicpanic是Go中处理异常情况的机制，用于表示程序遇到了无法恢复的错误，需要终止执行。使用场景程序出现严重的不符合预期的问题，比如数组越界访问、map并发操作；程序的初始化或关键部分出现问题，比如配置文件丢失或数据库连接失败。示例代码packagemainimport("fmt")//会引发panic的函数
Day30 第八章贪心算法 part03 TAK_AGI 贪心算法算法
一.学习文章及资料1005.K次取反后最大化的数组和134.加油站135.分发糖果二.学习内容1.K次取反后最大化的数组和(1)贪心策略：使用了两次贪心局部最优：让绝对值大的负数变为正数，当前数值达到最大全局最优：整个数组和达到最大如果将负数都转变为正数了，K依然大于0，此时的问题是一个有序正整数序列，如何转变K次正负，让数组和达到最大局部最优：只找数值最小的正整数进行反转，当前数值和可以达到最大
redis架构系列——Cluster集群模式详解庄隐 #组件 redis 架构
设计的主要特点和基本原理Redis集群目标高性能和线性可扩展性，最多可达1000个节点。没有代理，使用异步复制，并且不对值执行合并操作。可接受的写入安全程度：系统尝试（尽最大努力）保留来自与大多数主节点连接的客户端的所有写入。通常，有一些小窗口可能会丢失确认的写入。当客户端位于少数分区中时，丢失确认写入的窗口会更大。可用性：Redis集群能够在大多数主节点可访问的分区中继续存在，并且每个主节点至少
web前端常见面试题 JackieDYH 程序猿面试题前端 javascript vue 面试题
html文件开头DOCTYPE作用DOCTYPE（文档类型）是HTML文档的开头，它指定了HTML文档使用的HTML版本及文档类型，告诉浏览器以哪种规范来解析HTML文档。它的作用有以下几个方面：声明HTML版本：DOCTYPE声明可以让浏览器知道使用哪个HTML版本来解析当前文档，从而根据规范来处理文档中的元素和属性。帮助浏览器正确解析文档：DOCTYPE声明可以确保浏览器以标准模式渲染页面，而
自然语言处理系列（5）——情感分析的原理与实战 DoYangTan 自然语言处理人工智能
自然语言处理系列（5）——情感分析的原理与实战情感分析（SentimentAnalysis）是自然语言处理中的一项经典任务，目的是通过分析文本，判断其表达的情感倾向性。情感分析广泛应用于社交媒体监控、市场调研、客户服务等领域，帮助企业和机构快速了解用户的情感态度。在本文中，我们将深入探讨情感分析的基本概念、常用方法，并展示如何使用Python和现代NLP工具实现情感分析任务。1.情感分析的基本概念
C进阶自定义类型一只自律的鸡 C进阶 c语言开发语言
目录前言一结构体二结构体的存储三位段四枚举五联合体总结前言我们之前学习的intchardouble......都是内置类型，但是我们今天所学习的是自定义类型，比如联合体，结构体，枚举一结构体结构体是一些值的集合，这些值统称为成员变量，每个成员都是可以用不同的的基本数据类型结构体的使用场景：结构体的意义在于可以进行封装一个整体的所有变量，这个是十分便捷的，这样就可以不用重复的操作进行重复的定义相同的
C 语言文件操作详解 15Moonlight c语言开发语言
目录1.什么是文件1.1文件名1.2程序文件1.3数据文件2.文件的打开和关闭2.1流和标准流2.1.1流2.1.2标准流2.2文件指针2.3文件的打开和关闭3.文件的顺序读写3.1顺序读写函数3.2使用示例3.2.1fgetc和fputc3.2.2fgets和fputs3.2.3fscanf和fprintf3.2.4fread和fwrite3.3功能对比3.4scanf/fscanf/sscan
SQL笔记#数据更新月吟荧静 SQL笔记 sql 笔记数据库
一、数据的插入(INSERT语句的使用方法)1、什么是INSERT首先通过CREATETABLE语句创建表，但创建的表中没有数据；再通过INSERT语句向表中插入数据。--创建表ProductInsCREATETABLEProductIns(product_idCHAR(4)NOTNULL,product_nameVARCHAR(100)NOTNULL,product_typeVARCHAR(32
SQLite自增列相关内容秦时明月之君临天下 SQLite sqlite jvm 数据库
文章目录相关知识创建表插入数据查看自增列重置自增列注意事项参考文档相关知识SQLite的自增用法和MySQL类似：使用的关键字是AUTOINCREMENT（MySQL用的是AUTO_INCREMENT）。AUTOINCREMENT关键字会增加额外的CPU、内存、磁盘空间和磁盘I/O开销，如果不是严格需要的话，应该避免使用。它通常是不需要的。在SQLite中，具有INTEGERPRIMARYKEY类
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts

使用scrapy框架爬取前程无忧

项目要求

具体步骤

你可能感兴趣的:(使用scrapy框架爬取前程无忧)