Maynor996

【大数据毕设】基于Hadoop的招聘网站可视化的设计与实现(一)

博主介绍：✌全网粉丝6W+,csdn特邀作者、博客专家、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于大数据技术领域和毕业项目实战✌

文末获取项目联系

基于Hadoop的招聘网站可视化的设计与实现

摘要：现在，随着互联网网络的飞速发展，人们获取信息的最重要来源也由报纸、电视转变为了互联网。互联网的广泛应用使网络的数据量呈指数增长，让人们得到了更新、更完整的海量信息的同时，也使得人们在提取自己最想要的信息，过滤掉对自己无用的信息时变得不那么容易，对于应聘者也是如此。由于招聘网站的日益流行，也使得应聘网站成为了应聘者找工作的主要平台。在面对着大量的招聘信息时，就业者不能一目了然的获取自己想要的招聘信息，因此我们需要对海量的招聘数据进行处理，做出一种招聘信息的分析系统。在此基础上本文介绍了基于Hadoop的招聘网站的可视化的设计与分析过程中的技术线路。

本招聘网站的可视化使用Hadoop语言编写，使用基于SpringBoot的Web应用框架，数据库使用MySQL，使用ECharts进行数据可视化部分的显示。对数据的爬取使用的Requests进行爬取数据，本次爬取的招聘网站为拉勾网搜索关键词为Java、Hadoop、大数据的招聘信息，拉勾网具有较强的反爬虫机制，采用Cookie形式进行封装，再进行数据的获取。在MySQL数据库中存储爬取的招聘信息，用Pymysql包连接MySQL数据库将查询的数据使用ECharts框架展示到网页。

通过本系统可以用户可以了解到职位的信息概况、薪资分布情况、企业主要招聘城市情况和企业的规模分布、职位的福利待遇和对应聘者的学历要求，工作经验的要求。

关键词：Hadoop；数据可视化；招聘网站

Design and Implementation of Recruitment Website Crawler and Visualization Based on Hadoop

Abstract: Nowadays, with the rapid development of the Internet, the most important source for people to obtain information has been changed from newspapers and TV to the Internet. The extensive application of the Internet makes the amount of data on the Network grow exponentially, and makes it difficult for people to extract the information they want most and filter out the useless information, even for the applicants. Recruitment websites have become the main platform for job seekers due to their growing popularity. In the face of a large number of recruitment information, the employment can not get the recruitment information they want at a glance, so we need to process the massive recruitment data, to make a recruitment information analysis system. On this basis, this paper introduces the process of visualization design and analysis of the recruitment website based on Hadoop.

The visualization of this recruitment website is written using Hadoop language, using Web application framework based on SpringBoot, using MySQL database, using ECharts for data visualization part of the display. Data was crawled using Requests. The recruitment website that was crawled this time searched for recruitment information with keywords of Java, Hadoop and big data on Pull Net. Pull net has a strong anti-crawler mechanism and uses Cookie to encapsulate and then obtain data. The recruitment information is stored in the MySQL database, and the Pymysql package is used to connect to the MySQL database to display the queried data to the web page using the ECharts framework.

Through this system, users can understand the information profile of the position, salary distribution, the main recruitment city of the enterprise and the size of the enterprise distribution, the position of welfare and the requirements of the applicant’s education, work experience requirements.

Keywords: Hadoop; Data Visualization; Recruitment Website

引言

随着互联网的不断发展，网络招聘也更加普遍。招聘网站能使招聘者随时随地了解到招聘信息，同时提高企业招聘的速度。但是面对着大量的招聘信息，应聘者难以在很快的时间内找到适合自己的岗位，做出适合自己选择，也不能根据这些信息直观的看到应聘者比较关心的薪资状况分布，企业的主要招聘城市，公司福利和所要求的学历与经验等方面。因此，当下需要一个能够把招聘信息整合到一起并将信息可视化显示的系统，这样用户就可以通过该平台来进行查看招聘信息的薪资分布，企业福利，所在城市等，从而使求职者可以更快找到心仪的工作。

目前，基于网络爬虫的招聘职位可视化系统在国内外比较少见，有提供该平台的搜索引擎如百度、谷歌等。但是因为招聘网站的招聘信息不能够随意转载，并不能获取到全面的招聘信息，且做不到可视化的效果。因此基于Hadoop的招聘信息的可视化系统还没有比较成功的案例。

所以，本文通过对拉钩网Java、Hadoop、运营相关岗位的公司名称、招聘城市、岗位名称、薪资待遇等进行爬取，然后将招聘信息存入数据库，使用ECharts可视化图表将招聘信息以柱状图、折线图等形式展现出来，供用户个性化的获取信息。让计算机相关专业应聘者根据自身优势有选择性的应聘岗位。为广大的社会择业人员和初入社会的应届毕业生提供就业和学习的指导方向。

第1章课题概述

由于近些年互联网的飞速发展，我们所生活的世界正在被数据所淹没，人们面对大量的数据需要从大量数据中快速地提取有效的自己需要的信息。对于求职者来说当查看招聘信息时也是这样，面对招聘网站展示的大量的职位信息，应聘者难以及时选出自己最想要的职位信息，又或者筛选出信息后不能直观地看到招聘所有信息的特征、规律、变化的趋势或者数据之间潜在联系。我们可以借助计算机技术来进行自动获取筛选分析自己想要的职位信息。本文对于基于Hadoop的招聘网站的可视化的课题研究就显得尤为重要了。

1.1 课题内容

该课题研究的是一种基于Hadoop的招聘网站的可视化的系统。在开发过程中利用Hadoop对招聘信息进行收集和分析。首先，在拉钩网站上爬取招聘信息，然后存入数据库，连接数据库将数据库中的招聘信息从地区、行业、专业、公司规模、要求经验、薪资待遇等维度进行数据分析。最后，利用ECharts可视化技术，将有效的数据展示给用户。

1.2 课题背景

近年来随着我国计算机水平的发展，计算机行业的热门，高校也都相继开设了相关课程，越来越多的计算机人才涌入社会，但市场中的一众岗位让人眼花缭乱，同时众多拥有丰富从业经验的从业者，名牌大学与普通院校毕业生共同竞争，致使很多社会中的求职者面临着就业的困扰，而如今的招聘网站信息多，想要获取有效的信息需要的时间太长。为了解决社会二次择业人员和高校应届毕业生获取符合自己的并符合自己意向的招聘岗位信息，利用Hadoop对这些招聘信息进行收集和分析势在必行。所以需要一种能够具有分析岗位优势，薪资分布等的系统，可供求职者利用自身优势，分析岗位信息，从而尽快找到心仪的岗位。

通过综合运用互联网数据爬虫技术和图表可视化库，对招聘网站的招聘信息进行爬取，并进行了相关统计分析，从地区、行业、薪酬、经验、岗位素质等方面进行综合分析。从而帮助计算机行业想从事Java、Hadoop、运营相关岗位的就业人员了解相关领域的岗位需求和薪资情况、企业招聘城市、招聘企业的规模和学历与工作经验要求等。从而为就业人员的快速选择岗位，在何处选择岗位提供参考，对未来的生活和工作、学习规划等明确方向。

1.3 课题意义

对于即将毕业找工作的应届生和社会择业人员来说，上网快速找到合适的工作，无疑是急需的。而如今的招聘网站信息多，面对着网上形形色色的招聘网站和参差不齐的招聘信息，想要获取有效的信息需要的时间太长，这给就业者根据自身的情况选择自己适合的职业带来了困难。针对以上不足，有必要通过爬虫技术，帮助求职者在杂乱无序的数据中寻找有用的数据，科学分析，缩短求职者找工作的时间成本，帮助求职者快速择业。

本系统爬取了拉勾网站的计算机语言相关多种招聘信息，同学们可以通过选择本身应对的学历和想要的招聘岗位来选择查看相应的招聘信息。同时将这些信息可视化，可以方便同学们快速了解公司需求情况，这些可视化的部分包括薪资情况，企业情况，公司福利情况和学历情况。

1.4 运行环境

开发环境：IDEA、Nacicat、Google Chrome

关键技术：Java+JavaScript+SpringBoot+MyBatis+SQL

后台数据库：MySQL

开发环境运行平台：Windows 7/Windows10

1.5 相关技术

本项目是使用Hadoop语言开发编写。使用request包进行对招聘网站的数据爬取；用Pysql连接数据库，获取数据；使用Flask框架将数据返回给前端，用ECharts对数据进行可视化展示，使用Jieba分词将语句分开。

1.5.1 Python语言

Python是由其他多种语言发展而来的脚本语言。Python具有很强的可读性，比其他语言更容易上手，并跳过了编译的过程，不需要使用编译器。Python语言是交互式的，我们可以直接运行代码。Python支持面向对象的风格或者将代码封装在对象的编程技术，是一种面向对象的语言。Python语言非常适合新手学习，因此作为计算机学生，在步入大学后，专业课程学习的第一门课——以Python为主，可见Python对于初级程序员来说是一种伟大的分布式框架。

爬虫一般来说就是进行网络资源抓取，因为Python脚本特性，Python容易配置，对字符处理十分灵活，Python有着丰富网络抓取模板，让两者可以很好的链接在一起。对比其他静态编程语言来说，Python抓取网页文档接口更加简洁。抓住网页有时候需要模拟浏览器的行为，而Python具有很多第三方包。

1.5.2 Hadoop框架

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（ Distributed File System），其中一个组件是HDFS（Hadoop Distributed File System）。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。HDFS有着高容错性（fault-tolerant）的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求（requirements）这样可以实现流的形式访问（streaming access）文件系统中的数据。

此次运用hadoop的HDFS可以为海量的数据提供了存储的功能。

1.5.3 ECharts图表库

ECharts是一款使用JavaScript实现的开源的数据可视化图表库，可以提供直观的，可交互的数据可视化图表。本招聘网站的可视化系统使用ECharts做出薪资待遇的柱状图和饼图、折线图的分布展示，公司分布所在城市的饼状图展示，公司规模状况的柱状图和折线图的展示，对学历和工作经验要求的条状图和矩形树图的展示。ECharts通常数据设置在SetOption中，如果我们需要异步加载数据，可以配合 JQuery等工具，在异步获取数据后通过SetOption填入数据和配置项就行。

1.6 本章小结

本章主要介绍招聘信息的可视化在设计时所使用的软件Pycharm和Mysql以及平台背景，和介绍本次毕业设计所涉及到的一些技术和技术的相关内容并且阐述了课题意义，讨论了课题背景。为后面的招聘网站的爬虫与可视化系统的设计部分以及系统实现部分打下了坚实的理论基础。

第2章系统设计

本招聘网站的可视化系统使用的是Hadoop语言编写，采用基于Flask的轻量级Web应用框架，招聘信息的存储数据库采用MySQL设计，使用ECharts进行招聘信息的数据可视化显示。

2.1 设计思想

首先使用Request爬取拉勾网网页，分析拉钩网网页，将内容进行解析后将招聘信息写入数据库，当我们需要查询信息时，需要连接数据库，将信息查询后读取并写入字典，使用ECharts框架，将数据传输到前端网页，以饼状图，柱状图，折线图等形式展示，让用户直观的看到招聘信息的地域，薪资，待遇等分布，让用户直观的获取到最关心的招聘信息。

2.2 需求分析

随着互联网时代的不断发展，各行各业的数据都呈现极为夸张的增长态势，面对毕业找工作，网上有形形色色的招聘网站，招聘信息也参差不齐，这给毕业生和二次择业人员如何根据自身情况选择自己适合的职业带来了困难。

本人想设计一个网站，爬取招聘网站的有关Java、Hadoop、运营这三种语言相关职位的信息，然后将这些信息综合，方便同学们可以通过选择学历和想要的招聘职位来选择查看相应招聘信息。同时将这些信息可视化，方便同学们快速了解公司需求情况，可视化的部分包括薪资情况，企业情况，公司福利情况和学历情况。此系统的主要功能需求如下：

1．数据概况

爬取的所有有关Java、Hadoop、运营语言的岗位招聘数据都可以看到，也可以通过学历和职位来选择查看满足条件的招聘信息，可以选择学历要求、输入职位来搜索更加精准的职位。

2．可视化

薪资情况：通过选择学历来查看各种岗位对于不同学历的薪资可视化情况，以柱状图、饼图的形式来展示各种职位的薪资分布、所占比例，提供给用户在找工作是作为参考。

企业情况：通过选择职位可以来查看这个职位的主要招聘城市，还可以大概查看一下这个职位的公司规模情况，以及每个职位在各个主要城市所占的比例饼图。

福利情况：通过数据可视化速览公司福利，基于词云进行构造，可以清晰看出所有公司给出的最核心的福利待遇。

学历情况：可以查看各个职位对学历以及工作经验的要求，以条形图、矩形树的形式进行可视化展示。

2.3 系统可行性分析

对于本系统可行性的分析主要从与系统开发和实际生活息息相关的技术、经济、社会三方面进行分析。

1．技术可行性

对于技术可行性首先要想到如何运用当前的技术手段可以成功地完成系统开发设计的工作，还要考虑设施以及配置能否契合开发的需要等。本次要开发的招聘数据采集分析网站系统用的是Hadoop开发语言，容易编写,可以直接在服务器上执行端口。并且使用Pycharm可以快速创建项目。在软件方面：由于使用B/S模型的相对成熟的开发软件,所以软件开发平台的可行性。并且ECharts图表库也已非常成熟且完善，所以其技术可行性非常之高。

2．经济可行性

Hadoop是一款开源免费的脚本语言，Pycharm开发环境也有免费的社区版，而且ECharts也是一款优秀的开源的图表。因此开发成本几乎可以忽略不计，因此经济可行性非常高。

3．社会可行性

本系统的开发符合国家法律进行，也不会触犯到任何人，任何集体的法律权益。只要开发过程中遵纪守法就完全符合法律要求，并且使用计算机的用户都会具有一定的计算机基础，并且本系统操作方法简单，分析的均为计算机相关方面的岗位信息，用户群体也都是计算机方面的人才，所以用户绝对能够熟练使用该系统，并且普通会使用计算机的人群也能使用。因此社会可行性很高。

2.4 功能设计

本项目要对系统功能结构进行设计、系统功能模块爬取网站信息及存入数据库和数据可视化设计、画出系统完整的流程图。

2.4.1系统功能结构

该系统实现了数据的概览，薪资情况，企业情况，福利情况，学历情况及薪资预测的可视化。系统功能层次图，如图2-1所示。

图2-1 系统功能层次图

2.4.2系统功能模块设计

本程序使用Hadoop语言编写，使用的是Flask轻量级Web应用框架，数据库采用MySQL设计，使用百度开发的开源的ECharts图表库进行数据的可视化显示。招聘信息数据的爬取使用Requests进行，爬取的招聘网站为拉勾网，拉勾网有较强的反爬机制，所以采用Cookie的形式进行封装，再进行数据获取。获取的招聘信息数据存储到MySQL数据库，然后使用Pymysql包连接MySQL将查询的数据展示到页面。系统提供了如下功能：

1．数据爬取功能

程序模拟浏览器访问招聘网站信息获取响应Json，提取其中招聘岗位的所有数据，并将这些招聘数据进行存储。系统爬取流程图，如图2-2所示。

图2-2 招聘信息爬取流程图

2．数据展示概况

可以通过学历和职位来选择查看满足条件的招聘信息，可以选择学历要求、输入职位来搜索更加精准的职位。

3．数据可视化

通过连接数据处理获取职位信息后，将职位信息传输到ECharts前端框架里。

在前端网站框架里放入连接数据后的ECharts将各种相关职位的薪资分布情况以柱状图、饼图的形式来展示。

将相关职位的主要招聘城市以所占的比例饼图形式展现；将公司企业的规模分布以折线图，柱状图的形式展示。

通过数据可视化，基于词云进行构造，生成公司福利词云和职位福利词云，展示所有公司给出的最核心的福利待遇。

可视化展现各种岗位对于不同学历和不同经验的薪资情况，以柱状图、矩形树的形式进行可视化展示。

2.4.3系统流程图

用户登入系统后，通过连接数据库，对招聘信息进行获取，将信息传输到ECharts图表里对三种语言相关岗位招聘信息进行可视化的展示。可视化展示流程图，如图2-3所示。

图2-3 可视化展示流程图

2.5 数据库设计

数据库存储爬取的所有招聘信息数据。在MySQL里创建招聘信息表，存储爬取的招聘公司的全称，招聘职位名称，职位福利，薪资，学历要求，所在城市等信息。

当可视化界面展示数据时，查询数据中所有的相关招聘信息。招聘信息数据表，如表2-1所示。

表2-1 招聘信息数据表

字段名	数据类型	备注
companyFullName	Text	公司全称
companyShortName	Text	公司简称
companySize	Text	公司规模
financeStage	Text	融资阶段
district	Text	区域
positionName	Text	职位名称
workYear	Text	工作经验
education	Text	学历
salary	Text	薪资
positionAdvantage	Text	职位福利
industryField	Text	经营范围
firstType	Text	职位类型
companyLabelList	Text	公司福利
secondType	Text	第二职位
city	Text	城市

2.6 本章小结

本章对基于Hadoop的招聘网站的可视化系统进行了设计思想的阐述，表述了招聘网站可视化的需求分析。对系统可行性进行分析，包括技术、经济、社会。以及详细的功能设计，包括系统功能结构设计、系统功能模块爬取网站信息及存入数据库和数据可视化的设计、系统完整流程图。最后介绍了数据库创建的表及其属性。为接下来的招聘网站的可视化的详细实现打下基础。

第3章系统实现

本章在前文对于本招聘信息可视化系统的需求分析以及详细的爬取流程分析和数据可视化分析的基础上对数据可视化系统的实现做出详细的介绍。对岗位信息的爬取的技术讲解和部分代码、数据处理、数据库功能实现以及ECharts可视化进行详细介绍。

3.1 岗位信息爬取模块设计

通过浏览器搜索拉勾网，在拉勾网站点击鼠标右键的检查功能查看招聘信息的源代码分析网页，拉勾网的职位信息是通过Ajax动态加载的，由于拉勾网反爬机制，我们并不能通过爬虫在爬取的源代码里获取职位的相关信息，所以我们在检查功能的Network里点击XHR查看标头。在爬取数据的过程中，从指定的url中通过Requests请求携带标头里的请求标头和表单数据模拟浏览器访问网页获取网页中的JSON信息。

对招聘信息的获取使用Requests进行爬取拉勾网的招聘岗位信息，由于拉勾网的反爬机制，所以采用Cookie的形式进行封装，再进行数据获取。数据爬取的部分过程,代码如下：

#创建session会话

s = requests.Session()

#模拟浏览器发送请求
s.get(url=url1, headers=headers, timeout=3)

#获取cookie
cookie = s.cookies

#发送post请求
res = requests.post(url, headers=headers, data=data, cookies=cookie, timeout=3)

#检查请求是否成功
res.raise_for_status()

#设置可接收的编码为utf-8
res.encoding = ‘utf-8’

#请求响应结果
page_data = res.json()

访问拉钩网站，登录需要Cookie，将Cookie保存在Session里。创建Session连接，获取服务器的响应结果。获取响应，如图3-1所示。

图3-1 获取响应

通过分析网页源代码可以看到浏览器发送的请求得到的响应，从JSON里可以读取总职位数TotalCount，代码如下：

first_page = get_json(url, 1)
total_page_count = first_page[‘content’][‘positionResult’][‘totalCount’]#获取json里的总相关职位数
num = get_page_num(total_page_count)#算出爬取的页数

通过从浏览器上登录拉钩网站可以看到拉钩网的招聘信息每页显示15个职位，最多可以显示30页，所以最多能爬取30页信息。爬取总页数的代码如下：

def get_page_num(count)*
** page_num = math.ceil(count / 15)#总职位数除以每页的招聘岗位15个
if page_num > 30:
return 30#如果页码超过30只返回三十页码职位
else:
return page_num#如果页码不超过30页，那么返回爬取的总页码数

将页数循环访问并获取响应JSON里职位相关的内容，最后将职位信息汇总到总列表total_info中，因为拉钩网站的反爬机制，所以每次爬取一页数据后都需要都需要暂停一段时间后再继续爬去，获取职位信息代码如下：

total_info = []
time.sleep(10)
for num in range(1, num + 1):
# 获取每一页的职位相关的信息
page_data = get_json(url, num) # 获取响应json
jobs_list = page_data[‘content’][‘positionResult’][‘result’] # 获取每页的所有相关的职位信息**
** page_info = get_page_info(jobs_list)#将每页的职位信息写入列表

for item in page_info:
print(item)
total_info += page_info print(‘已经爬取到第{}页，职位总数为{}’.format(num, len(total_info)))
time.sleep(20)

将网站每页的岗位信息从响应的Json里获取的职位信息显示出来，职位信息列表，如图3-2所示。

图3-2职位信息列表

爬取所有数据，看看有没有之前已存入的信息，如果没有再写入，这样可以筛选之前爬取过的重复的岗位招聘信息，或者不同语言关键词同时能搜索到的相同岗位信息，更新数据表代码如下：

def unique(old_list):
newList = []
for x in old_list:
if x not in newList :
newList.append(x)
return newList

3.2 数据库的连接及使用

爬取的所有职位信息都需要存入数据库，每次对数据化进行可视化展示时连接并查询数据库里相关的职位信息。

3.2.1连接数据库

在MySQL中用创建数据库表，将爬取后的获取的数据保存到数据库。每次可视化的展示都需要连接数据库获取相关的信息，获取列表里的所有相关信息后就要关闭连接，代码如下：

conn = pymysql.connect(host=‘localhost’, user=‘root’, password=‘123456’, port=3366, db=‘lagou’,charset=‘utf8mb4’)#建立数据库连接

cursor = conn.cursor()#中间是查询所需要的各种招聘信息

count = cursor.fetchall()#取消连接

3.2.2 数据概览数据库查询

在可视化过程中，我们需要载入数据，而这些数据保存在MySQL数据库里，所以就要用Pymysql包连接MySQL数据库，并在MySQL数据库中查询相关信息列遍历并写入列表，然后关闭连接。

数据概况的内容是从数据库中查询所有职位信息，遍历数据表信息并存放至列表代码如下：

cursor.execute(“select count() from demo”);
count = cursor.fetchall()
cursor = conn.cursor(cursor=pymysql.cursors.DictCursor)

#返回字典(dict)表示的记录，就要cursorclass参数设为MySQLdb.cursors.DictCursor类。
cursor.execute(“select from demo limit “+str(page)+”,”+str(limit));
data_dict = []
result = cursor.fetchall()
for field in result:
data_dict.append(field)

3.2.3学历情况数据库查询

学历情况的部分分别展示的是招聘企业对学历的要求还有对工作经验的要求的数据。学历的要求是从数据库中查询所有的学历类别并返回所有结果，循环这些学历，每次都查询并返回所有招聘职位需求学历的结果，对工作要求的数据也是这样的方法进行查询。代码如下：

cursor.execute(“SELECT DISTINCT(education) from demo”);
result = cursor.fetchall()
education = []
education_data = []

color_list = [‘#459AF0’,‘#38C3B0’,‘#86CA5A’,‘#BFD44F’]
for field in result:
education.append(field[0])

for i in range(len(education)):
cursor.execute(“SELECT count() from demo where education = '” + education[i] + “'”);
count = cursor.fetchall()
education_data.append({‘value’: count[0][0],‘itemStyle’: {‘color’: color_list[i]}})

学历类型与每个学历类型的招聘岗位数，以及工作经验类型与招聘岗位数，学历情况数据，如图3-3所示。

图3-3 学历情况

3.2.4企业情况数据库查询

企业情况展示了主要招聘城市和企业规模两种数据。主要招聘城市是在数据库中查询招聘的城市City列，并叠加每个招聘城市所招聘的岗位数，企业所在城市的分布，由于爬取的是全国的招聘数据，所以招聘城市过多全部在饼图中展示的话会看不清内容，所以，将饼状图只显示前7个城市的招聘比例和招聘企业的个数，企业规模的数据是循环公司规模查询数据库中所有公司规模将属于哪种公司规模的公司加入列表。部分代码如下：

for i in city:

**#**查询各城市招聘人数
cursor.execute(“SELECT count() from demo where city = '” + i + “'”);

count = cursor.fetchall()

#‘value’:招聘人数, ‘name’: 城市名
dict = {‘value’: count[0][0], ‘name’: i}
city_result.append(dict)

for i in city[7:]:

#设置七名以后的城市不显示
selected[i] = False

以下是企业各招聘城市，及招聘城市招聘岗位数，各招聘公司规模的公司数，执行数据库结果，企业情况数据，如图3-4所示。

图3-4 薪资情况数据

3.2.5薪资情况数据库查询

薪资情况的部分分别查询数据库的工作薪资Salary是属于10k以下的Java岗位，Hadoop岗位还是运营岗位，并遍历数据库。然后依次分别查询数据库其他薪资范畴10k到20k的、20k到30k的、30k到40k的、40k以上的三种语言相关的岗位信息，主要代码如下：

for i in positionName:

#此处查询的就是20k到30k薪资的分别有关Java、Hadoop、运营的岗位信息
cursor.execute(“SELECT COUNT() FROM demo WHERE SUBSTR(salary,1,2) BETWEEN 20 AND 30 and positionName like '%”+i+“%';”);

#接收全部数据库结果信息
count = cursor.fetchall()

#依次加入列表
temp_list += count[0]

3.3 数据可视化设计

ECharts显示图表柱状图、折线图，将从数据库中提取的数据传输到ECharts框架里，在前端界面展示出来，ECharts是JavaStript语言，可以将后端的数据传输至ECharts框架里，以图表形式展现出来。

3.3.1福利词云设计

福利待遇部分是将查询的数据库的福利内容列所有福利待遇加入列表，使用Jieba分词设置停止词，并提取主题词，返回权重最大的前100个词。然后以词云形式展现在前端可视化界面。代码如下：

positionAdvantage = []

#设置停止词
jieba.analyse.set_stop_words(‘./stopwords.txt’) **
**tags = jieba.analyse.extract_tags(content, topK=100, withWeight=True)

#提取主题词content：要分词的语句

# topk: 返回的是权重最大的前100个词

#withWeight：True返回关键词的权重值
for v, n in tags:
mydict = {}
mydict[“name”] = v
mydict[“value”] = str(int(n * 10000))
positionAdvantage.append(mydict)

查询的职位福利情况和公司福利情况的数据从数据库得出结果，福利情况数据，如图3-5所示。

图3-5 福利情况数据

公司福利与职位福利可以通过ECharts在前端网页可视化展示出来。公司福利与职位福利的词云图，如图3-6所示。

图3-6 词云图

3.3.2柱状图和折线图

柱状图通过ECharts显示，后端的数据以Json形式传输至ECharts图表里可以动态切换柱状图与折线图，并且鼠标点到相应位置会显示柱状图或者条形图的数据信息。

柱状图或条形图可以切换为数据视图，保存图片，实现柱状图与条形图之间的动态切换，部分代码如下：

dataView: { //数据视图
show: true
},
saveAsImage: { //保存图片
show: true

//动态类型切换，可切换柱状图与饼图
magicType: { **
** type: [‘bar’, ‘line’]

鼠标触碰可以触发显示相关的招聘数据，下面是将Json数据传输至ECharts里的公司规模和公司规模结果的代码，写出数值轴类型和类目轴类型，柱状图或是折线图类型，其他学历情况和薪资待遇的柱状图和折线图的数据展示也是如此。代码如下：

xAxis: {

#类目轴
type: ‘category’,

#此处放从数据库查询出来的公司规模大小的内容在x轴下方展示
data: res.companySize
},
yAxis: {

#数值轴
type: ‘value’
},
series: [{

#此处是公司规模大小的结果
data: res.companySizeResult,
type: ‘line’
}]

柱状图和折线图之间的相互转换可以动态实现，例如薪资待遇情况和公司规模的柱状图也可以通过用户点击进行动态切换成折线图或者数据，公司规模情况的柱状图，如图3-7所示。

图3-7 柱状图

3.3.3矩形树图

将数据传输至ECharts里后，将数据以树图的形式展示出来，矩形树图的类型为Treemap，设置树图属性，以及设置树图中的文本样式。代码如下：

data = res.workYear_data

for(var n in data) {
data[n][‘name’] = data[n][‘name’] + ’ ’ + data[n][‘value’]
}

对工作经验的要求统计分布用ECharts以矩形树图的形式展示在前端界面。关于工作经验的矩形树图，如图3-8所示。

图3-8 矩形树图

3.3.4饼图

企业所在城市的分布，由于爬取的是全国的招聘数据，所以招聘城市过多全部展示不够美观，所以饼状图只显示前7个城市的招聘比例和招聘企业的个数，如果想要其他招聘城市的招聘信息只需要点击城市即可在饼状图中显示，部分代码如下：

legend: {

orient: ‘vertical’,
left: ‘left’,
data: res.city,

#只显示前七个城市
selected: res.selected
},

用ECharts可视化显示岗位的主要招聘城市前七个城市及其岗位数的饼状图分布并，点击城市可以在饼图中添加此城市的招聘岗位数及占比。饼状图，如图3-9所示。

图3-9 饼状图

3.4可视化展示

通过对招聘数据的可视化展示，可以让用户直观看到招聘信息的薪资情况，招聘城市，岗位福利等情况信息，从而分析自己想要去的城市和想工作的岗位，以及工作岗位的要求，对自己的职业规划指明方向。

3.4.1数据概况

通过爬取的Java、Hadoop、运营三种相关信息的招聘岗位信息，可以查看数据库里的全部职位列表，也可以输入学历与关键字根据用户需求个性化显示招聘信息，用户也可以选择性查看岗位的部分信息，搜索查询招聘信息，如图3-10所示。

图3-10 搜索查询招聘信息

3.4.2薪资情况

爬取的全国的Java、Hadoop、运营语言的招聘岗位统计后通过使用ECharts图表展示的柱状图和饼状图可以看出这三种类型的薪资主要的分布在10k到20k之间，不同语言的岗位薪资分布差别不大，计算机相关岗位还是有很好的前景的。薪资情况，如图3-11所示。

图3-11 薪资状况

薪资状况的柱状图可以切换为折线图，鼠标触发事件会显示薪资分布统计所招聘的人数，薪资状况的折线图与数据视图，如图3-12所示。

图3-12 薪资状况折线图与数据视图

3.4.3企业情况

根据招聘岗位所在城市信息可以看到北京、上海、深圳、广州这些城市招聘的岗位较多，招聘公司的规模分布也很平均，但50-150人规模的人数占比最多，也可以选择其他城市查看招聘岗位个数，根据自己的意向城市和各城市招聘比例个性化选择岗位，企业分布饼图、公司规模柱状图，如图3-13所示。

图3-13 企业分布饼图、公司规模柱状图

3.4.4福利情况

根据福利的词云分析可以看到各大公司对于职位福利和公司福利方面着重将五险一金、带薪休假、绩效奖金等来吸引人才，福利情况，词云图可以直观看到大部分岗位及公司的待遇。福利情况，如图3-14所示。

图3-14 福利情况

3.4.5学历情况

根据学历情况的分析可以看到招本科及以上学历的岗位最多，远高于其他学历招聘，对于工作经验要求的矩形树图可以看出要求其工作经验一般为3到5年，其次工作经验要求1到3年，但是经验要求一年以下工作经验的人数最少。学历情况及工作经验可视化，如图3-15所示。

图3-15 学历情况及工作经验可视化

3.5 本章小结

本章主要阐述了本招聘网站的可视化系统的设计思想与开发的思路。展示了对拉钩网站网页的分析以及模拟浏览器向服务器端的访问来进行对招聘数据的爬取，以及对爬取数据的处理和使用ECharts进行的可视化展示，是对招聘数据可视化系统的一些具体功能的描述。同时对招聘信息的可视化进行展示。

第4章功能测试及成果展示

任何一个项目完成之后都必须要对该项目的测试，以检查项目是否有缺陷，设计多个测试用例，检查用户在使用阶段是否会有此类问题。也可以在此过程中做出完善，本章主要是对招聘数据可视化的交互功能是否满足要求进行测试。

4.1 测试内容

招聘数据的可视化主要是招聘信息的展示和交互，所以我们主要测试用户的操作与系统的交互是否正常。所以选择开发人员手工执行测试用例的方式进行。以下是对招聘数据可视化进行的详细说明。招聘数据可视化测试用例，如表4-1所示。

表4-1 招聘数据可视化测试用例

测试名称：招聘数据可视化测试测试目的：看用户点击相应操作是否正确显示可视化数据，柱状图与折线图是否能正常切换，数据概览输入相关信息是否能显示相关数据。前置测试：成功连接数据库，并可视化展示招聘信息。主要参与者：用户
功能模块	测试目的	测试步骤	预期结果
数据概览	输入学历和相关职位关键词能否显示正确信息	输入学历与关键词查询	出现了相关信息，没有其他信息
薪资情况	柱状图与折线图是否能动态切换	点击切换折线图	折线图出现
企业情况	点击其他未显示的城市是否能出现城市招聘岗位数信息	点击其中某一城市	饼图中添加了该城市信息
福利情况	鼠标触碰到某一高频词是否能显示该词出现的次数	鼠标触碰该词	出现该词的出现次数
学历情况	鼠标触碰某一学历的柱状图，是否能出现招聘人数	鼠标触碰该柱状图	显示招聘人数

4.2 测试结果

本项目的所有功能经过测试后已经完全满足要求。本项目满足了招聘数据列表的展示，薪资待遇的分布展示，公司分布情况的饼状图展示，公司规模大小的柱状图和折线图的展示分布，公司福利情况和职位福利的词云展示，对学历和工作经验要求的条状图和矩形树图的展示。

4.3本章小结

本章通过使用测试案例数据对招聘数据的可视化分析进行测试，测试过程中发现了一些问题，比如饼状图没有设计只显示七个城市导致饼状图不好看。本次完善了功能，最后完成测试，但我们还需要加深学习，让项目变得更加实用。

结论

本次论文完成了对于基于Hadoop的招聘网站的可视化，系统基本上达到了任务要求，需要参考Java、Hadoop、运营语言的相关岗位招聘信息的计算机应聘人员可以根据自身需求，查看薪资待遇的水平分布、企业的主要招聘城市和企业规模、企业主要吸引人才发放的福利、企业对应聘人员的学历及工作经验的要求，应聘者可以根据这些信息来选择自己发展空间更大的城市，看薪资是否满足自身需求，根据公司招聘要求提升自己的水平，为以后的学习找到更好的工作指明方向。临近毕业对于急于找工作步入社会的计算机专业的我们来说，去哪个城市工作，工作待遇一般怎样，工作的薪资一般为多少，公司对应聘者的经验学历要求一般都是什么，这一切我们都是迷茫的，因此，我设计的招聘信息的可视化，也可以为我们这样的应聘者分析方向。

虽然在这次毕业设计已经完成。但系统也存在着一些局限，例如，本系统无法满足各个行业的人才来使用本数据可视化系统。需要不断的提升软件设计技术和方法，满足用户需求，所以在接下来的开发中丰富和完善系统都是很有必要的。

参考文献

[1] 王芳.基于Hadoop的招聘网站信息爬取与数据分析[J].信息技术与网络安全，2019.08

[2] 贾柠瑜.基于Hadoop爬虫的岗位数据分析–以拉勾网为例[J].信息技术与信息化，2019

[3] 杨众.基于Hadoop语言的招聘信息可视化分析[J].计算机与网络，2019

[4] 王慧玲.招聘网站数据可视化分析平台的设计与实现.曲阜师范大学，2020.06

[5] (美)Miguel Grinberg. Flask Web开发：基于Hadoop的Web应用开发实战[M].人民邮电出版社，2015.01

[6] (美)Wes McKinney. 利用Hadoop进行数据分析[M].机械工业出版社，2014.01

[7] 郭丽蓉.大数据环境下的网络爬虫设计[J].山西电子技术，2018(2)

[8] 王涛.基于Hadoop的软件技术人才招聘信息分析与实现——以前程无忧为例[J].福建电脑，2018

[9] 崔蓬.ECharts在数据可视化中的应用[J].软件工程，2019

[10] 裴丹丹.基于ECharts的数据可视化实现[D].北京邮电大学，2018

[11] 项博良，唐淳淳，钱前，曹健东.基于网络爬虫和数据分析[J].智能计算机与应用，2020.01

[12] 余本国.Hadoop数据分析基础[M].清华大学出版社，2018

[13] 董付国.Hadoop数据分析、挖掘与可视化[M].南京邮电大学，2018.05

[14] 孙波翔/李斌译.Hadoop核心编程(第3版)[M].人民邮电出版社，2016

[15] 袁国忠.Hadoop编程从入门到实践[M].人民邮电出版社，2016

[16] 关鑫洁, 黄思奇, 位磊. 基于Hadoop的求职信息采集分析系统设计与实现[J].计算机时代, 2020.

[17] 边倩, 王振铎, 库赵云. 基于Hadoop的招聘岗位数据分析系统的设计与实现[J].微型电脑应用, 2020.

[18] 常逢佳, 李宗花, 文静,等. 基于Hadoop的招聘数据爬虫设计与实现[J].软件导刊, 2019.

[19] 王瑞梅. 网络招聘数据可视化分析系统的设计与实现[D].河北师范大学.

[20] 刘娟, 管希东. 基于Hadoop爬虫的职位信息数据分析和可视化系统实现[J].软件工程与应用, 2020.

[21] 谭云鹤. 基于招聘网站数据处理类岗位的人才需求分析.天津财经大学.

[22] 欧阳元东. 基于Hadoop的网站数据爬取与分析的技术实现策略[J].电脑知识与技术, 2020.

[23] 刘晓知. 基于Hadoop的招聘网站信息爬取与数据分析[J].电子测试, 2020.

[24] 于韬, 李伟, 代丽伟. 基于Hadoop的新浪新闻爬虫系统的设计与实现[J].电子技术与软件工程, 2018.

[25] 谭昕章,杜晖. 电商运营岗位的社会需求及岗位素质分析——基于智联招聘网站数据[J]. 现代商贸工业, 2021.

[26] 杨国军. 基于Hadoop的数据爬虫的设计与实现[J].数字技术与应用, 2020.

你可能感兴趣的:(#,大数据课设＆毕设,大数据,毕业设计,java)

Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
JavaScript `Map` 和 `WeakMap`详细解释跳房子的前端 JavaScript 原生方法 javascript 前端开发语言
在JavaScript中，Map和WeakMap都是用于存储键值对的数据结构，但它们有一些关键的不同之处。MapMap是一种可以存储任意类型的键值对的集合。它保持了键值对的插入顺序，并且可以通过键快速查找对应的值。Map提供了一些非常有用的方法和属性来操作这些数据对：set(key,value):将一个键值对添加到Map中。如果键已经存在，则更新其对应的值。get(key):获取指定键的值。如果键
计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署） java毕设程序源码王哥 php 课程设计 vue.js
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情