基于python爬虫数据分析论文_基于Python的招聘网站信息爬取与数据分析

人工智能

Artificial

Intelligence

«

信息技术与网络安全

»

2019

年第

38

卷第

基于

Python

的招聘网站信息爬取与数据分析

(

太原科技大学

计算机科学与技术学院

山西

太原

030024)

:

基于

Python

的招聘网站信息爬取与数据分析是

Python

爬虫的应用及

Python

数据分析的应用实战

Python

虫的设计和数据分析的流程进行了详细阐述

并对使用到的技术进行了详细解释以及给出最终分析结果图示

首先使

Python

中的

Scrapy

框架定向抓取招聘信息

通过定向

URL

爬取招聘信息并存入数据库

然后对数据进行处理和分析

最终根据不同地区

学历要求等条件对某一职业的薪资进行分析

并将分析结果进行可视化展现

关键词

:

爬虫

Scrapy

可视化

中图分类号

:

TP391.

文献标识码

:

DOI:

10.

19358

/

j.

issn.

2096 ̄

5133.

2019.

08.

009

引用格式

:

王芳

.

基于

Python

的招聘网站信息爬取与数据分析

[J].

信息技术与网络安全

ꎬ2019ꎬ38(8):42 ̄46ꎬ57.

Information

crawling

and

data

analysis

of

recruiting

website

based

on

Python

Wang

Fang

(School

of

Computer

Science

and

TechnologyꎬTaiyuan

University

of

Science

and

TechnologyꎬTaiyuan

030024ꎬChina)

Abstract

:Python ̄based

recruitment

website

information

crawling

and

data

analysis

is

the

application

of

Python

crawler

and

Python

data

analysis.

In

this

paperꎬPython

crawler

design

and

data

analysis

process

are

described

in

detailꎬand

the

technology

used

is

explained

in

detail

and

the

final

analysis

results

are

shown.

Firstlyꎬwe

use

Scrapy

framework

in

Python

to

grab

recruitment

informationꎬcrawl

recruit ̄

ment

information

through

directional

URL

and

store

it

in

the

databaseꎬthen

process

and

analyze

the

dataꎬand

finally

analyze

the

salary

of

certain

occupation

according

to

different

regionsꎬeducational

requirements

and

other

conditionsꎬand

visualize

the

analysis

data.

Key

words

:

web

crawlerꎻScrapyꎻvisualization

引言

随着网络数据的爆炸式增长

获取有用的数据

显得至关重要

网络爬虫技术则可以有效地获取关

键数据信息

该技术是一种按照设计者所设定的

规则

模拟成为浏览器

自动驱动抓取网页信息的

程序或者脚本

网络爬虫的优点在于

它可以将整

个网页完整爬取下来

而且具有高度的自定义性

之后

设计者就可以根据自己想要的数据来改善爬

使其删掉无用的信息而保存需要的数据

本文

Python

爬虫的设计和数据分析的流程进行详细

的阐述

然后对数据进行处理和分析

最终根据不

同地区

学历要求等条件对某一职业的薪资进行分

并将分析的数据可视化展现出来

[1 ̄2]

相关背景介绍

1.

爬虫技术

爬网程序搜寻网页的过程也是对请求和响应

的处理

以浏览器渲染网页的过程为例

当用户打

开网页时

浏览器会向目标网址所在的服务器发起

请求

服务器响应请求并以特定格式的网页返回

给浏览器

显示了通用的爬虫框架

开发爬网

程序时

爬虫设计人员通常会根据爬网目标的特征

选择网站中的一些有价值的网页地址作为爬网程

序的初始目标

抓取程序开始运行后

这些

URL

爬虫框架

你可能感兴趣的:(基于python爬虫数据分析论文_基于Python的招聘网站信息爬取与数据分析)