caxiou

大数据毕业设计招聘网站数据分析可视化 - python flask 网络爬虫

文章目录

0 前言
1 课题背景
2 实现效果
3 Flask框架
4 Echarts
5 爬虫
6 最后

0 前言

这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。

为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是

招聘网站爬取与大数据分析可视化

学长这里给一个题目综合评分(每项满分5分)

难度系数：3分
工作量：3分
创新点：3分

1 课题背景

本项目利用 python 网络爬虫抓取常见招聘网站信息，完成数据清洗和结构化，存储到数据库中，搭建web系统对招聘信息的薪资、待遇等影响因素进行统计分析并可视化展示。

2 实现效果

首页

岗位地图

类型、词云

3 Flask框架

简介

Flask是一个基于Werkzeug和Jinja2的轻量级Web应用程序框架。与其他同类型框架相比，Flask的灵活性、轻便性和安全性更高，而且容易上手，它可以与MVC模式很好地结合进行开发。Flask也有强大的定制性，开发者可以依据实际需要增加相应的功能，在实现丰富的功能和扩展的同时能够保证核心功能的简单。Flask丰富的插件库能够让用户实现网站定制的个性化，从而开发出功能强大的网站。

本项目在Flask开发后端时，前端请求会遇到跨域的问题，解决该问题有修改数据类型为jsonp，采用GET方法，或者在Flask端加上响应头等方式，在此使用安装Flask-CORS库的方式解决跨域问题。此外需要安装请求库axios。

Flask项目结构图

相关代码：

from flask import Flask as _Flask, jsonify, render_template
from flask.json import JSONEncoder as _JSONEncoder
import decimal
import utils


class JSONEncoder(_JSONEncoder):
    def default(self, o):
        if isinstance(o, decimal.Decimal):
            return float(o)
        super(_JSONEncoder, self).default(o)


class Flask(_Flask): 
    json_encoder = JSONEncoder


app = Flask(__name__)
# 这里发现flask根本不会调用我在utils中处理数据的代码，所以直接就在这里定义了两个常量
# 如果想要爬取其它招聘岗位信息的话，先运行utils中的代码，然后运行app.py代码，同时，更改下面的datatable和job_name
datatable = 'data_mining'
job_name = '数据挖掘'


# 路由解析，每映射到一个路由就调用一个函数
@app.route('/')
def index():
    return render_template("main.html")


@app.route('/title')
def get_title1():
    return job_name


# 获取系统当前时间，每隔1s刷新一次
@app.route('/time')
def get_time1():
    return utils.get_time()


# 对数据库中的数据进行计数、薪资取平均值、省份和学历取众数
@app.route('/c1')
def get_c1_data1():
    data = utils.get_c1_data(datatable)
    return jsonify({"employ": data[0], "avg_salary": data[1], "province": data[2], "edu": data[3]})


# 对省份进行分组，之后统计其个数，使用jsonify来将数据传输给ajax（中国地图）
@app.route('/c2')
def get_c2_data1():
    res = []
    for tup in utils.get_c2_data(datatable):
        res.append({"name": tup[0], "value": int(tup[1])})
    return jsonify({"data": res})


# 统计每个学历下公司数量和平均薪资（上下坐标折线图）
@app.route('/l1')
# 下面为绘制折线图的代码，如果使用这个的话需要在main.html中引入ec_left1.js，然后在controller.js中重新调用
# def get_l1_data1():
#     data = utils.get_l1_data()
#     edu, avg_salary = [], []
#     for s in data:
#         edu.append(s[0])
#         avg_salary.append(s[1])
#     return jsonify({"edu": edu, "avg_salary": avg_salary})
def get_l1_data1():
    data = utils.get_l1_data(datatable)
    edu, sum_company, avg_salary = [], [], []
    for s in data:
        edu.append(s[0])
        sum_company.append(int(s[1]))
        avg_salary.append(float(s[2]))
    return jsonify({"edu": edu, "sum_company": sum_company, "avg_salary": avg_salary})


# 统计不同学历下公司所招人数和平均经验（折线混柱图）
@app.route('/l2')
def get_l2_data1():
    data = utils.get_l2_data(datatable)
    edu, num, exp = [], [], []
    # 注意sql中会存在decimal的数据类型，我们需要将其转换为int或者float的格式
    for s in data:
        edu.append(s[0])
        num.append(float(s[1]))
        exp.append(float(s[2]))
    return jsonify({'edu': edu, 'num': num, 'exp': exp})


# 统计不同类型公司所占的数量（饼图）
@app.route('/r1')
def get_r1_data1():
    res = []
    for tup in utils.get_r1_data(datatable):
        res.append({"name": tup[0], "value": int(tup[1])})
    return jsonify({"data": res})


# 对猎聘网上的“岗位要求”文本进行分词后，使用jieba.analyse下的extract_tags来获取全部文本的关键词和权重，再用echarts来可视化词云
@app.route('/r2')
def get_r2_data1():
    cloud = []
    text, weight = utils.get_r2_data(datatable)
    for i in range(len(text)):
        cloud.append({'name': text[i], 'value': weight[i]})
    return jsonify({"kws": cloud})


if __name__ == '__main__':
    app.run()

4 Echarts

ECharts（Enterprise Charts）是百度开源的数据可视化工具，底层依赖轻量级Canvas库ZRender。兼容了几乎全部常用浏览器的特点，使它可广泛用于PC客户端和手机客户端。ECharts能辅助开发者整合用户数据，创新性的完成个性化设置可视化图表。支持折线图（区域图）、柱状图（条状图）、散点图（气泡图）、K线图、饼图（环形图）等，通过导入 js 库在 Java Web 项目上运行。

相关代码：

# 导入模块
from pyecharts import options as opts
from pyecharts.charts import Pie
#准备数据
label=['民营公司','上市公司','国企','合资','外资（欧美）','外资（非欧美）'，'创业公司','事业单位']  
values = [300,300,300,300,44,300,300,300]
# 自定义函数
def pie_base():
    c = (
        Pie()
        .add("",[list(z) for z in zip(label,values)])
        .set_global_opts(title_opts = opts.TitleOpts(title="公司类型分析"))
        .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{c} {d}%"))   # 值得一提的是，{d}%为百分比
    )
    return c
# 调用自定义函数生成render.html
pie_base().render()

5 爬虫

简介

Scrapy是基于Twisted的爬虫框架，它可以从各种数据源中抓取数据。其架构清晰，模块之间的耦合度低，扩展性极强，爬取效率高，可以灵活完成各种需求。能够方便地用来处理绝大多数反爬网站，是目前Python中应用最广泛的爬虫框架。Scrapy框架主要由五大组件组成，它们分别是调度器(Scheduler)、下载器(Downloader)、爬虫（Spider）和实体管道(Item Pipeline)、Scrapy引擎(Scrapy Engine)。各个组件的作用如下：

调度器(Scheduler)：说白了把它假设成为一个URL（抓取网页的网址或者说是链接）的优先队列，由它来决定下一个要抓取的网址是什么，同时去除重复的网址（不做无用功）。用户可以自己的需求定制调度器。
下载器(Downloader)：是所有组件中负担最大的，它用于高速地下载网络上的资源。Scrapy的下载器代码不会太复杂，但效率高，主要的原因是Scrapy下载器是建立在twisted这个高效的异步模型上的(其实整个框架都在建立在这个模型上的)。
爬虫（Spider）：是用户最关心的部份。用户定制自己的爬虫(通过定制正则表达式等语法)，用于从特定的网页中提取自己需要的信息，即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面。
实体管道(Item Pipeline)：用于处理爬虫(spider)提取的实体。主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。
Scrapy引擎(Scrapy Engine)：Scrapy引擎是整个框架的核心.它用来控制调试器、下载器、爬虫。实际上，引擎相当于计算机的CPU,它控制着整个流程。

官网架构图

相关代码：

# -*- coding: utf-8 -*-

import requests
import re
import json
import time
import pandas as pd
from lxml import etree


# 为了防止被封IP，下面使用基于redis的IP代理池来获取随机IP，然后每次向服务器请求时都随机更改我们的IP（该ip_pool搭建相对比较繁琐，此处省略搭建细节）
# 假如不想使用代理IP的话，则直接设置下方的time.sleep，并将proxies参数一并删除
proxypool_url = 'http://127.0.0.1:5555/random'
# 定义获取ip_pool中IP的随机函数
def get_random_proxy():
    proxy = requests.get(proxypool_url).text.strip()
    proxies = {'http': 'http://' + proxy}
    return proxies


# 前程无忧网站上用来获取每个岗位的字段信息
def job51(datatable, job_name, page):
    # 浏览器伪装
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.63 Safari/537.36 Edg/93.0.961.47'
    }
    # 每个页面提交的参数，降低被封IP的风险
    params = {
        'lang': 'c',
        'postchannel': '0000',
        'workyear': '99',
        'cotype': '99',
        'degreefrom': '99',
        'jobterm': '99',
        'companysize': '99',
        'ord_field': '0',
        'dibiaoid': '0'
    }
    href, update, job, company, salary, area, company_type, company_field, attribute = [], [], [], [], [], [], [], [], []
    # 使用session的好处之一便是可以储存每次的cookies，注意使用session时headers一般只需放上user-agent
    session = requests.Session()
    # 查看是否可以完成网页端的请求
    # print(session.get('https://www.51job.com/', headers=headers, proxies=get_random_proxy()))
    # 爬取每个页面下所有数据
    for i in range(1, int(page) + 1):
        url = f'https://search.51job.com/list/000000,000000,0000,00,9,99,{job_name},2,{i}.html'
        response = session.get(url, headers=headers, params=params, proxies=get_random_proxy())
        # 使用正则表达式提取隐藏在html中的岗位数据
        ss = '{' + re.findall(r'window.__SEARCH_RESULT__ = {(.*)}', response.text)[0] + '}'
        # 加载成json格式，方便根据字段获取数据
        s = json.loads(ss)
        data = s['engine_jds']
        for info in data:
            href.append(info['job_href'])
            update.append(info['issuedate'])
            job.append(info['job_name'])
            company.append(info['company_name'])
            salary.append(info['providesalary_text'])
            area.append(info['workarea_text'])
            company_type.append(info['companytype_text'])
            company_field.append(info['companyind_text'])
            attribute.append(' '.join(info['attribute_text']))
    #     time.sleep(np.random.randint(1, 2))
    # 保存数据到DataFrame
    df = pd.DataFrame(
        {'岗位链接': href, '发布时间': update, '岗位名称': job, '公司名称': company, '公司类型': company_type, '公司领域': company_field,
         '薪水': salary, '地域': area, '其他信息': attribute})
    # 保存数据到csv文件中
    df.to_csv(f'./data/{datatable}/51job_{datatable}.csv', encoding='gb18030', index=None)


# 猎聘网上用来获取每个岗位对应的详细要求文本
def liepin(datatable, job_name, page):
    # 浏览器伪装和相关参数
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.63 Safari/537.36 Edg/93.0.961.47'
    }
    job, salary, area, edu, exp, company, href, content = [], [], [], [], [], [], [], []
    # 使用session的好处之一便是可以储存每次的cookies，注意使用session时headers一般只需放上user-agent
    session = requests.Session()
    # print(session.get('https://www.liepin.com/zhaopin/', headers=headers, proxies = get_random_proxy()))
    # 通过输入岗位名称和页数来爬取对应的网页内容
    # job_name = input('请输入你想要查询的岗位：')
    # page = input('请输入你想要下载的页数：')
    # 遍历每一页上的数据
    for i in range(int(page)):
        url = f'https://www.liepin.com/zhaopin/?key={job_name}&curPage={i}'
        # time.sleep(np.random.randint(1, 2))
        response = session.get(url, headers=headers, proxies = get_random_proxy())
        html = etree.HTML(response.text)
        # 每页共有40条岗位信息
        for j in range(1, 41):
            # job.append(html.xpath(f'//ul[@class="sojob-list"]/li[{j}]/div/div[1]/h3/@title')[0])
            # info = html.xpath(f'//ul[@class="sojob-list"]/li[{j}]/div/div[1]/p[1]/@title')[0]
            # ss = info.split('_')
            # salary.append(ss[0])
            # area.append(ss[1])
            # edu.append(ss[2])
            # exp.append(ss[-1])
            # company.append(html.xpath(f'//ul[@class="sojob-list"]/li[{j}]/div/div[2]/p[1]/a/text()')[0])
            href.append(html.xpath(f'//ul[@class="sojob-list"]/li[{j}]/div/div[1]/h3/a/@href')[0])
    # 遍历每一个岗位的数据
    for job_href in href:
        # time.sleep(np.random.randint(1, 2))
        # 发现有些岗位详细链接地址不全，需要对缺失部分进行补齐
        if 'https' not in job_href:
            job_href = 'https://www.liepin.com' + job_href
        response = session.get(job_href, headers=headers, proxies = get_random_proxy())
        html = etree.HTML(response.text)
        content.append(html.xpath('//section[@class="job-intro-container"]/dl[1]//text()')[3])
    # 保存数据
    # df = pd.DataFrame({'岗位名称': job, '公司': company, '薪水': salary, '地域': area, '学历': edu, '工作经验': exp, '岗位要求': content})
    df = pd.DataFrame({'岗位要求': content})
    df.to_csv(f'./data/{datatable}/liepin_{datatable}.csv', encoding='gb18030', index=None)

6 最后

利用 Python 编程随机生成 n 个 1~9 之间的整数，然后统计生成的各个随机整数的个数。 hnjzsyjyj Python程序设计 Python 列表
【题目描述】利用Python编程随机生成n个1~9之间的整数，然后统计生成的各个随机整数的个数。【算法分析】●输入的n必须≥10，这是因为代码中数组cnt[]的下标会到9。若n小于10，将不会有下标9，就会产生IndexError。●利用“桶排序”中“桶”的思想进行统计。【算法代码】fromrandomimport*n=eval(input("Enteranintegerwhich≥10:"))c
《机器学习实战》——在python中使用Matplotlib注解绘制树形图哆啦AA梦 python 机器学习 python 机器学习
#encoding=utf-8#使用文本注解绘制树形图importmatplotlib.pyplotaspltdecisionNode=dict(boxstyle="sawtooth",fc="0.8")leafNode=dict(boxstyle="round4",fc="0.8")arrow_args=dict(arrowstyle="<-")#上面三行代码定义文本框和箭头格式#定义决策树决策
python执行linux外部程序_Python3.5使用subprocess.run调用外部程序 weixin_39902184
Python3.5的subprocess模块新增了run()函数，大部分调用子进程的场景都推荐使用run()函数，一些高级的用法则可以直接调用Popen接口。run()函数run函数常用参数如下：run(args,*,stdin=None,input=None,stdout=None,stderr=None,shell=False,cwd=None,timeout=None,check=False
python中append函数什么意思_在python中append()函数的作用是什么魔都财观
在python中append()函数的作用是什么发布时间：2020-07-1014:07:51来源：亿速云阅读：103作者：清晨这篇文章将为大家详细讲解有关在python中append()函数的作用是什么，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。python中的append()方法用于在列表末尾添加新的对象。append()方法语法：list.append(
DeepSeek：突破传统的AI算法与下载排行分析 smart_ljh 行业搜索人工智能 AI
DeepSeek的AI算法突破DeepSeek相较于OpenAI以及其它平台的性能对比DeepSeek的下载排行分析（截止2025/1/28AI人工智能相关DeepSeek甚至一度被推上了搜索）未来发展趋势总结在人工智能技术飞速发展的当下，搜索引擎市场也迎来了新的变革。DeepSeek，作为一款基于深度学习技术和大数据算法的搜索引擎，以其独特的优势在国内外市场上引起了广泛关注。下面介绍一下针对De
Python数据可视化 Pyecharts 制作 Sankey 桑基图 Mr数据杨 Python 数据可视化 python 数据可视化 pyecharts 数据分析
桑基图作为一种强大的数据可视化工具，常用于展现不同节点之间的流动关系及其数量分布。其通过直观的连线展示，帮助用户理解复杂系统中各个部分的连接和交互。Python的pyecharts库提供了Sankey类，支持用户灵活创建各种桑基图，不仅能够展示流动数据，还能根据节点层级及连线样式进行高度定制，使得桑基图在信息传达和视觉表现上更具表现力。文章目录Sankey：桑基图Demo总结Sankey：桑基图桑
Python 实现车牌识别菜狗小测试 Python技术专栏 python 计算机视觉 opencv
一、车牌识别的基本原理车牌识别主要包括以下几个步骤：图像采集：通过摄像头或其他图像采集设备获取包含车牌的图像。图像预处理：对采集到的图像进行灰度化、滤波、增强等操作，以提高图像的质量和清晰度，便于后续的处理。车牌定位：从预处理后的图像中找出车牌的位置。这可以通过一些特征提取和机器学习算法来实现，例如基于颜色特征、边缘特征等方法来定位车牌区域。字符分割：将定位到的车牌区域中的字符分割开，以便对每个字
计算机毕业设计ssm旅游景点推荐系统02d989（附源码）新手必备毕设程序源码课程设计
项目运行环境配置：Jdk1.8+Tomcat7.0+Mysql+HBuilderX（Webstorm也行）+Eclispe（IntelliJIDEA,Eclispe,MyEclispe,Sts都支持）。项目技术：ssm+mybatis+Maven+mysql5.7或8.0等等组成，B/S模式+Maven管理等等。环境需要1.运行环境：最好是javajdk1.8，我们在这个平台上运行的。其他版本理论
python实现dbscan 怎么就重名了算法 python 开发语言
python实现dbscan原理DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)是一个比较有代表性的基于密度的聚类算法。它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。DBSCAN中的几个定义：Ε邻域：给定对象半径为Ε内的区域称为该对象的Ε邻域；核心对象：如
动物判别系统python实现 L C H python 人工智能算法矩阵线性代数
动物判别系统由于明天的实验时间较为紧张，所以本人提前完成实验，将代码呈现如下（有些许参考）：由于明天的实验时间较为紧张，所以本人提前完成实验，将代码呈现如下（有些许参考）：#判断有无重复元素defjudge_repeat(value,list=[]):foriinrange(0,len(list)):if(list[i]==value):return1else:if(i!=len(list)-1)
Python实现图像（边缘）锐化：梯度锐化、Roberts 算子、Laplace算子、Sobel算子的详细方法闲人编程 python python 计算机视觉人工智能 Sobel Laplace Roberts 锐化
目录Python实现图像（边缘）锐化：梯度锐化、Roberts算子、Laplace算子、Sobel算子的详细方法引言一、图像锐化的基本原理1.1什么是图像锐化？1.2边缘检测的基本概念二、常用的图像锐化算法2.1梯度锐化2.1.1实现步骤2.2Roberts算子2.2.1实现步骤2.3Laplace算子2.3.1实现步骤2.4Sobel算子2.4.1实现步骤三、Python实现图像锐化3.1导入必
QT +MYSQL+PYTHON,完成一个数据库表的增删改查 laocooon523857886 QT Python 数据库 qt mysql
ui_form.py#-*-coding:utf-8-*-##################################################################################FormgeneratedfromreadingUIfile'form.ui'####Createdby:QtUserInterfaceCompilerversion6.8.1#
【上市公司文本分析】Python正则表达式从非结构化文本数据中提取结构化信息——以从上市公司高管简历中提取毕业院校信息为例 Ryo_Yuki #上市公司文本分析 Python python 正则表达式
从CSMAR中可以获取上市公司高管的简历文本信息，虽然是非结构化的，但是隐约可以从中发现一些规律，例如毕业院校很多出现在毕业于、就读于等词语之后，专业很多出现在大学名之后，但这些又不是绝对的，也会有其他一些规则。下方代码是我基于我的300多条示例数据（如果需要练习，可以评论邮箱），经过反复修改正则表达式规则去编制的，能够做到节约85%左右的人工工作量，但无法保证绝对精确。对于其他非结构化但又有规律
python中全局变量和局部变量详解_Python局部变量与全局变量区别原理解析 weixin_39998795
1、局部变量name="YangLi"defchange_name(name):print("beforechange:",name)name="你好"print("afterchange",name)change_name(name)print("在外面看看name改了么?",name)输出：beforechange:YangLiafterchange你好在外面看看name改了么?YangLi2
python中全局变量的使用 weixin_33737774 python
python中在module定义的变量可以认为是全局变量，而对于全局变量的赋值有个地方需要注意。test.py--------------------------------------------------importsysusername="muzizongheng"password="xxxx"defLogin(u,p):username=upassword=pprint("usernam
C++和Python实现SQL Server数据库导出数据到S3并导入Redshift数据仓库 weixin_30777913 c++python 数据库数据仓库 sqlserver
用C++实现高性能数据处理，Python实现操作Redshift导入数据文件。在VisualStudio2022中用C++和ODBCAPI导出SQLServer数据库中张表中的所有表的数据为CSV文件格式的数据流，用逗号作为分隔符，用双引号包裹每个数据，字符串类型的数据去掉前后的空格，数据中如果包含双引号，则将一个双引号替换为两个双引号，创建gzip压缩文件，输出数据流写入到gzip压缩文件包中的
scikit-learn基本功能和示例代码 weixin_30777913 深度学习机器学习 python scikit-learn
scikit-learn（简称sklearn）是一个广泛使用的Python机器学习库，提供了丰富的工具和算法，涵盖了数据预处理、模型训练、评估和优化等多个方面。scikit-learn是一个功能强大的机器学习库，涵盖了数据预处理、分类、回归、聚类、降维、模型选择与评估等多个方面。通过上述代码示例，您可以快速上手并使用scikit-learn进行机器学习任务。以下是对scikit-learn主要功能
python 字符串分割方法_Python字符串分割方法总结不胖的羊 python 字符串分割方法
Python中字符串分割的常用方法是直接调用字符串的str.split方法，但是其只能指定一种分隔符，如果想指定多个分隔符拆分字符串需要用到re.split方法(正则表达式的split方法)。str.split字符串的split方法函数原型如下，其中sep为指定的分隔符，maxsplit为最大分割次数：1str.split(sep=None,maxsplit=-1)默认情况下，不指定分隔符时则以空
你们要的python圣诞树坏柠 python python pycharm 开发语言
圣诞节要到了，不给对象画一颗圣诞树吗？那就用python画一颗圣诞树吧#-*-codeing=utf-8-*-#@Time:2021/12/1410:35#@Author:1#@File:圣诞树.py.py#@Softestr:PyCharmimportturtleimporttimeimportrandomturtle.screensize(700,600,"thistle3")turtle.
2000-2021年上市公司数字化转型数据（MD&A报告词频、文本统计） m0_71334485 数据 #上市公司上市公司数字化转型数字化转型上市公司
2000-2021年上市公司数字化转型数据（MD&A报告词频、文本统计）1、时间：2000-2021年2、来源：上市公司NB3、范围：上市公司4、指标：包括人工智能技术、大数据技术、云计算技术、区块链技术、数字技术运用和数字技术应用、互联网商业模式、智能制造、现代信息系统等9个维度175个词频类别、股票代码、股票简称、年报标题、年份、MD&A文本-文本总长度、MD&A文本仅中英文-文本总长度、人工
Python怎么使用全局变量？怎么使用全局变量字典？许墨の小蝴蝶 python
在Python中，全局变量是指在函数外部定义的变量，它们可以在整个程序中被访问。要在一个函数内部使用或修改全局变量，你需要遵循一些规则。###定义全局变量首先，在函数外部定义一个全局变量：```pythonglobal_var=10```###在函数内部读取全局变量如果只是想在函数内部读取全局变量的值，直接使用变量名即可：```pythondefread_global():print(global
Python 实现定时任务的八种方案爱摸鱼的菜鸟码农 python 开发语言后端
在日常工作中，我们常常会用到需要周期性执行的任务，一种方式是采用Linux系统自带的crond结合命令行实现。另外一种方式是直接使用Python。接下里整理的是常见的Python定时任务的实现方式。目录利用whileTrue:+sleep()实现定时任务使用Timeloop库运行定时任务利用threading.Timer实现定时任务利用内置模块sched实现定时任务利用调度模块schedule实现
APS_Schedule 我养的小猫 Python python
前言大家应该都知道在编程语言中，定时任务是常用的一种调度形式，在Python中也涌现了非常多的调度模块，本文将简要介绍APScheduler的基本使用方法。一、APScheduler介绍APScheduler是基于Quartz的一个python定时任务框架，实现了Quartz的所有功能，使用起来十分方便。提供了基于日期、固定时间间隔以及crontab类型的任务，并且可以持久化任务。APSchedu
度量年报中MD&A部分的信息含量的Python代码 Xiaorui~ 文本分析会计学 python pandas 开发语言
研究需求：度量年报中管理层讨论与分析部分的信息含量的代码，环境为python3，可更改年报的选取时间。代码实现：首先，需要安装tika和pandas库，tika用于解析PDF文件，pandas用于数据处理。可以使用以下命令进行安装：!pipinstalltika!pipinstallpandas然后，需要下载年报的PDF文件，并将其放置在指定路径下。接下来，可以使用以下代码对管理层讨论与分析部分进
python 定时任务框架 assless python 自动化相关 python 定时任务 APSchedule 自动化测试
python定时任务框架如果想实现自定义定时任务框架，可以看看下面转载的文章写的很详细传送门=>APScheduler定时框架
（基础）Python实现定时任务的八种方案详解程序员-不秃头的阿焕 python 开发语言后端
在日常工作中，我们常常会用到需要周期性执行的任务，我们可以用Python直接实现这一功能。今天我们来学习一下这些基本的操作，有需要了解更多关于python相关知识的，免费领取资源的，请点击这个链接。目录利用whileTrue:+sleep()实现定时任务使用Timeloop库运行定时任务利用threading.Timer实现定时任务利用内置模块sched实现定时任务利用调度模块schedule实现
anaconda 安装后找不到prompt 刘凑华 prompt python 开发语言
解决方法，用cmd进入anaconda的安装目录，然后输入如下命令python .\Lib\_nsis.py mkmenus
Qutebrowser：Python程序员的浏览器利器东方佑量子变法 python
引言在日常工作中，我们常常会遇到一些重复性的操作，比如每天打开固定的几个网页，或者需要频繁地对网页进行截图。如果你是一位Python开发者，并且希望有一种更高效的方式来处理这些任务，那么今天介绍的Qutebrowser绝对会让你眼前一亮。Qutebrowser是一个基于Python和PyQt开发的键盘驱动浏览器，它不仅支持Vim风格的快捷键操作，还允许用户通过编写Python脚本来扩展其功能。接下
【高级篇】第7章 Elasticsearch 索引生命周期管理(ILM) JAVA和人工智能 elasticsearch 大数据搜索引擎
引言在大数据时代，有效地管理数据的生命周期是确保系统性能、成本控制和合规性的关键。Elasticsearch的索引生命周期管理（ILM）为此提供了强大的解决方案。本章将深入探讨ILM的概念、策略设计与实施、以及监控与维护的实践，帮助读者掌握这一重要领域的精髓。7.1ILM概念：数据管理的智慧策略索引生命周期管理（ILM）是Elasticsearch中的一项高级功能，它代表了一种前瞻性的数据管理哲学
java毕业设计校园共享单车管理系统源码+lw文档+mybatis+系统+mysql数据库+调试好好吃肉 mybatis mysql 数据库
java毕业设计校园共享单车管理系统源码+lw文档+mybatis+系统+mysql数据库+调试java毕业设计校园共享单车管理系统源码+lw文档+mybatis+系统+mysql数据库+调试本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、JDK1.8数据
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开

大数据毕业设计 招聘网站数据分析可视化 - python flask 网络爬虫

文章目录

0 前言

1 课题背景

2 实现效果

3 Flask框架

4 Echarts

5 爬虫

6 最后

你可能感兴趣的:(大数据,毕业设计,python,flask,大数据,招聘网站数据分析可视化)

大数据毕业设计招聘网站数据分析可视化 - python flask 网络爬虫