云梦之上

爬取51job职位信息--进行专业市场需求可视化分析（python、tableau、DBeaver）

爬取51job信管专业相关岗位的情况进行可视化分析。
采用工具：python、tableau（可视化）、DBeaver（数据库管理软件）

文章目录

一．数据爬取
- 1.1导入相关的库
- 1.2对每个岗位搜索的到的总页数进行爬取
- 1.3进行爬取数据相关函数的设计
- 1.4进行数据的爬取
- 1.5数据库爬取到的数据展示
二.数据清洗
- 2.1清洗相关函数的设计
- 2.2进行数据清洗
- 2.3清洗后数据展示
三.数据可视化
- 3.1 柱状图
- 3.2 树状图
- 3.3各岗位类型公司规模数量特征条形图
- 3.4 热力图
- 3.5 箱线图
- 3.6 职位薪资Sankey图
- 3.7 岗位工作待遇热词词云图
- 3.8 不同类型岗位更新数量的折线图
四.结合自身对信管职位的分析
- 4.1简介
- 4.2分析
- 4.3总结

一．数据爬取

数据爬取过程
考虑到requests库进行数据的请求容易被平台反扒发现，从而封锁ip导致数据不能正常爬取。因此采用selenium模拟浏览器，进行数据的采集。总共需要采集的岗位有30终类型，先通过selenium采集每种类型岗位需要采集的总页数。然后利用每种岗位的总页数信息，进行岗位数据的采集。通过模拟浏览器访问51job网页，获取页面的HTML文本，然后采用BeautifulSoup库进行需要采集数据点的的数据的获取，最终将获取到的数据写入数据库中进行存储。

1.1导入相关的库

import requests
from bs4 import BeautifulSoup
import pymysql
import random
from selenium import webdriver
from selenium.webdriver import ChromeOptions
import re
import time
import  requests

1.2对每个岗位搜索的到的总页数进行爬取

if    __name__     == '__main__': #主函数
    job=["产品经理","产品助理","交互设计","前端开发","软件设计","IOS开发","业务分析","安卓开发","PHP开发","业务咨询","需求分析","流程设计"
    ,"售后经理","售前经理","技术支持","ERP实施","实施工程师","IT项目经理","IT项目助理","信息咨询","数据挖掘","数据运营","数据分析","网络营销",
    "物流与供应链","渠道管理","电商运营","客户关系管理","新媒体运营","产品运营"]
#总共30个职位的列表
    #https://www.pexels.com/
    option = ChromeOptions()
    UA="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.61 Safari/537.36 Edg/94.0.992.31"
    option.add_argument(f'user-agent={UA}')
    option.add_experimental_option('useAutomationExtension', False)
    option.add_experimental_option('excludeSwitches', ['enable-automation'])
    web = webdriver.Chrome(chrome_options=option)  # chrome_options=chrome_opt,,options=option
    web.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
        "source": """
        Object.defineProperty(navigator, 'webdriver', {
          get: () => undefined
        })
      """
    })
    web.implicitly_wait(3)
    url='https://search.51job.com/list/000000,000000,0000,00,9,99,%E4%BA%A7%E5%93%81%E7%BB%8F%E7%90%86,2,2.html?'
    web.get(url)
    time.sleep(6)
    page_list=[]
    for j in job:
        for i in range(1, 1 + 1):
            #url = "https://search.51job.com/list/000000,000000,0000,00,9,99," + j + ",2," + str(i) + ".html?"
            url="https://search.51job.com/list/000000,000000,0000,00,9,99,{},2,{}.html?".format(j, i)
            web.get(url)
            html = web.page_source
            soup = BeautifulSoup(html, "lxml")
            text = soup.find_all("script", type="text/javascript")[3].string
            # 观察原始代码发现我们需要的数据在 engine_jds 后
            page_te=eval(str(text).split("=", 1)[1])["total_page"]
            page_list.append(page_te)
            print(page_te)

#得到的page_te列表将用于之后的数据爬取时对应每个职位的爬取页数。

1.3进行爬取数据相关函数的设计

#定义 spider()函数，用于获取每个 url 的 html
def spider(url):
    headers = {
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.61 Safari/537.36 Edg/94.0.992.31"}
    try:
        rep = requests.get(url, headers=headers)
        rep.raise_for_status()
        rep.encoding = rep.apparent_encoding
        txt = rep.text
        return txt
    except:
        print("解析失败")

#定义 jiexi()函数，用于解析得到的 html
def jiexi(html, info,name):
    soup = BeautifulSoup(html, "lxml")
    text = soup.find_all("script", type="text/javascript")[3].string
    #观察原始代码发现我们需要的数据在 engine_jds 后
    data = eval(str(text).split("=", 1)[1])["engine_jds"]
    for d in data:
        try:
            job_name = d["job_name"].replace("\\", "") # 岗位名称
        except:
            job_name = " "

        try:
            company_name = d["company_name"].replace("\\", "")  # 公司名称

        except:
            company_name = " "

        try:
            providesalary_text = d["providesalary_text"].replace("\\", "")  # 薪资
        except:
            providesalary_text = " "
        try:
            workarea_text = d["workarea_text"].replace("\\", "")   #工作地点
        except:
            workarea_text = " "

        try:
            updatedate = d["updatedate"].replace("\\", "") #更新时间

        except:
            updatedate = " "
        try:
            jobwelf = d["jobwelf"].replace("\\", "")   # 工作待遇
        except:
            jobwelf = " "

        try:
            companyind_text = d["companyind_text"].replace("\\", "")  # 公司类型
        except:
            companyind_text = " "
        try:
            companysize_text = d["companysize_text"].replace("\\", "") # 公司规模

        except:
            companysize_text = " "
        try:
            at = d["attribute_text"]   # 工作要求
            s = ''
            for i in range(0, len(at)):
                s = s + at[i] + ','
                attribute_text = s[:-1]
        except:
            attribute_text = " "

#将每一条岗位数据爬取下的内容以及传入参数 name 作为一个列表，依此加入到 info 列表中
        info.append( [ name,job_name, updatedate, company_name, companyind_text, companysize_text, workarea_text, providesalary_text, attribute_text, jobwelf])

#将数据存到 MySQL 中名为“51job”的数据库中
def save(info):
    #将数据保存到数据库表中对应的列
    for data in info :
        present_job = data[0]  # 当前爬取岗位
        job_name = data[1] #岗位
        updatedate = data[2]         #更新时间
        company_name = data[3]  # 公司名称
        companyind_text = data[4]        #公司类型
        companysize_text = data[5]       #公司规模
        workarea_text = data[6]                #工作地点
        providesalary_text = data[7]               #薪资
        attribute_text = data[8]      #工作要求
        jobwelf = data[9]  #工作待遇
        # 创建 sql 语句
        sql = "insert into jobs(当前爬取岗位,岗位,更新时间,公司名称,公司类型,公司规模,工作地点,薪资,工作要求,工作待遇) values(%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)"
        # 执行 sql 语句
        cursor.execute(sql, [present_job, job_name, updatedate, company_name, companyind_text, companysize_text,
                             workarea_text, providesalary_text, attribute_text, jobwelf])
        db.commit()  # 提交数据

1.4进行数据的爬取

if    __name__     == '__main__': #主函数
    job=["产品经理","产品助理","交互设计","前端开发","软件设计","IOS开发","业务分析","安卓开发","PHP开发","业务咨询","需求分析","流程设计"
    ,"售后经理","售前经理","技术支持","ERP实施","实施工程师","IT项目经理","IT项目助理","信息咨询","数据挖掘","数据运营","数据分析","网络营销",
    "物流与供应链","渠道管理","电商运营","客户关系管理","新媒体运营","产品运营"]
#利用1.2获得的每个岗位对应的总页码数。
    page_list=['1141', '62', '169', '619', '356', '61', '229', '64', '56', '356', '1379', '147', '62', '29', '2000', '173', '184', '10', '2', '396', '221', '115', '2000', '381', '5', '295', '1233', '280', '699', '352']
    #https://www.pexels.com/
    option = ChromeOptions()
    UA="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.61 Safari/537.36 Edg/94.0.992.31"
    option.add_argument(f'user-agent={UA}')
    option.add_experimental_option('useAutomationExtension', False)
    option.add_experimental_option('excludeSwitches', ['enable-automation'])
    web = webdriver.Chrome(chrome_options=option)  # chrome_options=chrome_opt,,options=option
    web.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
        "source": """
        Object.defineProperty(navigator, 'webdriver', {
          get: () => undefined
        })
      """
    })
    web.implicitly_wait(10)
    url='https://search.51job.com/list/000000,000000,0000,00,9,99,%E4%BA%A7%E5%93%81%E7%BB%8F%E7%90%86,2,2.html?'
    web.get(url)
    time.sleep(6)
    le=len(job)
#连接数据库
    db = pymysql.connect(  # 连接数据库host="127.0.0.1",    #MySQL 服务器名
        user="root",  # 用户名
        password="12345678",  # 密码
        database="python上机",  # 操作的数据库名称charset="utf8"
    )
    cursor = db.cursor()
    for j in range(23,le):
        for i in range(1,int(page_list[j])):#页面
            info = []
            # url = "https://search.51job.com/list/000000,000000,0000,00,9,99," + j + ",2," + str(i) + ".html?"
            url = "https://search.51job.com/list/000000,000000,0000,00,9,99,{},2,{}.html?".format(job[j], i)
            web.get(url)
            ht = web.page_source
            soup = BeautifulSoup(ht, "lxml")
            jiexi(ht, info,job[j])
            print('岗位{}:{}/{}'.format(j,i,page_list[j]))
            time.sleep(2)
            save(info)
        time.sleep(3)
    cursor.close()
    # 关闭连接
    db.close()

1.5数据库爬取到的数据展示

二.数据清洗

2.1清洗相关函数的设计

#引入 pymysql 包
import pymysql
#连接 MySQL 数据库
db = pymysql.connect(
host="127.0.0.1",
user="root", password="12345678",
database="python上机", charset="utf8"
)

def pipei():
    cursor = db.cursor()  # 获取操作游标
    cursor.execute("select * from jobs")  # 从 jobs 表中查询所有内容并保存
    results = cursor.fetchall()  # 接受全部的返回结果
    after_pipei = []  # 建立一个空列表，用来存储匹配后数据
    for each_result in results:
        if each_result[-1] == '物流与供应链':
            if '物流' in each_result[0] or '供应链' in each_result[0]:
                after_pipei.append(each_result)
        elif each_result[-1] == '新媒体运营' or each_result[-1] == '电商运营':
            if '运营' in each_result[0]:
                after_pipei.append(each_result)
        # 由于在以关键词“电商运营”或“新媒体运营”搜索的岗位信息中包含大量具体电商或新媒体平台名称的岗位名称，如“拼多多运营”“抖音运营”等，因此在这两类岗位名称匹配时我们认为只要岗位名称中包含“运营”就算匹配成功。
        elif each_result[-1] == '客户关系管理':
            if'客户关系' in each_result[0]:
                after_pipei.append(each_result)
        elif each_result[-1] == '安卓开发':
            if '安卓' in each_result[0] or 'Android' in each_result[0]:
                after_pipei.append(each_result)
        # 由于在很多公司的招聘岗位中“安卓”会以“Android”英文形式出现，因此，在以“安卓开发”为关键词进行搜索时，我们认为只要包含“安卓”或“Android”开发就算匹配成功。
        elif each_result[-1][:-2] in each_result[0] and each_result[-1][-2:]:
            after_pipei.append(each_result)
        # 剩余岗位需要两个关键词都存在岗位名称中，例如包含“数据”或“分析”在以“数据分析” 为关键词搜索的岗位名称种，我们就认为匹配成功。
    cursor.close()  # 关闭游标
    return after_pipei  # 返回匹配后的列

def split_city(data):
    after_split_city = []  #建立一个空列表，用来存储匹配后数据
    for each_date in data:
        each_date_list = list(each_date)
        each_date_list[5] = each_date_list[5].split('-')[0]    #将数据表中工作地点列以'-'进行切割，选取第一个元素替换
        after_split_city.append(each_date_list)
    return after_split_city
    #返回筛除后的数据

def salary(data):
    after_salary=[]    #建立一个空列表，用来存储匹配后数据
    for each_data in data:
        each_data=list(each_data)
        if each_data[6]   !=  '' and    each_data[6][-1]   != '时' and each_data[6][-3] != '下' and each_data[6][-4:-2] != '以下' and each_data[6][-3] != '上':
    # 筛除缺失值，以小时计费，给出的薪资表达为在“……以下”及“……以上”等难以计算数据的工作岗位
    # 统一量纲（单位:千/月）
            if each_data[6][-1] == '年':
                each_data[6] = str(round((float(each_data[6].split('万')[0].split('-')[0]) + float(each_data[6].split('万')[0].split('-')[1])) * 5/12,1)) + '千 / 月'
            elif each_data[6][-1] == '天':
                each_data[6] = str(round((float(each_data[6].split('元')[0]) * 30/1000),1)) +'千 / 月'
            elif each_data[6][-3] == '万':
                each_data[6] = str(round((float(each_data[6].split('万')[0].split('-')[0]) + float(each_data[6].split('万')[0].split('-')[1])) * 5,1)) + '千/月'
            else:
                each_data[6] = str(round((float(each_data[6].split('千')[0].split('-')[0]) + float(each_data[6].split('千')[0].split('-')[1]) /2),1 )) + '千 / 月'
        after_salary.append(each_data)
    return after_salary

# 返回平均工资后的数据

def job_attribute_text(data):
    for each_data in data:
        if len(each_data[7].split(',')) == 3:
            if ' 经验' in each_data[7].split(',')[1] or ' 在校生' in each_data[7].split(',')[1]:
                each_data[7] = each_data[7].split(',')[1] + ','
                # 以“，”切割后的列表长度为 3，若不包含“经验”元素，则保留“，学历”形式内容
            else:
                each_data[7] = ',' + each_data[7].split(',')[1]
            # 以“，”切割后的列表长度为 4，选取中间两个元素，保留“经验，学历”形式内容
        elif len(each_data[7].split(',')) == 4:
            each_data[7] = each_data[7].split(',')[1] + ',' + each_data[7].split(',')[2]
        else:
            each_data[7] = ''
    return data

#将清洗后的数据保存到数据库中 after_clean 表中，代码和保存爬取数据时类似
def save(data):
    cursor = db.cursor()
    for each_data in data:
        job_name = each_data[0]
        updatedate = each_data[1]
        company_name = each_data[2]
        companyind_text = each_data[3]
        companysize_text = each_data[4]
        workarea_text = each_data[5]
        providesalary_text = each_data[6]
        attribute_text = each_data[7]
        jobwelf = each_data[8]
        present_job = each_data[9]
        sql = "insert into after_clean(当前爬取岗位, 岗位,更新时间,公司名称 ,公司类型,公司规模,工作地点,薪资,工作要求,工作待遇) values(%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)"
        cursor.execute(sql,
                       [present_job, job_name, updatedate,company_name, companyind_text,
                        companysize_text, workarea_text,
                        providesalary_text, attribute_text, jobwelf])
        db.commit()
    cursor.close()
    db.close()

2.2进行数据清洗

if __name__ == "__main__":
    data = pipei()
    data1 = split_city(data)
    data2 = salary(data1)
    data3 = job_attribute_text(data2)
#将清洗后的数据存储到数据库的另一个表格中
    save(data3)

2.3清洗后数据展示

清洗后的数据：薪资、工作要求、工作地点等进行了统一格式

三.数据可视化

采用工具：tableau+python

3.1 柱状图

绘制界面：

图形：

分析：
对于职位的类型的占比可以看出，产品运营类岗位占据了最大的份额，说明信管专业的学生在这类岗位中需求最多，往后的求职过程中可关注此类岗位的职位。此外，技术管理类、技术开发类、技术支持类岗位的占比也在平均值以上，此类岗位也可以多加关注。

3.2 树状图

绘制界面：

绘制图形：

分析：
从学历要求的树状图可以看出，市场上的大部分与信管相关职位的需求是大专和本科均占据47%左右，对于硕士和博士等更高学历的要求分别占据0.0754066%、1.86667%，说明信管专业相关职业的学历门槛并不会太高。

3.3各岗位类型公司规模数量特征条形图

绘制界面：

绘制图形：

分析：
各岗位类型公司规模数量特征条形图可以看出，对于产品运营类职位，公司的规模规模主要为500人以下的公司。数据运营类、技术管理类、数据管理类公司大厂10000人以上的大厂占比较高，如果你想去大厂，那么可以选择这类职位发展。

3.4 热力图

绘制界面：

绘制图形：

分析：
通过对信管所有相关岗位的热力图分析可知，信管专业的工作地点在：上海、北京、成都、杭州、武汉、南京、深圳、广州、重庆、等地较多，其中在上海、广州、深圳3地的最多。此外，郑州、西安、长沙、合肥等地的职位也相对较多，所以如果想避免竞争的激烈，可以考虑这些地方。

3.5 箱线图

绘图界面：

绘制图形：

分析：
从学历的薪资水平箱线图可以看出：随着学历的上升，薪资的平均水平逐步提升，说明学历对于薪资是具有一定的影响的，学历越高，薪资的平均水平越高。此外，对于大专、本科、硕士类学历的专业，我们可以看到许多在箱线图以外的点，这些点表明这些职位的薪资大大超出平均水平，说明在某些职位，对于学历的要求并不是很重要，重要的是个人的其他方面的能力，比如说专业的机能等方面。为此，无论我们在那个阶段，要多加关注自己的职业技能，只要我们的学历和能力不是虚涨的，有实实在在的能力和产出做支撑，就不会有：大学生毕业了找不到工作这种焦虑。

3.6 职位薪资Sankey图

绘制界面：

绘制图形：

分析：
通过职位薪资的桑基图可以看出：月薪，产品运营类职位的薪资大部分在10-15K，其余集中在5-10k；技术管理类与技术开发类，部分达到15-20k，其余集中在10-15K；技术支持类大约二分之一达到20-25k；对于25k以上的高薪职位主要集中在业务咨询、数据运营、数据管理、技术支持类职业。其中月薪在40k及以上，基本分布在业务咨询、数据运营类职位，所以有超高薪职位目标的同学，可以考虑往这类职业发展。

3.7 岗位工作待遇热词词云图

代码：

#设计词频统计函数
def wordcount(txt):
    #转化为列表
        # 统计词频的字典
    word_freq = dict()
    # 装载停用词,此处需将资料中给出的hit_stopwords.txt 文件放到本代码所在路径下
    with open(r"D:\Users\yunmeng\PycharmProjects\小项目\大数据和上机二_数据可视化课程\相关文件\stopwords.txt", "r", encoding='utf-8') as f1:
        # 读取我们的待处理本文
        txt1 = f1.readlines()
    stoplist = []
    for line in txt1:
        stoplist.append(line.strip('\n'))

    #  切分、停用词过滤、统计词频
    for w in list(jieba.cut(txt)):
        if len(w) > 1 and w not in stoplist:
            if w not in word_freq:
                word_freq[w] = 1
            else:
                word_freq[w] = word_freq[w] + 1
    return word_freq

#连接数据库
db = pymysql.connect(
    host="127.0.0.1",
    user="root", password="12345678",
    database="python上机", charset="utf8"
)
cursor = db.cursor()
cursor.execute("SELECT `工作待遇` FROM `after_clean`")
results = cursor.fetchall()
txt = ''
for each_result in results:
    txt = txt + each_result[0]
word_dict=wordcount(txt)
da = pd.DataFrame({'word': word_dict.keys(), 'count': word_dict.values()})
#将词频统计的结果导出
da.to_csv(r'D:\Users\RK\PycharmProjects\小项目\大数据和上机二_数据可视化课程\代码文件\word_count.csv')
#将导出的词频文件导入到tableau进行词云图的绘制

绘制图形：

分析：
通过岗位工作待遇热词词云图可以看到，工作待遇之中，企业最常提到的是：绩效奖金、年终奖、专业培训、餐饮、交通、弹性、体检、通勤、医疗保险、期权等。说明了，我们求职时，考虑岗位时不要只单单看给的薪资是多少，其中涉及的对于绩效奖金、交通、医疗、餐饮、期权等与我们每日生活相关的衣、食、住、行和个人工作，个人晋升等多方面的条件都需要我们进行综合的考虑加以衡量，最终找出适合自己期望的职位。

3.8 不同类型岗位更新数量的折线图

绘制图形：

分析：
从不同类型岗位更新数量的折线图可以看出，各类型职位从10月份开始，均有扩大招聘数量的趋势，并且在11-12月增长速度最快。产品运营、技术管理、技术开发、技术支持等类的职位需求增长相对较多，其中产品运营类增长最多。因此，有求职意向的同学，求职时要多加注意10月开始的这个岗位需求增长的浪潮，最为注意的是11月-12月期间。在此期间准备充分，争取拿到心仪offers。

四.结合自身对信管职位的分析

4.1简介

求职目标：高薪、学历本科、大厂
对数据进行筛选
筛选条件：
①岗位类型：根据3.6 职位薪资Sankey图其中月薪在40k及以上，基本分布在业务咨询、数据运营类职位，所以对这类岗位类型进行筛选
②学历要求：本科、在校生or应届生
③月薪类别：40k+

绘制图形：

4.2分析

在40k以上的职位，根据薪资的方差，如果寻求平稳，那么可以选择数据运营类的职位，包括数据运营、数据分析岗位；如果有追求更高薪资水平的想法，可以尝试数据管理类职位，包括信息咨询与数据挖掘岗位。
此外：对筛选出的数据运营与数据管理类岗位进行导出到：结合自身对信管职位的分析筛选出的目标岗位.csv文件

数据结果如下：

对其中的公司名称进行词云图展现

可以看到：目标职业对应的主要公司是：腾讯和字节跳动。

4.3总结

如果你的求职目标是：高薪、学历本科、大厂。如果寻求平稳，那么可以选择数据运营类的职位，包括数据运营、数据分析岗位；如果有追求更高薪资水平的想法，可以尝试数据管理类职位，包括信息咨询与数据挖掘岗位，求职对应的主要公司是：腾讯和字节跳动。

selenium后续！！ paid槮 selenium 测试工具
小项目案例:实现批量下载网页中的资源根据15.3.2小节中的返回网页内容可知,用户只有获取了网页中的图片url才可以将图片下载到*在使用selenium库渲染网页后,可直接通过正则表达式过滤出指定的网页图片，从而实现批量下载接下来以此为思路来实现一个小项目案例。项目任务实现批量下载人民邮电出版社官网中与Python相关的图书封面图片。项目实步骤步骤1，获取人民邮电出版社官网中与Python相关的图
Python爬虫博客：使用Selenium模拟登录并抓取需要身份验证的网站内容 Python爬虫项目 2025年爬虫实战项目 python 爬虫 selenium 信息可视化开发语言百度测试工具
引言在爬虫开发的过程中，我们常常遇到需要身份验证才能访问的网站。例如，很多社交媒体、新闻网站、电商平台等都要求用户登录才能访问一些特定内容。如何模拟登录并抓取这些需要身份验证的网页内容成为了一个非常重要且常见的需求。Selenium，作为一个强大的浏览器自动化工具，不仅可以模拟用户的浏览行为，还能够模拟用户输入用户名和密码、点击登录按钮等操作，突破了普通爬虫工具（如requests）无法处理的Ja
如何解决pip安装报错ModuleNotFoundError: No module named ‘django’问题万粉变现经纪人全栈Bug解决方案专栏 pip django python numpy pycharm 后端 pandas
【Python系列Bug修复PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘django’问题摘要在日常Django项目开发中，最常见的“拦路虎”之一就是ModuleNotFoundError:Nomodulenamed'django'。该异常通常在以下场景出现：在PyCharm2025中新建项目后，直接在Py
Day04_C语言网络编程20250716_sql语言大全 liujing10232929 C语言网络编程 c语言网络 sql
linux中sql语法大全：MYSQL数据库什么是数据库：关系型数据管理系统数据库的结构层次：数据库文件(后缀名.db)->表单->字段->存储的数据数据库里面针对数据的所有操作，都需要使用指令去实现MYSQL数据库特点：特别适合web的环境，和PHP结合非常好低版本的MYSQL依旧是开源软件，适合用来做二次开发先安装一下mysql安装前，检测是否安装了mysql:rpm–qa|grepmysql
基于生成对抗网络增强主动学习的超高温陶瓷硬度优化神经网络15044 深度学习算法仿真模型生成对抗网络学习人工智能
复现论文：基于生成对抗网络增强主动学习的超高温陶瓷硬度优化我将使用Python复现这篇关于使用生成对抗网络(GAN)增强主动学习来优化超高温陶瓷(UHTC)硬度的研究论文。以下是完整的实现代码和解释。1.环境准备和数据加载首先，我们需要准备必要的Python库并加载数据。importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltimpor
基于R、Python的Copula变量相关性分析及AI大模型应用梦想的初衷~ 环境气象人工智能 r语言 python
在工程、水文和金融等各学科的研究中，总是会遇到很多变量，研究这些相互纠缠的变量间的相关关系是各学科的研究的重点。虽然皮尔逊相关、秩相关等相关系数提供了变量间相关关系的粗略结果，但这些系数都存在着无法克服的困难。例如，皮尔逊相关系数只能反映变量间的线性相关，而秩相关则更多的适用于等级变量。大多数情况下变量间的相关性非常复杂，而且随着变量取值的变化而变化，而这些相关系数都是全局性的，因此无法提供变量间
Python 桌面版数独游戏（一版）香蕉可乐荷包蛋 #数独 python 游戏 java
设计思路详解：Python桌面版数独游戏1.功能需求分析构建一个9x9的数独游戏界面。支持玩家手动输入数字。提供两个按钮：“重新开始本局”：恢复当前棋盘到初始状态（保留原始数字）。“生成新棋局”：生成一个新的随机数独题目。使用标准库实现，无需额外安装。2.技术选型使用tkinter：Python标准GUI库，适合小型桌面应用。使用random和copy：用于生成数独题目和深拷贝原始题目。采用回溯算
Copula 回归与结构方程模型：R 语言构建多变量因果关系网络
技术点目录专题一、R及Python语言及相关性研究初步专题二、二元Copula理论与实践（一）专题三、二元Copula理论与实践（二）【R语言为主】专题四、Copula函数的统计检验与选择【R语言为主】专题五、高维数据与VineCopula【R语言】专题六、正则VineCopula（一）【R语言】专题七、正则VineCopula（二）【R语言】专题八、时间序列中的Copula【R语言】专题九、Co
centos7安装python3并配置环境变量 weixin_46119222 centos python3.11
在CentOS7上安装Python3并将其设置为默认版本，可以按照以下步骤进行：1.安装Python3首先，你需要安装Python3。在CentOS7上，你可以通过yum包管理器来安装Python3。执行以下命令：bash复制代码sudoyuminstallpython3这个命令会使用yum来安装Python3。2.安装依赖文件（可选）如果你打算从源代码安装Python3，或者需要某些特定的库和功
python automl_自动化的机器学习(AutoML)：将AutoML部署到云中
编辑推荐:在本文中，将介绍一种AutoML设置，使用Python、Flask在云中训练和部署管道；以及两个可自动完成特征工程和模型构建的AutoML框架。本文来自于搜狐网，由火龙果软件Alice编辑、推荐。AutoML到底是什么？AutoML是一个很宽泛的术语，理论上来说，它囊括从数据探索到模型构建这一完整的数据科学循环周期。但是，我发现这个术语更多时候是指自动的特征预处理和选择、模型算法选择和超
利用Python实现QQ实时到账免签支付原创 0xdF Python学习 python
原创转载请注明出处核心部分:解决QQ的登录验证问题主要利用python的selenium库和QQ的快速登录实现登录网页再利用抓到的json来输出今日的订单情况直接上代码importrequestsimporttimeimportosfromseleniumimportwebdriverimportsysimportshutilimportjson'''注意:要实现QQ钱包实时到账需要在服务器上登录
Synergizing RAG and Reasoning: A Systematic Review-RAG与推理能力深度结合-新方向数据分析能量站机器学习人工智能
欢迎关v：数据分析能量站0论文小结一、研究背景与核心问题大语言模型（LLM）在处理复杂任务时面临两大瓶颈：知识局限性：纯LLM存在“知识幻觉”（编造事实）和“领域知识缺口”；推理浅度：传统检索增强生成（RAG）仅通过关键词匹配获取信息，无法处理多跳推理、语义歧义等复杂需求。核心主张：RAG与推理的深度整合（RAG+Reasoning）是突破上述瓶颈的关键，通过“检索提供实时知识，推理赋予逻辑能力”
python--自动化的机器学习（AutoML） Q_ytsup5681 python 自动化机器学习
自动化机器学习（AutoML）是一种将自动化技术应用于机器学习模型开发流程的方法，旨在简化或去除需要专业知识的复杂步骤，让非专家用户也能轻松创建和部署机器学习模型**[^3^]。具体介绍如下：1.自动化的概念：自动化是指使设备在无人或少量人参与的情况下完成一系列任务的过程。这一概念随着电子计算机的发明和发展而不断进化，从最初的物理机械到后来的数字程序控制，再到现在的人工智能和机器学习，自动化已经渗
【Python】人脸识别宅男很神经 python 开发语言
第一章：计算机视觉与图像处理的基石在深入人脸识别之前，我们必须首先牢固掌握计算机视觉和图像处理的基本概念。人脸，本质上就是一张复杂的图像，对图像的理解是所有高级视觉任务的起点。1.1图像的本质：像素与数字化表示图像，在我们看来是连续的画面，但在计算机内部，它却是离散的数值矩阵。1.1.1什么是像素？图像的最小单元像素（Pixel），是构成数字图像的最小单位。可以将其想象成一个微小的彩色点。一张数字
SQL 常用版本语法概览：标准演进与关键语法分析
一、引言SQL（StructuredQueryLanguage，结构化查询语言）是关系型数据库系统的核心语言，自1986年成为ANSI和ISO标准以来，经历了多次版本演进，不断增强语义表达能力以适应复杂的企业数据需求。随着数据库技术的不断发展，各大数据库厂商（如Oracle、SQLServer、PostgreSQL、MySQL等）在实现标准的基础上扩展了大量方言语法，使得掌握SQL的标准语法版本成
主流数据库语言语法对比两圆相切数据库
以下是五大数据库（MySQL、PostgreSQL、Oracle、SQLServer、SQLite）核心语法对比，涵盖DDL、DML、查询、函数、事务等全场景，包含底层原理差异和实用示例。##一、数据一、类型深度对比分类MySQLPostgreSQLOracleSQLServerSQLite整数TINYINT,INT,BIGINTSMALLINT,INT,BIGINTNUMBER(10)TIN
python 函数校园伴侣
函数函数也是一个对象对象是内存中专门用来存储数据的一块区域，函数可以用来保存一些可执行的代码，并且可以在需要时，对这些语句进行多次的调用创建函数：def函数名([形参1,形参2,…形参n]):代码块函数名必须要符合标识符的规范（可以包含字母、数字、下划线、但是不能以数字开头）函数中保存的代码不会立即执行，需要调用函数代码才会执行-调用函数：函数对象()-定义函数一般都是要实现某种功能的定义函数de
（四）Python总结笔记：函数 Laura_Wangzx Python学习笔记 python
Python总结笔记（四）函数python中的函数函数中的参数变量作用域偏函数PFA递归函数高阶函数BIFs中的高阶函数匿名函数lambda闭包Closure装饰器Decorator函数式编程FunctionalProgramming1.python中的函数￭函数的意义:■1.对输入进行变换映射后输出，可以进行反复调用。以函数名对代码块进行封装■2.过程化VS结构化￭函数的创建及结构:■定义函数名
Python 算法基础篇之线性搜索算法：顺序搜索、二分搜索挣扎的蓝藻 Python算法初阶：入门篇 python 算法开发语言
Python算法基础篇之线性搜索算法：顺序搜索、二分搜索引用1.顺序搜索算法2.二分搜索算法3.顺序搜索和二分搜索的对比a)适用性b)时间复杂度c)前提条件4.实例演示实例1：顺序搜索实例2：二分搜索总结引用在算法和数据结构中，搜索是一种常见的操作，用于查找特定元素在数据集合中的位置。线性搜索算法是最简单的搜索算法之一，在一组数据中逐一比较查找目标元素。本篇博客将介绍线性搜索算法的两种实现方式：顺
Python基础（四）函数
一、函数简介函数也是一个对象。对象是内存中专门用来存储数据的一块区域。函数用来保存一些可执行代码，并且在需要时，可以重复调用。创建函数：def函数名([形参1，形参2，.....形参n]):代码块函数名必须要符合标识符规范可以包含字母、数字、下划线，但不能以数字开头。函数中保存的代码，需要被调用才会执行。调用函数：函数对象()二、函数参数定义函数时，可以在函数名后定义数量不等的形参，多个形参以，隔
Frida使用指南（三）- Objection 象野VH Android 逆向进阶逆向
1.什么是objectionobjection是基于frida的命令行hook集合工具,可以让你不写代码,敲几句命令就可以对java函数的高颗粒度hook,还支持RPC调用。可以实现诸如内存搜索、类和模块搜索、方法hook打印参数返回值调用栈等常用功能，是一个非常方便的，逆向必备、内存漫游神器。项目地址2.objection环境配置已不更新，要和frida的版本匹配python使用的版本建议大于3
lesson17：Python函数之递归、匿名函数与变量作用域
目录引言一、递归函数：用自身解构复杂问题1.递归的基本结构2.递归的典型应用场景3.递归的优缺点与优化二、匿名函数：用lambda实现“一句话函数”1.lambda与普通函数的区别2.lambda的典型应用3.lambda的局限性三、变量作用域：理解LEGB规则1、LEGB规则的深度解析（1）Local（局部作用域）（2）Enclosing（嵌套作用域）（3）Global（全局作用域）（4）Bui
lesson11：Python的字典及方法你的电影很有趣 windows python
目录前言一、字典的定义与核心价值创建方式：二、核心特性：键的规则与无序性演变1、键的不可变性与唯一性2、无序性与Python版本差异三、常用操作与方法全解析四、与列表/元组的对比：数据结构选型指南五、高级应用技巧六、避坑指南：常见错误与最佳实践总结前言在Python的“数据结构工具箱”中，字典（Dictionary）无疑是最灵活、最强大的工具之一。无论是存储用户信息、解析JSON数据，还是实现缓存
Conda 核心命令快速查阅表拉拉拉拉拉拉拉马 conda
本表旨在提供一个简洁、高效的Conda命令参考，专注于最常用功能的快速查找。1.环境管理(EnvironmentManagement)功能(Function)命令(Command)示例(Example)创建新环境condacreate-n[packages...]condacreate-nmyenvpython=3.9pandas激活环境condaactivatecondaactivatemyen
frida objection注入时frida.core.RPCException: ReferenceError: ‘ObjC‘ is not defined解决马戏团小丑 java android
最新的17.0.xx版本frida进行objection注入时会报错PSC:\Users\19583>objection-gcom.example.hellojniexploreC:\Users\19583\AppData\Local\Programs\Python\Python312\Lib\site-packages\objection\utils\update_checker.py:7:Us
lesson18：Python函数的闭包与装饰器（难）你的电影很有趣 python 开发语言
目录引言闭包：函数式编程的"状态容器"一、闭包的本质与定义二、闭包的三大形成条件三、闭包的工作原理：变量的“持久化”四、闭包的核心应用场景五、闭包的注意事项六、闭包与装饰器的关系装饰器：基于闭包的功能增强工具一.装饰器的定义与作用二.装饰器的实现原理（基于闭包）三、装饰器进阶：灵活扩展功能1.带参数的装饰器2.保留函数元信息3.类装饰器与装饰器嵌套四、装饰器实战案例案例一：时间开销计算（性能监控）
Python 模块化编程全解析：模块、包与第三方库管理指南 xw3373409564 java 前端数据库
模块与包模块化编程是什么？用生活例子秒懂想象你在搭乐高积木：每个小积木块都有特定功能（比如轮子、窗户、墙壁）——这就像模块（一个.py文件，封装了函数或类）。把相关的积木块装进一个盒子里，方便分类和取用——这就像包（一个文件夹，里面装多个模块和子包，带__init__.py标识）。模块化编程的核心思想是：把复杂代码拆成小而独立的"积木"，需要时直接拿来用，不用重复造轮子。1.模块的概念模块就是一个
leetcode 搜索二维矩阵 II python 四分法 DaydayHoliday
利用矩阵左上角元素总是最小，右下角总是最大的特性，将矩阵分成四部分，分别递归。请各位大佬多多提意见。classSolution(object):defsearchMatrix(self,matrix,target):""":typematrix:List[List[int]]:typetarget:int:rtype:bool"""row_num=len(matrix)ifrow_num==0:r
python 类实例_Python类的实例详解 weixin_39997173 python 类实例
类(class)是一个用户自定义类型，开发者可以将其实例化以获得实例（instance），实例表示这种类型的对象。在Python中，类就是对象，开发者可以像对其他对象那样处理函数，可以在调用函数时传递一个类作为参数，也可以返回一个类作为函数调用的结果。任何对象，即使是一个类对象，都有一个类型。在Python中，类型和类也都是第一类对象。类对象的类型也被称为该类的元类（metaclass）。对象的行
python的signal weixin_33690963 python
今天在使用python的signal时，发现第二个传的函数必须是拥有两个函数参数变量的1importsignal2importtime3flag=True4deffunc1(a,b):5print"recieveSIGTERM"6globalflag7print"flag%s"%flag8flag=False9print"flag%s"%flag101112defmain():13signal.s
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要

爬取51job职位信息--进行专业市场需求可视化分析（python、tableau、DBeaver）

文章目录

一．数据爬取

1.1导入相关的库

1.2对每个岗位搜索的到的总页数进行爬取

1.3进行爬取数据相关函数的设计

1.4进行数据的爬取

1.5数据库爬取到的数据展示

二.数据清洗

2.1清洗相关函数的设计

2.2进行数据清洗

2.3清洗后数据展示

三.数据可视化

3.1 柱状图

3.2 树状图

3.3各岗位类型公司规模数量特征条形图

3.4 热力图

3.5 箱线图

3.6 职位薪资Sankey图

3.7 岗位工作待遇热词词云图

3.8 不同类型岗位更新数量的折线图

四.结合自身对信管职位的分析

4.1简介

4.2分析

4.3总结

你可能感兴趣的:(数据分析,python,mysql,数据分析,数据可视化)