Nick-洪仔

前程无忧岗位数据爬取+Tableau可视化分析

一、项目背景

二、数据爬取

1、相关库的导入与说明

2、获取二级页面链接

1）分析一级页面url特征

2）构建一级url库

3）爬取所有二级url链接

3、获取岗位信息并保存

三、数据清洗

1、数据读取、去重、空值处理

1）相关库导入及数据读取

2）数据去重与控制处理

2、“岗位名称”字段预处理

1）”岗位名称“字段预览

2）构建关键词，筛选名称

3）岗位名称标准化处理

3、“岗位薪资”字段预处理

4、“公司规模”字段预处理

5、“职位信息”字段预处理

6、其它字段预处理

7、数据存储

四、Tableau数据可视化展示

1、岗位数量城市分布气泡图

2、热门城市用人需求Top15

3、用人需求Top15行业及其薪资情况

4、各类型企业岗位需求树状分布图

5、经验学历与薪资需求突出显示表

6、不同行业知识、技能要求词云图

1）传统制造业

2）计算机相关行业

3）服务行业

6、岗位数量与薪资水平地理分布

7、可视化看板最终展示结果

五、源代码

1、爬虫源代码

2、数据预处理源码

一、项目背景

随着科技的不断进步与发展，数据呈现爆发式的增长，各行各业对于数据的依赖越来越强，与数据打交道在所难免，而社会对于“数据”方面的人才需求也在不断增大。因此了解当下企业究竟需要招聘什么样的人才？需要什么样的技能？不管是对于在校生，还是对于求职者来说，都显得十分必要。
对于一名小白来说，想要入门数据分析，首先要了解目前社会对于数据相关岗位的需求情况，基于这一问题，本文针对前程无忧招聘网站，利用python爬取了其全国范围内大数据、数据分析、数据挖掘、机器学习、人工智能等与数据相关的岗位招聘信息。并通过Tableau可视化工具分析比较了不同行业的岗位薪资、用人需求等情况；以及不同行业、岗位的知识、技能要求等。

可视化分析效果图示例：

二、数据爬取

爬取字段：岗位名称、公司名称、薪资水平、工作经验、学历需求、工作地点、招聘人数、发布时间、公司类型、公司规模、行业领域、福利待遇、职位信息；
说明：在前程无忧招聘网站中，我们在搜索框中输入“数据”两个字进行搜索发现，共有2000个一级页面，其中每个页面包含50条岗位信息，因此总共有约100000条招聘信息。当点击一级页面中每个岗位信息时，页面会跳转至相应岗位的二级页面，二级页面中即包含我们所需要的全部字段信息；

一级页面如下：

二级页面如下：

爬取思路：先针对一级页面爬取所有岗位对应的二级页面链接，再根据二级页面链接遍历爬取相应岗位信息；
开发环境：python3、Spyder

1、相关库的导入与说明

import json
import requests
import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from lxml import etree
from selenium.webdriver import ChromeOptions

由于前程无忧招聘网站的反爬机制较强，采用动态渲染+限制ip访问频率等多层反爬，因此在获取二级页面链接时需借助json进行解析，本文对于二级页面岗位信息的获取采用selenium模拟浏览器爬取，同时通过代理IP的方式，每隔一段时间换一次请求IP以免触发网站反爬机制。

2、获取二级页面链接

1）分析一级页面url特征

# 第一页URL的特征
"https://search.51job.com/list/000000,000000,0000,00,9,99,数据,2,1.html?"
# 第二页URL的特征
"https://search.51job.com/list/000000,000000,0000,00,9,99,数据,2,2.html?"
# 第三页URL的特征
"https://search.51job.com/list/000000,000000,0000,00,9,99,数据,2,3.html?"

通过观察不同页面的URL可以发现，不同页面的URL链接只有“.html”前面的数字不同，该数字正好代表该页的页码，因此只需要构造字符串拼接，然后通过for循环语句即可构造自动翻页。

2）构建一级url库

url1 = []
for i in range(2000):
    url_pre = "https://search.51job.com/list/000000,000000,0000,00,9,99,数据,2,%s" % (1+i) #设置自动翻页   
    url_end = ".html?"
    url_all = url_pre + url_end
    url1.append(url_all)
print("一级URL库创建完毕")

3）爬取所有二级url链接

url2 = []
j = 0
for url in url1:
    j += 1
    re1 = requests.get(url , headers = headers,proxies= {'http':'tps131.kdlapi.com:15818'},timeout=(5,10))  #通过proxies设置代理ip
    html1 = etree.HTML(re1.text)    
    divs = html1.xpath('//script[@type = "text/javascript"]/text()')[0].replace('window.__SEARCH_RESULT__ = ',"")    
    js = json.loads(divs)
    for i in range(len(js['engine_jds'])):
        if js['engine_jds'][i]['job_href'][0:22] == "https://jobs.51job.com":
            url2.append(js['engine_jds'][i]['job_href'])
        else:
            print("url异常，弃用")  #剔除异常url
    print("已爬取"+str(j)+"页")
print("成功爬取"+str(len(url2))+"条二级URL")

注意：爬取二级URL链接时发现并非爬取的所有链接都是规范的，会存在少部分异常URL，这会对后续岗位信息的爬取造成干扰，因此需要利用if条件语句对其进行剔除。

3、获取岗位信息并保存

option = ChromeOptions()
option.add_experimental_option('excludeSwitches', ['enable-automation'])
option.add_argument('--proxy-server=http://tps131.kdlapi.com:15818')  #设置代理ip
driver = webdriver.Chrome(options=option)
for url in url2:
    co = 1
    while co == 1:
        try:
            driver.get(url)
            wait = WebDriverWait(driver,10,0.5)
            wait.until(EC.presence_of_element_located((By.ID,'topIndex')))
        except:
            driver.close()
            driver = webdriver.Chrome(options=option)
            co = 1
        else:
            co = 0
    try:
        福利待遇 = driver.find_elements_by_xpath('//div[@class = "t1"]')[0].text 
        岗位名称 = driver.find_element_by_xpath('//div[@class = "cn"]/h1').text
        薪资水平 = driver.find_element_by_xpath('//div[@class = "cn"]/strong').text
        职位信息 = driver.find_elements_by_xpath('//div[@class = "bmsg job_msg inbox"]')[0].text
        公司类型 = driver.find_elements_by_xpath('//div[@class = "com_tag"]/p')[0].text
        公司规模 = driver.find_elements_by_xpath('//div[@class = "com_tag"]/p')[1].text
        公司领域 = driver.find_elements_by_xpath('//div[@class = "com_tag"]/p')[2].text
        公司名称 = driver.find_element_by_xpath('//div[@class = "com_msg"]/a/p').text
        工作地点 = driver.find_elements_by_xpath('//div[@class = "cn"]//p[@class = "msg ltype"]')[0].text.split("|")[0]
        工作经验 = driver.find_elements_by_xpath('//div[@class = "cn"]//p[@class = "msg ltype"]')[0].text.split("|")[1]
        学历要求 = driver.find_elements_by_xpath('//div[@class = "cn"]//p[@class = "msg ltype"]')[0].text.split("|")[2]
        招聘人数 = driver.find_elements_by_xpath('//div[@class = "cn"]//p[@class = "msg ltype"]')[0].text.split("|")[3]
        发布时间 = driver.find_elements_by_xpath('//div[@class = "cn"]//p[@class = "msg ltype"]')[0].text.split("|")[4]
    except:
        福利待遇 = "nan" 
        岗位名称 = "nan"
        薪资水平 = "nan"
        职位信息 = "nan"
        公司类型 = "nan"
        公司规模 = "nan"
        公司领域 = "nan"
        公司名称 = "nan"
        工作地点 = "nan"
        工作经验 = "nan"
        学历要求 = "nan"
        招聘人数 = "nan"
        发布时间 = "nan"
        print("信息提取异常，弃用")
    finally:     
        info = {    
            "岗位名称" : 岗位名称,
            "公司名称" : 公司名称,
            "薪资水平" : 薪资水平,
            "工作经验" : 工作经验,
            "学历要求" : 学历要求,
            "工作地点" : 工作地点,
            "招聘人数" : 招聘人数,
            "发布时间" : 发布时间,
            "公司类型" : 公司类型,
            "公司规模" : 公司规模,
            "公司领域" : 公司领域,
            "福利待遇" : 福利待遇,
            "职位信息" : 职位信息
            }
        jobs_info.append(info)
df = pd.DataFrame(jobs_info)
df.to_excel(r"E:\python爬虫\前程无忧招聘信息.xlsx")

在爬取并剔除异常数据之后，最终得到了90000多条完整的数据做分析，但经过观察发现，所爬取的数据并非全都与“数据”岗位相关联。实际上，前程无忧招聘网站上与“数据”有关的只有几百页，而我们爬取了2000页的所有数据，因此在后面进行数据处理时需要把无关的数据剔除掉。在爬取前根据对代码的测试发现，有些岗位字段在进行爬取时会出现错位，从而导致数据存储失败，为了不影响后面代码的执行，这里设置了“try-except”进行异常处理，同时使用while循环语句在服务器出现请求失败时关闭模拟浏览器并进行重新请求。

三、数据清洗

1、数据读取、去重、空值处理

在获取了所需数据之后，可以看出数据较乱，并不利于我们进行分析，因此在分析前需要对数据进行预处理，得到规范格式的数据才可以用来最终做可视化数据展示。

获取的数据截图如下：

1）相关库导入及数据读取

#导入相关库
import pandas as pd
import numpy as np
import jieba

#读取数据
df = pd.read_excel(r'E:\python爬虫\前程无忧招聘信息.xlsx',index_col=0)

2）数据去重与控制处理

对于重复值的定义，我们认为一个记录的公司名称和岗位名称一致时，即可看作是重复值。因此利用drop_duplicates()函数剔除所有公司名称和岗位名称相同的记录并保留第一个记录。
对于空值处理，只删除所有字段信息都为nan的记录。

#去除重复数据
df.drop_duplicates(subset=['公司名称','岗位名称'],inplace=True)

#空值删除
df[df['公司名称'].isnull()]
df.dropna(how='all',inplace=True)

2、“岗位名称”字段预处理

1）”岗位名称“字段预览

首先我们对“岗位名称”的格式进行调整，将其中所有大写英文字母统一转换为小写，例如将"Java"转换为"java"，然后对所有岗位做一个频次统计，统计结果发现“岗位名称”字段很杂乱，且存在很多与“数据”无关的岗位，因此要对数据做一个筛选。

df['岗位名称'] = df['岗位名称'].apply(lambda x:x.lower())
counts = df['岗位名称'].value_counts()

2）构建关键词，筛选名称

首先我们列出与“数据”岗位“有关的一系列关键词，然后通过count()与for语句对所有记录进行统计判断，如果包含任一关键词则保留该记录，如果不包含则删除该字段。

#构建目标关键词
target_job = ['算法','开发','分析','工程师','数据','运营','运维','it','仓库','统计']
#筛选目标数据
index = [df['岗位名称'].str.count(i) for i in target_job]
index = np.array(index).sum(axis=0) > 0
job_info = df[index]

3）岗位名称标准化处理

基于前面对“岗位名称”字段的统计情况，我们定义了目标岗位列表job_list，用来替换统一相近的岗位名称，之后，我们将“数据专员”、“数据统计”统一归为“数据分析”。

job_list = ['数据分析',"数据统计","数据专员",'数据挖掘','算法','大数据','开发工程师','运营',
            '软件工程','前端开发','深度学习','ai','数据库','仓库管理','数据产品','客服',
            'java','.net','andrio','人工智能','c++','数据管理',"测试","运维","数据工程师"]
job_list = np.array(job_list)
def Rename(x,job_list=job_list):
    index = [i in x for i in job_list]
    if sum(index) > 0:
        return job_list[index][0]
    else:
        return x
job_info['岗位名称'] = job_info['岗位名称'].apply(Rename)
job_info["岗位名称"] = job_info["岗位名称"].apply(lambda x:x.replace("数据专员","数据分析"))
job_info["岗位名称"] = job_info["岗位名称"].apply(lambda x:x.replace("数据统计","数据分析"))

统一之后的“岗位名称”如下图所示：

3、“岗位薪资”字段预处理

对于“岗位薪资”字段的处理，重点在于对其单位格式转换，在简单观察该字段后发现，其存在“万/年”、“万/月”、“千/月”等不同单位，因此需要对其做一个统一换算，将数据格式统一转换为“元/月”，并根据最高工资与最低工资求出平均值。

job_info['岗位薪资'].value_counts()

#剔除异常数据
index1 = job_info["岗位薪资"].str[-1].isin(["年","月"])
index2 = job_info["岗位薪资"].str[-3].isin(["万","千"])
job_info = job_info[index1 & index2]
#计算平均工资
job_info['平均薪资'] = job_info['岗位薪资'].astype(str).apply(lambda x:np.array(x[:-3].split('-'),dtype=float))
job_info['平均薪资'] = job_info['平均薪资'].apply(lambda x:np.mean(x))
#统一工资单位
job_info['单位'] = job_info['岗位薪资'].apply(lambda x:x[-3:])
def con_unit(x):
    if x['单位'] == "万/月":
        z = x['平均薪资']*10000
    elif x['单位'] == "千/月":
        z = x['平均薪资']*1000
    elif x['单位'] == "万/年":
        z = x['平均薪资']/12*10000
    return int(z)
job_info['平均薪资'] = job_info.apply(con_unit,axis=1)
job_info['单位'] = '元/月'

说明：首先我们对该字段进行统计预览，之后做一个数据筛选剔除异常单位与空值记录，再计算出每个字段的平均工资，接着定义一个函数，将格式换算为“元/月”，得到最终的“平均薪资”字段。

4、“公司规模”字段预处理

对于“公司规模”字段的处理较简单，只需要定义一个if条件语句将其格式做一个转换即可。

job_info['公司规模'].value_counts()
def func(x):
    if x == '少于50人':
        return "<50"
    elif x == '50-150人':
        return "50-150"
    elif x == '150-500人':
        return '150-500'
    elif x == '500-1000人':
        return '500-1000'
    elif x == '1000-5000人':
        return '1000-5000'
    elif x == '5000-10000人':
        return '5000-10000'
    elif x == '10000人以上':
        return ">10000"
    else:
        return np.nan
job_info['公司规模'] = job_info['公司规模'].apply(func)

5、“职位信息”字段预处理

job_info['职位信息'] = job_info['职位信息'].apply(lambda x:x.split('职能类别')[0])
with open(r"E:\python爬虫\数据处理\停用词表.txt",'r',encoding = 'utf8') as f:
    stopword = f.read()
stopword = stopword.split()
#对“职业信息”字段进行简单处理，去除无意义的文字，构造jieba分词
job_info['职位信息'] = job_info['职位信息'].apply(lambda x:x.lower()).apply(lambda x:"".join(x)).apply(lambda x:x.strip()).apply(jieba.lcut).apply(lambda x:[i for i in x if i not in stopword])
#按照行业进行分类，求出每一个行业下各关键词的词频统计，以便于后期做词云图
cons = job_info['公司领域'].value_counts()
industries = pd.DataFrame(cons.index,columns=['行业领域'])
industry = pd.DataFrame(columns=['分词明细','行业领域'])
for i in industries['行业领域']:
    words = []
    word = job_info['职位信息'][job_info['公司领域'] == i]
    word.dropna(inplace=True)
    [words.extend(str(z).strip('\'[]').split("\', \'")) for z in word]
    df1 = pd.DataFrame({'分词明细':words,
                        '行业领域':i})
    industry = industry.append(df1,ignore_index=True)
industry = industry[industry['分词明细'] != "\\n"]
industry = industry[industry['分词明细'] != ""]
#剔除词频小于300的关键词
count = pd.DataFrame(industry['分词明细'].value_counts())
lst = list(count[count['分词明细'] >=300].index)
industry = industry[industry['分词明细'].isin(lst)]
#数据存储
industry.to_excel(r'E:\python爬虫\数据处理\词云.xlsx')

6、其它字段预处理

“工作地点”字段：该字段有”市-区“和”市“两种格式，如”广州-天河“与”广州“，因此需要统一转换为”市“的格式；
“公司领域”字段：每个公司的行业字段可能会有多个行业标签，我们默认以第一个作为改公司的行业标签；
“招聘人数”字段：由于某些公司岗位没有具体招聘人数，因此我们默认以最低需求为标准，将“招若干人”改为“招1人”，以便于后面统计分析；
其它字段：对于其他几个字段格式只存在一些字符串空格问题，因此只需要对其进行去除空格即可。

#工作地点字段处理
job_info['工作地点'] = job_info['工作地点'].apply(lambda x:x.split('-')[0])

#公司领域字段处理
job_info['公司领域'] = job_info['公司领域'].apply(lambda x:x.split('/')[0])
a = job_info['公司领域'].value_counts()

#招聘人数字段处理
job_info['招聘人数'] = job_info['招聘人数'].apply(lambda x:x.replace("若干","1").strip()[1:-1])

#工作经验与学历要求字段处理
job_info['工作经验'] = job_info['工作经验'].apply(lambda x:x.replace("无需","1年以下").strip()[:-2])
job_info['学历需求'] = job_info['学历需求'].apply(lambda x:x.split()[0])

#公司福利字段处理
job_info['公司福利'] = job_info['公司福利'].apply(lambda x:str(x).split())

7、数据存储

我们针对清洗干净后的数据另存为一个文档，对源数据不做修改。

job_info.to_excel(r'E:\python爬虫\前程无忧（已清洗）.xlsx')

四、Tableau数据可视化展示

1、岗位数量城市分布气泡图

结论分析：从气泡图中可以看出，“数据”相关岗位数量较高的城市有：上海、深圳、广州、北京、杭州、武汉等。

2、热门城市用人需求Top15

结论分析：通过条形图可以看出，“数据”相关岗位用人需求达1000人以上的城市有15个，需求由高到低依次为：上海、深圳、广州、北京、武汉、杭州、成都、南京、苏州、无锡、西安、长沙、郑州、重庆。其中上海用人需求高达10000人。

3、用人需求Top15行业及其薪资情况

结论分析：从不同行业的用人需求与薪资对比可知，用人需求排名前4的行业分别：计算机软件、互联网、电子技术、计算机服务；平均薪资排名前4的行业分别为：互联网、计算机软件、通信、专业服务。可以发现，“数据”相关岗位在计算机领域需求大，薪资高，前景好。

4、各类型企业岗位需求树状分布图

结论分析：在发布的众多岗位需求信息中，以民营公司为主，其岗位数量、用人需求极高，但薪资待遇一般，而上市公司的岗位数量一般，但薪资待遇好。

5、经验学历与薪资需求突出显示表

注：颜色深浅表示薪资高低，数字表示招聘人数

结论分析：根据突出显示表可以发现，在学历要求方面，大专与本科生需求量较大；经验要求方面，3年以下相关经验的岗位占大多数，而薪资方面，学历越高，经验越丰富则薪资越高。因此可以判断数据分析行业还是一个较新兴的行业，目前行业的基础岗位较多，且具有丰富经验的专家较少。

6、不同行业知识、技能要求词云图

1）传统制造业

2）计算机相关行业

3）服务行业

结论分析：上图通过列举了传统制造业、计算机相关行业以及服务业三个行业进行对比分析，三个行业对于“数据”相关岗位工作要求的共同点都是注重相关的行业经验及数据处理等能力，而计算机相关行业对于技术如开发、数据库、系统维护等编程能力要求较高，传统制造业和服务行业则更侧重于业务分析、管理、团队合作综合型能力等。

6、岗位数量与薪资水平地理分布

7、可视化看板最终展示结果

五、源代码

1、爬虫源代码

import json
import requests
import pandas as pd
from lxml import etree
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver import ChromeOptions
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

url1 = []
url2 = []
jobs_info = []
for i in range(2000):
    url_pre = "https://search.51job.com/list/000000,000000,0000,00,9,99,数据,2,%s" % (1+i)    #页面跳转
    url_end = ".html?"
    url_all = url_pre + url_end
    url1.append(url_all)
print("一级URL库创建完毕")

#从json中提取数据并加载
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.63 Safari/537.36',
           'Connection': 'close',
           'Host': 'search.51job.com'}
j = 0
for url in url1:
    j += 1
    re1 = requests.get(url , headers = headers,proxies= {'http':'tps131.kdlapi.com:15818'},timeout=(5,10))
    html1 = etree.HTML(re1.text)    
    divs = html1.xpath('//script[@type = "text/javascript"]/text()')[0].replace('window.__SEARCH_RESULT__ = ',"")    
    js = json.loads(divs)
    for i in range(len(js['engine_jds'])):
        if js['engine_jds'][i]['job_href'][0:22] == "https://jobs.51job.com":
            url2.append(js['engine_jds'][i]['job_href'])
        else:
            print("url异常，弃用")
    print("已解析"+str(j)+"页")
print("成功提取"+str(len(url2))+"条二级URL")

#爬取岗位数据
option = ChromeOptions()
option.add_experimental_option('excludeSwitches', ['enable-automation'])
option.add_argument('--proxy-server=http://tps131.kdlapi.com:15818') 
driver = webdriver.Chrome(options=option)
for url in url2:
    co = 1
    while co == 1:
        try:
             #设置IP代理
            driver.get(url)
            wait = WebDriverWait(driver,10,0.5)
            wait.until(EC.presence_of_element_located((By.ID,'topIndex')))
        except:
            driver.close()
            driver = webdriver.Chrome(options=option)
            co = 1
        else:
            co = 0
    try:
        福利待遇 = driver.find_elements_by_xpath('//div[@class = "t1"]')[0].text 
        岗位名称 = driver.find_element_by_xpath('//div[@class = "cn"]/h1').text
        薪资水平 = driver.find_element_by_xpath('//div[@class = "cn"]/strong').text
        职位信息 = driver.find_elements_by_xpath('//div[@class = "bmsg job_msg inbox"]')[0].text
        公司类型 = driver.find_elements_by_xpath('//div[@class = "com_tag"]/p')[0].text
        公司规模 = driver.find_elements_by_xpath('//div[@class = "com_tag"]/p')[1].text
        公司领域 = driver.find_elements_by_xpath('//div[@class = "com_tag"]/p')[2].text
        公司名称 = driver.find_element_by_xpath('//div[@class = "com_msg"]/a/p').text
        工作地点 = driver.find_elements_by_xpath('//div[@class = "cn"]//p[@class = "msg ltype"]')[0].text.split("|")[0]
        工作经验 = driver.find_elements_by_xpath('//div[@class = "cn"]//p[@class = "msg ltype"]')[0].text.split("|")[1]
        学历要求 = driver.find_elements_by_xpath('//div[@class = "cn"]//p[@class = "msg ltype"]')[0].text.split("|")[2]
        招聘人数 = driver.find_elements_by_xpath('//div[@class = "cn"]//p[@class = "msg ltype"]')[0].text.split("|")[3]
        发布时间 = driver.find_elements_by_xpath('//div[@class = "cn"]//p[@class = "msg ltype"]')[0].text.split("|")[4]
    except:
        福利待遇 = "nan" 
        岗位名称 = "nan"
        薪资水平 = "nan"
        职位信息 = "nan"
        公司类型 = "nan"
        公司规模 = "nan"
        公司领域 = "nan"
        公司名称 = "nan"
        工作地点 = "nan"
        工作经验 = "nan"
        学历要求 = "nan"
        招聘人数 = "nan"
        发布时间 = "nan"
        print("信息提取异常，弃用")
    finally:     
        info = {    
            "岗位名称" : 岗位名称,
            "公司名称" : 公司名称,
            "薪资水平" : 薪资水平,
            "工作经验" : 工作经验,
            "学历要求" : 学历要求,
            "工作地点" : 工作地点,
            "招聘人数" : 招聘人数,
            "发布时间" : 发布时间,
            "公司类型" : 公司类型,
            "公司规模" : 公司规模,
            "公司领域" : 公司领域,
            "福利待遇" : 福利待遇,
            "职位信息" : 职位信息
            }
        jobs_info.append(info)
df = pd.DataFrame(jobs_info)
df.to_excel(r"E:\python爬虫\前程无忧招聘信息.xlsx")

2、数据预处理源码

import pandas as pd
import numpy as np
import jieba

#数据读取
df = pd.read_excel(r'E:\python爬虫\前程无忧招聘信息.xlsx',index_col=0)

#数据去重与空值处理
df.drop_duplicates(subset=['公司名称','岗位名称'],inplace=True)
df[df['招聘人数'].isnull()]
df.dropna(how='all',inplace=True)

#岗位名称字段处理
df['岗位名称'] = df['岗位名称'].apply(lambda x:x.lower())
counts = df['岗位名称'].value_counts() 
target_job = ['算法','开发','分析','工程师','数据','运营','运维','it','仓库','统计']
index = [df['岗位名称'].str.count(i) for i in target_job]
index = np.array(index).sum(axis=0) > 0
job_info = df[index]
job_list = ['数据分析',"数据统计","数据专员",'数据挖掘','算法','大数据','开发工程师',
            '运营','软件工程','前端开发','深度学习','ai','数据库','仓库管理','数据产品',
            '客服','java','.net','andrio','人工智能','c++','数据管理',"测试","运维","数据工程师"]
job_list = np.array(job_list)
def Rename(x,job_list=job_list):
    index = [i in x for i in job_list]
    if sum(index) > 0:
        return job_list[index][0]
    else:
        return x
job_info['岗位名称'] = job_info['岗位名称'].apply(Rename)
job_info["岗位名称"] = job_info["岗位名称"].apply(lambda x:x.replace("数据专员","数据分析"))
job_info["岗位名称"] = job_info["岗位名称"].apply(lambda x:x.replace("数据统计","数据分析"))

#岗位薪资字段处理
index1 = job_info["岗位薪资"].str[-1].isin(["年","月"])
index2 = job_info["岗位薪资"].str[-3].isin(["万","千"])
job_info = job_info[index1 & index2]
job_info['平均薪资'] = job_info['岗位薪资'].astype(str).apply(lambda x:np.array(x[:-3].split('-'),dtype=float))
job_info['平均薪资'] = job_info['平均薪资'].apply(lambda x:np.mean(x))
#统一工资单位
job_info['单位'] = job_info['岗位薪资'].apply(lambda x:x[-3:])
job_info['公司领域'].value_counts()
def con_unit(x):
    if x['单位'] == "万/月":
        z = x['平均薪资']*10000
    elif x['单位'] == "千/月":
        z = x['平均薪资']*1000
    elif x['单位'] == "万/年":
        z = x['平均薪资']/12*10000
    return int(z)
job_info['平均薪资'] = job_info.apply(con_unit,axis=1)
job_info['单位'] = '元/月'

#工作地点字段处理
job_info['工作地点'] = job_info['工作地点'].apply(lambda x:x.split('-')[0])

#公司领域字段处理
job_info['公司领域'] = job_info['公司领域'].apply(lambda x:x.split('/')[0])

#招聘人数字段处理
job_info['招聘人数'] = job_info['招聘人数'].apply(lambda x:x.replace("若干","1").strip()[1:-1])

#工作经验与学历要求字段处理
job_info['工作经验'] = job_info['工作经验'].apply(lambda x:x.replace("无需","1年以下").strip()[:-2])
job_info['学历需求'] = job_info['学历需求'].apply(lambda x:x.split()[0])

#公司规模字段处理
job_info['公司规模'].value_counts()
def func(x):
    if x == '少于50人':
        return "<50"
    elif x == '50-150人':
        return "50-150"
    elif x == '150-500人':
        return '150-500'
    elif x == '500-1000人':
        return '500-1000'
    elif x == '1000-5000人':
        return '1000-5000'
    elif x == '5000-10000人':
        return '5000-10000'
    elif x == '10000人以上':
        return ">10000"
    else:
        return np.nan
job_info['公司规模'] = job_info['公司规模'].apply(func)

#公司福利字段处理
job_info['公司福利'] = job_info['公司福利'].apply(lambda x:str(x).split())

#职位信息字段处理
job_info['职位信息'] = job_info['职位信息'].apply(lambda x:x.split('职能类别')[0])
with open(r"E:\C++\停用词表.txt",'r',encoding = 'utf8') as f:
    stopword = f.read()
stopword = stopword.split()
job_info['职位信息'] = job_info['职位信息'].apply(lambda x:x.lower()).apply(lambda x:"".join(x)).apply(lambda x:x.strip()).apply(jieba.lcut).apply(lambda x:[i for i in x if i not in stopword])
cons = job_info['公司领域'].value_counts()
industries = pd.DataFrame(cons.index,columns=['行业领域'])
industry = pd.DataFrame(columns=['分词明细','行业领域'])
for i in industries['行业领域']:
    words = []
    word = job_info['职位信息'][job_info['公司领域'] == i]
    word.dropna(inplace=True)
    [words.extend(str(z).strip('\'[]').split("\', \'")) for z in word]
    df1 = pd.DataFrame({'分词明细':words,
                        '行业领域':i})
    industry = industry.append(df1,ignore_index=True)
industry = industry[industry['分词明细'] != "\\n"]
industry = industry[industry['分词明细'] != ""]
count = pd.DataFrame(industry['分词明细'].value_counts())
lst = list(count[count['分词明细'] >=300].index)
industry = industry[industry['分词明细'].isin(lst)]

#数据存储
industry.to_excel(r'E:\python爬虫\数据预处理\词云.xlsx')       
job_info.to_excel(r'E:\python爬虫\数据预处理\前程无忧(已清洗).xlsx')

你可能感兴趣的:(python,爬虫,可视化,数据分析)

selenium后续！！ paid槮 selenium 测试工具
小项目案例:实现批量下载网页中的资源根据15.3.2小节中的返回网页内容可知,用户只有获取了网页中的图片url才可以将图片下载到*在使用selenium库渲染网页后,可直接通过正则表达式过滤出指定的网页图片，从而实现批量下载接下来以此为思路来实现一个小项目案例。项目任务实现批量下载人民邮电出版社官网中与Python相关的图书封面图片。项目实步骤步骤1，获取人民邮电出版社官网中与Python相关的图
Python爬虫博客：使用Selenium模拟登录并抓取需要身份验证的网站内容 Python爬虫项目 2025年爬虫实战项目 python 爬虫 selenium 信息可视化开发语言百度测试工具
引言在爬虫开发的过程中，我们常常遇到需要身份验证才能访问的网站。例如，很多社交媒体、新闻网站、电商平台等都要求用户登录才能访问一些特定内容。如何模拟登录并抓取这些需要身份验证的网页内容成为了一个非常重要且常见的需求。Selenium，作为一个强大的浏览器自动化工具，不仅可以模拟用户的浏览行为，还能够模拟用户输入用户名和密码、点击登录按钮等操作，突破了普通爬虫工具（如requests）无法处理的Ja
如何解决pip安装报错ModuleNotFoundError: No module named ‘django’问题万粉变现经纪人全栈Bug解决方案专栏 pip django python numpy pycharm 后端 pandas
【Python系列Bug修复PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘django’问题摘要在日常Django项目开发中，最常见的“拦路虎”之一就是ModuleNotFoundError:Nomodulenamed'django'。该异常通常在以下场景出现：在PyCharm2025中新建项目后，直接在Py
基于生成对抗网络增强主动学习的超高温陶瓷硬度优化神经网络15044 深度学习算法仿真模型生成对抗网络学习人工智能
复现论文：基于生成对抗网络增强主动学习的超高温陶瓷硬度优化我将使用Python复现这篇关于使用生成对抗网络(GAN)增强主动学习来优化超高温陶瓷(UHTC)硬度的研究论文。以下是完整的实现代码和解释。1.环境准备和数据加载首先，我们需要准备必要的Python库并加载数据。importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltimpor
基于R、Python的Copula变量相关性分析及AI大模型应用梦想的初衷~ 环境气象人工智能 r语言 python
在工程、水文和金融等各学科的研究中，总是会遇到很多变量，研究这些相互纠缠的变量间的相关关系是各学科的研究的重点。虽然皮尔逊相关、秩相关等相关系数提供了变量间相关关系的粗略结果，但这些系数都存在着无法克服的困难。例如，皮尔逊相关系数只能反映变量间的线性相关，而秩相关则更多的适用于等级变量。大多数情况下变量间的相关性非常复杂，而且随着变量取值的变化而变化，而这些相关系数都是全局性的，因此无法提供变量间
Python 桌面版数独游戏（一版）香蕉可乐荷包蛋 #数独 python 游戏 java
设计思路详解：Python桌面版数独游戏1.功能需求分析构建一个9x9的数独游戏界面。支持玩家手动输入数字。提供两个按钮：“重新开始本局”：恢复当前棋盘到初始状态（保留原始数字）。“生成新棋局”：生成一个新的随机数独题目。使用标准库实现，无需额外安装。2.技术选型使用tkinter：Python标准GUI库，适合小型桌面应用。使用random和copy：用于生成数独题目和深拷贝原始题目。采用回溯算
Copula 回归与结构方程模型：R 语言构建多变量因果关系网络
技术点目录专题一、R及Python语言及相关性研究初步专题二、二元Copula理论与实践（一）专题三、二元Copula理论与实践（二）【R语言为主】专题四、Copula函数的统计检验与选择【R语言为主】专题五、高维数据与VineCopula【R语言】专题六、正则VineCopula（一）【R语言】专题七、正则VineCopula（二）【R语言】专题八、时间序列中的Copula【R语言】专题九、Co
centos7安装python3并配置环境变量 weixin_46119222 centos python3.11
在CentOS7上安装Python3并将其设置为默认版本，可以按照以下步骤进行：1.安装Python3首先，你需要安装Python3。在CentOS7上，你可以通过yum包管理器来安装Python3。执行以下命令：bash复制代码sudoyuminstallpython3这个命令会使用yum来安装Python3。2.安装依赖文件（可选）如果你打算从源代码安装Python3，或者需要某些特定的库和功
python automl_自动化的机器学习(AutoML)：将AutoML部署到云中
编辑推荐:在本文中，将介绍一种AutoML设置，使用Python、Flask在云中训练和部署管道；以及两个可自动完成特征工程和模型构建的AutoML框架。本文来自于搜狐网，由火龙果软件Alice编辑、推荐。AutoML到底是什么？AutoML是一个很宽泛的术语，理论上来说，它囊括从数据探索到模型构建这一完整的数据科学循环周期。但是，我发现这个术语更多时候是指自动的特征预处理和选择、模型算法选择和超
利用Python实现QQ实时到账免签支付原创 0xdF Python学习 python
原创转载请注明出处核心部分:解决QQ的登录验证问题主要利用python的selenium库和QQ的快速登录实现登录网页再利用抓到的json来输出今日的订单情况直接上代码importrequestsimporttimeimportosfromseleniumimportwebdriverimportsysimportshutilimportjson'''注意:要实现QQ钱包实时到账需要在服务器上登录
Synergizing RAG and Reasoning: A Systematic Review-RAG与推理能力深度结合-新方向数据分析能量站机器学习人工智能
欢迎关v：数据分析能量站0论文小结一、研究背景与核心问题大语言模型（LLM）在处理复杂任务时面临两大瓶颈：知识局限性：纯LLM存在“知识幻觉”（编造事实）和“领域知识缺口”；推理浅度：传统检索增强生成（RAG）仅通过关键词匹配获取信息，无法处理多跳推理、语义歧义等复杂需求。核心主张：RAG与推理的深度整合（RAG+Reasoning）是突破上述瓶颈的关键，通过“检索提供实时知识，推理赋予逻辑能力”
python--自动化的机器学习（AutoML） Q_ytsup5681 python 自动化机器学习
自动化机器学习（AutoML）是一种将自动化技术应用于机器学习模型开发流程的方法，旨在简化或去除需要专业知识的复杂步骤，让非专家用户也能轻松创建和部署机器学习模型**[^3^]。具体介绍如下：1.自动化的概念：自动化是指使设备在无人或少量人参与的情况下完成一系列任务的过程。这一概念随着电子计算机的发明和发展而不断进化，从最初的物理机械到后来的数字程序控制，再到现在的人工智能和机器学习，自动化已经渗
【Python】人脸识别宅男很神经 python 开发语言
第一章：计算机视觉与图像处理的基石在深入人脸识别之前，我们必须首先牢固掌握计算机视觉和图像处理的基本概念。人脸，本质上就是一张复杂的图像，对图像的理解是所有高级视觉任务的起点。1.1图像的本质：像素与数字化表示图像，在我们看来是连续的画面，但在计算机内部，它却是离散的数值矩阵。1.1.1什么是像素？图像的最小单元像素（Pixel），是构成数字图像的最小单位。可以将其想象成一个微小的彩色点。一张数字
python 函数校园伴侣
函数函数也是一个对象对象是内存中专门用来存储数据的一块区域，函数可以用来保存一些可执行的代码，并且可以在需要时，对这些语句进行多次的调用创建函数：def函数名([形参1,形参2,…形参n]):代码块函数名必须要符合标识符的规范（可以包含字母、数字、下划线、但是不能以数字开头）函数中保存的代码不会立即执行，需要调用函数代码才会执行-调用函数：函数对象()-定义函数一般都是要实现某种功能的定义函数de
（四）Python总结笔记：函数 Laura_Wangzx Python学习笔记 python
Python总结笔记（四）函数python中的函数函数中的参数变量作用域偏函数PFA递归函数高阶函数BIFs中的高阶函数匿名函数lambda闭包Closure装饰器Decorator函数式编程FunctionalProgramming1.python中的函数￭函数的意义:■1.对输入进行变换映射后输出，可以进行反复调用。以函数名对代码块进行封装■2.过程化VS结构化￭函数的创建及结构:■定义函数名
Python 算法基础篇之线性搜索算法：顺序搜索、二分搜索挣扎的蓝藻 Python算法初阶：入门篇 python 算法开发语言
Python算法基础篇之线性搜索算法：顺序搜索、二分搜索引用1.顺序搜索算法2.二分搜索算法3.顺序搜索和二分搜索的对比a)适用性b)时间复杂度c)前提条件4.实例演示实例1：顺序搜索实例2：二分搜索总结引用在算法和数据结构中，搜索是一种常见的操作，用于查找特定元素在数据集合中的位置。线性搜索算法是最简单的搜索算法之一，在一组数据中逐一比较查找目标元素。本篇博客将介绍线性搜索算法的两种实现方式：顺
Python基础（四）函数
一、函数简介函数也是一个对象。对象是内存中专门用来存储数据的一块区域。函数用来保存一些可执行代码，并且在需要时，可以重复调用。创建函数：def函数名([形参1，形参2，.....形参n]):代码块函数名必须要符合标识符规范可以包含字母、数字、下划线，但不能以数字开头。函数中保存的代码，需要被调用才会执行。调用函数：函数对象()二、函数参数定义函数时，可以在函数名后定义数量不等的形参，多个形参以，隔
Frida使用指南（三）- Objection 象野VH Android 逆向进阶逆向
1.什么是objectionobjection是基于frida的命令行hook集合工具,可以让你不写代码,敲几句命令就可以对java函数的高颗粒度hook,还支持RPC调用。可以实现诸如内存搜索、类和模块搜索、方法hook打印参数返回值调用栈等常用功能，是一个非常方便的，逆向必备、内存漫游神器。项目地址2.objection环境配置已不更新，要和frida的版本匹配python使用的版本建议大于3
lesson17：Python函数之递归、匿名函数与变量作用域
目录引言一、递归函数：用自身解构复杂问题1.递归的基本结构2.递归的典型应用场景3.递归的优缺点与优化二、匿名函数：用lambda实现“一句话函数”1.lambda与普通函数的区别2.lambda的典型应用3.lambda的局限性三、变量作用域：理解LEGB规则1、LEGB规则的深度解析（1）Local（局部作用域）（2）Enclosing（嵌套作用域）（3）Global（全局作用域）（4）Bui
lesson11：Python的字典及方法你的电影很有趣 windows python
目录前言一、字典的定义与核心价值创建方式：二、核心特性：键的规则与无序性演变1、键的不可变性与唯一性2、无序性与Python版本差异三、常用操作与方法全解析四、与列表/元组的对比：数据结构选型指南五、高级应用技巧六、避坑指南：常见错误与最佳实践总结前言在Python的“数据结构工具箱”中，字典（Dictionary）无疑是最灵活、最强大的工具之一。无论是存储用户信息、解析JSON数据，还是实现缓存
Conda 核心命令快速查阅表拉拉拉拉拉拉拉马 conda
本表旨在提供一个简洁、高效的Conda命令参考，专注于最常用功能的快速查找。1.环境管理(EnvironmentManagement)功能(Function)命令(Command)示例(Example)创建新环境condacreate-n[packages...]condacreate-nmyenvpython=3.9pandas激活环境condaactivatecondaactivatemyen
frida objection注入时frida.core.RPCException: ReferenceError: ‘ObjC‘ is not defined解决马戏团小丑 java android
最新的17.0.xx版本frida进行objection注入时会报错PSC:\Users\19583>objection-gcom.example.hellojniexploreC:\Users\19583\AppData\Local\Programs\Python\Python312\Lib\site-packages\objection\utils\update_checker.py:7:Us
lesson18：Python函数的闭包与装饰器（难）你的电影很有趣 python 开发语言
目录引言闭包：函数式编程的"状态容器"一、闭包的本质与定义二、闭包的三大形成条件三、闭包的工作原理：变量的“持久化”四、闭包的核心应用场景五、闭包的注意事项六、闭包与装饰器的关系装饰器：基于闭包的功能增强工具一.装饰器的定义与作用二.装饰器的实现原理（基于闭包）三、装饰器进阶：灵活扩展功能1.带参数的装饰器2.保留函数元信息3.类装饰器与装饰器嵌套四、装饰器实战案例案例一：时间开销计算（性能监控）
Python 模块化编程全解析：模块、包与第三方库管理指南 xw3373409564 java 前端数据库
模块与包模块化编程是什么？用生活例子秒懂想象你在搭乐高积木：每个小积木块都有特定功能（比如轮子、窗户、墙壁）——这就像模块（一个.py文件，封装了函数或类）。把相关的积木块装进一个盒子里，方便分类和取用——这就像包（一个文件夹，里面装多个模块和子包，带__init__.py标识）。模块化编程的核心思想是：把复杂代码拆成小而独立的"积木"，需要时直接拿来用，不用重复造轮子。1.模块的概念模块就是一个
leetcode 搜索二维矩阵 II python 四分法 DaydayHoliday
利用矩阵左上角元素总是最小，右下角总是最大的特性，将矩阵分成四部分，分别递归。请各位大佬多多提意见。classSolution(object):defsearchMatrix(self,matrix,target):""":typematrix:List[List[int]]:typetarget:int:rtype:bool"""row_num=len(matrix)ifrow_num==0:r
python 类实例_Python类的实例详解 weixin_39997173 python 类实例
类(class)是一个用户自定义类型，开发者可以将其实例化以获得实例（instance），实例表示这种类型的对象。在Python中，类就是对象，开发者可以像对其他对象那样处理函数，可以在调用函数时传递一个类作为参数，也可以返回一个类作为函数调用的结果。任何对象，即使是一个类对象，都有一个类型。在Python中，类型和类也都是第一类对象。类对象的类型也被称为该类的元类（metaclass）。对象的行
python的signal weixin_33690963 python
今天在使用python的signal时，发现第二个传的函数必须是拥有两个函数参数变量的1importsignal2importtime3flag=True4deffunc1(a,b):5print"recieveSIGTERM"6globalflag7print"flag%s"%flag8flag=False9print"flag%s"%flag101112defmain():13signal.s
python字符串前面加字母_Python基础字符串前加u,r,b,f含义果呀哎呀妈呀哦呀 python字符串前面加字母
1、字符串前加u例：u"我是含有中文字符组成的字符串。"作用：后面字符串以Unicode格式进行编码，一般用在中文字符串前面，防止因为源码储存格式问题，导致再次使用时出现乱码。2、字符串前加r例：r"\n\n\n\n”#表示一个普通生字符串\n\n\n\n，而不表示换行了。作用：去掉反斜杠的转移机制。(特殊字符：即那些，反斜杠加上对应字母，表示对应的特殊含义的，比如最常见的”\n”表示换行，”\t
Python 轻量化环境管理利器 UV 入门与 Windows 下安装实战 wangjinjin180 python uv windows
https://www.52runoob.com/index.php/2025/06/19/python-轻量化环境管理利器-uv-入门与-windows-下安装实战/Python轻量化环境管理利器UV入门与Windows下安装实战一、什么是UV（UnikernelVirtualization）UV是一种轻量化的虚拟化技术，能够将应用程序与操作系统内核打包为一个单一的运行镜像，极大减少系统资源占用
JSON全面解析：轻量级数据交换的核心技术新人码农11111 json python
目录JSON的本质特征⚙️序列化：数据到字符串的转换反序列化：字符串到数据的还原实际应用场景⚠️常见陷阱与解决方案最佳实践建议在当今数据驱动的时代，JSON（JavaScriptObjectNotation）已成为最流行的轻量级数据交换格式。本文将深入剖析JSON的核心特性及其在Python中的应用，帮助开发者高效处理数据序列化与反序列化。JSON的本质特征JSON采用纯文本格式，具有跨平台、易读
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置

前程无忧岗位数据爬取+Tableau可视化分析

一、项目背景

二、数据爬取

1、相关库的导入与说明

2、获取二级页面链接

1）分析一级页面url特征

2）构建一级url库

3）爬取所有二级url链接

3、获取岗位信息并保存

三、数据清洗

1、数据读取、去重、空值处理

1）相关库导入及数据读取

2）数据去重与控制处理

2、“岗位名称”字段预处理

1）”岗位名称“字段预览

2）构建关键词，筛选名称

3）岗位名称标准化处理

3、“岗位薪资”字段预处理

4、“公司规模”字段预处理

5、“职位信息”字段预处理

6、其它字段预处理

7、数据存储

四、Tableau数据可视化展示

1、岗位数量城市分布气泡图

2、热门城市用人需求Top15

3、用人需求Top15行业及其薪资情况

4、各类型企业岗位需求树状分布图

5、经验学历与薪资需求突出显示表

6、不同行业知识、技能要求词云图

1）传统制造业

2） 计算机相关行业

3）服务行业

6、岗位数量与薪资水平地理分布

7、可视化看板最终展示结果

五、源代码

1、爬虫源代码

2、数据预处理源码

你可能感兴趣的:(python,爬虫,可视化,数据分析)

2）计算机相关行业