管春

招聘信息爬取与分析

写在前面

作为874万应届毕业生中的一员，近期也在积极地找工作，于是爬取了意向岗位以及相关岗位的信息，并对岗位分布、薪资情况、学历、公司规模与行业等进行了分析。
主要流程

数据爬取

mysql

数据清洗

数据分析

数据可视化

数据爬取

招聘网站选的是51job，爬取的岗位关键字有[ ‘人工智能’,‘机器学习’, ‘数据分析’, ‘数据挖掘’, ‘算法工程师’,‘深度学习’,‘语音识别’,‘图像处理’,‘自然语言处理’]，因为不同关键字会出现某些相同的岗位，故在爬取的过程中利用增量爬取的思想，设置了指纹。
爬取流程

分析url

爬取一级页面部分信息及二级页面url

redis增量

mysql存储

url分析

self.url = 'https://search.51job.com/list/000000,000000,0000,00,9,99,%s,2,%d.html'

%s,%d分别表示输入关键字和页码。

一级页面爬取
页码随输入关键字变化而变化，要在第一页上对页码进行获取，在这里获取页码后以字典的形式存储起来
requests.get()获取页面，xpath对页面进行解析

def get_html(self,url):
    try:
         html = requests.get(url=url,headers={
     'User-Agent':UserAgent().random},timeout=3).content.decode('gb2312',errors="ignore")
         return etree.HTML(html)
     except:
         print('sleep')
         sleep(uniform(200,300))
         return self.get_html(url)

获取岗位页码字典

def get_job_page_dict(self,url,job):
    p = self.get_html(url)
    s = p.xpath('//div[@class="dw_tlc"]/div[4]/text()')[0]
    page = ceil(int(re.findall('\d+',s)[0])/50)
    self.job_page_dict[job]=page

爬取一级页面上岗位链接、岗位名称、公司名称、工作地点、薪资以及发布日期信息,做增量爬取,增量爬取利用了Redis集合的性质。若该岗位未被爬取过，将其部分新存储在列表中。

一级页面信息获取

def get_one_html(self,url,k):
    p = self.get_html(url)
    job_href_list = p.xpath('//div[@class="el"]/p/span/a/@href')
    job_name_list = p.xpath('//div[@class="dw_table"]//p/span/a/@title')
    comapny_list = p.xpath('//div[@class="el"]/span[1]/a/@title')
    location_list = p.xpath('//div[@class="el"]/span[@class="t3"]/text()')
    salary_list = p.xpath('//div[@class="el"]/span[@class="t4"]/text()')
    pubdate_list = p.xpath('//div[@class="el"]/span[@class="t5"]/text()')

    for href,name,company,location,salary,pubdate in zip(job_href_list,job_name_list,comapny_list,location_list,salary_list,pubdate_list):
        href_md5 = self.href_md5(href)
        if self.r.sadd('job:href',href_md5)==1:
            self.info.extend([name,k,company,location,salary,'2020-'+pubdate])
            self.get_two_html(href)
            self.save_info()
            self.info = []
            sleep(uniform(0.2, 0.8))
        else:
            continue
        self.if_sleep()

增量爬取指纹设置

def href_md5(self,href):
    s = md5()
    s.update(href.encode())
    return s.hexdigest()

二级页面爬取
获取二级页面中工作经验、学历、公司规模、公司类型、所在行业以及具体的岗位描述信息，其中工作经验学历的信息在一起描述，这里先爬下来后续再做处理，获取信息后添加到岗位信息列表中。

def get_two_html(self, url):
     p = self.get_html(url)
     try:
         experienct_education = '|'.join(p.xpath('//div[@class="cn"]/p[@class="msg ltype"]/text()')).replace('\xa0', '')
         company_type = p.xpath('//div[@class="com_tag"]/p[1]/@title')[0]
         company_scale = p.xpath('//div[@class="com_tag"]/p[2]/@title')[0]
         industry = p.xpath('//div[@class="com_tag"]/p[3]/@title')[0]
         job_describe = ''.join(p.xpath('//div[@class="bmsg job_msg inbox"]/p/text()')).replace('\xa0', '')
         self.info.extend([experienct_education,company_type,company_scale,industry,job_describe])
     except Exception as e:
         print(e)

mysql存储
每获取完一条岗位的信息，就对其进行存储，然后清空岗位信息列表。

def save_info(self):
    sql = 'insert into job51(job_name,job_type,company,location,salary,pubdate,experience_education,company_type,company_scale,industry,job_describe) values(%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)'
    try:
        self.cur.execute(sql,self.info)
        self.db.commit()
        self.count += 1
        print('save %d!'%self.count)
    except Exception as e:
        self.db.rollback()
        print(e)

反爬设置
在代码中设置了比较多处的休眠时间，每获取完一页岗位信息，休眠0.1-2秒，每获取完一个岗位信息休眠0.2-0.8秒，每501页休眠20-100秒，链接过多报错时休眠200-300秒，此外还利用fake_useragent设置了User-Agent池。

完整代码
写了一个类，可以稍作修改，对其他岗位进行爬取。

import requests
from lxml import etree
from time import sleep
from fake_useragent import UserAgent
from math import ceil
from random import uniform
import re
import redis
from hashlib import md5
import pymysql


class JobSpider:
    def __init__(self,job_list):
        self.url = 'https://search.51job.com/list/000000,000000,0000,00,9,99,%s,2,%d.html'
        self.job_list = job_list
        self.job_page_dict = {
     }
        self.r = redis.Redis(host='localhost',port=6379,db=0)
        self.db = pymysql.connect(host='127.0.0.1',port=3306,user='root',password='123456',database='spider',charset='utf8')
        self.cur = self.db.cursor()
        self.info = []
        self.count = 0



    def get_html(self,url):
        try:
            html = requests.get(url=url,headers={
     'User-Agent':UserAgent().random},timeout=3).content.decode('gb2312',errors="ignore")
            return etree.HTML(html)
        except:
            print('sleep')
            sleep(uniform(200,300))
            return self.get_html(url)




    def get_job_page_dict(self,url,job):
        p = self.get_html(url)
        s = p.xpath('//div[@class="dw_tlc"]/div[4]/text()')[0]
        page = ceil(int(re.findall('\d+',s)[0])/50)
        self.job_page_dict[job]=page


    def href_md5(self,href):
        s = md5()
        s.update(href.encode())
        return s.hexdigest()

    def get_one_html(self,url,k):
        p = self.get_html(url)
        job_href_list = p.xpath('//div[@class="el"]/p/span/a/@href')
        job_name_list = p.xpath('//div[@class="dw_table"]//p/span/a/@title')
        comapny_list = p.xpath('//div[@class="el"]/span[1]/a/@title')
        location_list = p.xpath('//div[@class="el"]/span[@class="t3"]/text()')
        salary_list = p.xpath('//div[@class="el"]/span[@class="t4"]/text()')
        pubdate_list = p.xpath('//div[@class="el"]/span[@class="t5"]/text()')

        for href,name,company,location,salary,pubdate in zip(job_href_list,job_name_list,comapny_list,location_list,salary_list,pubdate_list):
            href_md5 = self.href_md5(href)
            if self.r.sadd('job:href',href_md5)==1:
                self.info.extend([name,k,company,location,salary,'2020-'+pubdate])
                self.get_two_html(href)
                self.save_info()
                self.info = []
                sleep(uniform(0.2, 0.8))
            else:
                continue
            self.if_sleep()


    def get_two_html(self, url):
        p = self.get_html(url)
        try:
            experienct_education = '|'.join(p.xpath('//div[@class="cn"]/p[@class="msg ltype"]/text()')).replace('\xa0', '')
            company_type = p.xpath('//div[@class="com_tag"]/p[1]/@title')[0]
            company_scale = p.xpath('//div[@class="com_tag"]/p[2]/@title')[0]
            industry = p.xpath('//div[@class="com_tag"]/p[3]/@title')[0]
            job_describe = ''.join(p.xpath('//div[@class="bmsg job_msg inbox"]/p/text()')).replace('\xa0', '')
            self.info.extend([experienct_education,company_type,company_scale,industry,job_describe])
        except Exception as e:
            print(e)


    def save_info(self):
        sql = 'insert into job51(job_name,job_type,company,location,salary,pubdate,experience_education,company_type,company_scale,industry,job_describe) values(%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)'
        try:
            self.cur.execute(sql,self.info)
            self.db.commit()
            self.count += 1
            print('save %d!'%self.count)
        except Exception as e:
            self.db.rollback()
            print(e)

    def if_sleep(self):
        if self.count % 501 ==0:
            sleep(uniform(20,100))



    def run(self):
        for job in self.job_list:
            url = self.url%(job,1)
            self.get_job_page_dict(url,job)
        for k,v in self.job_page_dict.items():
            for i in range(1,v+1):
                url = self.url%(k,i)
                self.get_one_html(url,k)
                sleep(uniform(0.1,2))

        self.cur.close()
        self.db.close()


if __name__ == '__main__':
    job_list = [ '人工智能','机器学习', '数据分析', '数据挖掘', '算法工程师','深度学习','语音识别','图像处理','自然语言处理']
    spider = JobSpider(job_list)
    spider.run()

数据清洗

数据清洗在mysql做了一部分，之后用python又做了一部分，主要对数据进行规整、去除脏数据、对部分数据进行重构获取新的属性。

mysql

如图，尽管在爬取数据时对岗位类别进行了划分，但实际上各岗位之间有交叉的存在，故要对job_name进行规整，对岗位统一命名。

update job51 set job_name='AI' where job_name like '%AI%';
update job51 set job_name='深度学习' where job_name like '%深度学习%';
update job51 set job_name='机器学习' where job_name like '%机器学习%';
update job51 set job_name ='自然语言处理' where job_name like '%自然语言%' or job_name like '%nlp%';
update job51 set job_name ='图像' where job_name like '%图像%';
update job51 set job_name =' 数据挖掘' where job_name like '%数据挖掘%';
update job51 set job_name ='语音' where job_name like '%语音%';
update job51 set job_name ='人工智能' where job_name like '%人工智能%';
update job51 set job_name ='算法' where job_name like '%算法%';
update job51 set job_name ='大数据' where job_name like '%大数据%';
update job51 set job_name='数据分析' where job_name like "%数据分析%";

处理完各数据分布

select job_name,count(*) from job51 where job_name in ('人工智能','AI','数据挖掘','语音','图像','自然语言处理','深度学习','机器学习','算法','大数据','数据分析') group by job_name;

存储csv
将目标数据提取出来，存储为csv文件，在jupyter notebook上进行处理。

import pymysql
import csv
db = pymysql.connect(host='127.0.0.1',port=3306,user='root',password='123456',database='spider',charset='utf8')
cur = db.cursor()

s = 'job_id,job_name,job_type,company,location,salary,pubdate,experience_education,company_type,company_scale,industry,job_describe'

columns = s.split(',')
with open('job51.csv', 'w+') as f:
    w = csv.writer(f)
    w.writerow(columns)

sql ="select %s from job51 where job_name in ('人工智能','AI','数据挖掘','语音','图像','自然语言处理','深度学习','机器学习','算法','大数据','数据分析');"%s
cur.execute(sql)

file = open('job51.csv', 'a+')
w = csv.writer(file)

while True:
    row = cur.fetchone()
    if row:
        w.writerow(row)
    else:
        break

file.close()
cur.close()
db.close()

python
在jupyter notebook上利用python(pandas)对数据进行处理，数据有16836条

查看数据，数据大概长这个样子，要对location、salary、experience_education、industry、job_describe分别进行处理

先删除不必要的数据job_id、job_type

data.drop(['job_id','job_type'],axis=1,inplace=True)

对工作地点location进行处理

大概看一眼它的值，有异地招聘、xx-xx区、xx省这样的数据。
首先对异地招聘数据进行处理，在experience_education属性中有相关的城市，可以默认其为岗位所在城市

cut = data[data['location']=='异地招聘']['experience_education'].str.split('|')
for index in cut.index:
    data['location'][index]=cut[index][0]
    #data.loc(index,'location')=cut[index][0]

对xx-xx区数据进行处理,对值进行切分，只保留城市信息，构建新列，xx省暂不做处理

def get_city(x):
    try:
        x=x.split('-')[0]
    except:
        pass
    return x

data['city'] = data['location'].apply(get_city)

处理之后的data[‘city’]

对薪资salary进行处理
统一单位，拆分成最高薪资和最低薪资，再计算-平均薪资
薪资单位如下图

统一单位，并获得最高薪资和最低薪资，这里采用了try-except的方法

def get_max_min_salary(end,mul,x):
    x = x.replace(end,'')
    try:
        _ = x.split('-')
        min_,max_ = float(_[0])*mul,float(_[1])*mul
    except:
        min_=max_=float(x)*mul
    return min_,max_
def get_salary(x):
    if x.endswith('万/月'):
        min_,max_ = get_max_min_salary('万/月',10000,x)
    elif x.endswith('千/月'):
        min_,max_ = get_max_min_salary('千/月',1000,x)
    elif x.endswith('万/年'):
        min_,max_ = get_max_min_salary('万/年',10000/12,x)
    elif x.endswith('元/天'):
        min_,max_ = get_max_min_salary('元/天',20,x)
    elif x.endswith('千以下/月'):
        min_,max_ = get_max_min_salary('千以下/月',1000,x)
        min_ = None
    elif x.endswith('万以上/年'):
        min_,max_ = get_max_min_salary('万以上/年',10000,x)
        max_ = None
    elif x.endswith('万以上/月'):
        min_,max_ = get_max_min_salary('万以上/月',10000,x)
        min_ = None
    elif x.endswith('万以下/年'):
        min_,max_ = get_max_min_salary('万以下/年',10000,x)
    else:
        min_,max_ = None,None
    return min_,max_
        
salary = data['salary'].apply(get_salary)

获得最高薪资和最低薪资以及平均薪资

data['salary_min'],data['salary_max'] = salary.str[0],salary.str[1]
data['salary_mean'] = (data['salary_min']+data['salary_max'])/2.0

平均薪资描述

对行业industry数据进行处理

看一下数据属性，该数据是以‘,’进行分割的，这里取其第一个作为默认行业

data['industry_']=data['industry'].apply(lambda x:x.split(',')[0])

对最高学历进行处理
从data[‘experience_education’]中对学历进行提取，用re提取常见的学历要求

import re
def education(x):
    try:
        return re.findall('本科|大专|应届|在校|硕士|博士',x)[0]
    except:
        return None
     
data['education'] = data['experience_education'].apply(education)

对job_describe进行处理
从data[‘job_describe’]中提取相关技能，对技能要求进行分析，同样采用re提取,提取后转换成集合，去除重复的技术。

def describe(x):    
    try:
        return set(re.findall('([A-Z|a-z\+?]+)',x))
    except:
        return None
data['technology'] = data['job_describe'].apply(describe)

data[‘technology’]处理后值如图

数据分析与数据可视化

城市岗位数据分布
对xx省数据给予去‘省’保留，并查看城市是否能在地图上获取，获取城市-岗位数量数据

import pyecharts.charts as chart
import pyecharts.options as opt

city_data = []
count = data['city'].value_counts()
for index in count.index:
    ind = index.replace('省','')
    if chart.Geo().get_coordinate(ind):
        city_data.append([ind,int(count[index])])
map_ = (
    chart.Geo()
    .add_schema(maptype='china')
    .add('城市',city_data)
    .set_series_opts(label_opts=opt.LabelOpts(is_show=False))
    .set_global_opts(title_opts=opt.TitleOpts(title='城市岗位数量分布地图'),
                    visualmap_opts=opt.VisualMapOpts(min_=0,max_=30))
)
map_.render('./echarts/job51_map.html')

上图颜色越红，城市岗位数量约多，主要分布在一线城市北京、上海、广州、深圳、杭州等一线城市和新一线城市。
行业、公司规模、公司类型分布
公司类型分布饼图

company_type_data = []
count = data['company_type'].value_counts()
for index in count.index:
    company_type_data.append((index,int(count[index])))

pie = (
    chart.Pie()
    .add('',company_type_data,radius=["10%","40%"],rosetype='area')
    .set_global_opts(title_opts=opt.TitleOpts(title='公司类型分布图'),
                    legend_opts=opt.LegendOpts(pos_left="80%", orient="vertical"))
    .set_series_opts(label_opts=opt.LabelOpts(formatter='{b}: {c}({d}%)'))
)
pie.render('./echarts/job51_pie_company_type.html')

公司规模分布饼图

company_scale_data = []
count = data['company_scale'].value_counts()
for index in count.index:
    company_scale_data.append((index,int(count[index])))

pie2 = (
    chart.Pie()
    .add('',company_scale_data,radius=["10%","40%"])
    .set_global_opts(title_opts=opt.TitleOpts(title='公司规模分布图'),
                     legend_opts=opt.LegendOpts(pos_left="85%", orient="vertical"))
    .set_series_opts(label_opts=opt.LabelOpts(formatter='{b}: {d}%'))
)
pie2.render('./echarts/job51_pie_company_scale.html')

公司行业分布饼图

company_industry_data = []
count = data['industry_'].value_counts()
for index in count.index:
    company_industry_data.append((index,int(count[index])))

pie3 = (
    chart.Pie(init_opts=opt.InitOpts(width='800px',height='600px'))
    .add('',company_industry_data,radius=["10%","40%"],rosetype='area')
    .set_global_opts(title_opts=opt.TitleOpts(title='公司类型分布图'),
                    legend_opts=opt.LegendOpts(type_='scroll',pos_left="5%",pos_bottom='5%',orient="horizontal"))
    .set_series_opts(label_opts=opt.LabelOpts(formatter='{b}: {c}({d}%)'))
)
pie3.render('./echarts/job51_pie_industry_type.html')

从公司类型来看，民营企业占据大部分，其次是上市公司。在公司规模分布图中，可以看出中小型企业占据大多数。从公司行业上看，岗位需求设计各行各业，但传统计算机行业计算机软件、互联网/电子商务等对岗位需求量要高于非计算机行业。
岗位日发布量及薪资

对预处理错误的数据进行修正

from datetime import datetime
def change_time(x):
    if datetime.strptime(x,'%Y-%m-%d')>datetime.now():
        x = x.replace('2020','2019')
    return x
 data['pubdate'] = data['pubdate'].apply(change_time)#发布时间有错误，需要做一下修正
data['job_name']=data['job_name'].replace('AI','人工智能')#岗位名统一

利用pandas 对数据进行处理，获得目标数据表d3

x_date = data['pubdate'].sort_values().unique().tolist()
salary_mean = data[['pubdate','salary_mean','job_name']].groupby(['pubdate','job_name']).mean()['salary_mean']
job_num = data[['pubdate','salary_mean','job_name']].groupby(['pubdate','job_name']).count()['salary_mean']

date_job_salary ={
     'job_num':[],'salary_mean':[]}
for date in x_date:
    for job in set(data['job_name'].values):
        index = (date,job)
        try:
            salary = salary_mean[index]
            number = job_num[index]
            date_job_salary['job_num'].append((date,job,int(number)))
            date_job_salary['salary_mean'].append((date,job,float(salary)))
        except:
            date_job_salary['job_num'].append((date,job,None))
            date_job_salary['salary_mean'].append((date,job,None))
d1 = pd.DataFrame(date_job_salary['job_num'],columns=['date','job','number'])
d2 = pd.DataFrame(date_job_salary['salary_mean'],columns=['date','job','salary_mean'])
d3 = pd.merge(d1,d2)

d3如图

绘制各职位日发布量3d柱状图

bar3d = (
    chart.Bar3D(init_opts=opt.InitOpts(width='1200px',height='1000px'))
    .add('',date_job_salary['job_num'],
        xaxis3d_opts=opt.Axis3DOpts(type_="category",name='日期'),
        yaxis3d_opts=opt.Axis3DOpts(interval=0,type_="category",name='职位'),
        zaxis3d_opts=opt.Axis3DOpts(interval=0,type_="value",name='日发布数量'))
    .set_global_opts(title_opts=opt.TitleOpts(title='各类职位日发布数量'),
                     legend_opts=opt.LegendOpts(type_='scroll'),
                    visualmap_opts=opt.VisualMapOpts(max_=job_num.max()))
)
bar3d.render('./echarts/job51_job_num_3d.html')

各岗位日发布平均薪资折线图

dt_job = {
     }
dt_salary = {
     }
for job in set(data['job_name'].values):
    dt_job[job] = d3[d3['job']==job][['date','number']].dropna(axis=0)
    dt_salary[job] = d3[d3['job']==job][['date','salary_mean']].dropna(axis=0)

#薪资保留两位小数
def ceil_(x):
    return round(x,2)
line = (
chart.Line(init_opts=opt.InitOpts(width='1200px',height='1000px'))
    .add_xaxis(xaxis_data=x_date)
    .add_yaxis('图像处理',y_axis=dt_salary['图像']['salary_mean'].apply(ceil_).tolist(),
              linestyle_opts=opt.LineStyleOpts(width=2))
    .add_yaxis('语音识别',y_axis=dt_salary['语音']['salary_mean'].apply(ceil_).tolist(),
              linestyle_opts=opt.LineStyleOpts(width=2))
    .add_yaxis('机器学习',y_axis=dt_salary['机器学习']['salary_mean'].apply(ceil_).tolist(),
              linestyle_opts=opt.LineStyleOpts(width=2))
    .add_yaxis('深度学习',y_axis=dt_salary['深度学习']['salary_mean'].apply(ceil_).tolist(),
              linestyle_opts=opt.LineStyleOpts(width=2))
    .add_yaxis('大数据',y_axis=dt_salary['大数据']['salary_mean'].apply(ceil_).tolist(),
              linestyle_opts=opt.LineStyleOpts(width=2))
    .add_yaxis('人工智能',y_axis=dt_salary['人工智能']['salary_mean'].apply(ceil_).tolist(),
              linestyle_opts=opt.LineStyleOpts(width=2))
    .add_yaxis('数据分析',y_axis=dt_salary['数据分析']['salary_mean'].apply(ceil_).tolist(),
              linestyle_opts=opt.LineStyleOpts(width=2))
    .add_yaxis('算法',y_axis=dt_salary['算法']['salary_mean'].apply(ceil_).tolist(),
              linestyle_opts=opt.LineStyleOpts(width=2))
    .add_yaxis('自然语言处理',y_axis=dt_salary['自然语言处理']['salary_mean'].apply(ceil_).tolist(),
              linestyle_opts=opt.LineStyleOpts(width=2))
    .set_global_opts(title_opts=opt.TitleOpts(title='各岗位日发布平均薪资')
                     ,xaxis_opts=opt.AxisOpts(name='日期'),
                    yaxis_opts=opt.AxisOpts(name='薪资（元/月）'),
                    datazoom_opts=[opt.DataZoomOpts(),opt.DataZoomOpts(type_='inside')])
)
line.render('./echarts/job51_date_salary_mean.html')

全部岗位

只看图像处理

从各岗位发布平均薪资来看，四月之前，各岗位的薪资波动较频繁，四月后没有较大幅度的波动，这与国内疫情控制情况相关。

各岗位日发布数量

bar3 = (
chart.Bar(init_opts=opt.InitOpts(width='1200px',height='1000px'))
    .add_xaxis(xaxis_data=x_date)
    .add_yaxis('图像处理',dt_job['图像']['number'].tolist())
    .add_yaxis('语音识别',dt_job['语音']['number'].tolist())
    .add_yaxis('机器学习',dt_job['机器学习']['number'].tolist())
    .add_yaxis('深度学习',dt_job['深度学习']['number'].tolist())
    .add_yaxis('大数据',dt_job['大数据']['number'].tolist())
    .add_yaxis('人工智能',dt_job['人工智能']['number'].tolist())
    .add_yaxis('数据分析',dt_job['数据分析']['number'].tolist())
    .add_yaxis('算法',dt_job['算法']['number'].tolist())
    .add_yaxis('自然语言处理',dt_job['自然语言处理']['number'].apply(ceil_).tolist())
    .set_global_opts(title_opts=opt.TitleOpts(title='各岗位日发布量')
                     ,xaxis_opts=opt.AxisOpts(name='日期'),
                    yaxis_opts=opt.AxisOpts(name='岗位数量'),
                    datazoom_opts=[opt.DataZoomOpts(),opt.DataZoomOpts(type_='inside')])
)
bar3.render('./echarts/job51_date_job_num.html')

岗位整体日发布量

可以看出总体岗位量在五一前后增长较大。
只看大数据

学历薪资关系

dt_education = data[['salary_mean','education']].groupby('education').mean()

x_data_e = dt_education.index.tolist()
y_data_e = np.around(dt_education.values,2).tolist()
line_ed=(
    chart.Line(init_opts=opt.InitOpts(width='1000px',height='800px'))
    .add_xaxis(xaxis_data=x_data_e)
    .add_yaxis('最高学历平均薪资',y_data_e,linestyle_opts=opt.LineStyleOpts(width=2))
    .set_global_opts(title_opts=opt.TitleOpts(title='最高学历平均薪资水平'),
                     xaxis_opts=opt.AxisOpts(name='最高学历'),
                    yaxis_opts=opt.AxisOpts(name='薪资（元/月）'))
)
line_ed.render('./echarts/job51_education_salary.html')

从图中可以看出学历约高，工资越高，在校生工资相对要差点

公司规模薪资水平

dt_scale = data[['salary_mean','company_scale']].groupby('company_scale').mean()
x_data_e = dt_education.index.tolist()
y_data_e = np.around(dt_education.values,2).tolist()
line_ed=(
    chart.Line(init_opts=opt.InitOpts(width='1000px',height='800px'))
    .add_xaxis(xaxis_data=x_data_e)
    .add_yaxis('最高学历平均薪资',y_data_e,linestyle_opts=opt.LineStyleOpts(width=2))
    .set_global_opts(title_opts=opt.TitleOpts(title='最高学历平均薪资水平'),
                     xaxis_opts=opt.AxisOpts(name='最高学历'),
                    yaxis_opts=opt.AxisOpts(name='薪资（元/月）'))
)
line_ed.render('./echarts/job51_education_salary.html')

各类规模公司薪资水平基本持平，千人以上的大厂工资相对要搞一点。
专业技能分析
对技能进行统一名称、规整，并用Counter方法保留前25个。

from collections import Counter
techno = []
for te in data['technology']:
    if te:
        tec =[]
        for t in te:
            tec.append(t.upper())
        techno.extend(list(tec))
cnt = Counter(techno)
tech_data = cnt.most_common(25)

绘制饼图

pie4 = (
    chart.Pie(init_opts=opt.InitOpts(width='1000px',height='800px'))
    .add('',tech_data,radius=["10%","40%"],rosetype='radius')
    .set_global_opts(title_opts=opt.TitleOpts(title='公司类型分布图'),
                    legend_opts=opt.LegendOpts(type_='scroll',pos_left="5%",pos_bottom='5%',orient="horizontal"))
    .set_series_opts(label_opts=opt.LabelOpts(formatter='{b}: {c}({d}%)'))
)
pie4.render('./echarts/job51_pie4_technology.html')

可以看出python在相关岗位上的要求量最高，其次是C++、C、JAVA、以及大数据相关技术HADOOP 、SPARK等，在相关岗位上，对LINUX操作系统、mysql数据库（SQL语言）也要较多的要求。

项目数据及代码链接：欢迎下载

你可能感兴趣的:(数据分析,数据分析,python)

python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
python strip()函数牛也唱歌
strip函数原型声明：s为字符串，rm为要删除的字符序列.只能删除开头或是结尾的字符或是字符串。不能删除中间的字符或是字符串。s.strip(rm)删除s字符串中开头、结尾处，位于rm删除序列的字符s.lstrip(rm)删除s字符串中开头处，位于rm删除序列的字符s.rstrip(rm)删除s字符串中结尾处，位于rm删除序列的字符注意：1.当rm为空时，默认删除空白符（包括'\n','\r',
用python执行js代码：PyExecJS库详解数据知道 2025年爬虫和逆向教程 python javascript 爬虫数据采集 nodejs
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录1.介绍和安装1.1PyExecJS介绍1.2安装JavaScript运行时1.3安装PyExecJS2.PyExecJS的基本使用2.1执行简单的JavaScript代码2.2使用外部JavaScript文件2.3先编译、后调用2.4传递参数和获取返回值3.PyExecJS的高级功能3.1指定JavaScript运行时3.2处理异步JavaSc
Python中strip()函数详细讲解甯公子_ Python入门程序 python 开发语言算法
strip()是Python中字符串（str）对象的一个内置方法，用于去除字符串开头和结尾的空白字符（包括空格、换行符、制表符等）。它不会修改字符串中间的空白字符。语法str.strip([chars])str：需要处理的字符串。chars（可选）：指定要去除的字符集合。如果未指定，默认去除空白字符（包括空格、换行符\n、制表符\t等）。返回值返回一个新的字符串，去除了开头和结尾的指定字符。常见用
利用Python爬虫获取淘宝商品评论：实战案例分析数据小爬虫@ API python 爬虫开发语言
在数字化时代，数据的价值日益凸显，尤其是对于电商平台而言，商品评论作为用户反馈的重要载体，蕴含着丰富的信息。本文将详细介绍如何利用Python爬虫技术获取淘宝商品评论，包括代码示例和关键步骤解析。淘宝商品评论的重要性淘宝商品评论不仅对消费者购买决策有着重要影响，而且对于商家来说，也是了解市场需求、改进产品和服务的重要途径。因此，获取并分析淘宝商品评论数据，对于电商运营和市场分析具有重要意义。Pyt
Python 自动探索性数据分析库———KLib 若木胡 tools python 数据分析开发语言
Python自动探索性数据分析库——KLib一、引言在当今数据驱动的时代，数据分析师和科学家们面临着海量的数据需要处理和分析。探索性数据分析（EDA）作为数据处理流程中的关键环节，旨在帮助人们快速理解数据的特征、分布、相关性等重要信息，从而为后续的深入分析、建模以及决策提供坚实的基础。Python以其丰富的生态系统和强大的功能在数据分析领域占据着重要地位，而KLib则是其中一款专注于自动探索性数据
源码篇：python生成《蔬菜店销售数据分析报告》案例 IT小本本 python python 数据分析开发语言
本文将通过Python实现一个完整的蔬菜销售数据分析项目，涵盖数据生成、清洗、分析及可视化全流程。我们将利用模拟数据生成技术创建90天的销售记录，通过Pandas进行数据处理，结合Matplotlib和Seaborn实现多样化的可视化图表，并最终生成动态交互报告。一、数据生成：模拟真实销售场景为了模拟真实的蔬菜销售数据，我们设计了包含10种蔬菜（白菜、土豆、西红柿等）的90天销售记录。数据生成逻辑
[附源码]Python计算机毕业设计SSM基于B-S的心理健康管理系统（程序+LW) Python、JAVA毕设程序源码 java 开发语言
环境配置：Jdk1.8+Tomcat7.0+Mysql+HBuilderX（Webstorm也行）+Eclispe（IntelliJIDEA,Eclispe,MyEclispe,Sts都支持）。项目技术：SSM+mybatis+Maven+Vue等等组成，B/S模式+Maven管理等等。环境需要1.运行环境：最好是javajdk1.8，我们在这个平台上运行的。其他版本理论上也可以。2.IDE环境：
5-1 使用ECharts将MySQL数据库中的数据可视化上课的牛马实训大数据
方法一：使用PythonFlask框架搭建API对于技术小白来说，使用ECharts将MySQL数据库中的数据可视化需要分步骤完成。以下是详细的实现流程：一、技术架构‌后端服务‌：使用PythonFlask框架搭建API（简单易学，适合新手）数据库连接‌：通过Python的pymysql库连接MySQL前端可视化‌：HTML+JavaScript+ECharts数据流向‌：MySQL数据库→Pyt
绕过 reCAPTCHA V2/V3：Python、Selenium 指南 qq_33253945 python selenium javascript 网络爬虫爬虫算法
前言验证码（CAPTCHA）技术已经存在许多年，尽管它的有效性一直备受争议，但许多网站仍然依赖它来保护资源。尤其是Google推出的reCAPTCHA系列，一直是验证码领域的佼佼者。本文将详细介绍如何绕过reCAPTCHAV2和V3，并提供实用的代码示例。详情请见：解决验证码recaptcha、cloudflare、incapsula1.什么是reCAPTCHA？reCAPTCHA是Google推
CSP-J备考冲刺必刷题（C++） | AcWing 11 背包问题求方案数热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】AcWing：11.背包问题求方案数-AcWi
python数据可视化绘制图表（直方图，饼图圆环图，散点或气泡图，误差棒图） 2224070304 信息可视化 python 数据分析
一，直方图#先导入模块importnumpyasnp importmatplotlib.pyplotasplt#准备50个随机的数据scores=np.random.randint(0,100,50)#绘制直方图plt.hist(scores,bins=8,histtype='stepfilled')plt.show()其中，scores为数组（可为单个或多个的数列)bins=8,表示矩形的条数为
数据分析面临的三大挑战该如何解决銨靜菂等芐紶数据挖掘大数据数据分析
转载自品略图书馆http://www.pinlue.com/article/2020/09/0712/2611202048648.html有效的分析已成为决定性因素，很明显，掌握它的人会蓬勃发展。但是，实现这一目标的过程并非没有障碍。最常见的数据分析挑战是什么？公司如何自信地应对它们？下面就来介绍一下。1、浏览预算限制数据分析领导者需要在当下采取行动，但同时也需要考虑未来。平衡这些需求要求他们在制
数据分析过程中，发现数值缺失，怎么办？学掌门大数据数据分析 IT 数据分析数据挖掘
按照数据缺失机制，数据分析过程中，我们可以将其分为以下几类：（1）完全随机缺失（MCAR）：所缺失的数据发生的概率既与已观察到的数据无关，也与未观察到的数据无关。（2）随机缺失（MAR）：假设缺失数据发生的概率与所观察到的变量是有关的，而与未观察到的数据的特征是无关的。MCAR与MAR均被称为是可忽略的缺失形式。（3）不可忽略的缺失（NIM）：亦称为非随机缺失，即如果不完全变量中，数据的缺失既依赖
用Python实现SFM 薄辉 python opencv 计算机视觉人工智能图像处理
SFM(结构化光流法)是一种用于解决三维重建问题的方法，它可以根据许多二维图像和它们之间的相对位置，估计出三维场景的深度和摄像机的姿态。在Python中，你可以使用OpenCV库来实现SFM。下面是一个简单的例子，展示了如何使用OpenCV库的cv2.sfm_create函数来实现SFM：importcv2#读入图像，存入列表images中images=[]foriinrange(1,11):im
使用Python轻松拆分PDF，每页独立成文件 AI航海家(Ethan) python python pdf
使用Python轻松拆分PDF，每页独立成文件嗨，各位PDF爱好者！如果你曾经有想要拆分一个大PDF文件的想法，让每一页都成为独立的文件，那么这篇博客就是为你准备的！我们将使用Python中的一个非常强大的库–PyPDF2，把这些需求变得简单易行。PyPDF2登场首先，我们需要安装PyPDF2库。如果你还没有安装，别担心，只需要在终端运行以下命令：pipinstallPyPDF2安装好了吗？下面我
决策树算法及其python实例 m0_74831463 算法决策树 python
一、决策数的概念什么是决策树算法呢？决策树（DecisionTree）是一种基本的分类与回归方法，本文主要讨论分类决策树。决策树模型呈树形结构，在分类问题中，表示基于特征对数据进行分类的过程。它可以认为是if-then规则的集合。每个内部节点表示在属性上的一个测试，每个分支代表一个测试输出，每个叶节点代表一种类别二、决策树的构造1、决策树的构造步骤输入：训练集D={(21,11),(z2,32),
探索Sfm-python: 一款强大的计算机视觉库缪昱锨Hunter
探索Sfm-python:一款强大的计算机视觉库去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，Sfm-python是一个值得关注的开源项目，它以简洁高效的Python接口提供结构化从运动（StructurefromMotion,SfM）算法。如果你对3D重建、图像匹配或地理定位有兴趣，那么这个项目将是你不可或缺的工具。让我们一起深入了解一下它的技术细节、应用场景
Python Textract库：文本提取程序员喵哥 python 开发语言
更多Python学习内容：ipengtao.comTextract是一个强大的Python库，用于从各种文件格式中提取文本。无论是PDF、Word文档、Excel电子表格、HTML页面还是图像，Textract都能有效地提取其中的文本内容。Textract通过集成多种开源工具和库，实现了对多种文件格式的支持，使得文本提取变得简单而高效。本文将详细介绍Textract库的安装、主要功能、基本操作、高
python学智能算法（八）|决策树西猫雷婶人工智能 python学习笔记机器学习 python 决策树开发语言
【1】引言前序学习进程中，已经对KNN邻近算法有了探索，相关文章链接为：python学智能算法（七）|KNN邻近算法-CSDN博客但KNN邻近算法有一个特点是：它在分类的时候，不能知晓每个类别内事物的具体面貌，只能获得类别，停留在事物的表面。为了进一步探索事物的内在特征，就需要学习新的算法。本篇文章就是在KNN的基础上学习新算法：决策树。【2】原理分析在学习决策树执之前，需要先了解香农熵。本科学控
freecad嵌入工作台黄河里的小鲤鱼软件开发建模 python
1Introduction导言FreeCADcanbeimportedasaPythonmoduleinotherprogramsorinastandalonePythonconsole,togetherwithallitsmodulesandcomponents.It’sevenpossibletoimporttheFreeCADuserinterfaceasapythonmodulebutwi
家用笔记本换装centos7当服务器全流程吕域服务器 windows 电脑 centos
目录1、安装centos7系统硬件准备软件和镜像准备制作启动盘2、网络连接和ssh远程登陆centos7连接网络ssh远程登陆3、笔记本闭盖不休眠（7*24小时可用）4、定时开关机（省电、保护电脑）5、配置开发环境（此处以python为例，非必要项，示需求安装）1、安装centos7系统硬件准备老旧淘汰笔记本一台（新笔记本不合算，舍不得）一个大于8G的U盘网线一根（后续联网用）软件和镜像准备软件U
Umi-OCR：一款强大而高效的文字识别工具裘心国Trent
Umi-OCR：一款强大而高效的文字识别工具Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda介绍Umi-OCR是一款基于深度学习技术的开源文字识别工具，特别适合日常办公、学术研究及数据分析等场景。它能有效解决将图像中的文字快速转化为可编辑文本的需求，极大提升工作效率。此工具依托于先进的计算机
python 函数—文档、类型注释和内省想知道哇 python python 开发语言
Python文档、类型注释和内省目录引言函数文档docstring的使用help()函数类型注释基本类型注释复杂类型注释内省技术基本内省方法inspect模块的高级内省综合示例建议引言Python提供了丰富的文档和内省机制，使开发者能够编写自解释的代码并在运行时检查对象属性。本教程详细介绍了函数文档、类型注释和内省技术。函数文档docstring的使用Python使用三引号字符串（'''或"""）
奇异值分解（SVD）文弱_书生乱七八糟神经网络人工智能
奇异值分解(SVD)介绍奇异值分解(SVD)，这是最强大的矩阵分解技术之一。SVD广泛应用于机器学习、数据科学和其他计算领域，用于降维、降噪和矩阵近似等应用。与仅适用于方阵的特征分解不同，SVD可以应用于任何矩阵，使其成为一种多功能工具。在这里煮啵将分解SVD背后的理论，通过手动计算示例进行分析，并展示如何在Python中实现SVD。在本节结束时，您将清楚地了解SVD的强大功能及其在机器学习中的应
python异步--asyncio HWQlet python python异步编程
在python2.x和python3.x早期版本的时候，协程的主流实现方法是gevent，这个我之前讲过asyncio在python3.4后内置在python中了，在后面还有async/await，更后面有aiohttp，flask实现就有参照aiohttpasync和await分别又来替换早期协程的asyncio.coroutine和yieldfrom。从此以后，协程就是python中一个新的语
Python异步编程 - asyncio库孤寒者 Python全栈系列教程 python 异步编程 asyncio yield 协程
目录：每篇前言：异步IOPython中的异步编程实现方式：协程Python传统协程示例：实现生产者-消费者模型消费者：生产者：运行流程：整体流程：传统协程——>现代协程：asyncio库async/await每篇前言：作者介绍：【孤寒者】—CSDN全栈领域优质创作者、HDZ核心组成员、华为云享专家Python全栈领域博主、CSDN原力计划作者本文已收录于爬虫必备前端技术栈专栏：《爬虫必备前端技术栈
python输出星号等腰三角形_python打印直角三角形与等腰三角形实例代码 weixin_39644139 python输出星号等腰三角形
python打印直角三角形与等腰三角形实例代码前言本文通过示例给大家详细介绍了关于python打印三角形的相关，分享出来供大家参考学习，下面话不多说了，来一起看看详细的介绍吧1、直角三角形#i控制行数j控制*的个数foriinrange(5):i+=1forjinrange(i):print('*',end='')#end=‘'输出空格print()/2、等腰三角形row=int(input('p
python绘制等边三角形的代码_Python打印等边三角形 weixin_39621178
示例1:#!/usr/bin/python#-*-coding:UTF-8-*-#根据输入打印rows=int(raw_input('pleaseinputnumber:'))#等边三角形foriinrange(0,rows+1):forjinrange(0,rows-i):print"",j+=1forkinrange(0,2*i-1):ifk==0ork==2*i-2ori==rows:ifi
Python写倒三角森之林 python
4.(程序题)编程显示如下所示的三角形图案。要求程序运行时，输入一个正整数，显示该整数行高度的三角形图案。#############h=int(input("请输入高度："))foriinrange(h):forjinrange(i,h):print("#",end="")forrinrange(0,i):print("",end="")print("")
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要