Yummyik

各主要城市数据分析岗位薪资水平分析

一、项目背景

由于个人考虑转行数据分析，故通过对招聘信息数据的分析，了解该岗位的市场需求、行业分布、薪资水平，以便明确求职方向

二、数据获取

数据来源于boss直聘网，通过爬虫采集
采集的城市主要为一线、新一线等较为发达的城市
爬虫代码如下：

from selenium import webdriver
from bs4 import BeautifulSoup

driver = webdriver.Chrome(r'D:\PycharmProjects\python_present\boss直聘爬取\chromedriver.exe')

cities = [{"name": "北京", "code": 101010100, "url": "/beijing/"},
{"name": "上海", "code": 101020100, "url": "/shanghai/"},
{"name": "广州", "code": 101280100, "url": "/guangzhou/"},
{"name": "深圳", "code": 101280600, "url": "/shenzhen/"},
{"name": "杭州", "code": 101210100, "url": "/hangzhou/"},
{"name": "天津", "code": 101030100, "url": "/tianjin/"},
{"name": "苏州", "code": 101190400, "url": "/suzhou/"},
{"name": "武汉", "code": 101200100, "url": "/wuhan/"},
{"name": "厦门", "code": 101230200, "url": "/xiamen/"},
{"name": "长沙", "code": 101250100, "url": "/changsha/"},
{"name": "成都", "code": 101270100, "url": "/chengdu/"},
{"name": "郑州", "code": 101180100, "url": "/zhengzhou/"},
{"name": "重庆", "code": 101040100, "url": "/chongqing/"},
{"name": "青岛", "code": 101120200, "url": "/qingdao/"},
{"name": "南京", "code": 101190100, "url": "/nanjing/"}]

for city in cities:
urls = ['https://www.zhipin.com/c{}/?query=数据分析&page={}&ka=page-{}'.format(city['code'], i, i) for i in
range(1, 8)]
for url in urls:
driver.get(url)
html = driver.page_source
bs = BeautifulSoup(html, 'html.parser')
job_all = bs.find_all('div', {"class": "job-primary"})
for job in job_all:
position = job.find('span', {"class": "job-name"}).get_text()
address = job.find('span', {'class': "job-area"}).get_text()
company = job.find('div', {'class': 'company-text'}).find('h3', {'class': "name"}).get_text()
salary = job.find('span', {'class': 'red'}).get_text()
diploma = job.find('div', {'class': 'job-limit'}).find('p').get_text()[-2:]
experience = job.find('div', {'class': 'job-limit'}).find('p').get_text()[:-2]
labels = job.find('a', {'class': 'false-link'}).get_text()
with open('position.csv', 'a+', encoding='UTF-8-SIG') as f_obj:
f_obj.write(position.replace(',', '、') + "," + address + "," + company + "," + salary + "," + diploma

                          + "," + experience + ',' + labels + "\n")

driver.quit()

三、数据清洗

In [59]:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import warnings 
from scipy.stats import norm,mode
import re
warnings.filterwarnings('ignore')
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False

原数据没有字段名，设置字段名：
position：岗位名
address：公司所在地区
company：公司名
salary：薪水
diploma：学历要求
experience：工作经验要求
lables：行业标签

In [60]:

df = pd.read_csv('job.csv',header=None,names=['position','address','company','salary','diploma','experience','lables'])

查看数据整体情况

In [61]:

df.head()

Out[61]:

	position	address	company	salary	diploma	experience	lables
0	数据分析	北京·朝阳区·亚运村	中信百信银行	25-40K·15薪	本科	5-10年	银行
1	数据分析	北京·朝阳区·太阳宫	BOSS直聘	25-40K·16薪	博士	1-3年	人力资源服务
2	数据分析	北京·朝阳区·鸟巢	京东集团	50-80K·14薪	本科	3-5年	电子商务
3	数据分析	北京·海淀区·清河	一亩田	15-25K	本科	3-5年	O2O
4	数据分析岗	北京·海淀区·西北旺	建信金科	20-40K·14薪	硕士	5-10年	银行

In [62]:

df.shape

Out[62]:

(3045, 7)

In [63]:

df.info()


RangeIndex: 3045 entries, 0 to 3044
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   position    3045 non-null   object
 1   address     3045 non-null   object
 2   company     3045 non-null   object
 3   salary      3045 non-null   object
 4   diploma     3045 non-null   object
 5   experience  3045 non-null   object
 6   lables      3045 non-null   object
dtypes: object(7)
memory usage: 83.3+ KB

发现有45行重复数据，进行删除

In [64]:

df.duplicated().sum()

Out[64]:

In [65]:

df.drop_duplicates(keep='first',inplace=True)

In [66]:

df.duplicated().sum()

Out[66]:

In [67]:

df.shape

Out[67]:

(3000, 7)

In [68]:

df.isnull().sum()

Out[68]:

position      0
address       0
company       0
salary        0
diploma       0
experience    0
lables        0
dtype: int64

考虑到数据中有实习岗位，实习岗薪资按天算，不具有太大的参考价值，故删除包含实习的数据

In [69]:

#df['position'] = df['position'].astype('string')

In [70]:

x=df['position'].str.contains('实习')
df=df[~x]
df.reset_index(drop=True,inplace=True)

address列的值不规范，进行处理，全部转换为城市名

In [71]:

df['address']=df['address'].str[:2]

In [72]:

df['address'].unique()

Out[72]:

array(['北京', '上海', '广州', '深圳', '杭州', '天津', '苏州', '武汉', '厦门', '长沙', '成都',
       '郑州', '重庆', '青岛', '南京'], dtype=object)

观察salary列的值

In [73]:

df['salary'].unique()

Out[73]:

array(['25-40K·15薪', '25-40K·16薪', '50-80K·14薪', '15-25K', '20-40K·14薪',
       '15-30K·14薪', '20-30K', '15-25K·14薪', '40-55K·13薪', '20-35K',
       '30-55K·13薪', '20-40K·16薪', '35-40K·15薪', '45-65K', '15-30K',
       '25-50K·14薪', '25-35K·14薪', '15-25K·16薪', '15-28K·14薪', '18-28K',
       '30-50K·13薪', '20-35K·14薪', '15-28K', '20-30K·13薪', '30-50K·16薪',
       '18-30K·14薪', '18-22K·15薪', '25-45K·16薪', '13-25K', '14-25K·14薪',
       '18-35K·14薪', '25-45K·14薪', '25-40K', '15-26K·13薪', '12-24K',
       '25-45K', '20-40K', '20-30K·15薪', '15-25K·15薪', '25-40K·17薪',
       '20-30K·14薪', '18-35K', '18-27K', '30-45K', '20-40K·15薪',
       '20-30K·16薪', '25-30K·15薪', '17-27K', '28-50K·14薪', '25-35K',
       '30-60K·14薪', '30-55K', '35-60K·14薪', '15-22K', '30-50K',
       '30-50K·14薪', '40-70K', '30-60K·13薪', '25-50K·15薪', '13-26K·16薪',
       '25-50K', '12-24K·14薪', '17-25K·15薪', '18-25K·15薪', '28-40K·16薪',
       '30-40K', '28-40K·13薪', '20-25K·16薪', '30-60K·16薪', '25-30K·14薪',
       '15-30K·15薪', '25-40K·14薪', '35-65K·16薪', '30-45K·14薪',
       '20-35K·16薪', '15-30K·16薪', '35-65K·15薪', '25-26K', '20-25K',
       '25-50K·16薪', '18-35K·16薪', '18-25K·14薪', '25-30K', '19-35K',
       '12-22K·14薪', '28-45K·14薪', '18-30K', '18-25K', '15-25K·13薪',
       '15-25K·17薪', '15-30K·13薪', '40-60K·15薪', '18-30K·15薪',
       '25-40K·13薪', '25-30K·13薪', '20-35K·15薪', '18-24K', '30-60K',
       '40-70K·14薪', '18-30K·13薪', '16-25K·13薪', '20-28K·15薪',
       '15-20K·13薪', '15-20K·14薪', '12-18K', '11-20K', '20-40K·13薪',
       '14-28K', '11-17K·13薪', '15-20K', '9-14K', '12-15K', '11-22K',
       '10-15K', '12-20K', '12-17K', '9-13K·13薪', '10-15K·14薪',
       '10-15K·13薪', '7-12K·14薪', '10-11K', '6-9K', '10-12K',
       '20-25K·14薪', '8-10K·13薪', '9-13K·14薪', '7-10K', '7-10K·13薪',
       '20-35K·13薪', '25-35K·16薪', '30-40K·13薪', '30-50K·15薪',
       '30-60K·15薪', '12-20K·14薪', '28-55K', '23-45K', '8-13K',
       '30-35K·15薪', '30-45K·16薪', '15-28K·15薪', '60-90K·16薪', '40-60K',
       '30-35K', '12-24K·16薪', '16-30K·15薪', '11-15K·15薪', '15-16K',
       '6-10K·13薪', '4-8K', '5-7K', '4-6K', '4-7K', '8-13K·13薪',
       '14-20K·13薪', '18-28K·16薪', '6-8K', '35-50K', '11-18K', '6-10K',
       '25-35K·15薪', '5-10K·13薪', '8-10K', '5-10K', '12-17K·14薪',
       '11-20K·13薪', '10-13K·14薪', '8-12K', '13-25K·14薪', '11-22K·18薪',
       '28-40K·14薪', '3-6K', '12-22K', '5-8K', '9-14K·16薪', '13-20K',
       '14-20K·14薪', '15-17K·13薪', '5-6K', '6-8K·13薪', '15-17K', '3-5K',
       '6-7K·13薪', '18-35K·15薪', '3-4K', '8-13K·14薪', '8-12K·13薪',
       '7-12K·13薪', '4-5K', '9-14K·13薪', '5-9K', '12-18K·13薪',
       '20-25K·15薪', '9-11K', '8-16K', '13-23K', '14-25K', '7-12K',
       '12-15K·13薪', '3-5K·13薪', '12-24K·13薪', '16-23K', '6-10K·15薪',
       '11-16K', '7-11K', '16-22K·13薪', '10-20K', '14-22K', '60-90K',
       '30-35K·14薪', '35-50K·16薪', '13-22K·14薪', '5-8K·13薪', '10-15K·16薪',
       '5-6K·13薪', '13-25K·13薪', '8-11K', '13-26K', '16-32K', '16-28K',
       '80-110K·14薪', '9-13K', '12-16K', '21-22K', '20-40K·18薪', '16-30K',
       '30-55K·16薪', '11-16K·13薪', '70-100K·14薪', '15-22K·13薪',
       '18-25K·13薪', '20-21K', '10-15K·15薪', '9-12K', '23-45K·16薪',
       '25-50K·13薪', '25-30K·20薪', '35-50K·15薪', '30-40K·18薪',
       '40-70K·16薪', '15-26K', '14-28K·14薪', '18-22K', '35-65K', '15-21K',
       '30-55K·18薪', '12-20K·13薪', '21-35K·16薪', '15-30K·17薪', '4-9K',
       '9-14K·15薪', '20-40K·17薪', '18-36K', '6-8K·15薪', '4-6K·13薪',
       '25-35K·13薪', '16-30K·14薪', '22-27K', '11-18K·13薪', '18-26K',
       '28-50K·13薪', '35-40K', '20-24K', '17-25K', '13-21K·13薪',
       '12-20K·17薪', '12-24K·15薪', '15-22K·14薪', '12-18K·15薪',
       '30-50K·18薪', '8-13K·15薪', '65-95K', '24-38K', '6-11K·13薪',
       '6-11K', '9-15K', '11-15K', '7-8K', '8-9K', '2-5K', '7-11K·13薪',
       '6-7K', '4-8K·13薪', '3-4K·13薪', '3-7K', '12-13K·13薪', '12-17K·15薪',
       '7-9K', '14-28K·13薪', '8-15K', '9-11K·13薪', '10-12K·13薪', '8-14K',
       '12-18K·14薪', '4-5K·13薪', '9-14K·14薪', '12-16K·13薪', '5-8K·15薪',
       '5-10K·14薪', '11-20K·14薪', '12-20K·15薪', '17-30K·15薪', '6-9K·14薪',
       '15-18K·13薪', '40-70K·13薪', '11-22K·14薪', '12-22K·15薪', '15-23K',
       '18-23K', '14-28K·15薪', '35-50K·14薪', '50-80K', '13-20K·15薪',
       '15-20K·15薪', '6-8K·14薪', '17-30K', '7-8K·13薪', '10-13K',
       '4-6K·14薪', '2-4K', '6-12K', '6-11K·14薪', '10-13K·13薪',
       '8-12K·14薪', '5-7K·13薪', '35-50K·13薪', '11-12K', '4-5K·14薪',
       '10-13K·15薪', '27-40K', '16-25K·14薪', '12-22K·13薪', '11-22K·13薪',
       '5-9K·13薪', '13-21K', '13-17K', '11-20K·15薪', '11-19K', '14-18K',
       '11-20K·17薪', '3-8K', '13-18K', '10-20K·18薪', '8-11K·13薪',
       '45-60K·15薪', '13-26K·14薪', '13-20K·14薪', '15-16K·13薪',
       '11-18K·14薪', '2-6K', '8-10K·14薪', '3-5K·14薪', '2-3K',
       '10-11K·16薪', '18-20K', '12-13K', '12-13K·15薪', '2-7K',
       '8-12K·15薪', '15-30K·18薪', '6-7K·14薪', '5-8K·16薪', '18-22K·18薪',
       '11-16K·15薪', '15-25K·20薪', '18-35K·13薪', '14-20K', '13-16K',
       '4-7K·13薪', '10-12K·15薪', '7-14K', '12-14K', '3-7K·13薪',
       '7-10K·14薪', '22-40K', '4-6K·15薪', '15-24K', '13-22K·16薪',
       '26-50K', '10-18K', '6-9K·13薪', '14-15K·14薪', '9-10K', '3-6K·13薪',
       '4-9K·13薪', '16-20K·13薪', '12-23K', '1-4K', '11-16K·14薪',
       '13-18K·13薪', '12-15K·15薪', '20-28K·13薪', '6-10K·14薪',
       '12-17K·13薪', '13-15K', '13-14K', '11-20K·16薪', '50-60K',
       '5-7K·14薪', '10-15K·17薪', '13-20K·13薪', '4-9K·14薪', '17-34K',
       '20-25K·19薪'], dtype=object)

将薪资列的值进行拆分，新增bottom，top两列，作为一个岗位薪资的最低值和最高值

In [74]:

df['bottom']=df['salary'].str.extract('^(\d+).*')

In [75]:

df['top']=df['salary'].str.extract('^.*?-(\d+).*')

有些公司的薪资是单个值，则用bottom列的值填充top列

In [76]:

df['top'].fillna(df['bottom'],inplace=True)

In [77]:

df

Out[77]:

	position	address	company	salary	diploma	experience	lables	bottom	top
0	数据分析	北京	中信百信银行	25-40K·15薪	本科	5-10年	银行	25	40
1	数据分析	北京	BOSS直聘	25-40K·16薪	博士	1-3年	人力资源服务	25	40
2	数据分析	北京	京东集团	50-80K·14薪	本科	3-5年	电子商务	50	80
3	数据分析	北京	一亩田	15-25K	本科	3-5年	O2O	15	25
4	数据分析岗	北京	建信金科	20-40K·14薪	硕士	5-10年	银行	20	40
...	...	...	...	...	...	...	...	...	...
2921	助理数据分析员	南京	万得	4-6K	本科	经验不限	数据服务	4	6
2922	数据分析师（经济）	南京	万得	4-6K	本科	经验不限	数据服务	4	6
2923	（金融）数据分析员	南京	万得	4-6K	本科	经验不限	数据服务	4	6
2924	数据分析员	南京	万得	4-6K	本科	1年以内	数据服务	4	6
2925	助理数据分析员	南京	万得	4-8K	本科	经验不限	数据服务	4	8

2926 rows × 9 columns

有些公司有标明年终奖，如14薪等，故新增一列commission_pct作为奖金率，并计算每个岗位的奖金率

In [78]:

df['commision_pct']=df['salary'].str.extract('^.*?·(\d{2})薪')
df['commision_pct'].fillna(12,inplace=True)
df['commision_pct']=df['commision_pct'].astype('float64')
df['commision_pct']=df['commision_pct']/12

将bottom，top，commission__pct列转换为数值形式，并以此计算出每个岗位的平均薪资作为新增列avg_salary

In [79]:

df['bottom'] = df['bottom'].astype('int64')
df['top'] = df['top'].astype('int64')
df['avg_salary'] = (df['bottom']+df['top'])/2*df['commision_pct']
df['avg_salary'] = df['avg_salary'].astype('int64')

In [80]:

df.head()

Out[80]:

	position	address	company	salary	diploma	experience	lables	bottom	top	commision_pct	avg_salary
0	数据分析	北京	中信百信银行	25-40K·15薪	本科	5-10年	银行	25	40	1.250000	40
1	数据分析	北京	BOSS直聘	25-40K·16薪	博士	1-3年	人力资源服务	25	40	1.333333	43
2	数据分析	北京	京东集团	50-80K·14薪	本科	3-5年	电子商务	50	80	1.166667	75
3	数据分析	北京	一亩田	15-25K	本科	3-5年	O2O	15	25	1.000000	20
4	数据分析岗	北京	建信金科	20-40K·14薪	硕士	5-10年	银行	20	40	1.166667	35

In [81]:

cols=list(df)
cols.insert(4,cols.pop(cols.index('bottom')))
cols.insert(5,cols.pop(cols.index('top')))
cols.insert(6,cols.pop(cols.index('commision_pct')))
cols.insert(7,cols.pop(cols.index('avg_salary')))
df=df.loc[:,cols]
df

Out[81]:

	position	address	company	salary	bottom	top	commision_pct	avg_salary	diploma	experience	lables
0	数据分析	北京	中信百信银行	25-40K·15薪	25	40	1.250000	40	本科	5-10年	银行
1	数据分析	北京	BOSS直聘	25-40K·16薪	25	40	1.333333	43	博士	1-3年	人力资源服务
2	数据分析	北京	京东集团	50-80K·14薪	50	80	1.166667	75	本科	3-5年	电子商务
3	数据分析	北京	一亩田	15-25K	15	25	1.000000	20	本科	3-5年	O2O
4	数据分析岗	北京	建信金科	20-40K·14薪	20	40	1.166667	35	硕士	5-10年	银行
...	...	...	...	...	...	...	...	...	...	...	...
2921	助理数据分析员	南京	万得	4-6K	4	6	1.000000	5	本科	经验不限	数据服务
2922	数据分析师（经济）	南京	万得	4-6K	4	6	1.000000	5	本科	经验不限	数据服务
2923	（金融）数据分析员	南京	万得	4-6K	4	6	1.000000	5	本科	经验不限	数据服务
2924	数据分析员	南京	万得	4-6K	4	6	1.000000	5	本科	1年以内	数据服务
2925	助理数据分析员	南京	万得	4-8K	4	8	1.000000	6	本科	经验不限	数据服务

2926 rows × 11 columns

再次查看数据，发现极端异常值，月薪1000和月薪10万
这些极端值数量都很少，剔除月薪小于2000大于55000的数据

In [82]:

df.describe()

Out[82]:

	bottom	top	commision_pct	avg_salary
count	2926.000000	2926.000000	2926.000000	2926.000000
mean	11.980861	20.058442	1.057929	17.056391
std	7.841004	13.824406	0.100427	12.582388
min	1.000000	3.000000	1.000000	2.000000
25%	6.000000	9.000000	1.000000	7.000000
50%	10.000000	15.000000	1.000000	13.000000
75%	15.000000	30.000000	1.083333	23.000000
max	80.000000	110.000000	1.666667	110.000000

In [83]:

df=df[(df.avg_salary>2)&(df.avg_salary<55)]

In [84]:

df['diploma'].unique()

Out[84]:

array(['本科', '博士', '硕士', '不限', '大专', '高中', '中技'], dtype=object)

对experience列进行清洗

In [85]:

df['experience'].unique()

Out[85]:

array(['5-10年', '1-3年', '3-5年', '经验不限', '5-10年学历', '3-5年学历', '经验不限学历',
       '在校/应届', '1-3年学历', '1年以内', '10年以上', '1年以内学历', '1-3年中专/', '经验不限中专/',
       '1年以内中专/'], dtype=object)

In [86]:

df['experience'].replace('5-10年学历','5-10年',inplace=True)
df['experience'].replace('3-5年学历','3-5年',inplace=True)
df['experience'].replace('经验不限学历','经验不限',inplace=True)
df['experience'].replace('1-3年学历','1-3年',inplace=True)
df['experience'].replace('1年以内学历','1年以内',inplace=True)
df['experience'].replace('经验不限中专/','经验不限',inplace=True)
df['experience'].replace('1年以内中专/','1年以内',inplace=True)
df['experience'].replace('1-3年中专/','1-3年',inplace=True)
df['experience'].unique()

Out[86]:

array(['5-10年', '1-3年', '3-5年', '经验不限', '在校/应届', '1年以内', '10年以上'],
      dtype=object)

In [87]:

df['diploma'].unique()

Out[87]:

array(['本科', '博士', '硕士', '不限', '大专', '高中', '中技'], dtype=object)

In [88]:

df['diploma'].value_counts()

Out[88]:

本科    2153
大专     487
硕士     142
不限      74
中技      10
高中       8
博士       6
Name: diploma, dtype: int64

In [89]:

pd.set_option('max_row',100)

观察lables列，对数量较少且为传统行业的数据归入其他行业

In [90]:

df['lables'].value_counts()

Out[90]:

互联网            729
计算机软件          285
移动互联网          269
电子商务           247
数据服务           111
互联网金融           87
游戏              80
在线教育            75
生活服务            72
O2O             69
医疗健康            68
贸易/进出口          52
其他行业            49
企业服务            46
银行              43
物流/仓储           39
通信/网络设备         30
信息安全            29
批发/零售           29
智能硬件            26
环保              25
服装/纺织/皮革        25
咨询              24
食品/饮料/烟酒        21
新零售             21
培训机构            20
广告营销            18
计算机服务           17
人力资源服务          17
社交网络            16
工程施工            15
家具/家电/家居        15
广告/公关/会展        13
医疗/护理/卫生        13
电子/半导体/集成电路     12
其他服务业            9
旅游               9
餐饮               9
汽车生产             9
交通/运输            9
证券/期货            8
制药               7
医疗设备/器械          7
仪器仪表/工业自动化       6
其他专业服务           6
投资/融资            6
日化               6
机械设备/机电/重工       6
新能源              6
文化/体育/娱乐         5
房地产开发            5
装修装饰             4
音乐/视频/阅读         4
检测/认证            3
学术/科研            3
运营商/增值服务         3
农/林/牧/渔          3
地产经纪/中介          3
租赁/拍卖/典当/担保      3
基金               2
4S店/后市场          2
美容/美发            2
汽车零部件            2
电力/热力/燃气/水利      2
建筑设计             2
建材               2
专利/商标/知识产权       2
分类信息             2
物业服务             2
计算机硬件            2
酒店               2
印刷/包装/造纸         1
玩具/礼品            1
石油/石化            1
政府/公共事业          1
化工               1
广播/影视            1
非盈利机构            1
能源/化工/环保         1
媒体               1
法律               1
Name: lables, dtype: int64

In [91]:

df.loc[~df['lables'].isin(['互联网','计算机软件','移动互联网','电子商务','数据服务',
                           '互联网金融','游戏','在线教育','生活服务','O2O','医疗健康','贸易/进出口','企业服务','银行']),'lables']='其他行业'

In [92]:

df['lables'].value_counts()

Out[92]:

互联网       729
其他行业      647
计算机软件     285
移动互联网     269
电子商务      247
数据服务      111
互联网金融      87
游戏         80
在线教育       75
生活服务       72
O2O        69
医疗健康       68
贸易/进出口     52
企业服务       46
银行         43
Name: lables, dtype: int64

四、可视化及简要分析

In [99]:

df.avg_salary.groupby(df['address']).agg(['mean','median']).plot.bar(figsize=(16,8))

Out[99]:

通过上图，可以发现各个城市的均值与中位数差距不大，但是城市之间区别非常大
北上深杭这四个城市的工资水平远远高于其他城市，广州苏州稍为靠后
靠前的这几个城市也是全国经济最为发达的几个城市，而且都发布在东部
中部城市薪资水平普遍低一些

In [108]:

fig=plt.figure(figsize=(12,6),dpi=80)
plt.hist(df['avg_salary'],bins=30,color='#f59311',alpha=0.3,edgecolor='k')
plt.ylabel('岗位数',fontsize=15)
plt.xlabel('薪资',fontsize=15)
plt.xticks(list(range(0,60,5)))
plt.show()

通过上图可以观察到，从总体来看，这个岗位少部分人拿着极高的工资
他们拉高了整个岗位的平均水平
月薪一万至两万的岗位不在少数
然而四千至五千的岗位居然是最多的，那么这些岗位主要是分布在哪些地区或行业呢，下面尝试进行分析

In [128]:

plt.figure(figsize=(16,16),dpi=80)
plt.subplot(121)
temp = df[df.avg_salary<10].groupby('address').avg_salary.count()
plt.pie(temp,labels=temp.index,autopct='% .2f%%')
plt.legend()
plt.title('薪资小于6K各城市占比')
plt.subplot(122)
temp = df[df.avg_salary>10].groupby('address').avg_salary.count()
plt.pie(temp,labels=temp.index,autopct='% .2f%%')
plt.title('薪资大于6K各城市占比')
plt.legend()

Out[128]:

从以上饼图可以看到，各城市间薪资水平差异非常大，薪资水平小于6k的岗位主要集中分布于重庆、郑州、成都、武汉等中西部城市；而北上广深杭等城市基本不存在薪资水平小于6K的情况；而薪资水平大于6K的岗位分布区别则非常明显，北上广深杭的所占比重直接升至10%以上，重庆、郑州、成都、武汉等城市所占比重则减少到3%左右，由此可见，低薪岗位主要分布于中西部城市。

In [37]:

data1=df[df.address=='北京']['avg_salary']
data2=df[df.address=='上海']['avg_salary']
data3=df[df.address=='广州']['avg_salary']
data4=df[df.address=='深圳']['avg_salary']
data5=df[df.address=='杭州']['avg_salary']
plt.figure(figsize=(12,6),dpi=80)
plt.boxplot([data1,data2,data3,data4,data5],labels=['北京','上海','广州','深圳','杭州'], 
            flierprops={'marker':'o','markerfacecolor':'r','color':'k'},
            patch_artist=True,boxprops={'color':'k','facecolor':'#FFFACD'})
ax=plt.gca()
ax.patch.set_facecolor('#FFFAFA')
ax.patch.set_alpha(0.8)
plt.title('主要城市薪资水平箱线图',fontsize=15)
plt.ylabel('薪资(单位：k)',fontsize=12)
plt.show()

选取薪资水平较高的五个城市进行分析
可以发现，北京的薪资水平是最高的，无论是最低值还是最高值，而且均分布在较高的水平
相对来说，杭州上海深圳两级分化最为严重

In [38]:

d = df['avg_salary'].groupby(df['diploma'])
d_avg = d.mean()
c = list(d_avg.index)
v = list(range(1,len(c)+1))
w = d_avg.values.astype('int64')
x = d.median().values.astype('int64')
move = 0.4
plt.figure(figsize=(14,8),dpi=80)
plt.bar(v,w,width=move,color='#eed777')
plt.bar([i+move for i in v],x,width=move,color='#334f65')
a = np.arange(0,7)+1.2
plt.xticks(a,c)
plt.yticks(list(range(0,40,5)))
plt.legend(['均值','中位数'])
plt.title('各学历薪资均值及中位数比较图',fontsize=16)
plt.xlabel('学历',fontsize = 12)
plt.ylabel('薪资(单位K)',fontsize = 12)
for e,f in zip(v,w):
    plt.text(e,f,'{}k'.format(f),ha='center',fontsize=12)
for g,h in zip([i+move for i in v],x):
    plt.text(g,h,'{}k'.format(h),ha='center',fontsize=12)
plt.show()

从学历方面来看，本科是一个分水岭
是否是本科，对薪资水平的影响还是很大的
而本科与硕士之间并没有特别大的差距
博士的薪资水平远远高于其他学历

In [39]:

data = df['diploma'].value_counts()
y=data.values
plt.figure(figsize=(10,10),dpi=80)
plt.pie(y,labels=data.index,autopct='%.1f %%')
plt.show()

从市场需求来看，要求本科占据绝大多数
该岗位对学历的门槛并不是很高，要求硕士的较少，而博士则是凤毛麟角
不过这也从侧面反映了社会上学历的分布状况，本科生及大专生占绝对多数
虽然市场需求量大，但是本科生就业压力也很大

In [40]:

d = df['avg_salary'].groupby(df['experience'])
d_avg = d.mean()
c = list(d_avg.index)
v = list(range(1,len(c)+1))
w = d_avg.values.astype('int64')
x = d.median().values.astype('int64')
move = 0.4
plt.figure(figsize=(14,8),dpi=80)
plt.bar(v,w,width=move,color='#002c53')
plt.bar([i+move for i in v],x,width=move,color='#0c84c6')
a = np.arange(0,7)+1.2
plt.xticks(a,c)
plt.yticks(list(range(0,40,5)))
plt.legend(['均值','中位数'])
plt.title('各工作年限薪资均值及中位数比较图',fontsize=16)
plt.xlabel('工作经验',fontsize = 12)
plt.ylabel('薪资(单位K)',fontsize = 12)
for e,f in zip(v,w):
    plt.text(e,f,'{}k'.format(f),ha='center',fontsize=12)
for g,h in zip([i+move for i in v],x):
    plt.text(g,h,'{}k'.format(h),ha='center',fontsize=12)
plt.show()

应届生的工资还是比较低的，和工作经验一年内的差距并不大
但是随着工作年限的增加，迈过3年工作经验这个门槛，工资水平将直线上升
说明这个岗位是一个需要累积丰富经验的岗位

In [41]:

data = df['experience'].value_counts()
y=data.values
plt.figure(figsize=(10,10),dpi=80)
plt.pie(y,labels=data.index,autopct='%.1f %%')
plt.show()

我们发现，市场上对于工作经验的要求还是很强烈的
1-5年的经验要求占绝大多数
而应届生和10年以上的需求则非常少
工作经验是入职成功与否的关键因素

In [42]:

d = df['avg_salary'].groupby(df['lables'])
d_avg = d.mean()
c = list(d_avg.index)
v = list(range(1,len(c)+1))
w = d_avg.values.astype('int64')
x = d.median().values.astype('int64')
move = 0.4
plt.figure(figsize=(14,8),dpi=80)
plt.bar(v,w,width=move,color='#9de0ff')
plt.bar([i+move for i in v],x,width=move,color='#ffa897')
a = np.arange(0,15)+1.3
plt.xticks(a,c)
plt.yticks(list(range(0,40,5)))
plt.legend(['均值','中位数'])
plt.title('各行业薪资均值及中位数比较图',fontsize=16)
plt.xlabel('行业',fontsize = 12)
plt.ylabel('薪资(单位K)',fontsize = 12)
for e,f in zip(v,w):
    plt.text(e,f,'{}k'.format(f),ha='center',fontsize=12)
for g,h in zip([i+move for i in v],x):
    plt.text(g,h,'{}k'.format(h),ha='center',fontsize=12)
plt.show()

通过上图及下图我们可以发现，互联网行业和电子商务对该岗位的需求非常大，同时薪资水平相比于其他行业也高了很多
而其他传统行业相对来说，无论是需求量还是薪资水平，都低一些

In [43]:

data = df['lables'].value_counts()
y=data.values
plt.figure(figsize=(10,10),dpi=80)
plt.pie(y,labels=data.index,autopct='%.1f %%')
plt.show()

通过以上简要分析，可以发现，如果要成功转行，应该往北上广深行这几个城市考虑，这些城市的薪资水平高
而行业方面应该着眼于互联网及电子商务等新兴行业，这些行业对该岗位的需求都比较大，而且薪资水平也普遍高
工作经验对于该岗位而言非常重要，能否成功转行的关键门槛在于是否有工作经验，与薪资水平呈正相关
而转行成功以后，只有在迈过3年这个坎，才会有比较大的突破。

本章相关数据可以自行通过数据爬取部分引导进行获取保存，若有需要job.csv数据集的伙伴，也欢迎在当下留言or私信我哈！感谢支持，互相共勉！

你可能感兴趣的:(Python,Python数据可视化,数据爬取,数据分析岗位分析,boss招聘岗位分析)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
抖音乐买买怎么加入赚钱?赚钱方法是什么测评君高省
你会在抖音买东西吗?如果会，那么一定要免费注册一个乐买买，抖音直播间，橱窗，小视频里的小黄车买东西都可以返佣金!省下来都是自己的，分享还可以赚钱乐买买是好省旗下的抖音返佣平台，乐买买分析社交电商的价值，乐买买属于今年难得的副业项目风口机会，2019年错过做好省的搞钱的黄金时期，那么2022年千万别再错过乐买买至于我为何转到高省呢？当然是高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
18-115 一切思考不能有效转化为行动，都TM是扯淡！成长时间线
7月25号写了一篇关于为什么会断更如此严重的反思，然而，之后日更仅仅维持了一周，又出现了这次更严重的现象。从8月2号到昨天8月6号，5天！又是5天没有更文！虽然这次断更时间和上次一样，那为什么说这次更严重？因为上次之后就分析了问题的原因，以及应该如何解决，按理说应该会好转，然而，没过几天严重断更的现象再次出现，想想，经过反思，问题依然没有解决与改变，这让我有些担忧。到底是哪里出了问题，难道我就真的
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
人生的每一步路都算数 sheli
如果你想打工，一直靠打工赚钱，那你就会不断的希望自己变得更专业，不断的希望能够获得更好的工作机会，升职加薪。如果你的目标志不在此，而是拥有自己的企业，那你的选择就会出现差别。在认真打工的人眼里，会“不务正业”，会总是选择不同岗位，甚至放弃高薪机会。但是这背后都是有更加长远的规划。成功富人所必需的管理技能包括：1．对现金流的管理。2．对系统的管理。3．对人员的管理。所以，在没有获得这些能力之前，只要
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
闲鱼鱼小铺怎么开通？鱼小铺开通需要哪些流程？高省APP大九
闲鱼鱼小铺是平台推出的一个专业程度的店铺，与普通店铺相比会有更多的权益，比如说发布的商品数量从50增加到500；拥有专业的店铺数据看板与分析的功能，这对于专门在闲鱼做生意的用户来说是非常有帮助的，那么鱼小铺每个人都能开通吗？大家好，我是高省APP联合创始人蓓蓓导师，高省APP是2021年推出的电商导购平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个可省钱佣金高，能
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
展现思维导图魅力，不断挖掘人生宝藏思维导图讲师Mandy
第13期最强思维导图训练营已经结束一周了，但是我依旧是感觉所有学员还在努力的学习，这些学员中有教师、学生、白领、公务员、宝妈等等，只要你努力，只要你想改变自己，任何行业，任何岗位都可以参与进来，28天足以让你见成效，在这28天中，我们的学员不仅仅是收获了一枚毕业证，最重要的是让自己的思维方式得到升级，今天的你为自己投资，明天的你就会感谢你今天的付出，我们来听一听来自13期最强思维导图训练营优秀学员
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。