Python为何不行

Python数据分析之智联招聘职位分析完整项目（数据爬取,数据分析,数据可视化）

作者找工作中

开发环境

4.3【开发平台及环境】
Windons 10 教育版
Python 3.7
IntelliJ IDEA 2018.2.1 / PyCharm
Googe Chrome
数据清洗分析模块pandas，numpy
可视化模块pyecharts

下期更新flask可项目视化项目
python，MySQL，Echarts，js

一：数据采集

招聘信息采集：使用爬虫采集技术，采集字段如下：
公司名称，职位，职位亮点，ID，规模，城市，学历，工作经验，公司类型，公司网站，求职网址，编号，城市ID

项目开发时间2019-10-10到10-16期间，爬虫代码随时间变化可能无效

import requests
from lxml import etree
import re
import json
import csv
import time
header = {
    'Accept': 'application/json, text/plain, */*',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3732.400 QQBrowser/10.5.3819.400',
    "cookie":"x-zp-client-id=e2f8492a-39c6-44f1-f181-3408dfc4c651; urlfrom2=121114583; adfcid2=www.baidu.com; adfbid2=0; sts_deviceid=1"
             "6d66515ef32a9-00a0ecf38d6864-34564a75-2073600-16d66515ef5900; sou_experiment=capi; sensorsdata2015jssdkcross=%7B%22distin"
             "ct_id%22%3A%2216d66515f058fe-0a7bf2d03b44ab-34564a75-2073600-16d66515f062a6%22%2C%22%24device_id%22%3A%2216d66515f058fe-0a7"
             "bf2d03b44ab-34564a75-2073600-16d66515f062a6%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E7%9B%B4%E6%8E"
             "%A5%E6%B5%81%E9%87%8F%22%2C%22%24latest_referrer%22%3A%22%22%2C%22%24latest_referrer_host%22%3A%22%22%2C%22%24latest_search"
             "_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5%88%B0%E5%80%BC_%E7%9B%B4%E6%8E%A5%E6%89%93%E5%BC%80%22%7D%7D; acw_tc=276082061571053"
             "5124757507e7f855599045d70c3a3baead7cb13244f9ce1; dywea=95841923.3929760379540693000.1569379672.1569379672.1571054618.2; dywez"
             "=95841923.1571054618.2.2.dywecsr=jobs.zhaopin.com|dyweccn=(referral)|dywecmd=referral|dywectr=undefined|dywecct=/cc224037312"
             "j00240379404.htm; Hm_lvt_38ba284938d5eddca645bb5e02a02006=1569379672,1571054618; __utma=269921210.106900723.1569379672.156937"
             "9672.1571054618.2; __utmz=269921210.1571054618.2.2.utmcsr=jobs.zhaopin.com|utmccn=(referral)|utmcmd=referral|utmcct=/CC2240373"
             "12J00240379404.htm; LastCity%5Fid=749; ZP_OLD_FLAG=false; POSSPORTLOGIN=0; CANCELALL=0; LastCity=%E9%95%BF%E6%A0%AA%E6%BD%AD; "
             "sts_sg=1; sts_chnlsid=Unknown; zp_src_url=http%3A%2F%2Fjobs.zhaopin.com%2FCC879864350J00334868004.htm; jobRiskWarning=true; acw"
             "_sc__v2=5da57cb5b3223856c3fb768be55c39bec99b9b33; ZL_REPORT_GLOBAL={%22jobs%22:{%22recommandActionidShare%22:%22f4ec2b1a-bbe2-41"
             "ba-b0fc-14c426ffd63b-job%22%2C%22funczoneShare%22:%22dtl_best_for_you%22}}; sts_sid=16dce6f31656d-0cee0282bd8b1b-34564a75-2073600-16dce6f31666cf; sts_evtseq=2"
}
def get_context(number):
    url = "https://fe-api.zhaopin.com/c/i/similar-positions?number="+number
    urll='https://jobs.zhaopin.com/'+number+'.htm'
    html = requests.get(url=url, headers=header)
    # print(html.json()['data']['data']['list'])
    companyName,companyNumber,companySize,salary60,workCity,education,\
    workingExp,property,companyUrl,positionURL,name,welfareLabel,number,cityId,cityDistrict,applyType,score,tag="","","","","","","","","","","","","","","","","",""
    try:
        for i in html.json()['data']['data']['list']:
            companyName = i['companyName']  # 公司
            companyNumber = i['companyNumber']  # ID
            companySize = i['companySize']  # 规模
            salary60 = i['salary60']  # 薪水
            workCity = i['workCity']  # 城市
            education = i['education']  # 学历
            workingExp = i['workingExp']  # 工作经验
            property = i['property']  #企业性质
            companyUrl = i['companyUrl']  # 公司网址
            positionURL = i['positionURL']  # 求职网址
            name = i['name']  # 职位名称
            # welfareLabel = i['welfareLabel']  # 福利
            number = i['number']  # 编号
            cityId = i['cityId']  # 城市id
            cityDistrict = i['cityDistrict']  # 城市区域
            applyType = i['applyType']  # 公司类型
            score = i['score']  # 公司分数
            tag=[] #标签

            for j in i['welfareLabel']:
                tag.append(j['value'])
            tag="/".join(tag)
    except:
        pass

    html = requests.get(url=urll,headers=header)
    html_xpath = etree.HTML(html.text)
    # miaosu = re.findall('(.*?)

', html.text)
    miaosu = html_xpath.xpath('string(//*[@class="describtion__detail-content"])')      # 提取子标签所有文本
    print("----------------------"+miaosu)
    miaosu = ''.join(miaosu)
    # time.sleep(1)
    fp = open('智联招聘_大数据.csv', 'a', newline='')
    write = csv.writer(fp)
    row = (companyName,name, tag ,companyNumber ,companySize, salary60,workCity,
           education,workingExp,property,companyUrl,positionURL,name,number,cityId,cityDistrict,applyType,score,miaosu)
    write.writerow(row)
    print('正在写入----'+workCity+'----的职位数据'+'----------'+name)
    fp.close()

# Web前端

def get_url(city):
    key = '大数据'      # 搜索关键字

    url = 'https://fe-api.zhaopin.com/c/i/sou?pageSize=4000&cityId='+city+'&workExperience=-1&education=-1&companyType=-1&employmentType=-1&jobWelfareTag=-1' \
            '&kw='+key+'&kt=3&lastUrlQuery=%7B%22pageSize%22:%2260%22,%22jl%22:%22489%22,%22kw%22:%22%E5%A4%A7%E6%95%B0%E6%8D%AE%22,%22kt%22:%223%22%7D'

    number  = ''
    url_head = 'https://jobs.zhaopin.com/'

    html = requests.get(url = url, headers = header)
    try:
        for i in html.json()['data']['results']:
            print("-----------"+i['number'])
            get_context(i['number'])          # 内容爬虫开始---/
    except:
        pass


url = 'https://sou.zhaopin.com/?jl=852&sf=0&st=0&kw=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E5%B8%88&kt=3'
html = requests.get(url = url, headers = header).text
data =re.findall('',html)
datas = json.loads(data[0])
try:
    for i in datas["basic"]["dict"]["location"]["province"]:
        get_url(i["code"])
except:
    pass

采集的数据保存为csv格式

关于python访问MySQL数据,使用matplotlib（复杂）可视化的简单例子访问：点击查看项目

简介：众多的招聘岗位中，大数据岗位分布在全国各个城市，岗位与企业之间又有着错综复杂的联系，企业类型多样，不同的企业有着各自不同的文化，对应聘者也有着不同约束。应聘者不同经验获得的薪资也不一样，找到符合自己的职位，需要考虑招聘者发布的基本要求，如：经验，学历等各方面的需求。应聘者也会考查企业性质和类型。以下我们对发布求职公司进行分析。

大数据岗位基本分析

1 统计出公司类型的数量

数据量不大，为了节省开发时间，使用了pandas，可视化使用的是pyecharts，也可以使用将数据导入MySQL，可视化使用 Echarts，后端我常使用flask / node.js，选其一即可，下一个项目介绍flask为依托的可视化项目

# 公司类型的数量
import pandas as pd
from pyecharts import Bar, Pie

# # 显示所有列
# pd.set_option('display.max_columns', None)
# # 显示所有行
# pd.set_option('display.max_rows', None)
# # 设置value的显示长度为100，默认为50
# pd.set_option('max_colwidth', 100)

# 引擎，去空（只有有一个字段为空就删除整行数据），根据ID字段去重，保留第一个
data = pd.read_csv('../File/智联招聘_数据分析师.csv',engine='python').dropna().drop_duplicates('ID','first')


# 分组，求数量，排序（倒叙），

# conpany = data[['ID','公司类型']].groupby(by='公司类型',as_index=False).count()

company = data[['ID','公司类型']].groupby(by='公司类型',as_index=False).count().sort_index(by='ID',ascending=False)

# company.to_csv('text.csv')

bar = Bar(width=2000, height=1000)
bar.add("公司类型", company['公司类型'], company['ID'],
        bar_category_gap="50%",  # 柱状大小减少一半
        is_label_show=True,  # 显示柱子值
        xaxis_label_textsize=15,  # x轴 柱子text的大小
        yaxis_label_textsize=25,  #y轴
        xaxis_rotate=30,        #x轴字体旋转
        legend_text_size=25
        )   #title大小
bar.render("2.1公司类型的数量.html")
# #
pie = Pie(height=850, width=1800)
pie.add("公司类型", company['公司类型'], company['公司名称'],
        is_label_show=True)
pie.render("2.1公司类型的数量占比.html")

可视化图表

分析：
在数量前10的公司类型中，民营类型稳居榜首，占总体比例57%。民营企业在我国已经经历了20多年的发展和改革，民营经济已经克服了先天性不足和自身基础薄弱等劣势，已经成为了我国国民经济的重要组成部分。
股份制企业榜二，占总体比例14.68%。股份制企业最早诞生在欧洲国家，是企业为了征集民间参与企业发展的一种战略，发行股票，一方借以取得股息，另一方面又能让人们参与企业经营和管理。
上市公司榜三，占比7.42%。在美国500家大企业有96%是上市公司，是一种公开发行股票需要经过国务院或者国务院授权的一种公司，上市公司可以在证券交易所自由交易个人股份的以一种公司。
国企，合资企业等其他类型的公司在招聘中并不是很突出，在另外一面也可以反应对大数据岗位需求不多，国企，合资企业发展相对稳定，成熟，普遍不属于互联网企业。

小结：
根据上述分析，我们可以了解，大数据分析师岗位，民营企业，股份制企业招聘数量相对较多，国家鼓励大众创业，创新，推动国民经济发展，IT互联网企业更多的是属于创新类企业，新型企业。国企，合资企业成熟，但是却没有引入太多互联网大数据技术。在面向求职这一方向，IT大数据分析师应该更多的考虑民营企业和股份制企业。

统计大数据职位经验要求的数量

同理上述

data = pd.read_csv('../File/智联招聘_数据分析师.csv',engine='python').dropna().drop_duplicates('ID',inplace=False)
undergo = data[['职位','工作经验']]\
        .groupby('工作经验',as_index=False)\
        .count()\
        .sort_index(by='职位',ascending=False)

可视化图表

分析：
大数据岗位工作要求类数量最多的是“不限”，其次是1-3年，3-5年相比榜一，榜二已减少一般，由此我们可以看出，大数据岗位属于新兴职业，求贤若渴，“不限”岗位最多，比较java开发岗位经验要求，我们可以从侧面反应企业对招聘大数据岗位降低了要求。

小结：
根据上述Java开发,python开发和大数据分析师，三个职业对比，我们可以看到IT互联网岗位要求各不相同，我国IT互联网公司多岗位一直处于空缺，尤其是新兴职业，大数据，云计算，人工智能，才人严重匮乏。

统计企业规模及企业数量

# 3.统计出公司规模及数量
import pandas as pd
from pyecharts import Bar

# 引擎，去空（只有有一个字段为空就删除整行数据），根据ID字段去重，保留第一个
data = pd.read_csv('../File/智联招聘_数据分析师.csv', engine='python').dropna()
data.drop_duplicates('ID', 'first', inplace=False)
company = data[['城市ID', '规模']].groupby('规模', as_index=False).count()
company = company.sort_index(by='城市ID', ascending=False)
company.to_csv('text2.csv')
# # 柱状大小减少一半, 显示柱子值,x轴 柱子text的大小,y轴,x轴字体旋转,title大小
bar = Bar(width=2000, height=1000)
bar.add("公司规模", company['规模'], company['城市ID'],
        bar_category_gap="50%",
        is_label_show=True,
        xaxis_label_textsize=15,
        yaxis_label_textsize=25,
        xaxis_rotate=30,
        legend_text_size=25)
bar.render("2.3公司规模及数量.html")

可视化图表

分析：
在数量前10的公司规律中，100-499类型稳居榜首。IT互联网公司人员招聘大数据就岗位的也基本稳定在这个层级。
榜二20-99人，数据在某方面可能存在一定的争议性。招聘公司五花八门，类型繁多，有培训机构，有猎头公司，有数据外包等小型公司等等一些小规模创业公司。
榜三1000-9999人，属于中大型企业。

小结：
根据上述分析，我们得到一个信息，招聘大数据岗位的IT互联网企业人数规模适中，大中小企业都有对大数据分析师招聘。在某一方面也反映了大数据岗位受到了大中小企业的追捧。

统计全国招聘大数据职位薪资1w到2w的企业占总体的百分比

# 1w到2w高薪的公司在总体数据的百分百
import pandas as pd
from pyecharts import Pie

# 显示所有列
pd.set_option('display.max_columns', None)
# 显示所有行
pd.set_option('display.max_rows', None)
# 设置value的显示长度为100，默认为50
pd.set_option('max_colwidth', 100)

data = pd.read_csv('../File/智联招聘_数据分析师.csv',engine='python').dropna().drop_duplicates('ID','first',inplace=False)
money = data[['公司名称','薪资']]
money_sum_number = data[['公司名称','薪资']].groupby('薪资',as_index=False).count()
money_sum_number = money_sum_number['公司名称'].sum()
# #将数据分割（8千-1.4万）分成起薪8千，最高薪1.4万，最后我们只取最高薪
first_money = money['薪资'].str.split('-').str[0].dropna()
last_money= money['薪资'].str.split('-').str[1].dropna()

# #将他转类型，不然不能用contains()函数
a = pd.DataFrame(last_money)
# #这是包含了 8千 和 2.5w，所以我们要匹配含有万的，能去掉8千，2.5W的不能
money_1w_n = a[a['薪资'].str.contains('万')]['薪资']
# print(money_1w_n)
money_1_2w_num = []
#将数组循环，replace将“万”替换掉，再转float类型，匹配<=2万的，存入数组money_1w_2w
[money_1_2w_num.append(float(j.replace('万', ''))) for j in money_1w_n if float(j.replace('万', '')) <=2]
print(money_1_2w_num)


data_money_pie = []
data_money_pie.append(float(money_sum_number))
data_money_pie.append(float(len(money_1_2w_num)))
x = ['全部占比','1w-2w占比']
print(data_money_pie)
# pie = Pie("全国天气类型比例", '2018-4-16')
pie = Pie(width=2000,height=1000)
pie.add("",x,data_money_pie,
        is_label_show=True,
        legend_text_size=25,)
pie.render("2.4统计薪资1w-2w的占比.html")

可视化图表

分析：
本次计算的薪资是平均薪资，我们根据薪资分布统计出平均薪资，大数据分析师1w - 2w薪资占比27.06%，数量230，总职位：620.0（后面我们分析了不同经验的平均薪资，和不同学历的平均薪资等等）

统计全国大数据职位数量，即在哪些城市容易找到大数据职位

# 1.分析不同城市对于大数据岗位的需求，即在该城市是否容易找到大数据的岗位，求出不同城市“bigdata”的数量（需求量）
import pandas as pd
from pyecharts import Bar,WordCloud
data = pd.read_csv('../File/智联招聘_数据分析师.csv',engine='python').dropna().drop_duplicates('ID',inplace=False)
city_bigdata = data[['职位','城市']].groupby('城市',as_index=False).count().sort_index(by='职位',ascending=False)[:30]
city_word = data[['职位','城市']].groupby('城市',as_index=False).count().sort_index(by='职位',ascending=False)
# city_bigdata.to_csv('text3.csv')
bar = Bar(width=2000,height=1000)
bar.add("大数据岗位前20的城市",city_bigdata["城市"],city_bigdata["职位"],
        is_label_show=True,
        xaxis_label_textsize=15,
        yaxis_label_textsize=20,
        xaxis_rotate=50,
        legend_text_size=20)
bar.render('3.1各城市岗位需求柱状图.html')

word = WordCloud(width=2000,height=1000)
word.add("前10岗位",city_word["城市"],city_word["职位"])
word.render('3.1前10岗位词云图.html')
# print(list(city_bigdata['城市']))

可视化图表

分析：
在数量前15的城市中，北京稳居榜首，数据展示了城市与大数据岗位分布情况，给应聘者提供方向。
北京，互联网公司总部所在地，在北京市有近50家大型互联网公司，稳居全国榜一，北京互联网公司占据了全国半边江山，也可以看出北京的综合实力。

分析：
在数量前15的城市中，北京稳居榜首，数据展示了城市与大数据岗位分布情况，给应聘者提供方向。
北京，互联网公司总部所在地，在北京市有近50家大型互联网公司，稳居全国榜一，北京互联网公司占据了全国半边江山，也可以看出北京的综合实力。

统计全国各大数据职位薪资分布情况

# 1.分析不同城市对于大数据岗位的需求，即在该城市是否容易找到大数据的岗位，求出不同城市“bigdata”的数量（需求量）
import pandas as pd
from pyecharts import Bar,WordCloud
data = pd.read_csv('../File/智联招聘_数据分析师.csv',engine='python').dropna().drop_duplicates('ID',inplace=False)
city_bigdata = data[['职位','城市']].groupby('城市',as_index=False).count().sort_index(by='职位',ascending=False)[:30]
city_word = data[['职位','城市']].groupby('城市',as_index=False).count().sort_index(by='职位',ascending=False)
# city_bigdata.to_csv('text3.csv')
bar = Bar(width=2000,height=1000)
bar.add("大数据岗位前20的城市",city_bigdata["城市"],city_bigdata["职位"],
        is_label_show=True,
        xaxis_label_textsize=15,
        yaxis_label_textsize=20,
        xaxis_rotate=50,
        legend_text_size=20)
bar.render('3.1各城市岗位需求柱状图.html')

word = WordCloud(width=2000,height=1000)
word.add("前10岗位",city_word["城市"],city_word["职位"])
word.render('3.1前10岗位词云图.html')
# print(list(city_bigdata['城市']))

分析：
在数量前15的城市中，北京稳居榜首，数据展示了城市与大数据岗位分布情况，给应聘者提供方向。
北京，互联网公司总部所在地，在北京市有近50家大型互联网公司，稳居全国榜一，北京互联网公司占据了全国半边江山，也可以看出北京的综合实力。

统计全国各大数据职位薪资分布情况

注意：数据清洗涉及到了一个中文薪资问题，
格式如下：
5千-8千，7千-1.4万，面议，1万-2万，1.2万-2.4万 …等
我们需要分析的是全国各省的薪资分布情况（细品）
1.数据清洗，将薪资转成float
2.将面议等清洗掉或者缺失值填充
3.求出各省的The average salary

# 不同城市的大数据岗位薪资的分布
import pandas as pd
import numpy as np
from pyecharts import Bar, WordCloud, Line

pd.set_option('display.max_columns', None)
# 显示所有行
pd.set_option('display.max_rows', None)
# 设置value的显示长度为100，默认为50
pd.set_option('max_colwidth', 100)

data = pd.read_csv('../File/智联招聘_Java开发.csv', engine='python').dropna().drop_duplicates('ID', 'first', inplace=False)
city_bigdata = data[['职位', '城市', '薪资']]
print(city_bigdata)
def price_str(x):
    # index key_0 薪资_x 薪资_y  x  y 字段名,x带表当前行，可以通过下标进行索引
    if (x['x'] > 0):
        x['薪资_x'] = float(x['薪资_x'][:x['x']]) * 10000
    if (x['x'] < 0):
        x['薪资_x'] = float(x['薪资_x'][:x['x']]) * 1000

    if (x['y'] > 0):
        x['薪资_y'] = float(x['薪资_y'][:x['y']]) * 10000
    if (x['y'] < 0):
        x['薪资_y'] = float(x['薪资_y'][:x['y']]) * 1000
    return x

first_qian = pd.DataFrame(city_bigdata['薪资'].str.split('-').str[0])
last_qian = pd.DataFrame(city_bigdata['薪资'].str.split('-').str[1])
# 很多“面议”岗位，前面split之后分成了“面议”和“NaN”,不容易发现，使用numpy.nan获取NaN将他替换
first_qian = pd.DataFrame(first_qian['薪资'].replace('面议', '1千'))
last_qian = pd.DataFrame(last_qian['薪资'].replace(np.nan, '1千'))

a = pd.merge(first_qian, last_qian, on=first_qian.index)
# a.字段名，类型，寻找 “万”
a['x'] = a.薪资_x.str.find('万')
a['y'] = a.薪资_y.str.find('万')
city_price = a.apply(price_str, axis=1)
# 删除 x  y  key_0 字段，按照列
city_price = city_price.drop(['x', 'y', 'key_0'], axis=1)

# sum  = city_price.eval('薪资_x+薪资_y',inplace=True)
# 两列求出平均值
city_price['薪资'] = city_price.mean(axis=1)
print(city_price)
city = data[['职位', '城市']]
city = city.reset_index(drop=True)
city_price_avg = pd.merge(city, city_price, on=city.index).drop(['key_0'], axis=1)
city_price_avg_word = city_price_avg.groupby('城市', as_index=False).mean().sort_index(by='薪资', ascending=False)
city_price_avg_line_bar = city_price_avg.groupby('城市', as_index=False).mean().sort_index(by='薪资', ascending=False)[:10]
city_price_avg_line_bar.to_csv("text4.csv")

可视化

作者为什么做两个图？
作者的回应是：‘多做又不要你的钱，还能更充分的表达数据的意思’

word = WordCloud(width=1500, height=700)
word.add("", city_price_avg_word['城市'], city_price_avg_word['薪资'], word_size_range=[30, 100], )
word.show_config()
word.render("3.2城市薪资词云图.html")

line = Line(width=2000, height=1000)
line.add("城市", city_price_avg_line_bar['城市'], city_price_avg_line_bar['薪资'],
         is_label_show=True,
         xaxis_rotate=20,
         xaxis_label_textsize=20,
         legend_text_size=30,
         yaxis_label_textsize=20,
         is_smooth=True,
         mark_point=['average'])
line.render("3.2各城市平均薪资分布曲线.html")

bar = Bar(width=2000, height=1000)
bar.add('城市', city_price_avg_line_bar['城市'], city_price_avg_line_bar['薪资'],
        xaxis_rotate=80,
        is_label_show=True,
        xaxis_label_textsize=15,
        label_text_size=10,
        legend_text_size=25)
bar.show_config()
bar.render("3.2各城市大数据平均薪资柱状图.html")

分析“大数据分析师和算法工程师”不同学历数量与平均薪资分布曲线情况

# 不同学历的平均薪资#
import pandas as pd
import numpy as np
from pyecharts import Bar, Pie, WordCloud, Line,Overlap

pd.set_option('display.max_columns', None)
# 显示所有行
pd.set_option('display.max_rows', None)
# 设置value的显示长度为100，默认为50
pd.set_option('max_colwidth', 100)
# 算法工程师
data = pd.read_csv('../File/智联招聘_数据分析师.csv', engine='python').dropna().drop_duplicates('ID', inplace=False)
education_text = data[['学历', '薪资']]

education_text['起薪'] = education_text['薪资'].str.split('-').str[0].replace('面议', '1千')
education_text['尾薪'] = education_text['薪资'].str.split('-').str[1].replace(np.nan, '1千')
education_text = education_text.drop(['薪资'], axis=1)
def price_str(x):
    if x['x'] > 0:
        x['x'] = float(x['起薪'][:x['x']]) * 10000
    if x['x'] < 0:
        x['x'] = float(x['起薪'][:x['x']]) * 1000

    if x['y'] > 0:
        x['y'] = float(x['尾薪'][:x['y']]) * 10000
    if x['y'] < 0:
        x['y'] = float(x['尾薪'][:x['y']]) * 1000
    return x


education_text['x'] = education_text.起薪.str.find('万')
education_text['y'] = education_text.尾薪.str.find('万')
education_text = education_text.apply(price_str, axis=1)
education_text = education_text.drop(['起薪', '尾薪'], axis=1)
education_text['avg_price'] = education_text[['x', 'y']].mean(axis=1)
education_text = education_text.drop(['x', 'y'], axis=1)
education_price = education_text[['学历', 'avg_price']].groupby('学历', as_index=False).mean().sort_index(by='学历',ascending=False)
xueli = education_text[['学历', 'avg_price']].groupby('学历', as_index=False).count().sort_index(by='学历',ascending=False)
# education_price.to_csv("text55.csv")

统计职位不同经验薪资分布情况

import pandas as pd
import numpy as np
from pyecharts import Bar, Pie, WordCloud, Line,Overlap

pd.set_option('display.max_columns', None)
# 显示所有行
pd.set_option('display.max_rows', None)
# 设置value的显示长度为100，默认为50
pd.set_option('max_colwidth', 100)

data = pd.read_csv('../File/智联招聘_数据分析师.csv', engine='python').dropna().drop_duplicates('ID', inplace=False)
education_text = data[['职位','工作经验', '薪资']]

education_text['起薪'] = education_text['薪资'].str.split('-').str[0].replace('面议', '1千')
education_text['尾薪'] = education_text['薪资'].str.split('-').str[1].replace(np.nan, '1千')
education_text = education_text.drop(['薪资'], axis=1)


def price_str(x):
    if x['x'] > 0:
        x['x'] = float(x['起薪'][:x['x']]) * 10000
    if x['x'] < 0:
        x['x'] = float(x['起薪'][:x['x']]) * 1000

    if x['y'] > 0:
        x['y'] = float(x['尾薪'][:x['y']]) * 10000
    if x['y'] < 0:
        x['y'] = float(x['尾薪'][:x['y']]) * 1000
    return x


education_text['x'] = education_text.起薪.str.find('万')
education_text['y'] = education_text.尾薪.str.find('万')
education_text = education_text.apply(price_str, axis=1)
education_text = education_text.drop(['起薪', '尾薪'], axis=1)
education_text['avg_price'] = education_text[['x', 'y']].mean(axis=1)
education_text = education_text.drop(['x', 'y'], axis=1)
education_price = education_text[['工作经验', 'avg_price']].groupby('工作经验', as_index=False).mean()
undergo = education_text[['职位','工作经验']].groupby('工作经验',as_index=False).count()

# 可视化  折线图   柱状图
# education_price.to_csv('text6.csv')
line = Line(height=850, width=1800)
line.add("工作经验的平均薪资", education_price['工作经验'], education_price['avg_price'],line_color='black')

bar = Bar(height=850, width=1800)
bar.add("工作经验的平均薪资", undergo['工作经验'], undergo['职位'],is_label_show=True)

over = Overlap()
over.add(line)
over.add(bar,yaxis_index=1,is_add_yaxis=True)
over.render("3.4不同工作经验的数量于平均薪资子图.html")
print(undergo)
print(education_price)

大数据职位描述要求分析

使用结巴分词模块将bigdata文件中的“岗位描述.csv”进行分词，清洗出“岗位描述”中涉及到的关键技术名称，并将技术名称进行词频统计

使用结巴分词技术，结果保存为csv

#使用分词技术对 “职位描述” 进行分词，提取关键  技术名词 #
import pandas as pd
import jieba
data = pd.read_csv('../File/大数据全国职位_描述.csv',engine='python')
#DataFrom转array
data = data[['职位描述']].values
#结巴分词
text = []
for i in data:
    text.append(i[0])
jieba_text = jieba.cut(str(text),cut_all=True)
a = list(jieba_text)

#过滤中文，保留技术名词
declare = []
for i in a:
    if  (i.islower()==True) | (i.istitle()==True):
        declare.append(i)
#文件操作
text = pd.DataFrame(declare,columns=['name'])
text =text.to_csv("技术名词.csv")

读取分词好的csv文件

import jieba
import pandas as pd
from pyecharts import WordCloud, Bar

data = pd.read_csv('技术名词.csv', engine='python')
data = data[['index', 'name']].groupby('name', as_index=False).count().sort_index(by='index', ascending=False)
data['name'] = [i.lower() for i in data['name']]
data_bar = data[['name', 'index']].groupby(['name'], as_index=False).sum().sort_index(by='index', ascending=False)[:20]
data_word = data[['name', 'index']].groupby(['name'], as_index=False).sum().sort_index(by='index', ascending=False)
print(data)
# 可视化展示  词云图和柱状图
work = WordCloud(height=850, width=1800)
work.add("大数据岗位技术名词统计", data_word['name'], data_word['index'], word_size_range=[20, 100])
work.render('4.1大数据岗位技术名词统计词云图.html')

bar = Bar(width=2000, height=1000)
bar.add('大数据岗位技术名词统计', data_bar['name'], data_bar['index'], xaxis_rotate=30, is_label_show=True,
        xaxis_label_textsize=15,yaxis_label_textsize=15, label_text_size=15, legend_text_size=25)
bar.render("4.1大数据岗位技术名词统计柱状图.html")

data_bar.to_csv('text7.csv')

结论：
结合上述数据显示，大数据分析师岗位资历越长，薪资越高。
综合上述数据可得，大数据分析师岗位入职基本信息。
普遍学历门槛为大专和本科，工作经验1-5年发展空间较大，5-10年为瓶颈期。
工作城市北京，广东，深圳，武汉，合肥，天津，重庆，郑州，沈阳，西安，成都，厦门，上海，南京，济南等一二线大型城市。
公司类型民营，股份制企业较多。
公司规模为小型，中大型互联网公司。
发展倾向：
专科，本科工作经验有3-5年，平均薪资12k以上
专科，本科工作经验有1-3年，平均薪资7k- 10k上下
专科，本科工作经验1年以下平均薪资在6K以下。
工作城市的选择也很重要，结合报表5 城市岗位数量及平均薪资报表，可得，杭州，广东，深圳属于高薪多岗位城市，北京，厦门，上海，济南是最理想的就业城市之一。
大数据分析师各大企业招聘所需要的技术为spark，hadoop，Java，hive,python ,linux,storm,kafka,bhase,shell等技术。

喜欢的话点赞转载加收藏

你可能感兴趣的:(Python数据分析之智联招聘职位分析完整项目（数据爬取,数据分析,数据可视化）)

在 Ant Design Vue 中实现滚动页面时保持下拉菜单展开王旭晨 vue.js javascript 前端
引言在使用AntDesignVue的组件时，默认情况下，当用户滚动页面时，下拉菜单会自动关闭。这在某些场景下可能不够友好，例如在一个长表单中需要频繁切换选项时。本文将介绍如何通过配置和代码优化，实现滚动页面时保持下拉菜单展开的功能，同时不影响其他交互。问题分析为什么滚动页面会关闭下拉菜单？AntDesignVue的下拉组件（如）默认会监听页面的滚动事件。当滚动发生时，组件会认为用户意图离开当前操作
深入TA-Lib：量化技术指标详解
深入TA-Lib：量化技术指标详解本文系统讲解TA-Lib技术指标分析，涵盖基础、数据处理、趋势与动量指标、均量线、布林线等，并结合Python代码与大数据、机器学习实战案例，助力读者掌握量化交易实战技巧。本文系统梳理了TA-Lib技术指标分析的核心内容，包括TA-Lib基础、数据处理、趋势与动量指标、均量线、布林线等关键技术指标分析方法，并结合Python代码示例与大数据、机器学习的融合实战案例
【python做接口测试的学习记录day6——pytest+yaml+allure自动化测试框架之URL拼接】小丫么小二郎~ 学习 pytest python 功能测试测试工具
在之前的测试框架中，可以发现的是，我们的yaml数据中所有的url中的除了路径不同外，其余都是相同的，我们想办法将这一部分自动化，这样的yaml中写用例url的时候就不用再每次都写上域名，只需要输入路径即可首先我们需要更改下之前的用例yaml文件中的url，将域名删除只留下路径即可，例如：接下来我们在根目录创建一个config.yam文件，用于存储我们的URL中的公共部分，这里由于公司相关，我隐藏
【python做接口测试的学习记录day9——pytest自动化测试框架之yaml数据驱动封装】小丫么小二郎~ pytest python pycharm 接口测试用例
之前我们的框架中，如果有多个测试用例，则需要在yaml文件中写入多个用例，而每个用例可能不同的仅仅只是个别参数值，这就导致很多重复代码，现在我们使用数据驱动就可以解决这个问题了。我依旧采用之前的登录接口为例，简单记录一下数据驱动封装的全过程一、DDT数据驱动yaml文件在根目录下创建包datas，用来存放我们的数据驱动yaml文件，在datas下新建一个get_token_data.yaml文件，
Gemini CLI Web 实现
GeminiCLIWeb简化版：基于Core包的智能Web扩展架构详解项目地址：https://github.com/lovelyqun/gemini-cli-web.git前言在AI应用开发领域，如何将强大的命令行工具转化为易用的Web应用是一个常见挑战。本文将深入分析packages/web-simple的实现，这是一个基于GeminiCLICore包构建的Web扩展，展示了如何优雅地复用现有
换手机（君子蘭花语之727）分湖芝蘭
文分湖芝蘭（贝儿由里）2021年9月15日周三阵雨23～28度先生的手机从外观上看手机壳很破旧了，上面的皮已经开裂，这是好几年前就变得不像样了。我一直叫他换一只手机，他就是不肯。他说，难看不要紧的，只要好用就可以，我又不用其他东西，就打打电话，看看新闻和微信。朋友们看到他的手机成这个模样，都劝他把这手机换了吧。他就说用用蛮好。我在一旁听了心里就不舒服，人家以为我不关心他，我可能会被他们误解。先生的
AI 人工智能与 Copilot 的融合发展策略 AI天才研究院 AI人工智能与大数据人工智能 copilot ai
AI人工智能与Copilot的融合发展策略关键词：人工智能、Copilot、代码生成、人机协作、机器学习、自然语言处理、软件开发摘要：本文探讨了人工智能与Copilot技术的融合发展策略。我们将从技术原理、实现方法、应用场景等多个维度深入分析，提出一套完整的融合框架和发展路径。文章首先介绍背景和核心概念，然后详细讲解关键技术，包括自然语言处理、代码生成算法等，接着通过实际案例展示应用效果，最后讨论
致良知之寄希渊书如歌z
不要轻易地指责别人，学会宽容和尊重，才能更好地与人相处。一个真正的有文化修养的人,能够用“慈悲心和包容心”去成就别人,其实也是在成就自己。幸福并不取决于财富、权利和容貌,而是取决于你和周围人的相处。你想做个幸福快乐的人,那么就从善待他人开始吧!
HW prefetcher之CDP(Content-Directed Data Prefetching) Chip Design xPU Chip Design CPU GEM5
CDP是Content-DirectedDataPrefetching的缩写，它基于RobertCooksey和StephanJourdan提出的"Stateless,Content-DirectedDataPrefetchingMechanism"论文实现。是一种内容导向的数据预取机制，CDP通过分析内存中的数据内容来识别可能的指针，当识别到指针时，它会预取指针指向的内存地址。CDP使用VPN表
威海项目通宵实施有感九型观心临在践行
心心念威海之滨火红始于黄海岸，谁人知工作熬人加班加点重负担。睁眼看日出日落黑夜尽去昼复来，低头思人生苦乐潮去潮起静是欢。何为觉知何为禅？何为临在何为爱？愿自己，拿得起金戈铁马，放得下恩怨纠缠。
畅远正面管教【爱的52种习惯】之21天践行打卡Day13~ 零花钱雪_8316
最早开始给孩子零花钱，主要目的是延迟满足，控制他每天路过好邻居都想买一个奇趣蛋的冲动。于是我们商定，每周有15元零花钱。他可以自己安排如何花，如果都用来买奇趣蛋，就只能买两次，如果用来买其他的小物件，也许有机会买更多东西。当然一开始很快把钱花光，会讨价还价，不行，我就要！这个时候是对父母的考验，尤其是有社会压力的情况下。让他从错误设想结果中学习的唯一方式，就是认可他们的感受，等待他平静下来，利用启
【MySQL】性能优化实战指南：释放数据库潜能的艺术
文章目录MySQL性能优化实战指南：释放数据库潜能的艺术引言为什么需要MySQL性能优化？性能优化基础知识MySQL性能瓶颈分析1.硬件资源瓶颈2.MySQL内部瓶颈优化配置策略大全内存配置优化InnoDB缓冲池配置查询缓存配置连接和线程配置磁盘I/O优化InnoDB存储引擎配置临时表配置独特优化创意配置创意1：分层存储优化创意2：动态配置自适应创意3：负载感知配置高级优化技巧并行处理优化索引和查
Java:实现朴素模式匹配算法（附带源码） Katie。 Java算法完整教程算法 java python
1.项目背景详细介绍在文本处理、信息检索和生物序列分析等领域，“字符串模式匹配”是最基础也是最核心的操作之一。朴素模式匹配（NaiveStringMatching）算法，作为最直观的实现方式，通过逐个字符对比，查找模式串在目标文本中出现的位置。虽然现代应用中普遍采用更高效的KMP、Boyer–Moore、Sunday算法等，但理解并掌握朴素算法有助于：打牢基础：从最简单的实现入手，帮助初学者理解匹
洪武四大案之胡惟庸案鹤舞春风
朱元璋力战陈友谅，在实力悬殊的情况下以少胜多，以弱胜强，奇迹般的取得了胜利，再往后消灭张士诚，拿下日薄西山的元朝统治者，反而越来越轻松了。然后农民出身的和尚朱元璋一不小心当了皇帝。朱元璋是个伟大的开国皇帝，天下一统之后，他励精图治，开拓疆土，征讨大漠，鼓励种田，恢复生产，让这个国家很快从战乱中又变得生机勃勃，走上了强盛之路。朱元璋又是一位残暴的皇帝，这与他的出身和性格密不可分。国家稳定之后，朱元璋
java并发编程LockSupport之park/unpark jmysql java java
【尚学堂】Java300集零基础适合初学者视频教程_Java300集零基础教程_Java初学入门视频基础巩固教程_Java语言入门到精通_哔哩哔哩_bilibili一、简介1.1主要方法Park/UnPark方法是LockSupport当中的方法。其常用方法有如下：park()：暂停当前线程。park(Objectblocker)：暂停当前线程，并指定负责此线程停放的同步对像。parkNanos(
测试学习之——Pytest Day3 别在内卷了测试学习 pytest python
引言Pytest作为Python中最受欢迎的测试框架之一，以其简洁的语法、强大的功能和丰富的插件生态系统，极大地提升了自动化测试的效率和可维护性。在本文中，我们将深入探讨Pytest的两大核心特性：Fixture和插件管理，帮助您更高效地编写和管理您的测试用例。一、夹具fixtureFixture是Pytest中一个非常强大的特性，它允许您定义在测试用例执行之前或之后自动运行的代码。这对于设置测试
《诗经》204-2小雅•谷风之什•四月（2）无色生香
《四月》，遭祸被逐士大夫写的抒愤诗。冬日烈烈，飘风发发。民莫不穀，我独何害？冬日天冷刺骨寒，疾风呼呼似利剑。天下人儿都好命，为何独我遭受不幸？山有嘉卉，侯栗侯梅。废为残贼，莫知其尤！山上长有名贵木，既有栗树也有梅。如今却遭大残害，没人知道谁之罪。烈烈：即“冽冽”，严寒的样子。飘风：疾风。发发：状狂风呼啸的象声词。榖：善、好。何：通“荷”，承受。侯：有。废：大。残贼：残害。尤：错，罪过。《诗经》是中
同治皇帝对于学校的几道圣旨 gdlyz
同治皇帝对于学校的几道圣旨图片发自App伐木工狗狗15:26同治朝实录卷之五十二同治元年。壬戌。十二月十三日。庚寅条。谕内阁、我朝自列圣以来。于御极之初。令各直省督抚选举孝廉方正。原以振拔幽滞。用端风俗。典至钜也。朕于上年御极后。即诏各直省督抚秉公选举。并因知县黎庶昌条陈。复谕各督抚等迅速选举。现距上年颁诏之日。已阅年余。而各省选举者甚属寥寥。十室之邑。必有忠信。今各州县大者不下数万户。小者亦万余
网易云音乐会员优惠大揭秘，网友：太值了！氧惠佣金真的高
在数字音乐时代，拥有一款高品质的音乐APP是音乐爱好者的必备之选。作为中国音乐市场的佼佼者，网易云音乐凭借其丰富的曲库、出色的推荐算法以及浓厚的社区氛围，吸引了大量用户。近日，网易云音乐推出了一系列会员优惠活动，让我们一起来了解一下吧！大家好，我是氧惠联合创始人七言导师，给大家推荐一款省钱更加赚钱的app——氧惠。氧惠是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面。主
《道德经》第七十三章的疑问与猜想旭日老师
我们先看《道德经》第73章的原文：勇于敢则杀，勇于不敢则活。此两者，或利或害。天之所恶，孰知其故？是以圣人犹难之。天之道，不争而善胜，不言而善应，不召而自来，繟然而善谋。天网恢恢，疏而不失。对于这一章的翻译，比较通行的是这样翻译的：勇于坚强就会死，勇于柔弱就可以活，这两种勇的结果，有的得利，有的受害。天所厌恶的，谁知道是什么缘故？有道的圣人也难以解说明白。自然的规律是，不斗争而善于取胜；不言语而善
微算法科技研究量子视觉计算，利用量子力学原理提升传统计算机视觉任务的性能
计算机视觉，作为人工智能领域的一个重要分支，致力于模拟人类视觉系统对图像或视频等视觉数据的理解与分析能力。它涵盖了图像识别、目标检测、图像分割等一系列复杂任务，广泛应用于自动驾驶、医疗影像分析、安防监控等多个领域。然而，随着数据规模的不断膨胀和任务复杂度的日益提升，传统计算机视觉算法在处理大规模、高维度数据时遇到了性能瓶颈。微算法科技(NASDAQ：MLGO)研究量子视觉计算，探索量子计算与经典卷
图机器学习（13）——图相似性检测
图机器学习（13）——图相似性检测0.前言1.基于图嵌入的方法2.基于图核的方法3.基于GNN的方法4.应用0.前言图机器学习(machinelearning,ML)方法能广泛应用于各类任务，其应用场景涵盖从药物设计到社交网络推荐系统等多个领域。值得注意的是，由于这类方法在设计上具有通用性，同一算法可用于解决不同问题。学习图之间相似性的定量度量是一个关键问题。事实上，这是网络分析的重要步骤，同时也
特朗普想换掉鲍威尔并不容易？一文详解美联储主席职位稳固性加百力科技知识财经研究数据库开发语言
根据《联邦储备法》，理事只能因"正当理由"被解职，而非政策分歧。最高法院在Trumpv.Wilcox案中特别认定"美联储是结构独特的准私人实体"，享有特殊保护地位。如果特朗普选择以“正当理由（装修）”解雇鲍威尔，可能导致漫长的法律程序。有分析认为，届时鲍威尔任期很可能结束。尽管特朗普一直批评鲍威尔不降息，且发表了可能撤换美联储主席的言论，但是想要换掉鲍威尔实际上不容易，因为法律和制度框架为美联储主
思维导图——梳理岗位职责平常辛
继续学习《思维导图法高效职场应用》（张蕾、孙易新著），如何用思维导图梳理岗位职责。一、岗位职责常见的3方面问题岗位职责太过笼统抽象，无法明确执行程度和考核。不清楚岗位各事项间的关联。不知如何讲岗位职责与行业发展衔接并及时相应调整。二、构建岗位职责的五个步骤1.明确岗位名称2.制定岗位目标。3.分析岗位环境。4.梳理岗位职责内容。5.界定职责内容中的主要职责和辅助职责。
历史上的今天·孟子山石老人的平静
在2393年前的今天，公元前372年4月2日，中国古代著名思想家、教育家，孟子的诞辰。齐鲁大地壮志满怀峥嵘岁月中倚马万言恻隐之心羞恶之心辞让之心是非之心仁义礼智的四端学说犹如拨开云雾的万丈光芒闪烁着孟轲大爱担当的清澈王道…善政得民财善教得民心民贵君轻的思想深邃而又使人大彻大悟明晰让人不得不欢之惜之中华的文明一条荡涤旧迹的坦途留下了一本大义的《孟子》穿越时间河流的精华拨云驱雾之光明媚万丈儒家的思想孔
10-08|人生不能只有生长，没有成长清风徐来
古人说：“法不轻传，道不贱卖，师不顺路，医不扣门”。现代对于心理咨询也是“不求不助”，其实所有的道理都是一样的，只有当一个人真正的有想要去改变的动力的时候，那才会有新的转机出现。如果一个人没有想要改变的动力和决心，那么即使大罗神仙来了没有用。天雨虽宽不润无根之草；佛法虽广不度无缘之人。佛经有一个故事：一日，佛陀和弟子出门，佛弟子看见一个老妇人，这个老妇人很可怜，穷困，疾病都在折磨着她，佛陀和他的弟
今天开始戒烟抛硬币的杀手
分几个阶段，先从减量开始，循序渐进，贵在坚持。目标是明年年中之前完全戒断。戒烟确实不容易，成功者不足百分之几。我挑战一下自己。今天减量为平时的三分之一，还网购了一些口香糖，用以转移注意力。希望能够成功！
2018-05-23 修改博文陈艳芳_育儿及修行成长
你只有不断去模仿高手才有可能学会高手的本事，你只有模仿了很多的高手之后，才有可能形成自己的特点，才有可能成为一代宗师。刚开始的模仿，一定会很难看的，尽管初学的动作会很难看，就像孩子走路一样难看。但是最终才会一点点的提高。一，本段要达到的目的？（扮演作者）给出学习的路径：模仿，模仿多个高手；给出学习过程中的状态：开始很难看，一点点提高二，为了实现目的，作者采用了怎样的方式？（分析文章思维体系）逐步递
20250716|【继续19的快慢指针】Leetcodehot100之237【pass】&今天计划周树皮 17boy python
20250716Definitionforsingly-linkedlist.怎么设置比它快多少呢？如果给head是这么做。题目Definitionforsingly-linkedlist.classListNode(object):definit(self,x):self.val=xself.next=None实际就是把那题的n替换成现在的valuedummy->0->1->2->3->null
分层图最短路径算法详解 GG不是gg 数据结构与算法分析 #算法分析与设计图搜索算法
分层图最短路径算法详解一、分层图算法的核心思想1.1问题引入：带约束的最短路径1.2分层图的核心思路二、分层图的构建方法2.1分层图的结构定义2.2构建步骤（以“最多k次边权改为0”为例）三、分层图最短路径的求解3.1算法步骤3.2Java代码实现（以Dijkstra为例）四、分层图算法的关键细节4.1状态表示与空间优化4.2边的处理4.3复杂度分析五、典型应用场景5.1带次数约束的路径优化5.2
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?