撇味大白菜

综合项目：人工智能领域目前职位及薪资现状分析 - 基于主流招聘网站信息

本文基于对三大主流招聘网站收集的信息进行清洗、处理、转换的基础上，对当前人工智能领域的行业现状进行了简要分析。通过对数据的特征工程处理生成适合于机器学习算法的数据集，并利用数据集对目前主流的分类算法分别训练了分类模型，并通过模型在测试集上的准确度对各算法的优缺点进行了简要的分析。
具体项目流程及使用的工具：

         主要分析结果展示：

         ……
         机器学习算法部分：

         以下部分为正文：

- 0 项目介绍
  - 0.1 项目背景介绍
  - 0.2 项目开发准备
    - 0.2.1 操作系统
    - 0.2.2 开发工具
    - 0.2.3 python版本
    - 0.2.4 第三方模块
- 1 数据收集
  - 1.1 51job网站
    - 1.1.1 数据收集目标
    - 1.1.2 代码实现
  - 1.2 智联招聘网站
  - 1.3 猎聘招聘网站
    - 1.3.1 数据收集目标
    - 1.3.2 代码实现
- 2 51job网站数据清洗及分析
  - 2.1 数据查看
    - 2.1.1 导入数据
    - 2.1.2 数据查重及重复行删除
  - 2.2 数据清洗及分析
    - 2.2.1 原始数据结构查看
    - 2.2.2 company_tags数据处理分析
      - 2.2.2.1 company_tags清洗
      - 2.2.2.2 对公司的性质及大小进行统计分析
      - 2.2.2.3 分析结果图表展示
    - 2.2.3 welfare 数据处理分析
      - 2.2.3.1 welfare 数据拆分
      - 2.2.3.2 welfare 数据合并分析
      - 2.2.3.3 welfare 数据合并后数据处理
      - 2.2.3.4 welfare 数据合并后分析结果可视化展示
    - 2.2.4 labels 数据处理分析
      - 2.2.4.1 labels 数据清洗
      - 2.2.4.2 labels 数据拆分 – 拆分出学历与工作经验
      - 2.2.4.3 labels 数据拆分 – 学历与工作经验拆分
      - 2.2.4.3 labels 数据拆分 – 在de_new中新增加学历与工作经验两列数据
    - 2.2.5 salary 数据处理
      - 2.2.5.1 salary 数据清洗-1
      - 2.2.5.2 salary 数据清洗-2
      - 2.2.5.3 salary 数据清洗-3:将salary的上下限单位变为元
      - 2.2.5.4 salary 数据清洗-3:将salary的年工资变为月工资
      - 2.2.5.5 在原数据df_new中增加一列：工资的平均值-salary_mean
      - 2.2.5.6 查看df_new[‘salary_mean’]并处理极端值
    - 2.2.6 探查工资平均水平与学历、工作经验的关系
      - 2.2.6.1 将工资数据按照学历、工作经验分组后求平均值
      - 2.2.6.2 分析结果图表展示
    - 2.2.7 各公司对英语的要求
      - 2.2.7.1 查看一下含英语标签
      - 2.2.7.2 标签拆分
      - 2.2.7.2 英语需求统计分析结果图表展示
    - 2.2.8 job_requires文本内容关键词提取分析
      - 2.2.8.1 通过第三方模块jieba进行关键词提取
      - 2.2.8.2 对提取的关键词进行清洗
      - 2.2.8.3 关键词词频分析图表展示
    - 2.2.9 salary优化处理
      - 2.2.9.1 数据清洗
      - 2.2.9.2 分析结果图表展示
- 3 智联招聘网站数据分析
  - 3.1 数据探索
    - 3.1.1 分别导入各地数据，并合并数据
    - 3.1.2 数据查重及删除重复行
  - 3.2 welfare数据清洗
    - 3.2.1 welfare 按照地区拆分清洗
      - 3.2.1.1 北京地区数据重复值处理
      - 3.2.1.2 北京地区数据重复值处理-1
      - 3.2.1.3 北京地区数据重复值处理-2:取前10个关键词
    - 3.2.2 其他地区处理方式同北京地区数据
    - 3.2.3 welfare数据按地区处理结果图表展示
  - 3.3 salary 数据清洗
    - 3.3.1 salary 数据拆分清洗-1
    - 3.3.2 salary 数据拆分清洗-1将‘面议’及对工资低于‘6000’的值进行过滤
    - 3.3.3 df_new增加一列新的数据salary_mean
  - 3.4 平均工资与学历、工作经验的关系
    - 3.4.1 将工资按照学历、工作经验分类后求均值
      - 3.4.1.1 工资与学历的关系
      - 3.4.1.2 工资与工作经验的关系
    - 3.4.2 工资水平与学历、工作经验分析结果图表展示
    - 3.4.3 工资水平与地区分析结果图表展示
      - 3.4.3.1 地区数据清洗
      - 3.4.3.2 地区数据分析结果图表展示
- 4 猎聘网站数据清洗及分析
  - 4.1 数据导入
  - 4.2 数据查重
    - 4.3 查重结果分析
- 5 通过数据构建机器学习算法模型
  - 5.1 特征工程 - 数据集准备
    - 5.1.1 查看数据
    - 5.1.2 对location数据进行处理
      - 5.1.2.1 查看一下数据
      - 5.1.2.2 location数据one-hot编码处理
    - 5.1.3 company_attr数据处理
      - 5.1.3.1 查看一下数据
      - 5.1.3.2 对company_attr数据进行清洗
      - 5.1.3.3 company_attr数据one-hot编码处理
    - 5.1.4 company_size数据处理
      - 5.1.4.1 查看数据
      - 5.1.4.2 将分错数据使用众数代替
      - 5.1.4.3 company_size数据one-hot编码处理
    - 5.1.5 welfare数据处理
      - 5.1.5.1 合并数据
      - 5.1.5.2 统计公司提供福利个数作为统计参数
    - 5.1.6 edu数据处理
      - 5.1.6.1 查看并合并数据
      - 5.1.6.2 edu数据onehot编码
    - 5.1.7 experience数据onehot编码
    - 5.1.8 english_requires数据处理
      - 5.1.8.1 english_requires简化处理
      - 5.1.8.1 english_requires数据onehot编码
    - 5.1.9 salary数据处理
      - 5.1.9.1 求均值
      - 5.1.9.2 均值小于6000的部分全部替换为np.nan值
      - 5.1.9.3 将salary_mean加入数据中
    - 5.1.10 所有数据合并
      - 5.1.10.1 删除所有出现NaN的行数据 - 主要是salary数据中出现的nan值
    - 5.1.11 将数据集写入文件存储
  - 5.2 尝试使用聚类算法k-means对数据进行分类
    - 5.2.1 读入数据
      - 5.2.1.1 导入模块
      - 5.2.1.2 读入数据
    - 5.2.2 数据查看与极端值处理
    - 5.2.3 利用肘部法则来调参 - 挑选最合适的K值
    - 5.2.4 可视化展示
      - 5.2.4.1 对salary_mean数据进行标记
      - 5.2.4.2 数据准备
      - 5.2.4.3 图表展示
    - 5.2.5 k-means模型
  - 5.3 主流分类算法在数据集上的效果分析
    - 5.3.1 准备数据集
    - 5.3.2 拆分训练集和数据集
    - 5.3.3 训练模型
      - 5.3.3.1 LogisticRegression
        
        5.3.3.1.1**逻辑回归模型误分类矩阵图表展示**
      - 5.3.3.2 SVM
      - 5.3.3.3 KNN
      - 5.3.3.4 Descition Tree
      - 5.3.3.5 Random Forest
    - 5.3.4 各模型结果分析
      - 5.3.4.1 各模型结果对比
      - 5.3.4.2 对比分析结论：

0 项目介绍

0.1 项目背景介绍

        当前，人工智能（AI）是个非常热门的话题，近几年基于海量数据分析的人工智能正在不断的改变我们的生活方式，无人驾驶技术、图像识别、新闻推荐、广告精准投放……可谓无孔不入。那么如果想要进入人工智能领域的话需要拥有那些技术呢？当前人工智能领域工资大致为多少？工资的高低到底和什么因素相关，学历？专业？还是工作经验呢……
        本文从招聘网站入手，通过BeautifulSoup + requests、Selenium收集了3大主流网站的人工智能领域的数据，并通过pandas、numpy对数据进行清洗、转换与分析，并通过matplotlib对分析结果进行可视化图表展示。
        最后，通过对收集数据进行了特征工程处理，抽取了主要特征参数，并进行相应的数据转换最终生成数据集，通过scikit-learn对数据集进行拆分，并对目前主流的分类算法分别训练了分类模型，并通过模型在测试集上的准确度对各算法的优缺点进行了简要的分析。

0.2 项目开发准备

0.2.1 操作系统

· windows

0.2.2 开发工具

· Pycharm
· Anaconda
· Jupyter notebook

0.2.3 python版本

· python3.6

0.2.4 第三方模块

· urllib + re正则模块 
· BeautifulSoup + Requests 
· selenium 
· numpy 
· pandas 
· matplotlib 
· sk_learn 
· jieba - 分词模块

1 数据收集

1.1 51job网站

通过对51job网站的分析，明确主要收集的数据目标有：

1.1.1 数据收集目标

· jobname
· salary
· campany
· location
· company_tags
· labels
· welfare
· job_requires
· release_time
· contact

1.1.2 代码实现

from bs4 import BeautifulSoup
import requests
import random
import chardet
from urllib.request import quote,unquote
import csv
import time

def get_html(url):
    User_Agent = [……]
    http = [……]
    https = [……]
    proxies1 = {'HTTP': random.choice(http), 'HTTPS': random.choice(https)}
    r=requests.get(url, headers={'User-Agent':random.choice(User_Agent)},proxies=proxies1)
    code=chardet.detect(r.content)['encoding']
    r.encoding=code
    return r.text

datalist=[]
count = 1

def get_save_data(jobname,get_pages):
    global count
    with open('51job职位信息 -- '+jobname+'_20_2.csv','w',newline='',encoding='utf8') as outfile:
        writer=csv.writer(outfile)

        info_list = ['count','jobname', 'salary', 'location', 'company', 'company_tags', 'labels', 'welfare','job_requires', 'release_time', 'contact']
        writer.writerow(info_list)
        for page in range(1,get_pages+1):

        # 在实际数据收集过程中发现：如果采用将传入的职位关键词加密的形式加入到链接中，会出现第一页可以匹配，第二页完全匹配不上的问题，我检查了一下原因，大致就是因为在进入第二页的时候，通过加密方式加入的职位关键词会发生变化，所以在实际代码实现的时候，不再传入职位关键词，而是直接使用原固定的链接的方式+页码的改变

            url_ai="https://search.51job.com/list/020000,000000,0000,00,9,99,%25E4%25BA%25BA%25E5%25B7%25A5%25E6%2599%25BA%25E8%2583%25BD,2,"+str(page)+".html?lang=c&stype=1&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare="
            url_ml="……"
            url_datamining="……"
            url_bigdata="……"
            html=get_html(url_bigdata)  # 传入需要采集数据的对应的url
            print("-----------  第"+str(page)+"页  ----------")
            time.sleep(10)
            soup=BeautifulSoup(html,"html.parser")
            parent_div=soup.find('div',attrs={'id':'resultList'})
            all_divs=parent_div.find_all('div',attrs={'class':'el'})
            all_divs.pop(0)     # 删除第一个div（表头）

            for div in all_divs:
                print("---------------  第" + str(count) + "项  ---------------")
                data = []
                url_inner=div.find('a')['href']
                html_inner=get_html(url_inner)
                jobname=div.find('a')['title']
                company =div.find_all('span')[1].find('a')['title']
                location = div.find_all('span')[2].string
                salary = div.find_all('span')[3].string
                release_time = div.find_all('span')[4].string
                soup_inner=BeautifulSoup(html_inner,'html.parser')
                if soup_inner.find('div', attrs={'class': 'tCompanyPage'}):
                    parent_div_inner_1 = soup_inner.find('div', attrs={'class': 'tCompanyPage'})
                    try:
                        all_in_ps=parent_div_inner_1.find('div', attrs={'class': 'in'}).find_all('p')
                        if len(all_in_ps)==2:
                            company_tags=all_in_ps[1].get_text().strip()
                        else:
                            company_tags=''
                    except Exception:
                        company_tags=''
                    try:
                        parent_div_inner_2 = soup_inner.find('div', attrs={'class': 'tCompany_main'})
                        all_spans = parent_div_inner_2.find('div', attrs={'class': 't1'}).find_all('span')
                        labels = ''
                        for i in range(len(all_spans)):
                            labels = all_spans[i].get_text() + labels + '#'
                    except Exception:
                        labels=''
                    welfare=''
                    if parent_div_inner_1.find('p',attrs={'class':'t2'}):
                        all_span=parent_div_inner_1.find('p',attrs={'class':'t2'}).find_all('span')
                        for span in all_span:
                            welfare = welfare + span.string+'#'
                    all_tBorderTop_box=parent_div_inner_2.find_all('div',attrs={'class':'tBorderTop_box'})
                    if len(all_tBorderTop_box)==4:
                        all_tBorderTop_box.pop(0)
                    all_ps=all_tBorderTop_box[0].find_all('p')
                    job_requires= ''     # 职位信息
                    for p in all_ps:
                        job_requires = job_requires + p.get_text()+'#'
                    contact=all_tBorderTop_box[1].find('div').get_text()
                    # 依次向列表中加入目标数据
                    data.append(count)
                    data.append(jobname)
                    data.append(salary)
                    data.append(location)
                    data.append(company)
                    data.append(company_tags)
                    data.append(labels)
                    data.append(welfare)
                    data.append(job_requires)
                    data.append(release_time)
                    data.append(contact)
                    writer.writerow(data)
                    datalist.append(data)
                else:
                    continue
                count+=1
    return len(datalist)    # 返回最后获取的数据的长度
print(get_save_data('大数据',20))

在调试的过程中，发现：部分公司在发布信息时会出现与网页的模块不一致的情况，如使用if soup.find(tag)来判断的话，在找不到tag标签时会直接报错，而不是判断为False，非常影响后续程序的运行及代码调试，所以此处使用try语句跳过不符合网页模板的内容。
提醒：使用try后将不再报错，所以一定在代码调试到可以正常获取符合网页规范的所有目标内容的情况下再使用try语句过滤不规范的选项。

1.2 智联招聘网站

代码同样通过BS4+requests实现，但是在分析智联招聘网站时发现搜索不同的关键词时其网页的链接不同，所以需要单独为每个关键词设置url。

1.3 猎聘招聘网站

通过对猎聘网网站的分析发现：猎聘网为动态加载网站，猎聘网会记录你的每一步操作，并体现在网页网址上，因此需要使用selenium对其网页数据进行收集。

1.3.1 数据收集目标

· jobname
· company
· company_kind
· salary
· welfares
· require_labels
· job_describes

1.3.2 代码实现

url='https://www.liepin.com'
from selenium import webdriver
import csv
import time
from bs4 import BeautifulSoup
import requests
import random
import chardet
from urllib.request import quote,unquote
import csv
from selenium import *
from selenium.webdriver.common.keys import Keys

datalist=[]
count=1
def get_html(url):  # 使用bs4获取内层网页详细信息
    User_Agent = [……]
    http = [……]
    https = [……]
    proxies1 = {'HTTP': random.choice(http), 'HTTPS': random.choice(https)}
    r=requests.get(url, headers={'User-Agent':random.choice(User_Agent)},proxies=proxies1)
    code=chardet.detect(r.content)['encoding']
    r.encoding=code
    return r.text

def get_data(key_world,pages):
    driver=webdriver.Chrome()
    url='https://www.liepin.com'
    driver.get(url)
    element = driver.find_element_by_name('key')  # 找到搜索框元素
    for i in key_world:
        element.send_keys(i)  # 模拟键盘输入关键字的每个元素
        time.sleep(0.5)
    driver.find_element_by_xpath("//button[@type='submit']").click()  # 找到需要点击的键

    global count
    container=driver.find_element_by_class_name('sojob-list')
    all_lis=container.find_elements_by_tag_name('li')
    print(len(all_lis))
    for li in all_lis:
        print("********************  第"+str(count)+"项   ***************** ")
        data=[]
        try:
            jobname=li.find_element_by_class_name('job-info').find_element_by_tag_name('h3').get_attribute('title')
            url_inner=li.find_element_by_class_name('job-info').find_element_by_tag_name('h3').find_element_by_tag_name('a').get_attribute('href')
            print(url_inner)
            company=li.find_element_by_class_name('company-name').find_element_by_tag_name('a').text
            company_kind=li.find_element_by_class_name('field-financing').find_element_by_tag_name('a').text

            welfares=li.find_element_by_class_name('temptation').text

            html=get_html(url_inner)

            soup=BeautifulSoup(html,'html.parser')
            parent1=soup.find('div',attrs={'class':'clearfix'})
            # print(parent1.find('p'))
            if parent1.find('p'):
                salary=parent1.find('p').get_text().strip()
            else:salary=''
            require_labels = ''
            if parent1.find('div',attrs={'class':'job-qualifications'}):
                spans=parent1.find('div',attrs={'class':'job-qualifications'}).find_all('span')
                for span in spans:
                    require_labels=require_labels+span.string+'#'
            parent2=soup.find('div',attrs={'class':'about-position'}).find('div',attrs={'class':'job-description'})
            job_describes=parent2.find('div',attrs={'class':'content'}).get_text().strip()
            title = ['jobname', 'company', 'company_kind', 'salary' ,'welfares', 'require_labels', 'job_describes']
            data.append(jobname)
            data.append(company)
            data.append(company_kind)
            data.append(salary)
            data.append(welfares)
            data.append(require_labels)
            data.append(job_describes)
            datalist.append(data)

        except Exception:
            print('出错')
        count += 1

    top = driver.find_element_by_class_name("input-main")
    bottom = driver.find_element_by_class_name("pagerbar")
    from selenium.webdriver import ActionChains
    action_chains = ActionChains(driver)
    action_chains.drag_and_drop(top, bottom).perform()
    page_num = 2
    for i in range(pages-1):     # for循环点击下一页链接，控制获取内容
        time.sleep(5)
        element_n = driver.find_element_by_class_name('redirect').find_element_by_class_name('pn')  # 找到搜索框元素
        element_n.send_keys(page_num)  # 模拟键盘输入关键字的每个元素
        time.sleep(0.5)
        driver.find_element_by_class_name('redirect').find_element_by_tag_name('input').send_keys(Keys.ENTER)  # 找到需要点击的键
        print("***************   进入第" + str(page_num) + "页   ***************")

        container = driver.find_element_by_class_name('sojob-list')
        all_lis = container.find_elements_by_tag_name('li')
        print(len(all_lis))
        for li in all_lis:
            print("***********  第" + str(count) + "项   ********* ")
            # if count != 14:
            data = []
            try:
                jobname = li.find_element_by_class_name('job-info').find_element_by_tag_name('h3').get_attribute(
                    'title')
                url_inner = li.find_element_by_class_name('job-info').find_element_by_tag_name(
                    'h3').find_element_by_tag_name('a').get_attribute('href')
                print(url_inner)
                company = li.find_element_by_class_name('company-name').find_element_by_tag_name('a').text
                company_kind = li.find_element_by_class_name('field-financing').find_element_by_tag_name('a').text

                welfares = li.find_element_by_class_name('temptation').text
                html = get_html(url_inner)
                soup = BeautifulSoup(html, 'html.parser')
                parent1 = soup.find('div', attrs={'class': 'clearfix'})
                if parent1.find('p'):
                    salary = parent1.find('p').get_text().strip()
                else:
                    salary = ''
                require_labels = ''
                if parent1.find('div', attrs={'class': 'job-qualifications'}):
                    spans = parent1.find('div', attrs={'class': 'job-qualifications'}).find_all('span')
                    for span in spans:
                        require_labels = require_labels + span.string + '#'
                parent2 = soup.find('div', attrs={'class': 'about-position'}).find('div', attrs={
                    'class': 'job-description'})
                job_describes = parent2.find('div', attrs={'class': 'content'}).get_text().strip()
                title = ['jobname', 'company', 'company_kind', 'salary', 'welfares', 'require_labels',
                         'job_describes']
                data.append(jobname)
                data.append(company)
                data.append(company_kind)
                data.append(salary)
                data.append(welfares)
                data.append(require_labels)
                data.append(job_describes)
                datalist.append(data)

            except Exception:
                print('出错')
            count += 1
        top = driver.find_element_by_class_name("input-main")
        bottom = driver.find_element_by_class_name("pagerbar")
        from selenium.webdriver import ActionChains
        action_chains = ActionChains(driver)
        action_chains.drag_and_drop(top, bottom).perform()
        page_num+=1

    return '操作完成！'

def save_csv(key_word, pages):
    get_data(key_word, pages)
    with open('猎聘职位信息'+key_word+'_20.csv','w',encoding='utf8',newline='') as outfile:
        writer=csv.writer(outfile)
        title = ['jobname', 'company', 'company_kind', 'salary', 'welfares', 'require_labels', 'job_describes']
        writer.writerow(title)
        for data in datalist:
            writer.writerow(data)
save_csv('大数据',25)   # 输入关键词和需要获取的页数

2 51job网站数据清洗及分析

2.1 数据查看

2.1.1 导入数据

import numpy as np
import pandas as pd

ai_file=open('./01-51job/51job职位信息 -- 人工智能_20.csv','r',encoding='utf-8')
df=pd.read_csv(ai_file,
              names=['jobname', 'salary', 'location', 'company', 'company_tags', 'labels', 'welfare','job_requires', 'release_time', 'contact'],
              header=0)
              # 为数据指定列标签，同时不读取数据的首行
df.head()
# df.info()

     Error01：OSError: Initializing from file failed ：
     Error02：UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x80 in position 109: illegal multibyte sequence：
     以上两个报错，第一个报错原因是文件名有中文，第二个报错是因为文件内容编码问题，都可以通过open()方法解决，在使用open()的同时指定编码格式

2.1.2 数据查重及重复行删除

df.duplicated().value_counts() # 数据查重，结果出现6条重复值
>>  False    981
    True       6
    dtype: int64
df_new = df.drop_duplicates(['jobname', 'salary', 'location', 'company', 'company_tags', 'labels', 'welfare'],'first')  # 删除重复行
df_new.duplicated().value_counts()  # 对新数据进行查重  
>>  False    979
    dtype: int64

2.2 数据清洗及分析

2.2.1 原始数据结构查看

2.2.2 company_tags数据处理分析

2.2.2.1 company_tags清洗

company_tags_split=df_new['company_tags'].str.split('|').apply(pd.Series)
company_tags_split[0]=company_tags_split[0].str.replace('\t','')
company_tags_split[1]=company_tags_split[1].str.replace('\t','')
company_tags_split.columns=['company_attr','company_size','company_field']
company_field_split=company_tags_split['company_field'].str.split(',').apply(pd.Series)
company_field_split.head()
campany_tags_new=pd.concat([company_tags_split['company_attr'],company_tags_split['company_size'],company_field_split[0],company_field_split[1]],axis=1)
campany_tags_new.columns=[0,1,2,3]
campany_tags_new.head(2)

2.2.2.2 对公司的性质及大小进行统计分析

comp_attr_count=campany_tags_new[0].value_counts().head(7)  # 取前七个
comp_size_count=campany_tags_new[1].value_counts().head(7)  # 取前七个

comp_attr_num=list(comp_attr_count.values)
comp_attr_sum=sum(comp_attr_num)

comp_attr=list(comp_attr_count.index)

comp_attr_new=[]
for i in comp_attr:
    comp_attr_new.append(i[0:7].strip())

comp_size_num=list(comp_size_count.values)
comp_size_sum=sum(comp_size_num)
comp_size=list(comp_size_count.index)

comp_size_new=[]
for i in comp_size:
    comp_size_new.append(i[2:15].strip())

2.2.2.3 分析结果图表展示

fig=plt.figure(figsize=(16,8))
plt.subplot(121)
plt.pie(comp_attr_num,
       labels=comp_attr_new,
       startangle=90,  # 指定图形的起始角度
       shadow=True,
       explode=(0.1,0,0,0,0,0,0),  # 指定块突出显示
       autopct='%1.1f%%')
plt.title('公司类型分布图，统计公司总数'+str(comp_attr_sum))

plt.subplot(122)
plt.pie(comp_size_num,
       labels=comp_size_new,
       startangle=90,  # 指定图形的起始角度
       shadow=True,
       explode=(0.1,0,0,0,0,0,0),  # 指定块突出显示
       autopct='%1.1f%%')
plt.title('公司规模分布图，统计公司总数'+str(comp_size_sum))

plt.show()

2.2.3 welfare 数据处理分析

2.2.3.1 welfare 数据拆分

welfare_split=df_new['welfare'].str.split('#').apply(pd.Series)
welfare_split.columns=['welfare_split_1','welfare_split_2','welfare_split_3','welfare_split_4','welfare_split_5','welfare_split_6','welfare_split_7','welfare_split_8','welfare_split_9','welfare_split_10','welfare_split_11']
welfare_split.head(2)

2.2.3.2 welfare 数据合并分析

welf=welfare_split.apply(pd.value_counts)
# 利用unstack()函数做行列转换，同时删除NaN值，
welf=welf.unstack().dropna().reset_index()  # 结果为DataFrame数据
welf.head()

2.2.3.3 welfare 数据合并后数据处理

welf.columns=['level_0','level_1','counts']
welf_new=welf.drop(['level_0'],axis=1).groupby('level_1').sum()
welf_top10=welf_new.sort_values('counts',ascending=False).head(11)
welf_top10=welf_top10.reset_index()
welf_top10=welf_top10.drop(labels=0,axis=0,inplace=False)
welf_top10.set_index(["level_1"], inplace=True)

2.2.3.4 welfare 数据合并后分析结果可视化展示

welf_top10.sort_values(by='counts',ascending=False).plot(kind='bar',figsize=(12,6))
plt.show()

2.2.4 labels 数据处理分析

2.2.4.1 labels 数据清洗

# labels数据清洗,第一步:去除末尾的#
df_new['labels']=df_new['labels'].str.replace('#######','')
df_new['labels']=df_new['labels'].str.replace('######','')
df_new['labels']=df_new['labels'].str.replace('#####','')
df_new['labels']=df_new['labels'].str.replace('####','')
df_new['labels']=df_new['labels'].str.replace('###','')
df_new['labels']=df_new['labels'].str.replace('##','')

df_new['labels'].head(3)

2.2.4.2 labels 数据拆分 – 拆分出学历与工作经验

# 筛选出学历与工作经验
df_new['labels']=df_new['labels'].str.replace('人','人#')
e_split=df_new['labels'].str.split('#').apply(pd.Series)
e_split.head(2)

2.2.4.3 labels 数据拆分 – 学历与工作经验拆分

# 将学历与工作经验分开
e_split[1]=e_split[1].str.replace('无','#无')
e_split[1]=e_split[1].str.replace('1','#1')
e_split[1]=e_split[1].str.replace('2','#2')
e_split[1]=e_split[1].str.replace('3','#3')
e_split[1]=e_split[1].str.replace('4','#4')
e_split[1]=e_split[1].str.replace('5','#5')
e_split[1]=e_split[1].str.replace('6','#6')
e_split[1]=e_split[1].str.replace('7','#7')
e_split[1]=e_split[1].str.replace('8','#8')
e_split[1]=e_split[1].str.replace('9','#9')
e_split[1]=e_split[1].str.replace('10','#10')
e_split[1]=e_split[1].str.replace('-#','-')  # 3-4年，经过上一步变换，#3-#4
e_split[1]=e_split[1].str.replace('##','#')  # 将部分地方多余的 # 变换一下
e_split_new=e_split[1].str.split('#').apply(pd.Series)
e_split_new.head()

2.2.4.3 labels 数据拆分 – 在de_new中新增加学历与工作经验两列数据

df_new['edu']=e_split_new[0]  
df_new['experience']=e_split_new[1]

2.2.5 salary 数据处理

2.2.5.1 salary 数据清洗-1

salary_split=df['salary'].str.split('/').apply(pd.Series)
salary_split_0=salary_split[0].str.split('-').apply(pd.Series)
salary_split_1 = pd.concat([salary_split_0,salary_split[1]],axis=1)  
salary_split_1.columns=[0,1,2]

salary_split_1[1] = salary_split_1[1].str.replace('万','#万') 
salary_split_1[1] = salary_split_1[1].str.replace('千','#千')
salary_split_1.head()

2.2.5.2 salary 数据清洗-2

salary_split_1_split=salary_split_1[1].str.split('#').apply(pd.Series)
salary_split_1_split.head()
salary_split_2 = pd.concat([salary_split_1[0],salary_split_1_split[0],salary_split_1_split[1],salary_split_1[2]],axis=1)
salary_split_2.columns=[0,1,2,3]
salary_split_2[0] = salary_split_2[0].str.replace('元','0000000')
salary_split_2[0] = salary_split_2[0].str.replace('万以上','0000000')
for i in range(len(salary_split_2[0])):
    if salary_split_2[0][i]=='1.5千以下':
        salary_split_2[0][i]=0
salary_split_2[0] = salary_split_2[0].astype(float)
salary_split_2[1] = salary_split_2[1].astype(float)
salary_split_2.head()

2.2.5.3 salary 数据清洗-3:将salary的上下限单位变为元

for i in range(len(salary_split_2[0])):
    if salary_split_2[0][i]>1000:
        salary_split_2[0][i]=0
        salary_split_2[1][i]=0
    elif salary_split_2[2][i]=='万':
        salary_split_2[0][i] = salary_split_2[0][i] *10000
        salary_split_2[1][i] = salary_split_2[1][i] *10000
    elif salary_split_2[2][i]=='千':
        salary_split_2[0][i] = salary_split_2[0][i] *1000
        salary_split_2[1][i] = salary_split_2[1][i] *1000

salary_split_2.head()

2.2.5.4 salary 数据清洗-3:将salary的年工资变为月工资

for i in range(len(salary_split_2[0])):
    if salary_split_2[3][i]=='年':
        salary_split_2[0][i] = salary_split_2[0][i] / 12
        salary_split_2[1][i] = salary_split_2[1][i] / 12
salary_split_2.head()

2.2.5.5 在原数据df_new中增加一列：工资的平均值-salary_mean

df_new['salary_mean']=(salary_split_2[0] +salary_split_2[0])/2

2.2.5.6 查看df_new[‘salary_mean’]并处理极端值

df_new['salary_mean'].sort_values(ascending=False).head(1) # 发现极端值40W
>>  88    400000.0
    Name: salary_mean, dtype: float64

df_new['salary_mean'][88]=np.nan  # 转为nan值
df_new['salary_mean'].sort_values(ascending=False).head()

2.2.6 探查工资平均水平与学历、工作经验的关系

2.2.6.1 将工资数据按照学历、工作经验分组后求平均值

sal_edu_mean=df_new.groupby(['edu'])['salary_mean'].mean()
sal_exp_mean=df_new.groupby(['experience'])['salary_mean'].mean()

2.2.6.2 分析结果图表展示

fig=plt.figure(figsize=(16,6))

ax1=plt.subplot(121) 
data=np.round(sal_edu_mean.sort_values(ascending=False).values) # 7个等级

x_bar=np.arange(7)
# 核心图形绘制
# rect=ax1.bar(left=x_bar,height=data,width=0.5,color='lightblue')
#The *left* kwarg to `bar` is deprecated use *x* instead. Support for *left* will be removed in Matplotlib 3.0

rect=ax1.bar(x=x_bar,height=data,width=0.6,color='lightblue')

# 向各条形上添加数据标签
for rec in rect:
    x=rec.get_x()
    height=rec.get_height()
    ax1.text(x-0.05,1.03*height,str(height)+'元')

# 绘制x,y坐标轴刻度及标签，标题
ax1.set_xticks(x_bar)
ax1.set_xticklabels(tuple(sal_edu_mean.sort_values(ascending=False).index))
ax1.set_ylabel('平均工资水平（单位：元）')
ax1.set_title('平均工资水平与学历的关系')
ax1.grid(True)
ax1.set_ylim(0,21000)

ax1=plt.subplot(122) 
data=np.round(sal_exp_mean.sort_values(ascending=False).values) # 7个等级

x_bar=np.arange(7)
# 核心图形绘制
# rect=ax1.bar(left=x_bar,height=data,width=0.5,color='lightblue')
#The *left* kwarg to `bar` is deprecated use *x* instead. Support for *left* will be removed in Matplotlib 3.0

rect=ax1.bar(x=x_bar,height=data,width=0.6,color='lightblue')

# 向各条形上添加数据标签
for rec in rect:
    x=rec.get_x()
    height=rec.get_height()
    ax1.text(x-0.05,1.03*height,str(height)+'元')

# 绘制x,y坐标轴刻度及标签，标题
ax1.set_xticks(x_bar)
ax1.set_xticklabels(tuple(sal_exp_mean.sort_values(ascending=False).index))
ax1.set_ylabel('平均工资水平（单位：元）')
ax1.set_title('平均工资水平与工作经验的关系')
ax1.grid(True)
ax1.set_ylim(0,31500)

2.2.7 各公司对英语的要求

2.2.7.1 查看一下含英语标签

e_split[0].head()

2.2.7.2 标签拆分

skill_split=e_split[0].str.replace('05','-05')
skill_split=skill_split.str.replace('06','-06')
skill_split=skill_split.str.replace('05','#05')
skill_split=skill_split.str.replace('06','#06')
skill_split_new=skill_split.str.split('#').apply(pd.Series)
skill_split_new.head()

skill_split_new[0]=skill_split_new[0].str.replace('04','-#04')
skill_split_new[0]=skill_split_new[0].str.replace('03','-#03')
skill_split_new[0]=skill_split_new[0].str.replace('02','-#02')
skill_split_new1=skill_split_new[0].str.split('#').apply(pd.Series)
skill_split_new1.head()

eng_skill=skill_split_new1[0].str.replace('#','')
eng_skill=skill_split_new1[0].str.replace('英语','#英语')
eng_skill=eng_skill.str.split('#').apply(pd.Series)
eng_skill[1].value_counts()

english_require=eng_skill[1].str.replace('英语熟练-','英语熟练+')
english_require=english_require.str.replace('英语良好-','英语熟练+')
english_require=english_require.str.replace('英语精通-','英语熟练+')
english_require=english_require.str.replace('英语熟练 普通话熟练-','英语熟练+')
english_require=english_require.str.replace('英语精通 普通话精通-','英语熟练+')
english_require=english_require.str.replace('英语良好','英语熟练+')
english_require=english_require.str.replace('英语良好 日语一般-','英语熟练+')
english_require=english_require.str.replace('英语精通 普通话良好-','英语熟练+')
english_require=english_require.str.replace('英语-','英语')
english_require=english_require.str.replace('英语一般-','英语')
english_require=english_require.str.replace('英语 德语','英语')
df_new['english_requires']=english_require
df_new['english_requires']=df_new['english_requires'].fillna('无要求')
df_new['english_requires'].head()

df_new['english_requires']=df_new['english_requires'].str.strip()
df_new['english_requires']=df_new['english_requires'].str.replace('英语熟练+ 日语一般-','英语熟练+')
eng_sk=df_new['english_requires'].str.replace('要求','要求#')
eng_sk=eng_sk.str.replace('熟练+','熟练+#')
eng_sk=eng_sk.str.replace('英语','英语#')
eng_sk=eng_sk.str.replace('英语#熟练','英语熟练')
eng_sk=eng_sk.str.split('#').apply(pd.Series)
df_new['english_requires']=eng_sk[0]
english_count=df_new['english_requires'].value_counts()
english_count

2.2.7.2 英语需求统计分析结果图表展示

fig=plt.figure(figsize=(8,8))
plt.subplot(111)
plt.pie(list(english_count.values),
       labels=list(english_count.index),
       startangle=90,  # 指定图形的起始角度
       shadow=True,
       explode=(0,0.1,0),  # 指定块突出显示
       autopct='%1.1f%%')
plt.title('英语要求分布图，统计公司总数'+str(sum(list(english_count.values))))

2.2.8 job_requires文本内容关键词提取分析

2.2.8.1 通过第三方模块jieba进行关键词提取

# 由于jupyter notebook导入模块出现问题，所以此处代码通过pycharm实现
import pandas as pd
import jieba
from collections import Counter     #导入collections模块的Counter类

ai_file=open('51job职位信息 -- 人工智能_20.csv','r',encoding='utf-8')
df=pd.read_csv(ai_file,
               names=['jobname', 'salary', 'location', 'company', 'company_tags', 'labels', 'welfare','job_requires', 'release_time', 'contact'],
               header=0)
requires=list(df['job_requires'])
requires_text=''
for require in requires:
    requires_text=requires_text+str(require).replace('#','')

keywords=[]
word_freq=[]
def get_words(txt):
    list = jieba.cut(txt)   #结巴模块的cut函数用于中文分词
    c = Counter()   #创建空的Counter计数器
    for x in list:  #分词结果中循环提取词语
        if len(x) > 1 and x != '\r\n':  #略掉只有一个字的词语和回车、换行
            c[x] += 1   #统计每个单词的计数值
    for(k,v) in c.most_common(1000):     #只取出现值最高的前100个词语
        keywords.append(k)
        word_freq.append(v)
get_words(requires_text)
for i in range(len(keywords_l)):
    word_freq_l.append(word_freq[keywords.index(keywords_l[i])])
print(word_freq_l)
# 由于没有使用自定义词典所以导致在分词时出现太多普通词汇，此处通过jieba筛选出前1000个高频词后，在进行手工筛选与领域相关的关键词，主要如下：
keywords_l=['能力', '人工智能', '算法',  '沟通', '深度',  '解决问题', '数学', '编程语言', '框架',  '数据分析', 'AI', '数据库', '模型',  'C++', 'Python', '架构', '责任心',  '视觉',  '数据挖掘',  '硕士', '英语',  'Java', '机器人', '识别', '医疗',  'Linux', '软件开发', '区块', '大专',  '协作', '统计',  '图像处理', '自然语言', '解决问题',  '全日制',  '抗压', '神经网络', '表达能力',  '编程语言', '前沿', 'python',  '统计学', '推荐',  'SQL', '确保', 'Hadoop', '架构设计', '计算机相关', '数据处理',  'PatSnap', 'Spark', '分布式', '传感器', '英文',  '本科', '清洗', '博士', 'Caffe', '海外', '研究生',  '认真','软件工程', '计算机科学',   '责任感', '嵌入式', '研究员', 'Oracle', 'ERP', '模式识别','PPT',  'TensorFlow',  'java', '聚类',  'SVM',  '数据结构',  'CRM', 'linux', '决策树',  'JAVA',  '表达', '人脸识别', '大学本科', 'Tensorflow',  'Matlab',  '普通话', '贝叶斯', 'spark', 'Redis',  'MySQL', 'NLP', '基础知识','语言表达', 'Keras', '211', 'Theano', 'Torch', '面向对象', 'Spring', 'js', '实战经验',  '团队精神','创新能力', '英语口语', '认真负责', 'Windows', '可视化', '钻研', '985', '自学能力']
# 与筛选关键词对应的词频
word_freq_l=[1546, 1130, 807, 586, 311, 77, 200, 65, 193, 181, 180, 179, 179, 174, 171, 160, 158, 149, 143, 137, 137, 131, 125, 122, 122, 112, 111, 104, 88, 86, 84, 80, 79, 77, 76, 72, 70, 67, 65, 65, 63, 60, 60, 60, 60, 58, 57, 55, 55, 54, 49, 48, 48, 47, 281, 45, 42, 41, 38, 38, 37, 35, 35, 35, 35, 34, 33, 33, 33, 32, 32, 31, 31, 30, 30, 30, 29, 28, 28, 28, 27, 27, 26, 25, 24, 24, 24, 24, 24, 24, 24, 21, 21, 21, 21, 21, 21, 21, 20, 19, 19, 19, 19, 18, 18, 18, 18, 18, 18]

2.2.8.2 对提取的关键词进行清洗

word_freq_df=pd.DataFrame({'keywords':keywords_l,'word_freq':word_freq_l})
word_freq_df=word_freq_df.drop(labels=0,axis=0,inplace=False)  # 除去第一行的关键词‘能力’，范围太广
# 关键词替换，将"深度"-->"深度学习"，"区块"-->"区块链"，同时删除“AI”关键词
word_freq_df['keywords'][23]='深度学习'
word_freq_df['keywords'][24]='区块链'
word_freq_df = word_freq_df.drop(labels=10,axis=0,inplace=False) 
# 取前31个词频最高的关键词
word_freq_df_top31=word_freq_df.reset_index(drop=True).head(31)
word_freq_df_top31.set_index(["keywords"], inplace=True)
word_freq_df_top31.head(5)

2.2.8.3 关键词词频分析图表展示

word_freq_df_top31.sort_values(by='word_freq',ascending=False).plot(kind='bar',figsize=(16,6))
plt.show()

2.2.9 salary优化处理

2.2.9.1 数据清洗

#对数据进行重新清洗，将其中出现兼职（以天/小时计薪）及工资范围最大值小于等于6000的工资以nap.nan处理，在计算均值时不做处理
salary_split=df_new['salary'].str.split('/').apply(pd.Series)
salary_split_0=salary_split[0].str.split('-').apply(pd.Series)
salary_split_1 = pd.concat([salary_split_0,salary_split[1]],axis=1)  
salary_split_1.columns=[0,1,2]
salary_split_1[1] = salary_split_1[1].str.replace('万','#万') 
salary_split_1[1] = salary_split_1[1].str.replace('千','#千')
salary_split_1.head()

salary_split_1_split=salary_split_1[1].str.split('#').apply(pd.Series)
salary_split_2 = pd.concat([salary_split_1[0],salary_split_1_split[0],salary_split_1_split[1],salary_split_1[2]],axis=1)
salary_split_2.columns=[0,1,2,3]
salary_split_2.head()
# 处理极端值
salary_split_2[0].value_counts().sort_index()
salary_split_min_pre=salary_split_2[0].str.strip().replace('1.5千以下','0')
salary_split_min_pre=salary_split_min_pre.str.strip().replace('1000元','0')
salary_split_min_pre=salary_split_min_pre.str.strip().replace('100万以上','0')
salary_split_min_pre=salary_split_min_pre.str.strip().replace('100元','0')
salary_split_min_pre=salary_split_min_pre.str.strip().replace('10万以上','100000')
salary_split_min_pre=salary_split_min_pre.str.strip().replace('120元','0')
salary_split_min_pre=salary_split_min_pre.str.strip().replace('150元','0')
salary_split_min_pre=salary_split_min_pre.str.strip().replace('1600元','0')
salary_split_min_pre=salary_split_min_pre.str.strip().replace('175元','0')
salary_split_min_pre=salary_split_min_pre.str.strip().replace('200元','0')
salary_split_min_pre=salary_split_min_pre.str.strip().replace('250元','0')
salary_split_min_pre=salary_split_min_pre.str.strip().replace('300元','0')
salary_split_min_pre=salary_split_min_pre.str.strip().replace('60元','0')
salary_split_min_pre=salary_split_min_pre.str.strip().replace('80元','0')
salary_split_2[0]=salary_split_min_pre
salary_split_2.head()

salary_split_3=salary_split_2
salary_split_3[0] = salary_split_3[0].astype(float)
salary_split_3[1] = salary_split_3[1].astype(float)
salary_split_max_1=salary_split_3[1].loc[salary_split_3[2] == '千']*1000
salary_split_max_2=salary_split_3[1].loc[salary_split_3[2] == '万']*10000
salary_split_max=pd.concat([salary_split_max_1,salary_split_max_2],axis=0)
salary_split_max=salary_split_max.sort_index()
salary_split_min_1=salary_split_3[0].loc[salary_split_3[2] == '千']*1000
salary_split_min_2=salary_split_3[0].loc[salary_split_3[2] == '万']*10000
salary_split_min=pd.concat([salary_split_min_1,salary_split_min_2],axis=0)
salary_split_min=salary_split_min.sort_index()
salary_split_3[0]=salary_split_min
salary_split_3[1]=salary_split_max
salary_split_3.head()

salary_split_3[3].value_counts()

salary_split_min_new=pd.concat([salary_split_3[0].loc[salary_split_3[3] == '天'].apply(pd.Series),
                                salary_split_3[0].loc[salary_split_3[3] == '小时'].apply(pd.Series),
                                (salary_split_3[0].loc[salary_split_3[3] == '年']/12.0).apply(pd.Series),
                                salary_split_3[0].loc[salary_split_3[3] == '月'].apply(pd.Series)],
                               axis=0).sort_index()
salary_split_max_new=pd.concat([salary_split_3[1].loc[salary_split_3[3] == '天'].apply(pd.Series),
                                salary_split_3[1].loc[salary_split_3[3] == '小时'].apply(pd.Series),
                                (salary_split_3[1].loc[salary_split_3[3] == '年']/12.0).apply(pd.Series),
                                salary_split_3[1].loc[salary_split_3[3] == '月'].apply(pd.Series)],
                               axis=0).sort_index()
salary_split_min_new.head()

salary_split_min_new[0].loc[salary_split_min_new[0] == 0]=np.nan
salary_split_max_new[0].loc[salary_split_max_new[0] == 0]=np.nan
df_new_save['salary_min']=salary_split_min_new[0]
df_new_save['salary_max']=salary_split_max_new[0]
salary_min=df['salary_min']
salary_max=df['salary_max']
salary_min.loc[salary_max <= 6000]=np.nan
salary_max.loc[salary_max <= 6000]=np.nan
salary_max.head(10)
df['salary_mean']=(salary_min+ salary_max ) / 2

2.2.9.2 分析结果图表展示

sal_edu_mean=df.groupby(['edu'])['salary_mean'].mean()
sal_exp_mean=df.groupby(['experience'])['salary_mean'].mean()

fig=plt.figure(figsize=(16,6))

ax1=plt.subplot(121) 
data=np.round(sal_edu_mean.sort_values(ascending=False).values) # 7个等级

x_bar=np.arange(7)
# 核心图形绘制
# rect=ax1.bar(left=x_bar,height=data,width=0.5,color='lightblue')
#The *left* kwarg to `bar` is deprecated use *x* instead. Support for *left* will be removed in Matplotlib 3.0

rect=ax1.bar(x=x_bar,height=data,width=0.6,color='lightblue')

# 向各条形上添加数据标签
for rec in rect:
    x=rec.get_x()
    height=rec.get_height()
    ax1.text(x-0.05,1.03*height,str(height)+'元')

# 绘制x,y坐标轴刻度及标签，标题
ax1.set_xticks(x_bar)
ax1.set_xticklabels(tuple(sal_edu_mean.sort_values(ascending=False).index))
ax1.set_ylabel('平均工资水平（单位：元）')
ax1.set_title('平均工资水平与学历的关系')
ax1.grid(True)
ax1.set_ylim(0,30000)

ax1=plt.subplot(122) 
data=np.round(sal_exp_mean.sort_values(ascending=False).values) # 7个等级

x_bar=np.arange(7)
# 核心图形绘制
# rect=ax1.bar(left=x_bar,height=data,width=0.5,color='lightblue')
#The *left* kwarg to `bar` is deprecated use *x* instead. Support for *left* will be removed in Matplotlib 3.0

rect=ax1.bar(x=x_bar,height=data,width=0.6,color='lightblue')

# 向各条形上添加数据标签
for rec in rect:
    x=rec.get_x()
    height=rec.get_height()
    ax1.text(x-0.05,1.03*height,str(height)+'元')

# 绘制x,y坐标轴刻度及标签，标题
ax1.set_xticks(x_bar)
ax1.set_xticklabels(tuple(sal_exp_mean.sort_values(ascending=False).index))
ax1.set_ylabel('平均工资水平（单位：元）')
ax1.set_title('平均工资水平与工作经验的关系')
ax1.grid(True)
ax1.set_ylim(0,93000)

3 智联招聘网站数据分析

3.1 数据探索

3.1.1 分别导入各地数据，并合并数据

import numpy as np
import pandas as pd


# OSError: Initializing from file failed ： 文件名有中文时，会报错

# 数据内出现编码问题,在open()时指定编码，UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 109: illegal multibyte sequence

ai_file_b=open('./02-zlzp/智联招聘 - 人工智能-北京_5.csv','r',encoding='utf-8')
ai_file_sh=open('./02-zlzp/智联招聘 - 人工智能-上海_5.csv','r',encoding='utf-8')
ai_file_g=open('./02-zlzp/智联招聘 - 人工智能-广州_5.csv','r',encoding='utf-8')
ai_file_sz=open('./02-zlzp/智联招聘 - 人工智能-深圳_5.csv','r',encoding='utf-8')
df_b=pd.read_csv(ai_file_b,
              names=['count','jobname','salary','campany','welfares','location','release_time','work_time',
                       'experience','back_edu','num_need','job_kind'],
               index_col='count',
               header=0)
df_sh=pd.read_csv(ai_file_sh,
              names=['count','jobname','salary','campany','welfares','location','release_time','work_time',
                       'experience','back_edu','num_need','job_kind'],
                   index_col='count',
               header=0)
df_g=pd.read_csv(ai_file_g,
              names=['count','jobname','salary','campany','welfares','location','release_time','work_time',
                       'experience','back_edu','num_need','job_kind'],
                  index_col='count',
               header=0)
df_sz=pd.read_csv(ai_file_sz,
              names=['count','jobname','salary','campany','welfares','location','release_time','work_time',
                       'experience','back_edu','num_need','job_kind'],
                   index_col='count',
               header=0)
df=df_b.append(df_sh,ignore_index=True)
df=df.append(df_g,ignore_index=True)
df=df.append(df_sz,ignore_index=True)
df.head()

3.1.2 数据查重及删除重复行

df.duplicated().value_counts() # 对返回结果进行计数

df_new = df.drop_duplicates(['jobname', 'salary', 'campany', 'welfares', 'location', 'work_time', 'experience'],'first')  # 删除重复行
df_new.duplicated().value_counts()  # 对新数据进行查重

3.2 welfare数据清洗

3.2.1 welfare 按照地区拆分清洗

3.2.1.1 北京地区数据重复值处理

df_b.duplicated().value_counts()  # 对北京地区数据进行查重
df_b_new=df_b.drop_duplicates(['jobname', 'salary', 'campany', 'welfares', 'location', 'work_time', 'experience'],'first')  # 删除重复行

3.2.1.2 北京地区数据重复值处理-1

welfare_split_b=df_b_new['welfares'].str.split('#').apply(pd.Series)
welf_b=welfare_split_b.apply(pd.value_counts)
welf_b=welf_b.unstack().dropna().reset_index()
welf_b.columns=['level_0','welfare_kind','counts']
welf_b_n=welf_b.drop(['level_0'],axis=1).groupby(['welfare_kind']).sum()
welf_b_n.sort_values('counts',ascending=False).head()

3.2.1.3 北京地区数据重复值处理-2:取前10个关键词

welf_b_top10=welf_b_n.sort_values('counts',ascending=False).head(11)
welf_b_top10=welf_b_top10.reset_index()
welf_b_top10=welf_b_top10.drop(labels=0,axis=0,inplace=False)
welf_b_top10.set_index(["welfare_kind"], inplace=True)

3.2.2 其他地区处理方式同北京地区数据

3.2.3 welfare数据按地区处理结果图表展示

import matplotlib.pyplot as plt
plt.rcParams["font.sans-serif"]=['SimHei']  # 用于正常显示中文标签
plt.rcParams['axes.unicode_minus']=False  # 用来正常显示负号
fig=plt.figure(figsize=(18,12))

ax1=plt.subplot(221) 
data=welf_b_top10['counts'].values.astype(int) # 10个等级

x_bar=np.arange(10)

rect=ax1.bar(x=x_bar,height=data,width=0.4,color='lightblue')

# 向各条形上添加数据标签
for rec in rect:
    x=rec.get_x()
    height=rec.get_height()
    ax1.text(x,1.02*height,str(height))

# 绘制x,y坐标轴刻度及标签，标题
ax1.set_xticks(x_bar)
ax1.set_xticklabels(tuple(welf_b_top10['counts'].index))
ax1.set_ylabel('公司福利出现频率（单位：次）')
ax1.set_title('北京地区公司主要福利前10名')
ax1.grid(True)
ax1.set_ylim(0,230)

ax2=plt.subplot(222) 
data=welf_sh_top10['counts'].values.astype(int) # 10个等级

x_bar=np.arange(10)

rect=ax2.bar(x=x_bar,height=data,width=0.4,color='lightblue')

# 向各条形上添加数据标签
for rec in rect:
    x=rec.get_x()
    height=rec.get_height()
    ax2.text(x,1.02*height,str(height))

# 绘制x,y坐标轴刻度及标签，标题
ax2.set_xticks(x_bar)
ax2.set_xticklabels(tuple(welf_sh_top10['counts'].index))
ax2.set_ylabel('公司福利出现频率（单位：次）')
ax2.set_title('上海地区公司主要福利前10名')
ax2.grid(True)
ax2.set_ylim(0,210)


ax3=plt.subplot(223) 
data=welf_g_top10['counts'].values.astype(int) # 10个等级

x_bar=np.arange(10)

rect=ax3.bar(x=x_bar,height=data,width=0.4,color='lightblue')

# 向各条形上添加数据标签
for rec in rect:
    x=rec.get_x()
    height=rec.get_height()
    ax3.text(x,1.02*height,str(height))

# 绘制x,y坐标轴刻度及标签，标题
ax3.set_xticks(x_bar)
ax3.set_xticklabels(tuple(welf_g_top10['counts'].index))
ax3.set_ylabel('公司福利出现频率（单位：次）')
ax3.set_title('广州地区公司主要福利前10名')
ax3.grid(True)
ax3.set_ylim(0,260)

ax4=plt.subplot(224) 
data=welf_sz_top10['counts'].values.astype(int) # 10个等级

x_bar=np.arange(10)

rect=ax4.bar(x=x_bar,height=data,width=0.4,color='lightblue')

# 向各条形上添加数据标签
for rec in rect:
    x=rec.get_x()
    height=rec.get_height()
    ax4.text(x,1.02*height,str(height))

# 绘制x,y坐标轴刻度及标签，标题
ax4.set_xticks(x_bar)
ax4.set_xticklabels(tuple(welf_sz_top10['counts'].index))
ax4.set_ylabel('公司福利出现频率（单位：次）')
ax4.set_title('深圳地区公司主要福利前10名')
ax4.grid(True)
ax4.set_ylim(0,220)

3.3 salary 数据清洗

3.3.1 salary 数据拆分清洗-1

salary_split=df_new['salary'].str.split('/').apply(pd.Series)
salary_split_1 = salary_split[0].str.split('元').apply(pd.Series)
# 处理乱码值：4001-6000å…ƒ      1
salary_split_1[0]=salary_split_1[0].str.replace('6000','6000#')
salary_split_1[0]=salary_split_1[0].str.replace('6000#0','60000')  # 预防有60000的薪资出现
salary_split_1[0]=salary_split_1[0].str.replace('6000#-','6000-')  # 6000作为范围值的初始值时
salary_split_2=salary_split_1[0].str.split('#').apply(pd.Series)
salary_split_2.head()

3.3.2 salary 数据拆分清洗-1将‘面议’及对工资低于‘6000’的值进行过滤

salary_split_new=salary_split_2[0].str.split('-').apply(pd.Series)
salary_split_new[0]=salary_split_new[0].str.strip()
salary_split_new[0]
salary_split_min=salary_split_new[0]
salary_split_min.loc[salary_split_min == "面议"]='0'
salary_split_min=salary_split_min.astype(int)
salary_split_min.loc[salary_split_min == 0]= np.nan
# 将最大值最小值小于6000的数值均设为nan，不做统计
salary_split_min.loc[salary_split_min < 6000]= np.nan
salary_split_max.loc[salary_split_max < 6000]= np.nan

3.3.3 df_new增加一列新的数据salary_mean

# 添加一列新的值，其中工资低于6000的以及“面议”的工资不做处理
df_new['salary_mean'] = ( salary_split_max + salary_split_min )/2
df_new.head()

3.4 平均工资与学历、工作经验的关系

3.4.1 将工资按照学历、工作经验分类后求均值

3.4.1.1 工资与学历的关系

sal_edu_mean=df_new.groupby(['back_edu'])['salary_mean'].mean()
sal_edu_mean.sort_values()

3.4.1.2 工资与工作经验的关系

sal_exp_mean=df_new.groupby(['experience'])['salary_mean'].mean()
sal_exp_mean.sort_values()

3.4.2 工资水平与学历、工作经验分析结果图表展示

fig=plt.figure(figsize=(16,6))

ax1=plt.subplot(121) 
data=np.round(sal_edu_mean.sort_values().head(7).values) # 7个等级

x_bar=np.arange(7)
# 核心图形绘制
# rect=ax1.bar(left=x_bar,height=data,width=0.5,color='lightblue')
#The *left* kwarg to `bar` is deprecated use *x* instead. Support for *left* will be removed in Matplotlib 3.0

rect=ax1.bar(x=x_bar,height=data,width=0.5,color='lightblue')

# 向各条形上添加数据标签
for rec in rect:
    x=rec.get_x()
    height=rec.get_height()
    ax1.text(x-0.05,1.03*height,str(height)+'元')

# 绘制x,y坐标轴刻度及标签，标题
ax1.set_xticks(x_bar)
ax1.set_xticklabels(tuple(sal_edu_mean.sort_values().head(7).index))
ax1.set_ylabel('平均工资水平（单位：元）')
ax1.set_title('平均工资水平与学历的关系')
ax1.grid(True)
ax1.set_ylim(0,33000)



ax2=plt.subplot(122) 
data2=np.round(sal_exp_mean.sort_values().head(7).values) # 7个等级

x_bar=np.arange(7)
# 核心图形绘制
# rect=ax1.bar(left=x_bar,height=data,width=0.5,color='lightblue')
#The *left* kwarg to `bar` is deprecated use *x* instead. Support for *left* will be removed in Matplotlib 3.0

rect=ax2.bar(x=x_bar,height=data2,width=0.5,color='lightblue')

# 向各条形上添加数据标签
for rec in rect:
    x=rec.get_x()
    height=rec.get_height()
    ax2.text(x-0.05,1.03*height,str(height)+'元')

# 绘制x,y坐标轴刻度及标签，标题
ax2.set_xticks(x_bar)
ax2.set_xticklabels(tuple(sal_exp_mean.sort_values().head(7).index))
ax2.set_ylabel('平均工资水平（单位：元）')
ax2.set_title('平均工资水平与工作经验的关系')
ax2.grid(True)
ax2.set_ylim(0,68000)

3.4.3 工资水平与地区分析结果图表展示

3.4.3.1 地区数据清洗

df_new['location']=df_new['location'].str.strip().replace('深圳-福田区','深圳')
df_new['location']=df_new['location'].str.strip().replace('上海-浦东新区','上海')
df_new['location'].value_counts()
df_new['location'].loc[df_new['location']=='å¹¿å·�']='广州'
sal_loc_mean=df_new.groupby(['location'])['salary_mean'].mean()
sal_loc_mean.head()

3.4.3.2 地区数据分析结果图表展示

fig=plt.figure(figsize=(8,6))

ax1=plt.subplot(111) 
data=np.round(sal_loc_mean.sort_values(ascending=False).values) # 7个等级

x_bar=np.arange(4)
# 核心图形绘制
# rect=ax1.bar(left=x_bar,height=data,width=0.5,color='lightblue')
#The *left* kwarg to `bar` is deprecated use *x* instead. Support for *left* will be removed in Matplotlib 3.0

rect=ax1.bar(x=x_bar,height=data,width=0.5,color='lightblue')

# 向各条形上添加数据标签
for rec in rect:
    x=rec.get_x()
    height=rec.get_height()
    ax1.text(x-0.05,1.03*height,str(height)+'元')

# 绘制x,y坐标轴刻度及标签，标题
ax1.set_xticks(x_bar)
ax1.set_xticklabels(tuple(sal_loc_mean.sort_values(ascending=False).index))
ax1.set_ylabel('平均工资水平（单位：元）')
ax1.set_title('平均工资水平与地区的关系')
ax1.grid(True)
ax1.set_ylim(0,22000)

4 猎聘网站数据清洗及分析

4.1 数据导入

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams["font.sans-serif"]=['SimHei']  # 用于正常显示中文标签
plt.rcParams['axes.unicode_minus']=False  # 用来正常显示负号

import warnings
warnings.filterwarnings("ignore")

ai_file=open('./03-lp/猎聘职位信息人工智能_40.csv','r',encoding='utf-8')
df=pd.read_csv(ai_file,
              names=['jobname', 'company', 'company_kind', 'salary', 'welfares', 'require_labels', 'job_describes'],
              header=0)
df.head()
df.info()

4.2 数据查重

df.duplicated().value_counts() # 对返回结果进行计数

4.3 查重结果分析

通过对数据的分析发现，猎聘网的招聘信息有其特殊性，收集的1120条信息中，重复信息数竟然达到1092条，竟达到97.5%的重复率。首先检查了代码，排除了数据收集时代码的问题，那么就是网站招聘信息的问题。
结合数据，并查看网站招聘信息的结构发现，其网站中发布信息的公司确实不是很多，且每次公司发布信息都会发布很多条，除了岗位不同而外，其余的信息基本相同，因而在数据分析时被判定为重复内容。因采集到的信息重复率太高，不具有代表性，遂不做分析。

5 通过数据构建机器学习算法模型

5.1 特征工程 - 数据集准备

5.1.1 查看数据

5.1.2 对location数据进行处理

5.1.2.1 查看一下数据

df['location'].value_counts()

5.1.2.2 location数据one-hot编码处理

location_onehot = pd.get_dummies(df["location"],drop_first = False, prefix="onehot")
location_onehot.head()

5.1.3 company_attr数据处理

5.1.3.1 查看一下数据

df['company_attr'].value_counts()

5.1.3.2 对company_attr数据进行清洗

df['company_attr']=df['company_attr'].str.strip()  #先去除一下空格
df['company_attr'].loc[df['company_attr']=='500-1000人']  
# 查看一下数据处理错误的行数
df['company_size'][525]
df['company_field_1'][525]
# 处理一下分错的数据
df['company_size'][525] = '500-1000人'
df['company_field_1'][525] = '房地产'

# 前6个500-1000人的公司中3个为民营公司，其中民营公司本身亦为众数，所以分错的数据使用众数代替，另外把出现较少的类型进行组合为‘其他’类型
df['company_attr'].loc[df['company_attr']=='500-1000人']='民营公司'  
df['company_attr'].loc[df['company_attr']=='事业单位']='其他' 
df['company_attr'].loc[df['company_attr']=='非营利组织']='其他' 
df['company_attr'].loc[df['company_attr']=='外企代表处']='其他' 
df['company_attr'].loc[df['company_attr']=='医疗设备/器械']='其他' 

# 再次查看修改后的数据
df['company_attr'].value_counts()

5.1.3.3 company_attr数据one-hot编码处理

company_attr_onehot = pd.get_dummies(df["company_attr"],drop_first = False, prefix="onehot")

5.1.4 company_size数据处理

5.1.4.1 查看数据

df['company_size'].value_counts()

5.1.4.2 将分错数据使用众数代替

df['company_size']=df['company_size'].str.strip()  # 去除一下空格
df['company_size'].loc[df['company_size']=='房地产']='50-150人'  
df['company_size'].loc[df['company_size']=='银行']='50-150人' 
df['company_size'].loc[df['company_size']=='通信/电信/网络设备']='50-150人' 
df['company_size'].loc[df['company_size']=='中介服务']='50-150人' 
df['company_size'].loc[df['company_size']=='机械/设备/重工']='50-150人' 
df['company_size'].loc[df['company_size']=='电子技术/半导体/集成电路']='50-150人' 

df['company_size'].value_counts()

5.1.4.3 company_size数据one-hot编码处理

company_size_onehot = pd.get_dummies(df["company_size"],drop_first = False, prefix="onehot")

5.1.5 welfare数据处理

5.1.5.1 合并数据

welfare_count=df[['welfare_1','welfare_2','welfare_3','welfare_4','welfare_5','welfare_6',
                  'welfare_7','welfare_8','welfare_9','welfare_10','welfare_11']]
welfare_count.head()

5.1.5.2 统计公司提供福利个数作为统计参数

welfare_count=welfare_count.fillna('')  # 使用空值代替NaN方便后续统计福利个数
# 定义函数
num_list=[]
def get_welf_num():
    for i in range(len(welfare_count['welfare_1'])):
        count=0
        for j in welfare_count.loc[i]:  
            if len(j)!=0:
                count+=1
            else:continue
#         print(count)
        num_list.append(count)
get_welf_num()        
welf_count=pd.Series(num_list)    

welf_count.value_counts()

5.1.6 edu数据处理

5.1.6.1 查看并合并数据

df['edu']=df['edu'].str.strip()
df['edu'].loc[df['edu']=='中专']='高中及以下' 
df['edu'].loc[df['edu']=='高中']='高中及以下' 
df['edu'].value_counts()

5.1.6.2 edu数据onehot编码

edu_onehot = pd.get_dummies(df["edu"],drop_first = False, prefix="onehot")

5.1.7 experience数据onehot编码

experience_onehot = pd.get_dummies(df["experience"],drop_first = False, prefix="onehot")

5.1.8 english_requires数据处理

5.1.8.1 english_requires简化处理

df['english_requires'].loc[df['english_requires']=='英语熟练+']='英语' 
df['english_requires'].value_counts()

5.1.8.1 english_requires数据onehot编码

english_requires_onehot = pd.get_dummies(df["english_requires"],drop_first = False, prefix="onehot")

5.1.9 salary数据处理

5.1.9.1 求均值

salary_min=df['salary_min']
salary_max=df['salary_max']
salary_mean=(salary_min+salary_max)/2

5.1.9.2 均值小于6000的部分全部替换为np.nan值

salary_min.loc[salary_mean <= 6000]=np.nan
salary_max.loc[salary_mean <= 6000]=np.nan
salary_mean.loc[salary_mean <= 6000]=np.nan
salary_max.isnull().value_counts()

5.1.9.3 将salary_mean加入数据中

df['salary_mean']=salary_mean

5.1.10 所有数据合并

combine = pd.concat([location_onehot,company_attr_onehot,company_size_onehot,df['welf_count'],edu_onehot,
                     experience_onehot,english_requires_onehot,df['salary_min'],df['salary_max'],df['salary_mean']],axis=1)
combine.head()

5.1.10.1 删除所有出现NaN的行数据 - 主要是salary数据中出现的nan值

combine_new=combine.dropna(axis=0,how='any',inplace=False)
combine_new.reset_index(drop=True)  # 重新编码
combine_new.info()

5.1.11 将数据集写入文件存储

combine_new.to_csv(path_or_buf='51job训练+测试样本合集(welf_count无编码).csv')

5.2 尝试使用聚类算法k-means对数据进行分类

5.2.1 读入数据

5.2.1.1 导入模块

# 导入模块
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams["font.sans-serif"]=['SimHei']  # 用于正常显示中文标签
plt.rcParams['axes.unicode_minus']=False  # 用来正常显示负号

from scipy.spatial.distance import cdist  # 用scipy求解距离
from sklearn.cluster import KMeans

# from IPython.core.interactiveshell import InteractiveShell
# InteractiveShell.ast_node_interactivity='all'  # 每个单元格中所有的输出都显示

import warnings
warnings.filterwarnings("ignore")

5.2.1.2 读入数据

train_file=open('51job训练+测试样本合集(welf_count无编码).csv','r',encoding='utf-8')
combine_data=pd.read_csv(train_file)

5.2.2 数据查看与极端值处理

combine_data['salary_mean'].value_counts().sort_index(ascending=False).head(2)

# 处理极端值60W，替换为np.nan值，然后删除该行
combine_data['salary_mean'].loc[combine_data['salary_mean']==600000]=np.nan
combine_new=combine_data.dropna(axis=0,how='any',inplace=False)
combine_new=combine_new.drop(['Unnamed: 0'],axis=1)
combine_new.head(2)

5.2.3 利用肘部法则来调参 - 挑选最合适的K值

K=range(1,10)
meandistortions=[]
for k in K:
    kmeans=KMeans(n_clusters=k)
    kmeans.fit(combine_new)
    meandistortions.append(sum(np.min(cdist(combine_new,kmeans.cluster_centers_,'euclidean'),axis=1))/combine_new.shape[0])

plt.plot(K,meandistortions,'bx-')
plt.xlabel('k')
plt.ylabel('loss')
plt.title('挑选最佳k值')

根据肘部法则，结合上图可以确定在本数据集中，k值比较适合的值为3。

5.2.4 可视化展示

5.2.4.1 对salary_mean数据进行标记

combine_new['sal_label']=0
# 将平均工资小于等于15000部分定义标签为1
combine_new['sal_label'].loc[combine_new['salary_mean']<= 15000]=1
# 将平均工资大于15000，但小于等于30000部分定义标签为2
combine_new['sal_label'].loc[(15000'salary_mean']) & (combine_new['salary_mean']<= 30000)]=2
# 将平均工资大于30000部分定义标签为3
combine_new['sal_label'].loc[combine_new['salary_mean']> 30000]=3
combine_new['sal_label'].value_counts()

5.2.4.2 数据准备

features=combine_new.drop(['salary_min','salary_max'],axis=1,inplace=False)
features_arr=np.array(features.values)
target=combine_new['sal_label']
target_arr=np.array(target.values)

5.2.4.3 图表展示

for t,marker,col in zip(range(1,4),'>ox','rgb'):
    plt.scatter(features_arr[target_arr == t,0],features_arr[target_arr == t,1],marker=marker,c=col)

# 可能是数据特征太多，且均为one-hot编码，所以导致数据不够突出

5.2.5 k-means模型

# 创建一个KMeans模型，设置k值为3
kmeans=KMeans(n_clusters=3)
kmeans.fit(combine_new)

# 输出KMeans模型的中心点坐标
kmeans.cluster_centers_

# 输出KMeans模型的所有标签
kmeans.labels_

data=kmeans.fit_predict(combine_new)
data=pd.Series(data)
data.value_counts()     # 预测结果展示

5.3 主流分类算法在数据集上的效果分析

5.3.1 准备数据集

# 新建二分类标签，默认值为0
combine_new['sal_label_2']=0
# 将平均工资大于20000部分定义标签为1
combine_new['sal_label_2'].loc[combine_new['salary_mean']> 20000]=1

# 将数据集拆分为样本点X，标签y
train_X=combine_new.drop(['salary_min','salary_max','sal_label','salary_mean','sal_label_2'],axis=1,inplace=False)
train_y=combine_new['sal_label_2']

5.3.2 拆分训练集和数据集

# 导入model_selection对数据集进行拆分
from sklearn import model_selection

# 将数据集按照70%训练集，30%测试集的成分进行拆分
X_train,X_test,y_train,y_test=model_selection.train_test_split(train_X,train_y,test_size=0.3,random_state=42)

5.3.3 训练模型

# 导入相应模块
from sklearn import metrics

from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC,LinearSVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

5.3.3.1 LogisticRegression

lr=LogisticRegression()
lr.fit(X_train,y_train)

print("train accurary:",lr.score(X_train,y_train))
print("test accurary:",lr.score(X_test,y_test))

5.3.3.1.1逻辑回归模型误分类矩阵图表展示

from sklearn import metrics

train_y_pred=lr.predict(train_X) #对训练集进行预测，输出标签
train_y_pred_prob=lr.predict_proba(train_X) # 对训练集进行预测，输出概率

# 误分类矩阵
cnf_matrix=metrics.confusion_matrix(train_y,train_y_pred)

# 准确率
precision = metrics.accuracy_score(train_y,train_y_pred)

# 通过图表直观一点的展现误分类矩阵
def show_confusion_matrix(cnf_matrix,class_labels):
    plt.matshow(cnf_matrix,cmap=plt.cm.YlGn,alpha=0.7)
    ax=plt.gca()
    ax.set_xlabel("Predicted Label",fontsize=16)
    ax.set_xticks(range(0,len(class_labels)))
    ax.set_xticklabels(class_labels,rotation=45)
    ax.set_ylabel("Actual Label",fontsize=16,rotation=90)
    ax.set_yticks(range(0,len(class_labels)))
    ax.set_yticklabels(class_labels)
    ax.xaxis.set_label_position("top")
    ax.xaxis.tick_top()

    for row in range(len(cnf_matrix)):
        for col in range(len(cnf_matrix[row])):
            ax.text(col,row,cnf_matrix[row][col],va="center",ha="center",fontsize=16)

class_labels=[0,1]
show_confusion_matrix(cnf_matrix,class_labels)

5.3.3.2 SVM

svc=SVC()
svc.fit(X_train,y_train)

print("train accurary:",svc.score(X_train,y_train))
print("test accurary:",svc.score(X_test,y_test))

5.3.3.3 KNN

knn=KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train,y_train)

print("train accurary:",knn.score(X_train,y_train))
print("test accurary:",knn.score(X_test,y_test))

5.3.3.4 Descition Tree

dtree=DecisionTreeClassifier()
dtree.fit(X_train,y_train)

print("train accurary:",dtree.score(X_train,y_train))
print("test accurary:",dtree.score(X_test,y_test))

5.3.3.5 Random Forest

random_forest=RandomForestClassifier(n_estimators=10)
random_forest.fit(X_train,y_train)

print("train accurary:",random_forest.score(X_train,y_train))
print("test accurary:",random_forest.score(X_test,y_test))

5.3.4 各模型结果分析

5.3.4.1 各模型结果对比

5.3.4.2 对比分析结论：

在本例中，通过测试集验证训练集训练的各模型的准确率可以得出以下结论：

通过测试集测试的准确率可以看出，逻辑回归模型的准确率最高，在70.23%，SVM其次为69.85%，决策树的效果最差，仅为62.6%；

在模型的稳定性方面可以看出，逻辑回归模型最稳定，而决策树和随机森林存在明显的过拟合现象，在训练集的准确率在95%左右，但测试集的准确率只有不到70%；

KNN算法存在轻微的过拟合现象，在训练集的准确率为79.67%，而测试集只有69.5%；

SVM算法最不容易过拟合，在训练集的准确率甚至低于测试集，且准确率为第二；

虽然随机森林与决策树都存在过拟合的状况，但是随机森林在测试集的准确度有明显提高；

在本例中：LogisticRegression > SVM > KNN > Random Forest > Descition Tree

你可能感兴趣的:(心得交流,学习交流,实战项目,人工智能,机器学习,十大算法,数据清洗)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动李蕾1229
为促进我校教师专业发展，发挥骨干教师的引领带头作用，11月6日下午，我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动。图片发自App会议由教师发展处李蕾主任主持，首先，由范校长宣读新老教师结对名单及双方承担职责。随后，两位新调入教师陈玉萍、莫正杰分别和他们的师傅鲍元美、刘召彬老师签订了师徒结对协议书。图片发自App图片发自App师徒拥抱、握手。有了师傅就有了目标有了方向，相信两位新教师在师
少了生活气息我爱大草莓
最近啊，总觉得自己日更的内容缺了点什么。我仔细地想，大概是少了些生活气息。这两三个月减少了许多与别人相处的时间，独自生活，偶尔只是出去买菜，总觉得生活好像变空了许多。买菜的时候会跟档口的阿姨聊一两句话，让自己感觉在真实地生活着。幸好我也不是一宅到底，偶尔周末也会约着跟好朋友见面，面对面交流跟隔着屏幕交流，效果还是不一样的，至少有更为真实的生活感。写作不仅需要有阅读量，有文笔，生活阅历也是非常重要的
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
如何在心上用功？余超林AIA财富管家
思考：如何在心上用功？学习心得：心-道-德-事的理解心-道-德-事这四部曲，本质上就是一个人的思维智慧的四个层面：事是最底层，这是所有人在这个社会谋求生存的基础，一个人能够把事情彻底做好，保质保量的完成，才会有真正的结果，但是这个层面要获得真正成功很困难，因为会做事的人很多，最终会出现恶性竞争；德是第三层，如果说整个社会做事的竞争激烈程度为100%，那么上升到德上的竞争激烈程度降低为80%，德是一
2020-8-19晨间日记：看过的电影盐大虾
今天是周三起床：6点半就寝：11点天气：晴心情：正常纪念日：周三任务清单今日完成的任务，最重要的三件事：1.整理写过的文档2.电影《电灯泡》3.这就是街舞第三季第五期改进：早睡早起习惯养成：早睡早起，看书周目标·完成进度两篇文章学习·信息·阅读电影艺术发展史相关教材健康·饮食·锻炼吃了挺多零食，还喝了果粒橙，还是得少吃，多锻炼，不然会慢慢死掉的。人际·家人·朋友淡定交流，不放在心上。工作·思考专心
逻辑思维的过程与力量解晓萱
之前我对逻辑思维的了解停留在，讲话时有逻辑，辩论时条理清晰。今天看了《开讲了》里面关于大学生质疑易中天老师的视频，听到易中天老师的回答，忽然对逻辑思维有了稍微深刻的理解。图片发自App逻辑学对我们太重要了，不仅仅是学习备考，更重要的是生活和事业及交流的选择及过程。偏激的起点和性格有关，更和逻辑思维水平有关。视频里，易中天老师评价北大学生逻辑时讲到：“他的逻辑环节是没问题的，但是逻辑起点错了，所以他
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署） java毕设程序源码王哥 php 课程设计 vue.js
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
2022-05-22光印随思60学习要与现实打通无名之米8
20220522光印随思60学习要与现实打通今天在匆忙中完成了新网师课程的第七次预习作业。每次完成预习作业的过程都是一次艰难的学习，先要学习相关的文本和文件，了解作业需要的理论知识，之后需要把理论知识运用于实际工作和生活中。这也是学习的真正价值所在。在很多时候，会有这样的感觉，读了很多书为什么没有啥长进？现在回想应该就是，当只有阅读和感受，没有把阅读心得转化为文字，没有把阅读的知识运用到实际的场景
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
2023-4-6晨间日记百里清风柏年醉
今天是什么日子起床：7:00就寝：10:30天气：阳光明媚心情：沉闷，忧心忡忡纪念日：无任务清单昨日完成的任务，最重要的三件事：看咨询工程师的书锻炼身体记75个单词改进：自己做饭习惯养成：看纸质书籍不刷抖音每天日更周目标·完成进度学习·信息·阅读健康·饮食·锻炼人际·家人·朋友保持与朋友交流，多认识、结交新的朋友工作·思考怎么做好向上管理该学习什么新的技能怎么与同事更好相处，更好地开展工作最美好的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
效率神器来了：AI工具手把手教你快速提升工作效能 kkai人工智能人工智能学习媒体 ai chatgpt
随着科技的进步，AI工具已经成为提升工作效率的关键手段。本文将介绍一些实用的AI工具和方法，帮助你自动化繁琐的重复性任务、优化数据管理、促进团队协作与沟通，并提升决策质量。背景：OOPAI-免费问答学习交流-GPT自动化重复性任务Zapier：Zapier可以自动化多个应用程序之间的工作流程。例如，它能自动将Gmail中的附件保存至GoogleDrive，或在你发布新文章时，自动分享至社交媒体平台
2024微信红包封面怎么领取免费的？（红包封面序列号获取方法）帮忙赚赏金
2024微信红包封面怎么领取免费的？（红包封面序列号获取方法）在中国，微信几乎成为了人们生活中不可或缺的一部分，而微信红包更是成为了人们表达祝福和送礼的一种形式。微信红包不仅方便快捷，还能够增添节日气氛和人与人之间的情感交流。然而，有时候我们想要定制一个特殊的微信红包封面，以更好地展现自己的个性和情感，但又担心定制费用过高。那么，如何才能免费获取2024微信红包封面的序列号呢？下面将为您详细介绍一
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
2022-5-23《儿童纪律教育》培训手捧鲜花_54e3
张子博春蕾八幼缺乏技能导致的问题，需要老师和家长教授儿童所需要的锻炼的技能。比如教授儿童如何处理情绪、与人相处以及有效的交流技巧。未满足的情感需要，如信任、尊重、爱与权利的需要，都应该让儿童充分得到满足时，才能解决问题。家庭互动与复杂的原因，需要教师建立以家庭为中心的实践，和家庭沟通，建立和谐的关系，为孩子的健康成长共同努力。
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
儿童沙盘游戏为什么治疗有效？静待花开_602f
图片发自App运华日记第197篇（2018.4.15）儿童沙盘游戏为什么治疗有效？首先是孩子们喜欢。其次它做为一种“语言”表现孩子们“问题”，通过沙具可以和孩子起到交流与沟通的作用。人最怕的被迫生活学习，那么在沙盘中，一切都由孩子们自由创造，发挥孩子们自己的主观能动性。他们可以任意摆放自己喜欢的沙具，呈现着他们的情绪与心理，表达着他们所遇到问题以及应付问题的方式。而治疗师为儿童提供一个助于他们通过
2019-02-26 一枚_铜钱
今天是实习第一节课，昨天已经和同学们交流过了，对于新老师，让学生适当地了解你是很有必要的。这第一节课嘛，孩子们表现也还可以大部分孩子都是很认真听讲的，也有几个上课会说话。但是我觉得孩子们对知识点的掌握速度还是很慢的，有的地方讲很多遍还是不太懂的样子。当然我自己可能也要反省，重点地方一定要明明白白告诉大家。明天切正题要快，要让学生读题，要让学生多写多练。话要尽量说得少，但句句在点子上，还得全面。下午
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源