Huang supreme

python爬取招聘网站数据，利用tableau可视化交互大屏，指导你如何学习、找工作!

如果觉得文章写得好，如果你想要博客文章中的数据，请关注公众号：【数据分析与统计学之美】，添加作者【个人微信】，进群和作者交流！

1、项目背景
2、信息的爬取(基于51job招聘网站的数据爬取)
1）导入相关库
2）关于翻页的说明
3）完整的爬取代码
3、数据预处理
1）相关库的导入及数据的读取
2）热门城市的岗位数量TOP10
3）岗位名字段的处理
4）工资水平字段的处理
5）工作地点字段的处理
6）公司类型字段的处理
7）行业字段的处理
8）经验与学历字段的处理
9）工作描述字段的处理
10）公司规模字段的处理
11）构造新数据
4、关于“工作描述”字段的特殊处理
5、tableau可视化展示
1) 热门城市的用人需求TOP10
2）热门城市的岗位数量TOP10
3）不同工作地点岗位数量的气泡图
4）热门岗位的薪资待遇
5）热门行业的薪资待遇
6）可视化大屏的最终展示
7）可视化大屏的“动态”展示

本文大纲

1、项目背景

随着科技的飞速发展，数据呈现爆发式的增长，任何人都摆脱不了与数据打交道，社会对于“数据”方面的人才需求也在不断增大。因此了解当下企业究竟需要招聘什么样的人才？需要什么样的技能？不管是对于在校生，还是对于求职者来说，都显得很有必要。
本文基于这个问题，针对51job招聘网站，爬取了全国范围内大数据、数据分析、数据挖掘、机器学习、人工智能等相关岗位的招聘信息。分析比较了不同岗位的薪资、学历要求；分析比较了不同区域、行业对相关人才的需求情况；分析比较了不同岗位的知识、技能要求等。
做完以后的项目效果如下：

动态效果如下：

2、信息的爬取(基于51job招聘网站的数据爬取)

爬取岗位：大数据、数据分析、机器学习、人工智能等相关岗位；
爬取字段：公司名、岗位名、工作地址、薪资、发布时间、工作描述、公司类型、员工人数、所属行业；
说明：基于51job招聘网站，我们搜索全国对于“数据”岗位的需求，大概有2000页。我们爬取的字段，既有一级页面的相关信息，还有二级页面的部分信息；
爬取思路：先针对某一页数据的一级页面做一个解析，然后再进行二级页面做一个解析，最后再进行翻页操作；
使用工具：Python+requests+lxml+pandas+time
网站解析方式：Xpath

1）导入相关库

import requests
import pandas as pd
from pprint import pprint
from lxml import etree
import time
import warnings
warnings.filterwarnings("ignore")

2）关于翻页的说明

# 第一页的特点
https://search.51job.com/list/000000,000000,0000,00,9,99,%25E6%2595%25B0%25E6%258D%25AE,2,1.html?
# 第二页的特点
https://search.51job.com/list/000000,000000,0000,00,9,99,%25E6%2595%25B0%25E6%258D%25AE,2,2.html?
# 第三页的特点
https://search.51job.com/list/000000,000000,0000,00,9,99,%25E6%2595%25B0%25E6%258D%25AE,2,3.html?

注意：通过对于页面的观察，可以看出，就一个地方的数字变化了，因此只需要做字符串拼接，然后循环爬取即可。

3）完整的爬取代码

import requests
import pandas as pd
from pprint import pprint
from lxml import etree
import time
import warnings
warnings.filterwarnings("ignore")

for i in range(1,1501):
    print("正在爬取第" + str(i) + "页的数据")
    url_pre = "https://search.51job.com/list/000000,000000,0000,00,9,99,%25E6%2595%25B0%25E6%258D%25AE,2,"
    url_end = ".html?"
    url = url_pre + str(i) + url_end
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
    }
    web = requests.get(url, headers=headers)
    web.encoding = "gbk"
    dom = etree.HTML(web.text)
    # 1、岗位名称
    job_name = dom.xpath('//div[@class="dw_table"]/div[@class="el"]//p/span/a[@target="_blank"]/@title')
    # 2、公司名称
    company_name = dom.xpath('//div[@class="dw_table"]/div[@class="el"]/span[@class="t2"]/a[@target="_blank"]/@title')
    # 3、工作地点
    address = dom.xpath('//div[@class="dw_table"]/div[@class="el"]/span[@class="t3"]/text()')
    # 4、工资
    salary_mid = dom.xpath('//div[@class="dw_table"]/div[@class="el"]/span[@class="t4"]')
    salary = [i.text for i in salary_mid]
    # 5、发布日期
    release_time = dom.xpath('//div[@class="dw_table"]/div[@class="el"]/span[@class="t5"]/text()')
    # 6、获取二级网址url
    deep_url = dom.xpath('//div[@class="dw_table"]/div[@class="el"]//p/span/a[@target="_blank"]/@href')
    RandomAll = []
    JobDescribe = []
    CompanyType = []
    CompanySize = []
    Industry = []
    for i in range(len(deep_url)):
        web_test = requests.get(deep_url[i], headers=headers)
        web_test.encoding = "gbk"
        dom_test = etree.HTML(web_test.text)
        # 7、爬取经验、学历信息，先合在一个字段里面，以后再做数据清洗。命名为random_all
        random_all = dom_test.xpath('//div[@class="tHeader tHjob"]//div[@class="cn"]/p[@class="msg ltype"]/text()')
        # 8、岗位描述性息
        job_describe = dom_test.xpath('//div[@class="tBorderTop_box"]//div[@class="bmsg job_msg inbox"]/p/text()')
        # 9、公司类型
        company_type = dom_test.xpath('//div[@class="tCompany_sidebar"]//div[@class="com_tag"]/p[1]/@title')
        # 10、公司规模(人数)
        company_size = dom_test.xpath('//div[@class="tCompany_sidebar"]//div[@class="com_tag"]/p[2]/@title')
        # 11、所属行业(公司)
        industry = dom_test.xpath('//div[@class="tCompany_sidebar"]//div[@class="com_tag"]/p[3]/@title')
        # 将上述信息保存到各自的列表中
        RandomAll.append(random_all)
        JobDescribe.append(job_describe)
        CompanyType.append(company_type)
        CompanySize.append(company_size)
        Industry.append(industry)
        # 为了反爬，设置睡眠时间
        time.sleep(1)
    # 由于我们需要爬取很多页，为了防止最后一次性保存所有数据出现的错误，因此，我们每获取一夜的数据，就进行一次数据存取。
    df = pd.DataFrame()
    df["岗位名称"] = job_name
    df["公司名称"] = company_name
    df["工作地点"] = address
    df["工资"] = salary
    df["发布日期"] = release_time
    df["经验、学历"] = RandomAll
    df["公司类型"] = CompanyType
    df["公司规模"] = CompanySize
    df["所属行业"] = Industry
    df["岗位描述"] = JobDescribe
    # 这里在写出过程中，有可能会写入失败，为了解决这个问题，我们使用异常处理。
    try:
        df.to_csv("job_info.csv", mode="a+", header=None, index=None, encoding="gbk")
    except:
        print("当页数据写入失败")
    time.sleep(1)
print("数据爬取完毕，是不是很开心！！！")

这里可以看到，我们爬取了1000多页的数据做最终的分析。因此每爬取一页的数据，做一次数据存储，避免最终一次性存储导致失败。同时根据自己的测试，有一些页数进行数据存储，会导致失败，为了不影响后面代码的执行，我们使用了“try-except”异常处理。
在一级页面中，我们爬取了“岗位名称”，“公司名称”，“工作地点”，“工资”，“发布日期”，“二级网址的url”这几个字段。
在二级页面中，我们爬取了“经验、学历信息”，“岗位描述”，“公司类型”，“公司规模”，“所属行业”这几个字段。

3、数据预处理

从爬取到的数据中截取部分做了一个展示，可以看出数据很乱。杂乱的数据并不利于我们的分析，因此需要根据研究的目标做一个数据预处理，得到我们最终可以用来做可视化展示的数据。

1）相关库的导入及数据的读取

df = pd.read_csv(r"G:\8泰迪\python_project\51_job\job_info1.csv",engine="python",header=None)
# 为数据框指定行索引
df.index = range(len(df))
# 为数据框指定列索引
df.columns = ["岗位名","公司名","工作地点","工资","发布日期","经验与学历","公司类型","公司规模","行业","工作描述"]

2）数据去重

我们认为一个公司的公司名和和发布的岗位名一致，就看作是重复值。因此，使用drop_duplicates(subset=[])函数，基于“岗位名”和“公司名”做一个重复值的剔除。

# 去重之前的记录数
print("去重之前的记录数",df.shape)
# 记录去重
df.drop_duplicates(subset=["公司名","岗位名"],inplace=True)
# 去重之后的记录数
print("去重之后的记录数",df.shape)

3）岗位名字段的处理

① 岗位名字段的探索

df["岗位名"].value_counts()
df["岗位名"] = df["岗位名"].apply(lambda x:x.lower())

说明：首先我们对每个岗位出现的频次做一个统计，可以看出“岗位名字段”太杂乱，不便于我们做统计分析。接着我们将岗位名中的大写英文字母统一转换为小写字母，也就是说“AI”和“Ai”属于同一个东西。

② 构造想要分析的目标岗位，做一个数据筛选

job_info.shape
target_job = ['算法', '开发', '分析', '工程师', '数据', '运营', '运维']
index = [df["岗位名"].str.count(i) for i in target_job]
index = np.array(index).sum(axis=0) > 0
job_info = df[index]
job_info.shape

说明：首先我们构造了如上七个目标岗位的关键字眼。然后利用count()函数统计每一条记录中，是否包含这七个关键字眼，如果包含就保留这个字段，不过不包含就删除这个字段。最后查看筛选之后还剩余多少条记录。

③ 目标岗位标准化处理(由于目标岗位太杂乱，我们需要统一一下)

job_list = ['数据分析', "数据统计","数据专员",'数据挖掘', '算法', 
            '大数据','开发工程师', '运营', '软件工程', '前端开发',
            '深度学习', 'ai', '数据库', '数据库', '数据产品',
            '客服', 'java', '.net', 'andrio', '人工智能', 'c++',
            '数据管理',"测试","运维"]
job_list = np.array(job_list)
def rename(x=None,job_list=job_list):
    index = [i in x for i in job_list]
    if sum(index) > 0:
        return job_list[index][0]
    else:
        return x
job_info["岗位名"] = job_info["岗位名"].apply(rename)
job_info["岗位名"].value_counts()
# 数据统计、数据专员、数据分析统一归为数据分析
job_info["岗位名"] = job_info["岗位名"].apply(lambda x:re.sub("数据专员","数据分析",x))
job_info["岗位名"] = job_info["岗位名"].apply(lambda x:re.sub("数据统计","数据分析",x))

说明：首先我们定义了一个想要替换的目标岗位job_list，将其转换为ndarray数组。然后定义一个函数，如果某条记录包含job_list数组中的某个关键词，那么就将该条记录替换为这个关键词，如果某条记录包含job_list数组中的多个关键词，我们只取第一个关键词替换该条记录。接着使用value_counts()函数统计一下替换后的各岗位的频次。最后，我们将“数据专员”、“数据统计”统一归为“数据分析”。

4）工资水平字段的处理

工资水平字段的数据类似于“20-30万/年”、“2.5-3万/月”和“3.5-4.5千/月”这样的格式。我们需要做一个统一的变化，将数据格式转换为“元/月”，然后取出这两个数字，求一个平均值。

job_info["工资"].str[-1].value_counts()
job_info["工资"].str[-3].value_counts()

index1 = job_info["工资"].str[-1].isin(["年","月"])
index2 = job_info["工资"].str[-3].isin(["万","千"])
job_info = job_info[index1 & index2]

def get_money_max_min(x):
    try:
        if x[-3] == "万":
            z = [float(i)*10000 for i in re.findall("[0-9]+\.?[0-9]*",x)]
        elif x[-3] == "千":
            z = [float(i) * 1000 for i in re.findall("[0-9]+\.?[0-9]*", x)]
        if x[-1] == "年":
            z = [i/12 for i in z]
        return z
    except:
        return x

salary = job_info["工资"].apply(get_money_max_min)
job_info["最低工资"] = salary.str[0]
job_info["最高工资"] = salary.str[1]
job_info["工资水平"] = job_info[["最低工资","最高工资"]].mean(axis=1)

说明：首先我们做了一个数据筛选，针对于每一条记录，如果最后一个字在“年”和“月”中，同时第三个字在“万”和“千”中，那么就保留这条记录，否则就删除。接着定义了一个函数，将格式统一转换为“元/月”。最后将最低工资和最高工资求平均值，得到最终的“工资水平”字段。

5）工作地点字段的处理

由于整个数据是关于全国的数据，涉及到的城市也是特别多。我们需要自定义一个常用的目标工作地点字段，对数据做一个统一处理。

#job_info["工作地点"].value_counts()
address_list = ['北京', '上海', '广州', '深圳', '杭州', '苏州', '长沙',
                '武汉', '天津', '成都', '西安', '东莞', '合肥', '佛山',
                '宁波', '南京', '重庆', '长春', '郑州', '常州', '福州',
                '沈阳', '济南', '宁波', '厦门', '贵州', '珠海', '青岛',
                '中山', '大连','昆山',"惠州","哈尔滨","昆明","南昌","无锡"]
address_list = np.array(address_list)

def rename(x=None,address_list=address_list):
    index = [i in x for i in address_list]
    if sum(index) > 0:
        return address_list[index][0]
    else:
        return x
job_info["工作地点"] = job_info["工作地点"].apply(rename)

说明：首先我们定义了一个目标工作地点列表，将其转换为ndarray数组。接着定义了一个函数，将原始工作地点记录，替换为目标工作地点中的城市。

6）公司类型字段的处理

这个很容易，就不详细说明了。

job_info.loc[job_info["公司类型"].apply(lambda x:len(x)<6),"公司类型"] = np.nan
job_info["公司类型"] = job_info["公司类型"].str[2:-2]

7）行业字段的处理

每个公司的行业字段可能会有多个行业标签，但是我们默认以第一个作为该公司的行业标签。

# job_info["行业"].value_counts()
job_info["行业"] = job_info["行业"].apply(lambda x:re.sub(",","/",x))
job_info.loc[job_info["行业"].apply(lambda x:len(x)<6),"行业"] = np.nan
job_info["行业"] = job_info["行业"].str[2:-2].str.split("/").str[0]

8）经验与学历字段的处理

关于这个字段的数据处理，我很是思考了一会儿，不太好叙述，放上代码自己下去体会。

job_info["学历"] = job_info["经验与学历"].apply(lambda x:re.findall("本科|大专|应届生|在校生|硕士",x))
def func(x):
    if len(x) == 0:
        return np.nan
    elif len(x) == 1 or len(x) == 2:
        return x[0]
    else:
        return x[2]
job_info["学历"] = job_info["学历"].apply(func)

9）工作描述字段的处理

对于每一行记录，我们去除停用词以后，做一个jieba分词。

with open(r"G:\8泰迪\python_project\51_job\stopword.txt","r") as f:
    stopword = f.read()
stopword = stopword.split()
stopword = stopword + ["任职","职位"," "]

job_info["工作描述"] = job_info["工作描述"].str[2:-2].apply(lambda x:x.lower()).apply(lambda x:"".join(x))\
    .apply(jieba.lcut).apply(lambda x:[i for i in x if i not in stopword])
job_info.loc[job_info["工作描述"].apply(lambda x:len(x) < 6),"工作描述"] = np.nan

10）公司规模字段的处理

#job_info["公司规模"].value_counts()
def func(x):
    if x == "['少于50人']":
        return "<50"
    elif x == "['50-150人']":
        return "50-150"
    elif x == "['150-500人']":
        return '150-500'
    elif x == "['500-1000人']":
        return '500-1000'
    elif x == "['1000-5000人']":
        return '1000-5000'
    elif x == "['5000-10000人']":
        return '5000-10000'
    elif x == "['10000人以上']":
        return ">10000"
    else:
        return np.nan
job_info["公司规模"] = job_info["公司规模"].apply(func)

11）构造新数据

我们针对最终清洗干净的数据，选取需要分析的字段，做一个数据存储。

feature = ["公司名","岗位名","工作地点","工资水平","发布日期","学历","公司类型","公司规模","行业","工作描述"]
final_df = job_info[feature]
final_df.to_excel(r"G:\8泰迪\python_project\51_job\词云图.xlsx",encoding="gbk",index=None)

4、关于“工作描述”字段的特殊处理

由于我们之后需要针对不同的岗位名做不同的词云图处理，并且是在tableau中做可视化展示，因此我们需要按照岗位名分类，求出不同岗位下各关键词的词频统计。

import numpy as np
import pandas as pd
import re
import jieba
import warnings
warnings.filterwarnings("ignore")

df = pd.read_excel(r"G:\8泰迪\python_project\51_job\new_job_info1.xlsx",encoding="gbk")
df

def get_word_cloud(data=None, job_name=None):
    words = []
    describe = data['工作描述'][data['岗位名'] == job_name].str[1:-1]
    describe.dropna(inplace=True)
    [words.extend(i.split(',')) for i in describe]
    words = pd.Series(words)
    word_fre = words.value_counts()
    return word_fre

zz = ['数据分析', '算法', '大数据','开发工程师', '运营', '软件工程','运维', '数据库','java',"测试"]
for i in zz:
    word_fre = get_word_cloud(data=df, job_name='{}'.format(i))
    word_fre = word_fre[1:].reset_index()[:100]
    word_fre["岗位名"] = pd.Series("{}".format(i),index=range(len(word_fre)))
    word_fre.to_csv(r"G:\8泰迪\python_project\51_job\词云图\bb.csv", mode='a',index=False, header=None,encoding="gbk")

5、tableau可视化展示

1) 热门城市的用人需求TOP10

2）热门城市的岗位数量TOP10

3）不同工作地点岗位数量的气泡图

4）热门岗位的薪资待遇

5）热门行业的薪资待遇

6）可视化大屏的最终展示

7）可视化大屏的“动态”展示

说明：这里最终就不做结论分析了，因为结论通过上图，就可以很清晰的看出来。

Python数据分析实战案例 master_chenchengg python python Python python开发 IT
Python数据分析实战案例数据分析的魅力：Python与Pandas的完美结合初识Pandas：数据处理的瑞士军刀环境搭建：如何在本地安装Pandas第一步：加载和查看你的第一个数据集数据清洗的艺术：让数据更干净缺失值处理：填补或删除缺失数据异常值检测：找出数据中的“怪兽”重复数据处理：告别冗余数据探索与可视化：揭开数据的神秘面纱基本统计分析：了解数据的基本特征数据可视化：用图表讲述数据的故事相
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
《Python数据分析实战》 johnny233 Python 读书笔记 python
环境搭建定义变量名时要遵循的规则：变量名必须以字母或下画线开始，名字中间只能由字母、数字和下画线组成长度不能超过255个字符变量名在有效范围内必须具有唯一性不能使用保留字（关键字）区分大小写不能对元组中的元素做修改，只能做切片查询。如果元组中只有1个元素，则需要在这个元素的后面加上逗号。数字100正确的表示方法为(100,)列表：a=[1,2,3]，常用列表函数函数用途append()向列表末尾添
BI 数据分析，数据库，Office，可视化，数据仓库阿里数据专家数据分析数据库数据仓库 excel AIGC powerpoint 数据挖掘
AIGCChatGPT职场案例AI绘画与短视频制作PowerBI商业智能68集Mysql8.054集Oracle21C142集Office2021实战应用Python数据分析实战，ETLInformatica数据仓库案例实战51集Excel2021实操100集，Excel2021函数大全80集Excel2021高级图表应用89集，Excel2021大屏可视化制作56集Excel2021实用技巧30
Python数据分析实战【八】：用matplotlib、seaborn、pyecharts绘制散点图【文末源码地址】帅帅的Python 数据分析 matplotlib python 数据分析 seaborn pyecharts
文章目录散点图matplotlib绘制散点图seaborn绘制散点图pyecharts绘制散点图源码地址本文可以学习到以下内容：matplotlib中文乱码解决办法seaborn中文乱码解决办法seaborn库csv数据下载地址用matplotlib、seaborn、pyecharts绘制散点图散点图小凡在做数据分析的时候，经常需要对数据进行可视化操作，这样可以更加直观的了解数据，从而更好的分析数
Python数据分析实战【十一】：学习用scorecardpy搭建风控评分卡模型【文末源码地址】帅帅的Python 机器学习数据分析 python 机器学习
文章目录评分卡模型一、数据预处理scorecardpy自带数据查看数据行列查看数据内容,用sample()比head()可以看更多的数据统计每个变量的缺失占比情况查看数据的信息查看每个变量有多少分类描述性统计数据之间的相关性二、数据筛选sc.var_filter()划分数据三、变量分箱woebin()woebin_plot()分箱调整四、WOE转化五、建立模型六、模型评估七、评分稳定性评分映射计算
Excel 动态可视化图表分享阿里数据专家 excel chatgpt AIGC 数据分析信息可视化
AIGCChatGPT职场案例AI绘画与短视频制作PowerBI商业智能68集数据库Mysql8.054集数据库Oracle21C142集Office2021实战应用Python数据分析实战，ETLInformatica数据仓库案例实战Excel2021实操100集，Excel2021函数大全80集Excel2021高级图表应用89集，Excel2021大屏可视化制作56集Excel2021实用技
年终总结各类表格模板Excel，大屏可视化，PPT总结等阿里数据专家 ChatGPT实战案例 ChatGPT 与 Python ChatGPT excel powerpoint prompt chatgpt AIGC oracle
马上就要进行年底总结，很多职场人找不到模板而浪费很多时间今天就给大家分享一些常用的模板，报表，可视化，大屏，PPT汇报，表格等。AIGCChatGPT职场案例AI绘画与短视频制作PowerBI商业智能68集数据库Mysql8.054集数据库Oracle21C142集Office2021实战应用Python数据分析实战，ETLInformatica数据仓库案例实战Excel2021实操100集，Ex
【Python数据采集系列】利用协程并发采集豆瓣TOP250电影信息（源码解析）数据杂坛数据采集 python 开发语言爬虫
这是Python数据采集系列原创文章，我的第193篇原创文章。一、引言前文回顾：Python语言高级实战-基于协程的方式来实现异步并发编程（附源码和实现效果）【Python程序开发系列】进程、线程、协程？一文全面梳理多任务并发编程基本概念Python数据分析实战-爬取豆瓣电影Top250的相关信息并将爬取的信息写入Excel表中（附源码和实现效果）本期知识点：协程在数据爬虫中的应用非常常见，特别是
Python-基于长短期记忆网络(LSTM)的SP500的股票价格预测股价预测 Python数据分析实战数据可视化时序数据预测变种RNN 股票预测无心同学数据分析实战课程设计 rnn python lstm keras 数据分析
Python-基于长短期记忆网络(LSTM)的SP500的股票价格预测股价预测Python数据分析实战数据可视化时序数据预测变种RNN股票预测摘要近些年，随着计算机技术的不断发展，神经网络在预测方面的应用愈加广泛，尤其是长短期记忆人工神经网络（LongShort-TermMemory，LSTM）在各领域、各学科都有应用。它是一种时间循环神经网络，是为了解决一般的RNN（循环神经网络）存在的长期依赖
全网最全ChatGPT指令大全prompt 阿里数据专家 ChatGPT 与 Python ChatGPT实战案例 ChatGPT chatgpt prompt excel AIGC oracle 人工智能
全网最全的ChatGPT大全提示词，大家可以进行下载。AIGCChatGPT职场案例AI绘画与短视频制作PowerBI商业智能68集数据库Mysql8.054集数据库Oracle21C142集Office2021实战应用Python数据分析实战，ETLInformatica数据仓库案例实战Excel2021实操100集，Excel2021函数大全80集Excel2021高级图表应用89集，Exce
《Python数据分析实战》5 pandas：数据读写 jhc888007 python 数据分析大数据 javascript
CSVdat=pd.read_csv('temp.csv',header=0,names=['a','b','c'],sep='\t')dat.to_csv('temp.csv',index=False,header=False)HTMLdat=pd.read_html('temp.html')dat.to_html()EXCELdat=pd.read_excel('temp.xls','Shee
不懂编程，如何获取全面海量的重要数据？数据杂坛开发技能爬虫 python
在大数据和人工智能时代，数据的重要性变得更加突出。以下是数据在这个时代的重要性所体现的几个方面：决策依据模型训练个性化服务创新驱动智能决策支持本文，将介绍两个获取数据的方法1、利用爬虫框架写采集程序在前面，我介绍了两个编写爬虫程序获取数据的经典案例：Python数据分析实战-爬取以某个关键词搜索的最新的500条新闻的标题和链接（附源码和实现效果）Python数据分析实战-爬取豆瓣电影Top250的
Python数据分析实战【十四】：python的三种排序方法：sort、sorted、sort_values案例学习【文末源码地址】帅帅的Python python 数据分析数据挖掘
文章目录一、List.sort()排序案例一：按照列表中的元素进行排序案例二：按照销售额数据进行排列二、sorted()排序案例一：sorted()对列表进行排序案例二：sorted()对字典进行排序案例三：sorted()对列表中的字典元素排序三、pandas排序案例一：pandas按照销售额进行排序案例二：官方案例S操作源码地址在数据分析的工作中，我经常会遇到对数据排序的场景，比如：按照销售总
Python数据分析实战三：了解你的数据集 Python_魔力猿 python 数据分析开发语言
在上一节中介绍了怎么对数据进行预处理和数据集的整合，接下来从本章开始进行数据集的探索和分析，初步了解数据集。5.统计分析了解一个数据集最好的方法是通过常用的统计分析方法来求出数据集的统计特征，包括数据集的大小，数值的特征，数据分布情况等等。5.1测试数据集为了更好地说明问题，从本节开始引入测试数据集，以下是来自A和B两个班级5位学生的考试成绩单可以根据该成绩单进行分析。初始化数据集：importp
Python数据分析实战-爬取以某个关键词搜索的最新的500条新闻的标题和链接（附源码和实现效果）数据杂坛数据采集 python 数据分析开发语言
实现功能通过百度引擎，爬取以“开源之夏”为搜索关键词最新的500条新闻的标题和链接实现代码1.安装所需的库：你需要安装requests和beautifulsoup4库。可以使用以下命令通过pip安装：pipinstallrequestsbeautifulsoup42.发起搜索请求并获取多个搜索结果页面的HTML内容：由于一次搜索结果页面只包含一部分新闻，我们需要多次请求不同页码的搜索结果页面。可以
Python数据分析实战-爬取DouBan电影前250的相关信息并写入Excel表中（附源码和实现效果）数据杂坛数据采集 python 数据分析爬虫
实现功能在win10操作系统环境下，基于python3.10解释器，爬取豆瓣电影Top250的相关信息并将爬取的信息写入Excel表中。实现代码采集爬取模块：scraper.pyimportrequestsfrombs4importBeautifulSoupfromtypingimportListimportreclassMovie:def__init__(self,detail_link:str
AIGC ChatGPT4对Gbase数据库进行总结阿里数据专家 ChatGPT实战案例 ChatGPT AIGC 数据分析信息可视化数据挖掘 excel 人工智能数据库
ChatGPT4用一个Prompt完成Gbase数据库的总结。AIGCChatGPT职场案例AI绘画与短视频制作PowerBI商业智能68集数据库Mysql8.054集数据库Oracle21C142集Office2021实战应用Python数据分析实战，ETLInformatica数据仓库案例实战Excel2021实操100集，Excel2021函数大全80集Excel2021高级图表应用89集，
Python数据分析实战① Python实现数据可视化小羊oi！ python 数据分析信息可视化
文章目录一、数据可视化介绍二、matplotlib和pandas画图1.matplotlib简介和简单使用2.matplotlib常见作图类型3.使用pandas画图4.pandas中绘图与matplotlib结合使用三、订单数据分析展示四、Titanic灾难数据分析显示一、数据可视化介绍数据可视化是指将数据放在可视环境中、进一步理解数据的技术，可以通过它更加详细地了解隐藏在数据表面之下的模式、趋
python实现数据可视化_Python数据分析实战（3）Python实现数据可视化 weixin_39875028 python实现数据可视化
一、数据可视化介绍数据可视化是指将数据放在可视环境中、进一步理解数据的技术，可以通过它更加详细地了解隐藏在数据表面之下的模式、趋势和相关性。Python提供了很多数据可视化的库：pandas是在matplotlib的基础上实现画图的，官网为https://pandas.pydata.org/。matlpotlib和pandas结合利用pandas进行数据读取、数据清洗和数据选取等操作，再使用mat
python数据可视化是什么_Python数据分析实战（3）Python实现数据可视化_CUFEECR的博客-CSDN博客... weixin_39636707 python数据可视化是什么
文章目录一、数据可视化介绍二、matplotlib和pandas画图1.matplotlib简介和简单使用2.matplotlib常见作图类型3.使用pandas画图4.pandas中绘图与matplotlib结合使用三、订单数据分析展示四、Titanic灾难数据分析显示一、数据可视化介绍数据可视化是指将数据放在可视环境中、进一步理解数据的技术，可以通过它更加详细地了解隐藏在数据表面之下的模式、趋
Python数据分析实战【第三章】2.10-Pandas时间戳索引：DatetimeIndex【python】 Captain Franke Python数据分析实战 python data_range
【课程2.10】Pandas时间戳索引：DatetimeIndex核心：pd.date_range()1.pd.DatetimeIndex()与TimeSeries时间序列rng=pd.DatetimeIndex(['12/1/2017','12/2/2017','12/3/2017','12/4/2017','12/5/2017'])print(rng,type(rng))print(rng[0
Python进阶教程：pandas数据分析实践示例总结只存在于虚拟的King python pandas 数据分析开发语言学习深度学习经验分享
文章目录前言一、分析数据文件二、数据预处理关于Python技术储备一、Python所有方向的学习路线二、Python基础学习视频三、精品Python学习书籍四、Python工具包+项目源码合集①Python工具包②Python实战案例③Python小游戏源码五、面试资料六、Python兼职渠道前言在近日的python数据分析实战课中，我学习到使用python进行数据分析的流程、方法，对常使用的函数
Python数据分析实战-筛选出DataFrame中指定列都不包含缺失值的记录（附源码和实现效果）数据杂坛数据分析 python 数据分析开发语言
实现功能筛选出DataFrame中指定列都不包含缺失值的记录实现代码importpandasaspd#创建示例DataFramedata={'A':[1,2,3,None,5],'B':[1,None,3,4,5],'C':[1,2,3,4,5]}df=pd.DataFrame(data)#筛选出指定列都不包含缺失值的记录columns_to_check=['A','B']filtered_df=
Python数据分析实战-使用replace方法模糊匹配替换某列的值（附源码和实现效果）数据杂坛数据分析 python 数据分析
实现功能Python数据分析实战-使用replace方法模糊匹配替换某列的值实现代码importpandasaspdimportre#创建一个示例DataFramedata={'A':['apple','banana','pineapple','orange','grape']}df=pd.DataFrame(data)#打印替换前的DataFrameprint("替换前的DataFrame：")
Python数据分析实战-使用map方法根据字典中的映射关系替换某列的值（附源码和实现效果）数据杂坛数据分析 python 数据分析开发语言
实现功能使用map方法根据字典中的映射关系替换某列的值实现代码importpandasaspd#创建一个示例DataFramedata={'A':[1,2,3,4,5],'B':['a','b','c','d','e']}df=pd.DataFrame(data)#打印映射替换前的DataFrameprint("映射替换前的DataFrame：")print(df)#定义映射关系的字典mappin
Python数据分析实战-使用replace方法精确匹配替换某列的值（附源码和实现效果）数据杂坛数据分析数据分析 python pandas
实现功能将DataFrame中某一列的指定的两个值分别替换为0和1，而将其他值替换为2实现代码importpandasaspd#创建一个示例DataFramedata={'A':[1,2,3,4,5],'B':['a','b','c','d','e']}df=pd.DataFrame(data)#打印替换前的DataFrameprint("替换前的DataFrame：")print(df)#指定要
Python数据分析实战-使用numpy.where方法基于条件替换某列的值（附源码和实现效果）数据杂坛数据分析 python 数据分析 numpy
实现功能在Pandas中，replace方法默认是基于精确匹配进行替换，而不是基于条件匹配。要实现基于条件的替换，可以使用numpy.where函数。将DataFrame中某一列的指定的两个值分别替换为0和1，其他值替换为2实现代码importpandasaspdimportnumpyasnp#创建一个示例DataFramedata={'A':['apple','banana','apple','
Python数据分析实战-实现Mann-Whitney U检验（附源码和实现效果）数据杂坛数据分析 python 数据分析开发语言
实现功能使用scipy.stats模块中的mannwhitneyu函数来实现Mann-WhitneyU检验，该检验用于比较两个独立样本的分布是否有显著差异。实现代码fromscipy.statsimportmannwhitneyu#两个独立样本的数据group1=[1,2,3,4,5]group2=[6,7,8,9,10]#执行Mann-WhitneyU检验statistic,p_value=ma
Python数据分析实战-实现卡方检验（附源码和实现效果）数据杂坛数据分析数据分析数据挖掘 python
实现功能使用scipy.stats模块中的chi2_contingency函数来执行卡方检验（Chi-squaretest）。卡方检验用于检验两个或多个分类变量（组别）之间是否存在显著关联（差异）。例1：从某中学随机抽取两个班，调查他们对待文理分科的态度，结果，甲班37人赞成，27人反对；乙班39人赞成，21人反对，这两个班对待文理分科的态度是否有显著差异(α=.05)?例2：探究（不同组）死亡年
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓