艺纸海报

网站数据爬取可视化 python_python爬取拉勾网数据并进行数据可视化

爬取拉勾网关于python职位相关的数据信息，并将爬取的数据已csv各式存入文件，然后对csv文件相关字段的数据进行清洗，并对数据可视化展示，包括柱状图展示、直方图展示、词云展示等并根据可视化的数据做进一步的分析，其余分析和展示读者可自行发挥和扩展包括各种分析和不同的存储方式等。。。。。

一、爬取和分析相关依赖包

Python版本： Python3.6

requests: 下载网页

math: 向上取整

time: 暂停进程

pandas：数据分析并保存为csv文件

matplotlib：绘图

pyecharts：绘图

statsmodels：统计建模

wordcloud、scipy、jieba：生成中文词云

pylab：设置画图能显示中文

在以上安装或使用过程中可能读者会遇到安装或导入失败等问题自行百度，选择依赖包的合适版本

二、分析网页结构

通过Chrome搜索'python工程师'，然后右键点击检查或者F12,,使用检查功能查看网页源代码,当我们点击下一页观察浏览器的搜索栏的url并没有改变，这是因为拉勾网做了反爬虫机制, 职位信息并不在源代码里,而是保存在JSON的文件里,因此我们直接下载JSON,并使用字典方法直接读取数据.即可拿到我们想要的python职位相关的信息，

待爬取的python工程师职位信息如下：

为了能爬到我们想要的数据，我们要用程序来模拟浏览器来查看网页，所以我们在爬取的过程中会加上头信息，头信息也是我们通过分析网页获取到的，通过网页分析我们知道该请求的头信息，以及请求的信息和请求的方式是POST请求，这样我们就可以该url请求拿到我们想的数据做进一步处理

爬取网页信息代码如下：

import requests

url = ' https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'

def get_json(url, num):

"""

从指定的url中通过requests请求携带请求头和请求体获取网页中的信息,

:return:

"""

url1 = 'https://www.lagou.com/jobs/list_python开发工程师?labelWords=&fromSearch=true&suginput='

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36',

'Host': 'www.lagou.com',

'Referer': 'https://www.lagou.com/jobs/list_数据分析?labelWords=&fromSearch=true&suginput=',

'X-Anit-Forge-Code': '0',

'X-Anit-Forge-Token': 'None',

'X-Requested-With': 'XMLHttpRequest'

}

data = {

'first': 'true',

'pn': num,

'kd': 'python工程师'}

s = requests.Session()

print('建立session：', s, '\n\n')

s.get(url=url1, headers=headers, timeout=3)

cookie = s.cookies

print('获取cookie：', cookie, '\n\n')

res = requests.post(url, headers=headers, data=data, cookies=cookie, timeout=3)

res.raise_for_status()

res.encoding = 'utf-8'

page_data = res.json()

print('请求响应结果：', page_data, '\n\n')

return page_data

print(get_json(url, 1))

通过搜索我们知道每页显示15个职位，最多显示30页,通过分析网页源代码知道，可以通过JSON里读取总职位数,通过总的职位数和每页能显示的职位数.我们可以计算出总共有多少页，然后使用循环按页爬取, 最后将职位信息汇总, 写入到CSV格式的文件中.

程序运行结果如图:

爬取所有python相关职位信息如下：

三、数据清洗后入库

数据清洗其实会占用很大一部分工作，我们在这里只做一些简单的数据分析后入库。在拉勾网输入python相关的职位会有18988个。你可以根据工作中需求选择要入库的字段，并对一些字段做进一步的筛选，比如我们可以去除职位名称中为实习生的岗位，过滤指定的字段区域在我们指定区域的职位，取字段薪资的平均值，以最低值和差值的四分之一为平均值等等根据需求自由发挥

import pandas as pd

import matplotlib.pyplot as plt

import statsmodels.api as sm

from wordcloud import WordCloud

from scipy.misc import imread

from imageio import imread

import jieba

from pylab import mpl

# 使用matplotlib能够显示中文

mpl.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体

mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题

# 读取数据

df = pd.read_csv('Python_development_engineer.csv', encoding='utf-8')

# 进行数据清洗，过滤掉实习岗位

# df.drop(df[df['职位名称'].str.contains('实习')].index, inplace=True)

# print(df.describe())

# 由于csv文件中的字符是字符串形式，先用正则表达式将字符串转化为列表，在去区间的均值

pattern = '\d '

# print(df['工作经验'], '\n\n\n')

# print(df['工作经验'].str.findall(pattern))

df['工作年限'] = df['工作经验'].str.findall(pattern)

print(type(df['工作年限']), '\n\n\n')

avg_work_year = []

count = 0

for i in df['工作年限']:

# print('每个职位对应的工作年限',i)

# 如果工作经验为'不限'或'应届毕业生',那么匹配值为空,工作年限为0

if len(i) == 0:

avg_work_year.append(0)

# print('nihao')

count = 1

# 如果匹配值为一个数值,那么返回该数值

elif len(i) == 1:

# print('hello world')

avg_work_year.append(int(''.join(i)))

count = 1

# 如果匹配为一个区间则取平均值

else:

num_list = [int(j) for j in i]

avg_year = sum(num_list) / 2

avg_work_year.append(avg_year)

count = 1

print(count)

df['avg_work_year'] = avg_work_year

# 将字符串转化为列表,薪资取最低值加上区间值得25%，比较贴近现实

df['salary'] = df['薪资'].str.findall(pattern)

avg_salary_list = []

for k in df['salary']:

int_list = [int(n) for n in k]

avg_salary = int_list[0] (int_list[1] - int_list[0]) / 4

avg_salary_list.append(avg_salary)

df['月薪'] = avg_salary_list

# df.to_csv('python.csv', index=False)

四、数据可视化展示

下面是对数据的可视化展示，仅以部分视图进行一些可视化的展示，如果读者想对其他字段做一些展示以及想使用不同的视图类型进行展示，请自行发挥，注：以下代码中引入的模块见最后的完整代码

1、绘制python薪资的频率直方图并保存

如果我们想看看关于互联网行业python工程师相关的岗位大家普遍薪资的一个分部区间在哪个范围，占据了多达的比例我们就可以借助matplotlib库，来将我们保存在csv文件中的数据进行可视化的展示，然我们能够更直观的看到数据的一个分部趋势

# 绘制python薪资的频率直方图并保存

plt.hist(df['月薪'],bins=8,facecolor='#ff6700',edgecolor='blue') # bins是默认的条形数目

plt.xlabel('薪资(单位/千元)')

plt.ylabel('频数/频率')

plt.title('python薪资直方图')

plt.savefig('python薪资分布.jpg')

plt.show()

运行结果如下：

2、绘制python相关职位的地理位置饼状图

通过地理python职位地理位置的分部我们可以大致了解IT行业主要集中分部在哪些城市，这样也更利于我们选择地域进行选择性就业，可以获得更多的面试机会等，参数可自行调试，或根据需要添加。

# 绘制饼状图并保存

city = df['城市'].value_counts()

print(type(city))

# print(len(city))

label = city.keys()

print(label)

city_list = []

count = 0

n = 1

distance = []

for i in city:

city_list.append(i)

print('列表长度', len(city_list))

count = 1

if count > 5:

n = 0.1

distance.append(n)

else:

distance.append(0)

plt.pie(city_list, labels=label, labeldistance=1.2, autopct='%2.1f%%', pctdistance=0.6, shadow=True, explode=distance)

plt.axis('equal') # 使饼图为正圆形

plt.legend(loc='upper left', bbox_to_anchor=(-0.1, 1))

plt.savefig('python地理位置分布图.jpg')

plt.show()

运行结果如下：

3、绘制基于pyechart的城市分布柱状图

pycharts是python中调用百度基于js开发的echarts接口，也可以对数据进行各种可视化操作，更多数据可视化图形展示，可参考echarts官网：https://www.echartsjs.com/,echarts官网提供了各种实例供我们参考，如折线图、柱状图、饼图、路径图、树图等等，基于pyecharts的文档可参考以下官网：https://pyecharts.org/#/,更多用法也可自行百度网络资源

city = df['城市'].value_counts()

print(type(city))

print(city)

# print(len(city))

keys = city.index # 等价于keys = city.keys()

values = city.values

from pyecharts import Bar

bar = Bar("python职位的城市分布图")

bar.add("城市", keys, values)

bar.print_echarts_options() # 该行只为了打印配置项，方便调试时使用

bar.render(path='a.html')

运行结果如下：

4、绘制python福利相关的词云

词云图又叫文字云，是对文本数据中出现频率较高的关键词予以视觉上的突出,形成"关键词的渲染"就类似云一样的彩色图片,从而过滤掉大量的文本信息,，使人一眼就可以领略文本数据的主要表达意思。利用jieba分词和词云生成WorldCloud(可自定义背景)，下面就是对python相关职位的福利做了一个词云的展示，可以更直观的看到大多数公司的福利待遇集中在哪些地方

# 绘制福利待遇的词云

text = ''

for line in df['公司福利']:

if len(eval(line)) == 0:

continue

else:

for word in eval(line):

# print(word)

text = word

cut_word = ','.join(jieba.cut(text))

word_background = imread('公主.jpg')

cloud = WordCloud(

font_path=r'C:\Windows\Fonts\simfang.ttf',

background_color='black',

mask=word_background,

max_words=500,

max_font_size=100,

width=400,

height=800

)

word_cloud = cloud.generate(cut_word)

word_cloud.to_file('福利待遇词云.png')

plt.imshow(word_cloud)

plt.axis('off')

plt.show()

运行结果如下：

五、爬虫及可视化完整代码

完整代码在下面，代码均测试可正常运行，感兴趣的小伙伴可去尝试和了解其中的使用方法，如运行或者模块安装等失败可以在评论区进行留言，让我们一同解决吧

如果你觉得对你有帮助可以点个赞哦，原创内容转载需说明出处！！！

1、爬虫完整代码

为了防止我们频繁请求一个网站被限制ip，我们在爬取每一页后选择睡一段时间，当然你也可以使用代理等其他方式自行实现

import requests

import math

import time

import pandas as pd

def get_json(url, num):

"""

从指定的url中通过requests请求携带请求头和请求体获取网页中的信息,

:return:

"""

url1 = 'https://www.lagou.com/jobs/list_python开发工程师?labelWords=&fromSearch=true&suginput='

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36',

'Host': 'www.lagou.com',

'Referer': 'https://www.lagou.com/jobs/list_数据分析?labelWords=&fromSearch=true&suginput=',

'X-Anit-Forge-Code': '0',

'X-Anit-Forge-Token': 'None',

'X-Requested-With': 'XMLHttpRequest'

}

data = {

'first': 'true',

'pn': num,

'kd': 'python工程师'}

s = requests.Session()

print('建立session：', s, '\n\n')

s.get(url=url1, headers=headers, timeout=3)

cookie = s.cookies

print('获取cookie：', cookie, '\n\n')

res = requests.post(url, headers=headers, data=data, cookies=cookie, timeout=3)

res.raise_for_status()

res.encoding = 'utf-8'

page_data = res.json()

print('请求响应结果：', page_data, '\n\n')

return page_data

def get_page_num(count):

"""

计算要抓取的页数，通过在拉勾网输入关键字信息，可以发现最多显示30页信息,每页最多显示15个职位信息

:return:

"""

page_num = math.ceil(count / 15)

if page_num > 30:

return 30

else:

return page_num

def get_page_info(jobs_list):

"""

获取职位

:param jobs_list:

:return:

"""

page_info_list = []

for i in jobs_list: # 循环每一页所有职位信息

job_info = []

job_info.append(i['companyFullName'])

job_info.append(i['companyShortName'])

job_info.append(i['companySize'])

job_info.append(i['financeStage'])

job_info.append(i['district'])

job_info.append(i['positionName'])

job_info.append(i['workYear'])

job_info.append(i['education'])

job_info.append(i['salary'])

job_info.append(i['positionAdvantage'])

job_info.append(i['industryField'])

job_info.append(i['firstType'])

job_info.append(i['companyLabelList'])

job_info.append(i['secondType'])

job_info.append(i['city'])

page_info_list.append(job_info)

return page_info_list

def main():

url = ' https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'

first_page = get_json(url, 1)

total_page_count = first_page['content']['positionResult']['totalCount']

num = get_page_num(total_page_count)

total_info = []

time.sleep(10)

print("python开发相关职位总数:{},总页数为:{}".format(total_page_count, num))

for num in range(1, num 1):

# 获取每一页的职位相关的信息

page_data = get_json(url, num) # 获取响应json

jobs_list = page_data['content']['positionResult']['result'] # 获取每页的所有python相关的职位信息

page_info = get_page_info(jobs_list)

print("每一页python相关的职位信息:%s" % page_info, '\n\n')

total_info = page_info

print('已经爬取到第{}页，职位总数为{}'.format(num, len(total_info)))

time.sleep(20)

# 将总数据转化为data frame再输出,然后在写入到csv各式的文件中

df = pd.DataFrame(data=total_info,

columns=['公司全名', '公司简称', '公司规模', '融资阶段', '区域', '职位名称', '工作经验', '学历要求', '薪资', '职位福利', '经营范围',

'职位类型', '公司福利', '第二职位类型', '城市'])

# df.to_csv('Python_development_engineer.csv', index=False)

print('python相关职位信息已保存')

if __name__ == '__main__':

main()

2、可视化完整代码

数据可视化涉及到matplotlib、jieba、wordcloud、pyecharts、pylab、scipy等等模块的使用，读者可以自行了解各个模块的使用方法，和其中涉及的各种参数

import pandas as pd

import matplotlib.pyplot as plt

import statsmodels.api as sm

from wordcloud import WordCloud

from scipy.misc import imread

# from imageio import imread

import jieba

from pylab import mpl

# 使用matplotlib能够显示中文

mpl.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体

mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题

# 读取数据

df = pd.read_csv('Python_development_engineer.csv', encoding='utf-8')

# 进行数据清洗，过滤掉实习岗位

# df.drop(df[df['职位名称'].str.contains('实习')].index, inplace=True)

# print(df.describe())

# 由于csv文件中的字符是字符串形式，先用正则表达式将字符串转化为列表，在去区间的均值

pattern = '\d '

# print(df['工作经验'], '\n\n\n')

# print(df['工作经验'].str.findall(pattern))

df['工作年限'] = df['工作经验'].str.findall(pattern)

print(type(df['工作年限']), '\n\n\n')

avg_work_year = []

count = 0

for i in df['工作年限']:

# print('每个职位对应的工作年限',i)

# 如果工作经验为'不限'或'应届毕业生',那么匹配值为空,工作年限为0

if len(i) == 0:

avg_work_year.append(0)

# print('nihao')

count = 1

# 如果匹配值为一个数值,那么返回该数值

elif len(i) == 1:

# print('hello world')

avg_work_year.append(int(''.join(i)))

count = 1

# 如果匹配为一个区间则取平均值

else:

num_list = [int(j) for j in i]

avg_year = sum(num_list) / 2

avg_work_year.append(avg_year)

count = 1

print(count)

df['avg_work_year'] = avg_work_year

# 将字符串转化为列表,薪资取最低值加上区间值得25%，比较贴近现实

df['salary'] = df['薪资'].str.findall(pattern)

avg_salary_list = []

for k in df['salary']:

int_list = [int(n) for n in k]

avg_salary = int_list[0] (int_list[1] - int_list[0]) / 4

avg_salary_list.append(avg_salary)

df['月薪'] = avg_salary_list

# df.to_csv('python.csv', index=False)

"""1、绘制python薪资的频率直方图并保存"""

plt.hist(df['月薪'], bins=8, facecolor='#ff6700', edgecolor='blue') # bins是默认的条形数目

plt.xlabel('薪资(单位/千元)')

plt.ylabel('频数/频率')

plt.title('python薪资直方图')

plt.savefig('python薪资分布.jpg')

plt.show()

"""2、绘制饼状图并保存"""

city = df['城市'].value_counts()

print(type(city))

# print(len(city))

label = city.keys()

print(label)

city_list = []

count = 0

n = 1

distance = []

for i in city:

city_list.append(i)

print('列表长度', len(city_list))

count = 1

if count > 5:

n = 0.1

distance.append(n)

else:

distance.append(0)

plt.pie(city_list, labels=label, labeldistance=1.2, autopct='%2.1f%%', pctdistance=0.6, shadow=True, explode=distance)

plt.axis('equal') # 使饼图为正圆形

plt.legend(loc='upper left', bbox_to_anchor=(-0.1, 1))

plt.savefig('python地理位置分布图.jpg')

plt.show()

"""3、绘制福利待遇的词云"""

text = ''

for line in df['公司福利']:

if len(eval(line)) == 0:

continue

else:

for word in eval(line):

# print(word)

text = word

cut_word = ','.join(jieba.cut(text))

word_background = imread('公主.jpg')

cloud = WordCloud(

font_path=r'C:\Windows\Fonts\simfang.ttf',

background_color='black',

mask=word_background,

max_words=500,

max_font_size=100,

width=400,

height=800

)

word_cloud = cloud.generate(cut_word)

word_cloud.to_file('福利待遇词云.png')

plt.imshow(word_cloud)

plt.axis('off')

plt.show()

"""4、基于pyechart的柱状图"""

city = df['城市'].value_counts()

print(type(city))

print(city)

# print(len(city))

keys = city.index # 等价于keys = city.keys()

values = city.values

from pyecharts import Bar

bar = Bar("python职位的城市分布图")

bar.add("城市", keys, values)

bar.print_echarts_options() # 该行只为了打印配置项，方便调试时使用

bar.render(path='a.html')

来源：https://www.icode9.com/content-1-306551.html

你可能感兴趣的:(网站数据爬取可视化,python)

详解离线安装Python库爱编程的喵喵 Python基础课程 python 离线安装 requirements
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了详解离线安装Python库，希望能对
Argos Translate 开源项目教程经优英
ArgosTranslate开源项目教程argos-translateOpen-sourceofflinetranslationlibrarywritteninPython项目地址:https://gitcode.com/gh_mirrors/ar/argos-translate项目介绍ArgosTranslate是一个开源的离线翻译库，使用Python编写。它利用OpenNMT进行翻译，Sent
pytesseract，一个超强的 Python 库！大模型开发 python 开发语言
大家好，今天为大家分享一个超强的Python库-pytesseract。在当今数字化时代，文字识别技术扮演着越来越重要的角色。Pythonpytesseract库是一个强大的工具，能够帮助开发者轻松实现图像中文字的识别。本文将深入探讨pytesseract库的原理、功能、使用方法以及实际应用场景，并提供丰富的示例代码，让读者更全面地了解这个工具库。什么是Pythonpytesseract库？Pyt
基于协同过滤推荐算法的景点票务数据系统（python-计算机毕设）计算机程序设计(接毕设) 推荐算法机器学习毕业设计 python 人工智能
摘要IABSTRACTII第1章引言1研究背景及意义1研究背景1研究意义1国内外研究现状2智慧旅游3旅游大数据3研究内容4本章小结4第2章相关技术概述5基于内容的推荐算法5基于内容的推荐算法原理5基于内容的推荐算法实现5协同过滤推荐算法6协同过滤算法原理6协同过滤算法实现7SpringBoot框架9SpringBoot简介9SpringBoot特性10SpringBoot工作原理10Vue.js框
暗链威胁与检测方法之Screaming Frog SEO Spider qq_39541626 黑帽研究 windows
尖叫青蛙，网站暗链检测方法网站暗链是指那些隐藏在网页上，对普通用户不可见或难以察觉的超链接。这些链接可能被故意设置为与背景颜色相同、使用极小的字体、或通过CSS技巧使其隐藏，从而在视觉上对用户隐藏。暗链通常用于不良的SEO实践，如操纵搜索引擎排名，或链接到恶意网站。这种做法可能导致网站在搜索引擎中被降级或罚款，损害网站的可信度和用户体验为了解决网站暗链，一次性筛选所有暗链买了一个软件Screami
3月TIOBE编程语言排行：Python稳居榜首，C++和Java市场份额稳步上升朱公子的Note 编程语言 python c++java TIOBE编程语言排行
TIOBE编程语言排行榜是一个基于全球程序员数量、课程数量和第三方供应商数量的指标，旨在反映编程语言的流行度。根据TIOBEIndex，它每月更新一次，计算方法基于搜索引擎（如Google、Bing、Wikipedia等）的查询结果，涵盖专业开发者的兴趣和需求。需要注意的是，TIOBE指数不代表“最佳”编程语言或代码量最多的语言，而是反映语言在开发者社区中的热度。2025年3月的排行榜特别提到Py
PyTorch模型训练实战指南：掌握动态图特性与工业级部署技巧 lmtealily pytorch 人工智能 python
前言在深度学习领域，PyTorch凭借其动态计算图、高效的自动微分系统及高度Pythonic的设计哲学，已成为学术界与工业界的主流框架。其即时执行模式大幅简化了模型调试流程，而灵活的模块化设计则为复杂模型的构建提供了坚实基础。然而，从实验原型到工业级部署的全链路实践中，开发者仍需系统性掌握框架核心特性与工程化技巧。本文以实战为导向，深入剖析PyTorch动态图机制与自动微分原理，详解从数据预处理、
Python第六章03：列表的常用操作苹果.Python.八宝粥 python windows 开发语言
#列表的常用操作"""如:定义、下标索引获取数据、插入元素、删除元素、清空列表、修改元素、统计修改元素个数在Python中，如果将函数定义为class的成员，那么函数称为方法函数：defadd(x,y):returnx+y方法：classStudent:defadd(self,x,y):returnx+y方法和函数的功能一样，可以传入参数，有返回值，方法调用使用格式不同：函数的使用：num=add
Python第六章01：列表（lsit）定义语法苹果.Python.八宝粥 python 开发语言
#列表（list）的定义语法#基本语法：#字面量：#[元素1，元素2，元素3，元素4，......]#定义变量#变量名称=[元素1，元素2，元素3，元素4，......]#定义空列表#变量名称=[]#变量名称=list[]#列表内的每一个数据，称之为元素#1.以[]作为标识#2.列表内每一个元素直接用，逗号隔开#3.列表可以一次存储多个数据，且可以为不同的数据类型，支持嵌套。#定义一个列表my_l
31天Python入门——第5天:循环那些事儿安然无虞 Python手把手教程 python 开发语言后端
你好，我是安然无虞。文章目录1.while循环1.1while循环的嵌套1.2补充学习:print函数2.for循环2.1range函数2.2for循环2.3continue和break以及return2.4for循环的嵌套3.补充学习3.1enumerate函数3.2zip函数3.3不要在遍历列表的过程中删除元素循环是编程语言常见的一种流程控制所谓循环就是反复的执行一段代码我们人类语言要让别人反
React中useEffect和useLayoutEffect的区别 CreatorRay 前端面试 react react.js 前端面试
在最近一次面试中被问到，我印象中好像从来没用过useLayoutEffect，就没答上来。但是看名字应该是跟布局相关的，而且跟useEffect会有类似的作用。在React中，useEffect和useLayoutEffect都是用于处理副作用的Hooks，但它们的执行时机和对渲染流程的影响有显著区别。以下是两者的核心差异及使用场景：公众号：Code程序人生，个人网站：https://creato
「Python数据分析」Pandas基础，筛选数据利器：布尔索引奕澄羽邦 python 数据分析 pandas
我们在处理数据的时候，数据筛选是一个重要的过程。利用布尔索引，我们可以选择需要的数据区间。布尔索引，是利用各种不等式，以及与或非操作，来对数据区间进行选择。在pandas中，与操作，对应的是&这个符号，表示选取两个数据集重合的部分。或操作，对应的是|这个符号，表示选择两个数据集中，只要在一个数据集中出现的部分。非操作，对应的是~这个符号，表示选取一个数据集中，相反的部分。我们下面通过具体的例子，来
【数学建模】灰色关联分析模型详解与应用烟锁池塘柳0 数学建模数学建模算法
灰色关联分析模型详解与应用文章目录灰色关联分析模型详解与应用引言灰色系统理论简介灰色关联分析基本原理灰色关联分析计算步骤1.确定分析序列2.数据无量纲化处理3.计算关联系数4.计算关联度灰色关联分析应用实例实例：某企业生产效率影响因素分析灰色关联分析在各领域的应用灰色关联分析的Python实现灰色关联分析的局限性结论引言在数据分析领域，我们经常面临样本量少、信息不完全、数据不确定性高的情况。传统的
数据分析_python进行数据筛选1_行筛选 Monkey*王 python 数据分析 pandas
以titanic的训练数据为例进行展示，为了简化取前十行为例首先导入模块，导入数据importpandasaspdimportnumpyasnpdf=pd.read_csv(r"C:\Users\admin\Desktop\train.csv")df=df.head(10)df.index=['a','b','c','d','e','f','g','h','i','g']筛选单行1.利用df[行索
前端面经真题解析10-字节/抖音电商/前端/超详细记录浪里个浪zxf 前端面试前端
文章目录1.自我介绍2.介绍下自己的项目3.看你项目里面用了axios,说下请求拦截和响应拦截怎么做？4.说下项目里面前后端交互过程及设计？5.怎么处理切换分页请求数据的，优化手段？6.说下你爬取别人网站数据的时候，别人如果设置了拦截，你的解决方案是？7.你说下http请求的refer字段？**Origin字段：****Referer字段：****Host字段****区别：**8.看你做了路由懒加
Python的那些事第四十六篇：基于属性的测试库hypothesis研究暮雨哀尘 Python的那些事 python 开发语言属性测试库 hypothesis 执行流程构建
一、引言（一）研究背景随着软件系统复杂性的不断增加，软件测试在确保软件质量方面的重要性愈发凸显。传统测试方法在面对大规模、复杂软件系统时，往往存在测试用例设计不全面、测试执行效率低下等问题。基于属性的测试作为一种新兴的测试方法，通过定义软件系统的属性来指导测试用例的设计与执行，为解决上述问题提供了新的思路。（二）研究意义本研究旨在深入探讨基于属性的测试库的构建与应用，以提高软件测试的效率和质量，降
3月20日复盘四万二千正式复盘 python 前端机器学习
挑战全栈第八天！今天更新Python中的迭代器和生成器，以及函数式编程的内容。8.3super().init()super().__init__()是Python中用于调用父类（基类）构造函数的一种方式。它通常用于子类的构造函数中，以确保父类的构造函数被正确调用和初始化。这在继承（inheritance）中尤为重要，因为父类的初始化代码可能包含设置实例变量或执行其他重要的初始化任务。classPa
Python + Qt Designer构建多界面GUI应用程序：Python如何调用多个界面文件懒大王爱吃狼 python python qt 命令模式 mysql 数据库 Python基础开发语言
引言QtDesigner是一个用户友好的图形用户界面设计工具，它可以帮助开发人员通过拖放的方式快速创建界面。在实际开发中，往往需要设计多个界面文件，并在Python代码中进行统一管理和使用。本文将介绍如何在Python中使用QtDesigner设计好的多个界面文件的常用方法。方法一：单独加载并显示如果界面文件相对独立，并且没有复杂的依赖关系，可以考虑单独加载并显示每个界面文件。fromPyQt5i
Java IDEA中Gutter Icons图标的含义路宇 java笔记 java intellij-idea 开发语言 gutter-icons 图标 Java开发工具
前些天发现了一个蛮有意思的人工智能学习网站,8个字形容一下"通俗易懂，风趣幽默"，感觉非常有意思,忍不住分享一下给大家。点击跳转到教程前言：很多人刚开始用IDEA来学习编程，会发现下面这些图标。但是我们有时候并不知道它的含义和设置显示与隐藏，下面给大家讲解一下装订线图标位于左侧编辑器中。它们调用一些基本操作以及其他特定于框架和技术的功能。设置步骤File->Setting进到idea的设置页面。接
【科大讯飞笔试题汇总】2024-04-21-科大讯飞春招笔试题-三语言题解(CPP/Python/Java) 春秋招笔试突围最新互联网春秋招试题合集 python java 开发语言春招笔试互联网大厂笔试题
大家好这里是KK爱Coding，一枚热爱算法的程序员✨本系列打算持续跟新科大讯飞近期的春秋招笔试题汇总～ACM银牌|多次AK大厂笔试｜编程一对一辅导感谢大家的订阅➕和喜欢KK这边最近正在收集近一年互联网各厂的笔试题汇总，如果有需要的小伙伴可以关注后私信一下KK领取，会在飞书进行同步的跟新，5月1日之前限时免费领取哦，后续会由ACM银牌团队持续维护~。文章目录01.硬币最少组合问题问题描述输入格式输
一名成功的项目经理的20个项目管理经验
项目管理既是一门科学，也是一门艺术。成功的项目经理往往能在复杂多变的项目环境中，通过系统性方法和灵活应对策略，带领团队突破瓶颈、达成目标。以下是20条经过实战验证的项目管理经验，涵盖从需求管理到团队赋能的完整链条，助力项目经理从“合格”走向“卓越”。一、需求管理：从混沌到清晰绘制用户故事地图用可视化的用户旅程串联碎片化需求，确保每个功能点都能对应业务价值。工具实践：通过Miro或Figma构建动态
https证书获取的方法及好处
获取HTTPS证书的多种方法及其优势✨在现代互联网环境中，HTTPS已成为保障网站安全的基本标准。获取HTTPS证书不仅能提升网站的安全性，还能增强用户信任度和提升搜索引擎排名。本文将详细介绍获取HTTPS证书的几种常见方法及其各自的优势，并通过图表和流程图帮助理解其工作原理。获取HTTPS证书的方法️1.购买商业证书购买商业证书是获取HTTPS证书的传统方式，适用于需要高信任度和额外保障的企业和
Pycharm python解释器 unsupported python 3.1 解决大表哥在曾母暗沙 Python PyCharm python pycharm ide 解释器模式
Pycharm环境unsupportedpython3.1解决1.问题重现2.原因分析3.解决方法1.问题重现之前使用Pycharm2024.1.1的时候，环境配置的Python3.11.9，现在改成使用Pycharm2020.2.2，结果Python解释器显示“unsupportedpython3.1”，如下图：2.原因分析因为Pycharm2020.2.2支持的Python最高版本就是Pyth
记服务器MongoDB数据库迁移实战记录【云MongoDB数据库迁移】一键难忘数据库 mongodb 服务器
文章目录一.服务器MongoDB数据库迁移实战记录1.1备份MongoDB数据库步骤1.2恢复数据库到新服务器里1.3总结一.服务器MongoDB数据库迁移实战记录1.背景：我原来的服务器到期了，因为高昂的费用我只能使用新用户的身份购买一个服务器。2.需求：将原来的云端MongoDB数据库迁移到新购买的服务器上。3.注意：之前的MongoDB并没有使用宝塔的可视化创建，而是使用命令行，导致，可视化
申请 Let's Encrypt 的免费 TLS 证书实现网站的 https 访问 python
因为这个使用apt安装的python第三方包的版本为什么这么滞后？原因，所以我不是用sudo把证书弄到系统路径，而是选择到普通用户路径下面╭─pon@aliyun2core2GB~/certbot╰─➤tree.├──config│ ├──accounts│ │ └──acme-v02.api.letsencrypt.org│ │ └──directory│ │ └──9401598
python面试题详解 __wishing__ python
十道经典面试题（python）1.一行代码实现累加1-100之和print(sum(range(1,101)))输出结果：5050分析：利用sum函数进行累加。range控制序列。2.一行代码实现列表去重#声明需要去重的列表list1=[1,1,2,2,3,3,4,4]list1=list(set(list1))</
LangChain入门：使用Python和通义千问打造免费的Qwen大模型聊天机器人南七小僧人工智能网站开发 AI技术产品经理服务器数据库 windows
前言LangChain是一个用于开发由大型语言模型（LargeLanguageModels，简称LLMs）驱动的应用程序的框架。它提供了一个灵活的框架，使得开发者可以构建具有上下文感知能力和推理能力的应用程序，这些应用程序可以利用公司的数据和APIs。这个框架由几个部分组成。LangChain库：Python和JavaScript库。包含了各种组件的接口和集成，一个基本的运行时，用于将这些组件组合
pygmsh 项目常见问题解决方案葛雨禹
pygmsh项目常见问题解决方案pygmsh:spider_web:GmshforPython项目地址:https://gitcode.com/gh_mirrors/py/pygmsh1.项目基础介绍和主要编程语言项目名称:pygmsh项目简介:pygmsh是一个结合了Gmsh和Python的开源项目。它通过提供Gmsh的Python接口，简化了复杂几何体的创建过程。pygmsh提供了许多有用的抽
python之gmsh划分网格老歌老听老掉牙 python有限元分析 python 开发语言 gmsh 划分网格
Gmsh（GeometryModelingandMeshingSuite）是一个开源的三维有限元网格生成器，它集成了内置的CAD引擎和后处理器。Gmsh的设计目标是提供一个快速、轻量级且用户友好的网格工具，同时具备参数化输入和高级可视化能力。Gmsh围绕几何（geometry）、网格（mesh）、求解器（solver）和后处理（post-processing）四个模块构建，用户可以通过图形用户界面
已解决：python多线程使用TensorRT输出为零？附tensorrt推理代码李卓璐算法实战 python 开发语言
我是多个不同类型的模型多线程调用报错。设备：cuda12.1,cudnn8.9.2,tensorrt8.6.11.问题tensorrt的推理没输出？？？有输入：想要的输出：原因：多进程时,每进程应单独调用importpycuda.driverascuda和cuda.init()，完成初始化CUDA驱动，并需要使用self.cfx.push()和self.cfx.pop()管理CUDA上下文，以保证
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl