weixin_39530838

python爬取拉勾网职位信息_python——拉勾网信息爬取

爬取拉勾网关于python职位相关的数据信息，并将爬取的数据已csv各式存入文件，然后对csv文件相关字段的数据进行清洗，并对数据可视化展示，包括柱状图展示、直方图展示、词云展示等并根据可视化的数据做进一步的分析，其余分析和展示读者可自行发挥和扩展包括各种分析和不同的存储方式等。。。。。

一、爬取和分析相关依赖包

Python版本： Python3.6

requests: 下载网页

math: 向上取整

time: 暂停进程

pandas：数据分析并保存为csv文件

matplotlib：绘图

pyecharts：绘图

statsmodels：统计建模

wordcloud、scipy、jieba：生成中文词云

pylab：设置画图能显示中文

在以上安装或使用过程中可能读者会遇到安装或导入失败等问题自行百度，选择依赖包的合适版本

二、分析网页结构

通过Chrome搜索'python工程师'，然后右键点击检查或者F12,,使用检查功能查看网页源代码,当我们点击下一页观察浏览器的搜索栏的url并没有改变，这是因为拉勾网做了反爬虫机制, 职位信息并不在源代码里,而是保存在JSON的文件里,因此我们直接下载JSON,并使用字典方法直接读取数据.即可拿到我们想要的python职位相关的信息，

待爬取的python工程师职位信息如下：

为了能爬到我们想要的数据，我们要用程序来模拟浏览器来查看网页，所以我们在爬取的过程中会加上头信息，头信息也是我们通过分析网页获取到的，通过网页分析我们知道该请求的头信息，以及请求的信息和请求的方式是POST请求，这样我们就可以该url请求拿到我们想的数据做进一步处理

爬取网页信息代码如下：

importrequests

url= 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'

defget_json(url, num):"""从指定的url中通过requests请求携带请求头和请求体获取网页中的信息,

:return:"""url1= 'https://www.lagou.com/jobs/list_python%E5%BC%80%E5%8F%91%E5%B7%A5%E7%A8%8B%E5%B8%88?labelWords=&fromSearch=true&suginput='headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36','Host': 'www.lagou.com','Referer': 'https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90?labelWords=&fromSearch=true&suginput=','X-Anit-Forge-Code': '0','X-Anit-Forge-Token': 'None','X-Requested-With': 'XMLHttpRequest'}

data={'first': 'true','pn': num,'kd': 'python工程师'}

s=requests.Session()print('建立session：', s, '\n\n')

s.get(url=url1, headers=headers, timeout=3)

cookie=s.cookiesprint('获取cookie：', cookie, '\n\n')

res= requests.post(url, headers=headers, data=data, cookies=cookie, timeout=3)

res.raise_for_status()

res.encoding= 'utf-8'page_data=res.json()print('请求响应结果：', page_data, '\n\n')returnpage_dataprint(get_json(url, 1))

通过搜索我们知道每页显示15个职位，最多显示30页,通过分析网页源代码知道，可以通过JSON里读取总职位数,通过总的职位数和每页能显示的职位数.我们可以计算出总共有多少页，然后使用循环按页爬取, 最后将职位信息汇总, 写入到CSV格式的文件中.

程序运行结果如图:

爬取所有python相关职位信息如下：

三、数据清洗后入库

数据清洗其实会占用很大一部分工作，我们在这里只做一些简单的数据分析后入库。在拉勾网输入python相关的职位会有18988个。你可以根据工作中需求选择要入库的字段，并对一些字段做进一步的筛选，比如我们可以去除职位名称中为实习生的岗位，过滤指定的字段区域在我们指定区域的职位，取字段薪资的平均值，以最低值和差值的四分之一为平均值等等根据需求自由发挥

importpandas as pdimportmatplotlib.pyplot as pltimportstatsmodels.api as smfrom wordcloud importWordCloudfrom scipy.misc importimreadfrom imageio importimreadimportjiebafrom pylab importmpl#使用matplotlib能够显示中文

mpl.rcParams['font.sans-serif'] = ['SimHei'] #指定默认字体

mpl.rcParams['axes.unicode_minus'] = False #解决保存图像是负号'-'显示为方块的问题#读取数据

df = pd.read_csv('Python_development_engineer.csv', encoding='utf-8')#进行数据清洗，过滤掉实习岗位#df.drop(df[df['职位名称'].str.contains('实习')].index, inplace=True)#print(df.describe())

#由于csv文件中的字符是字符串形式，先用正则表达式将字符串转化为列表，在去区间的均值

pattern = '\d+'

#print(df['工作经验'], '\n\n\n')#print(df['工作经验'].str.findall(pattern))

df['工作年限'] = df['工作经验'].str.findall(pattern)print(type(df['工作年限']), '\n\n\n')

avg_work_year=[]

count=0for i in df['工作年限']:#print('每个职位对应的工作年限',i)

#如果工作经验为'不限'或'应届毕业生',那么匹配值为空,工作年限为0

if len(i) ==0:

avg_work_year.append(0)#print('nihao')

count += 1

#如果匹配值为一个数值,那么返回该数值

elif len(i) == 1:#print('hello world')

avg_work_year.append(int(''.join(i)))

count+= 1

#如果匹配为一个区间则取平均值

else:

num_list= [int(j) for j ini]

avg_year= sum(num_list) / 2avg_work_year.append(avg_year)

count+= 1

print(count)

df['avg_work_year'] =avg_work_year#将字符串转化为列表,薪资取最低值加上区间值得25%，比较贴近现实

df['salary'] = df['薪资'].str.findall(pattern)#avg_salary_list =[]for k in df['salary']:

int_list= [int(n) for n ink]

avg_salary= int_list[0] + (int_list[1] - int_list[0]) / 4avg_salary_list.append(avg_salary)

df['月薪'] =avg_salary_list#df.to_csv('python.csv', index=False)

四、数据可视化展示

下面是对数据的可视化展示，仅以部分视图进行一些可视化的展示，如果读者想对其他字段做一些展示以及想使用不同的视图类型进行展示，请自行发挥，注：以下代码中引入的模块见最后的完整代码

1、绘制python薪资的频率直方图并保存

如果我们想看看关于互联网行业python工程师相关的岗位大家普遍薪资的一个分部区间在哪个范围，占据了多达的比例我们就可以借助matplotlib库，来将我们保存在csv文件中的数据进行可视化的展示，然我们能够更直观的看到数据的一个分部趋势

#绘制python薪资的频率直方图并保存

plt.hist(df['月薪'],bins=8,facecolor='#ff6700',edgecolor='blue') #bins是默认的条形数目

plt.xlabel('薪资(单位/千元)')

plt.ylabel('频数/频率')

plt.title('python薪资直方图')

plt.savefig('python薪资分布.jpg')

plt.show()

运行结果如下：

2、绘制python相关职位的地理位置饼状图

通过地理python职位地理位置的分部我们可以大致了解IT行业主要集中分部在哪些城市，这样也更利于我们选择地域进行选择性就业，可以获得更多的面试机会等，参数可自行调试，或根据需要添加。

#绘制饼状图并保存

city = df['城市'].value_counts()print(type(city))#print(len(city))

label =city.keys()print(label)

city_list=[]

count=0

n= 1distance=[]for i incity:

city_list.append(i)print('列表长度', len(city_list))

count+= 1

if count > 5:

n+= 0.1distance.append(n)else:

distance.append(0)

plt.pie(city_list, labels=label, labeldistance=1.2, autopct='%2.1f%%', pctdistance=0.6, shadow=True, explode=distance)

plt.axis('equal') #使饼图为正圆形

plt.legend(loc='upper left', bbox_to_anchor=(-0.1, 1))

plt.savefig('python地理位置分布图.jpg')

plt.show()

运行结果如下：

3、绘制基于pyechart的城市分布柱状图

pycharts是python中调用百度基于js开发的echarts接口，也可以对数据进行各种可视化操作，更多数据可视化图形展示，可参考echarts官网：https://www.echartsjs.com/,echarts官网提供了各种实例供我们参考，如折线图、柱状图、饼图、路径图、树图等等，基于pyecharts的文档可参考以下官网：https://pyecharts.org/#/,更多用法也可自行百度网络资源

city = df['城市'].value_counts()print(type(city))print(city)#print(len(city))

keys= city.index #等价于keys = city.keys()

values =city.valuesfrom pyecharts importBar

bar= Bar("python职位的城市分布图")

bar.add("城市", keys, values)

bar.print_echarts_options()#该行只为了打印配置项，方便调试时使用

bar.render(path='a.html')

运行结果如下：

4、绘制python福利相关的词云

词云图又叫文字云，是对文本数据中出现频率较高的关键词予以视觉上的突出,形成"关键词的渲染"就类似云一样的彩色图片,从而过滤掉大量的文本信息,，使人一眼就可以领略文本数据的主要表达意思。利用jieba分词和词云生成WorldCloud(可自定义背景)，下面就是对python相关职位的福利做了一个词云的展示，可以更直观的看到大多数公司的福利待遇集中在哪些地方

#绘制福利待遇的词云

text = ''

for line in df['公司福利']:if len(eval(line)) ==0:continue

else:for word ineval(line):#print(word)

text +=word

cut_word= ','.join(jieba.cut(text))

word_background= imread('公主.jpg')

cloud=WordCloud(

font_path=r'C:\Windows\Fonts\simfang.ttf',

background_color='black',

mask=word_background,

max_words=500,

max_font_size=100,

width=400,

height=800)

word_cloud=cloud.generate(cut_word)

word_cloud.to_file('福利待遇词云.png')

plt.imshow(word_cloud)

plt.axis('off')

plt.show()

运行结果如下：

五、爬虫及可视化完整代码

完整代码在下面，代码均测试可正常运行，感兴趣的小伙伴可去尝试和了解其中的使用方法，如运行或者模块安装等失败可以在评论区进行留言，让我们一同解决吧

如果你觉得对你有帮助可以点个赞哦，原创内容转载需说明出处！！！

1、爬虫完整代码

为了防止我们频繁请求一个网站被限制ip，我们在爬取每一页后选择睡一段时间，当然你也可以使用代理等其他方式自行实现

importrequestsimportmathimporttimeimportpandas as pddefget_json(url, num):"""从指定的url中通过requests请求携带请求头和请求体获取网页中的信息,

data={'first': 'true','pn': num,'kd': 'python工程师'}

s=requests.Session()print('建立session：', s, '\n\n')

s.get(url=url1, headers=headers, timeout=3)

cookie=s.cookiesprint('获取cookie：', cookie, '\n\n')

res= requests.post(url, headers=headers, data=data, cookies=cookie, timeout=3)

res.raise_for_status()

res.encoding= 'utf-8'page_data=res.json()print('请求响应结果：', page_data, '\n\n')returnpage_datadefget_page_num(count):"""计算要抓取的页数，通过在拉勾网输入关键字信息，可以发现最多显示30页信息,每页最多显示15个职位信息

:return:"""page_num= math.ceil(count / 15)if page_num > 30:return 30

else:returnpage_numdefget_page_info(jobs_list):"""获取职位

:param jobs_list:

:return:"""page_info_list=[]for i in jobs_list: #循环每一页所有职位信息

job_info =[]

job_info.append(i['companyFullName'])

job_info.append(i['companyShortName'])

job_info.append(i['companySize'])

job_info.append(i['financeStage'])

job_info.append(i['district'])

job_info.append(i['positionName'])

job_info.append(i['workYear'])

job_info.append(i['education'])

job_info.append(i['salary'])

job_info.append(i['positionAdvantage'])

job_info.append(i['industryField'])

job_info.append(i['firstType'])

job_info.append(i['companyLabelList'])

job_info.append(i['secondType'])

job_info.append(i['city'])

page_info_list.append(job_info)returnpage_info_listdefmain():

url= 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'first_page= get_json(url, 1)

total_page_count= first_page['content']['positionResult']['totalCount']

num=get_page_num(total_page_count)

total_info=[]

time.sleep(10)print("python开发相关职位总数:{},总页数为:{}".format(total_page_count, num))for num in range(1, num + 1):#获取每一页的职位相关的信息

page_data = get_json(url, num) #获取响应json

jobs_list = page_data['content']['positionResult']['result'] #获取每页的所有python相关的职位信息

page_info =get_page_info(jobs_list)print("每一页python相关的职位信息:%s" % page_info, '\n\n')

total_info+=page_infoprint('已经爬取到第{}页，职位总数为{}'.format(num, len(total_info)))

time.sleep(20)#将总数据转化为data frame再输出,然后在写入到csv各式的文件中

df = pd.DataFrame(data=total_info,

columns=['公司全名', '公司简称', '公司规模', '融资阶段', '区域', '职位名称', '工作经验', '学历要求', '薪资', '职位福利', '经营范围','职位类型', '公司福利', '第二职位类型', '城市'])#df.to_csv('Python_development_engineer.csv', index=False)

print('python相关职位信息已保存')if __name__ == '__main__':

main()

2、可视化完整代码

数据可视化涉及到matplotlib、jieba、wordcloud、pyecharts、pylab、scipy等等模块的使用，读者可以自行了解各个模块的使用方法，和其中涉及的各种参数

importpandas as pdimportmatplotlib.pyplot as pltimportstatsmodels.api as smfrom wordcloud importWordCloudfrom scipy.misc importimread#from imageio import imread

importjiebafrom pylab importmpl#使用matplotlib能够显示中文

mpl.rcParams['font.sans-serif'] = ['SimHei'] #指定默认字体

mpl.rcParams['axes.unicode_minus'] = False #解决保存图像是负号'-'显示为方块的问题#读取数据

#由于csv文件中的字符是字符串形式，先用正则表达式将字符串转化为列表，在去区间的均值

pattern = '\d+'

#print(df['工作经验'], '\n\n\n')#print(df['工作经验'].str.findall(pattern))

df['工作年限'] = df['工作经验'].str.findall(pattern)print(type(df['工作年限']), '\n\n\n')

avg_work_year=[]

count=0for i in df['工作年限']:#print('每个职位对应的工作年限',i)

#如果工作经验为'不限'或'应届毕业生',那么匹配值为空,工作年限为0

if len(i) ==0:

avg_work_year.append(0)#print('nihao')

count += 1

#如果匹配值为一个数值,那么返回该数值

elif len(i) == 1:#print('hello world')

avg_work_year.append(int(''.join(i)))

count+= 1

#如果匹配为一个区间则取平均值

else:

num_list= [int(j) for j ini]

avg_year= sum(num_list) / 2avg_work_year.append(avg_year)

count+= 1

print(count)

df['avg_work_year'] =avg_work_year#将字符串转化为列表,薪资取最低值加上区间值得25%，比较贴近现实

df['salary'] = df['薪资'].str.findall(pattern)#avg_salary_list =[]for k in df['salary']:

int_list= [int(n) for n ink]

avg_salary= int_list[0] + (int_list[1] - int_list[0]) / 4avg_salary_list.append(avg_salary)

df['月薪'] =avg_salary_list#df.to_csv('python.csv', index=False)

"""1、绘制python薪资的频率直方图并保存"""plt.hist(df['月薪'], bins=8, facecolor='#ff6700', edgecolor='blue') #bins是默认的条形数目

plt.xlabel('薪资(单位/千元)')

plt.ylabel('频数/频率')

plt.title('python薪资直方图')

plt.savefig('python薪资分布.jpg')

plt.show()"""2、绘制饼状图并保存"""city= df['城市'].value_counts()print(type(city))#print(len(city))

label =city.keys()print(label)

city_list=[]

count=0

n= 1distance=[]for i incity:

city_list.append(i)print('列表长度', len(city_list))

count+= 1

if count > 5:

n+= 0.1distance.append(n)else:

distance.append(0)

plt.pie(city_list, labels=label, labeldistance=1.2, autopct='%2.1f%%', pctdistance=0.6, shadow=True, explode=distance)

plt.axis('equal') #使饼图为正圆形

plt.legend(loc='upper left', bbox_to_anchor=(-0.1, 1))

plt.savefig('python地理位置分布图.jpg')

plt.show()"""3、绘制福利待遇的词云"""text= ''

for line in df['公司福利']:if len(eval(line)) ==0:continue

else:for word ineval(line):#print(word)

text +=word

cut_word= ','.join(jieba.cut(text))

word_background= imread('公主.jpg')

cloud=WordCloud(

font_path=r'C:\Windows\Fonts\simfang.ttf',

background_color='black',

mask=word_background,

max_words=500,

max_font_size=100,

width=400,

height=800)

word_cloud=cloud.generate(cut_word)

word_cloud.to_file('福利待遇词云.png')

plt.imshow(word_cloud)

plt.axis('off')

plt.show()"""4、基于pyechart的柱状图"""city= df['城市'].value_counts()print(type(city))print(city)#print(len(city))

keys= city.index #等价于keys = city.keys()

values =city.valuesfrom pyecharts importBar

bar= Bar("python职位的城市分布图")

bar.add("城市", keys, values)

bar.print_echarts_options()#该行只为了打印配置项，方便调试时使用

bar.render(path='a.html')

你可能感兴趣的:(python爬取拉勾网职位信息)

LeetCode剑指offer题目记录4 t.y.Tang LeetCode记录 leetcode python 矩阵
leetcode刷题开始啦,每天记录几道题.目录剑指offer07.重建二叉树题目描述示例思路python改进剑指offer09.用两个栈实现队列题目描述示例思路python剑指offer10-1.斐波那契数列题目描述思路pythonC++剑指offer10-2.青蛙跳台阶问题问题描述思路C++剑指offer07.重建二叉树题目描述输入某二叉树的前序遍历和中序遍历的结果，请构建该二叉树并返回其根节
【技巧分享】开发环境配置Python、R、Stata A线上仓库 python 开发语言
自用，看心情更新~版本更新2024-03-131.0版本2024-09-25FIX:1.conda命令ADD：1.python调用r命令2.r系统配置2025-01-22更新VSCode调用Statado文件目录版本更新Python环境配置Cheatsheet基础配置可选：环境配置：conda命令包管理R环境配置基础配置R命令Python调用Method1:`rpy2`Stata环境配置基础配置P
linux内核路由子系统,深入理解Linux网络技术内幕——路由子系统的概念与高级路由... 罗心澄 linux内核路由子系统
本文讨论IPv4的路由子系统。(IPv6对路由的处理不同)。基本概念路由子系统工作在三层，用来转发入口流量。路由子系统主要设计路由器、路由、路由表等概念。路由器：配备多个网络接口卡(NIC)，并且能利用自身网络信息进行入口流量转发的设备。路由：流量转发，决定目的地的过程路由表：转发信息库，该库中储存路由需要本地接收还是转发的信息，以及转发流量时所需要的信息。(即，信息库用来判断，要不要转发，如果要
python实现成语接龙 Camellia 泡泡笔记 python
first_idiom='万事如意'end_str=first_idiom[-1]new_li=[first_idiom]li=['发愤图强','笑容满面','意气风发','强颜欢笑']forindexinrange(len(li)):foriinli:ifend_str==i[0]:new_li.append(i)li.remove(i)end_str=i[-1]breakprint(new_l
涛哥聊Python | borb，一个好用的 Python 库，处理 PDF 文件好帮手！双木的木 python拓展学习 python库 python 开发语言机器学习 pdf 人工智能深度学习
本文来源公众号“涛哥聊Python”，仅用于学术分享，侵权删，干货满满。原文链接：borb，一个好用的Python库！大家好，今天为大家分享一个好用的Python库-borb。Github地址：https://github.com/jorisschellekens/borbPythonBorb是一个用于处理PDF文件的Python库，它提供了丰富的功能和工具，使得PDF文件的创建、修改和解析变得更
python—计算学生成绩等级 2111339 彭传月 python
一、打开软件新建窗口输入代码#计算学生成绩等级is_continue='y'whileis_continue=='Y'oris_continue=='y':score=eval(input('请输入学生的成绩：'))ifscore>=90:print('A')elifscore>=80:print('B')elifscore>=70:print('C')elifscore>=60:print('D
CPU占用率飙升至100%：是攻击还是正常现象？群联云防护小杜安全问题汇总 ddos 安全 waf 服务器 cpu 占用被攻击
在运维和开发的日常工作中，CPU占用率突然飙升至100%往往是一个令人紧张的信号。这可能意味着服务器正在遭受攻击，但也可能是由于某些正常的、但资源密集型的任务或进程造成的。本文将探讨如何识别和应对服务器的异常CPU占用情况，并通过Python脚本示例，提供一种监控和诊断CPU占用率的方法。一、CPU占用率100%：攻击or正常？1.1攻击迹象持续性高占用：如果CPU占用率长时间保持在100%，且没
Python 成绩等级判定 Camellia 泡泡 python 笔记
score=int(input("请输入学生成绩:"))if90<=score<=100:grade="A"elif75<=score<=90:grade="B"elif60<=score<=75:grade="C"elifscore<60:grade="D"print("本次考试，等级为:",grade)运行结果：
【Python】PDFMiner.six：高效处理PDF文档的Python工具技术无疆 Python python pdf 开发语言 python3.11 人工智能数据挖掘机器学习
PDF是一种广泛使用的文件格式，特别适用于呈现固定布局的文档。然而，提取PDF文件中的文本和信息并不总是那么简单。幸好有许多Python库可以帮助我们，其中，PDFMiner.six是一个功能强大、专门用于PDF文档解析的库。⭕️宇宙起点什么是PDFMiner.six？主要功能安装PDFMiner.six♨️核心功能和代码示例1.提取PDF文档的纯文本2.从多个页面提取文本3.提取PDF中的表格内
25道Python练手题（附详细答案），赶紧收藏！_python题库字节全栈_rJF python 开发语言
importrandomasrdnumber=rd.randint(0,100)foriinrange(10):choice=int(input("请输入你要猜测的数字："))ifchoice>number:print("你猜大了")elifchoice0and5*x+3*y+z/3==100:count+=1print("="*60)print(f'第{count}种买法，公鸡买了{x}只，母鸡
python爱心代码高级 youyouxiong python 开发语言
在Python中，我们可以使用各种方法来绘制一个“爱心”形状。以下是一个使用turtle模块绘制爱心的高级示例。这个示例将使用更复杂的数学公式和图形操作来绘制一个更精致的爱心形状。importturtleimportmath#设置初始状态window=turtle.Screen()window.bgcolor("black")#设置背景色为黑色love=turtle.Turtle()love.sp
python画一个爱心戴子雯 python绘画 python
大家好这是我的地一篇博客，我要写一个关于python的文章我要用python写一个爱心。不说别的，先看效果效果如下：话不多说，上代码，在这之前要下载python下载这事咱们放在最后现在上代码！！！！！！！！！！！！！！importturtleastt.pensize(2)#笔大小2像素t.pencolor("red")#颜色为红色t.left
brew 安装pip_pip brew wget 安装 weixin_32612253 brew 安装pip
终端播放器安装教程从简书上看到一篇,终端实现网易云音乐的文章,并给出了一个github链接.心里有些痒痒,想看看是什么样子,于是尝试安装.安装过程中有些坎坷,记录以便以后查阅.程序实现是用Python写的.安装使用方式仅仅给了三行命令.安装$pipinstallnetease-musicbox$brewinstallmpg123使用$musicbox下载了源码后,不知道该如何安装.三行命令也是莫名
Android :实现登录功能的思路前期后期 android
android的登录功能和前端一样，需要保存登录的用户信息。创建一个工具类//用户工具类，用于管理用户登录状态和用户信息objectAppUserUtil{//常量定义privateconstvalLOGGED_FLAG="logged_flag"//登录状态的键名privateconstvalUSER_INFO="user_info"//用户信息的键名privateconstvalTAG="Ap
python实现绘制爱心函数（绘制过程） halo0416 python 开发语言
首先，确保已经安装了matplotlib库和numpy库。如果没有安装，可以通过pip来安装：pipinstallmatplotlibpipinstallnumpy了解心形函数公式：x(t)=y(t)=13cos⁡(t)−5cos⁡(2t)−2cos⁡(3t)−cos⁡(4t)定义函数：defheart_shape(t):x=16*np.sin(t)**3y=13*np.cos(t)-5*np.c
python 绘图（爱心） @小H python 开发语言
#-*-coding:utf-8-*-fromturtleimport*defcurvemove():foriinrange(200):right(1)forward(1)color('red','pink')begin_fill()left(140)forward(111.65)curvemove()left(120)curvemove()forward(111.65)end_fill()don
利用Docugami将商业文档转化为XML知识图谱 bBADAS xml 知识图谱人工智能 python
在当今的数字化时代，处理和理解商业文档的结构及其内容是企业信息化管理的关键任务。Docugami作为一种创新的技术工具，能够将复杂的商业文档转换为文档XML知识图谱。这种知识图谱由完整文档的XML语义树组成，能够精准地表示文档的语义和结构特性，为文档自动化处理提供了基础。技术背景介绍Docugami通过将文档转化为结构化的XML语义树，使得原本无序的文本变得有序和可操作。这种转化不仅仅是格式的改变
Mulvus向量库数据插入失败排查 Sirius Wu milvus
Mulvus是一个开源的向量数据库，要判断数据是否成功插入以及在插入失败时进行排查，可以参考以下方法：确认数据是否成功插入1.API返回结果在使用Mulvus提供的API插入数据时，API会返回相应的结果信息。以PythonSDK为例，插入数据的代码通常如下：frompymilvusimportconnections,Collection,FieldSchema,CollectionSchema,
使用 Python 绘制爱心图形（高级版）徐浪老师徐浪老师大讲堂 python 开发语言
以下是一段使用Python绘制高级“爱心”图案的代码，结合数学公式生成精美的爱心形状，并附加一些交互式的效果，比如渐变颜色或动态展示：动态渐变爱心importnumpyasnpimportmatplotlib.pyplotaspltimportmatplotlib.animationasanimation#设置爱心的数学公式defheart_shape(t):x=16*np.sin(t)**3y=
2025计算机毕设全流程实战指南：Java/Python+协同过滤+小程序开发避坑手册启点毕设课程设计 java python 大四论文指南查重降重技巧毕业设计 spring
技术框架的选择是项目开发的关键起点，直接影响开发效率和最终成果质量。然而，许多开发者在选择技术框架时面临困难：现有知识储备不足以支撑复杂项目需求，团队经验有限，框架选择缺乏前瞻性常导致后期问题。尽管技术框架的选择过程充满挑战，但合适的框架能为项目开发和维护奠定基础，而不当的选择则可能带来持续的技术债务和开发困扰。所以，建议对项目技术框架把握不好的同学，最好是找自己的研究生学长或者老师详细的把关机技
加快推进工业互联网，图扑“智”绘发展新蓝图智慧园区数字孪生 3d 网络人工智能物联网前端
当前，智能制造已成为我国实现从制造大国走向制造强国的战略目标，在迈向“钢铁强国”的征程上，“智慧”正成为钢铁产业的鲜明特征。图扑软件-构建先进2D和3D可视化所需要的一切方大九钢公司围绕钢铁企业管理模式变革的需求，借力能源绿色低碳转型的契机，以信息技术广泛应用为主导，大力推进“智能制造”，“淬炼”智慧钢铁。并与图扑软件合作，率先将5G、可视化、GIS相关技术引入钢铁行业。打造基于5G+云平台的智慧
pycharm中使用anaconda部署python环境_pycharm部署配置anaconda环境教程 weixin_39796652
本篇文章小编给大家分享一下pycharm部署配置anaconda环境教程，小编觉得挺不错的，现在分享给大家供大家参考，有需要的小伙伴们可以来看看。pycharm部署anaconda环境Pycharm：python编辑器，社区版本Anaconda：开源的python发行版本(专注于数据分析的python版本)，包含大量的科学包环境基本指令(准备工作)：conda--version查看anaconda
微服务 - 中级篇编程在手天下我有微服务架构云原生
微服务-中级篇一、微服务架构深化（一）服务拆分原则（二）服务通信方式二、微服务技术选型（一）开发框架（二）容器技术三、微服务实践与优化（后续会详细分析）一、微服务架构深化（一）服务拆分原则1.业务功能内聚性核心概念是将逻辑上紧密关联的业务功能组合在一个微服务中。以电商系统为例，用户管理模块包含用户注册、登录、个人信息修改、密码重置等功能。这些功能围绕用户实体展开，相互之间存在紧密的业务逻辑联系。将
[0948]基于JAVA的城市路网智慧管理系统的设计与实现阿鑫学长【毕设工场】 java python 人工智能毕业设计课程设计
毕业设计（论文）开题报告表姓名学院专业班级题目基于JAVA的城市路网智慧管理系统的设计与实现指导老师（一）选题的背景和意义开题报告背景与意义：随着我国城市化进程的加快，城市路网系统日益庞大复杂，交通管理面临的挑战愈发严峻。传统的路网管理模式由于信息更新不及时、数据处理效率低下、智能化程度不足等问题，已无法满足现代城市管理对高效、精准、智能交通管理的需求。因此，设计并实现一套基于Java的城市路网智
JavaScript基础-事件对象難釋懷 javascript 开发语言
在现代Web开发中，事件处理是实现动态和交互式网页的核心。当用户与页面进行交互时（如点击按钮、提交表单等），浏览器会生成相应的事件。为了有效地响应这些事件，JavaScript提供了事件对象，它包含了关于事件的详细信息。本文将详细介绍事件对象的概念、重要的属性和方法，并通过实例展示其应用场景。一、什么是事件对象？每当一个事件被触发时，浏览器都会创建一个事件对象，这个对象包含了该事件的所有相关信息，
雷军从 6 楼扔涂有防弹涂层西瓜，西瓜完好无损，这种防弹涂层是什么材质？用在车上效果怎么样？日记成书热门实事材质网络运维
雷军展示的“防弹涂层”是一种基于第四代高分子材料聚脲（Polyurea）的升级技术，其核心特性是通过纳米级交联结构形成弹性防护层，兼具柔韧性与刚性，能够有效吸收冲击能量并抵御尖锐物体的穿刺。以下是关于该涂层材质及在车用场景中的详细分析：一、防弹涂层的材质与技术特性材料本质该涂层属于聚脲材料的升级版本，由异氰酸酯与氨基化合物反应生成。其分子链结构密集交错，形成类似“钢筋网”的防护层，可瞬间形变吸收冲
python poetry添加某个git仓库的某个分支 waketzheng git
命令行不太清楚怎么弄，但可以通过编辑pyproject.toml实现实例：pypika-tortoise={git="https://github.com/henadzit/pypika-tortoise",branch="do-not-use-builder"}参考：WIPDonotcopypypikaquerybyhenadzit·PullRequest#1851·tortoise/torto
The following modules are *disabled* in configure script:_sqlite3 waketzheng python
Unabletoupgradepast3.6.9-#24byRosuav-PythonHelp-DiscussionsonPython.orgsudoaptinstalllibsqlite3-devcdPython-3.13.1./configure--enable-optimizations--enable-loadable-sqlite-extensionsmakesudomakealtins
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
CentOS7 python安装Ta-lib 0.6.x【talib不能直接安装，必须先安装ta_lib之c++库才可以】 weixin_43343144 服务器运维
正常流程：CentOS7python安装Ta-lib【talib不能直接安装，必须先安装ta_lib之c++库才可以】_centos7安装ta-lib-CSDN博客不同的版本参考如下！参考官方文档：ta-lib·PyPI务必下载匹配版本的【ta-lib-0.6.4-src.tar.gz】才可以正常安装$wgethttps://github.com/ta-lib/ta-lib/releases/do
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户