qq_42371985

抓取前程无忧51job岗位数据，实现数据可视化——心得体会

最近找工作，经常浏览51job，刚好学了python一段时间了，所以有了一个想法：为什么不将我需要的岗位信息给爬出来呢？

在51job网站搜索“数据分析师”，查看源代码，发现每一个招聘公告包含岗位、公司、薪资、地区等信息。所以可以实现如下几个目的：

1.根据关键词抓取招聘信息；

2.连接mysql，创建表格，并插入数据；

3.初步清洗数据，实现可视化

一、网页抓取函数

https://search.51job.com/list/000000,000000,0000,00,9,99,%25E6%2595%25B0%25E6%258D%25AE%25E5%2588%2586%25E6%259E%2590%25E5%25B8%2588,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=

这个是搜索“数据分析师”的网址，乍一看十分复杂，立马就没弄下去的欲望了。

发现这么一长串url只有

https://search.51job.com/list/000000,000000,0000,00,9,99,%25E6%2595%25B0%25E6%258D%25AE%25E5%2588%2586%25E6%259E%2590%25E5%25B8%2588,2,1.html

是必须的。而

%25E6%2595%25B0%25E6%258D%25AE%25E5%2588%2586%25E6%259E%2590%25E5%25B8%2588

则正好是“数据分析师”的urlencode，那么我们可以利用这一点，更改搜索关键词

而且%25E6%2595%25B0%25E6%258D%25AE%25E5%2588%2586%25E6%259E%2590%25E5%25B8%2588,2,1.html中html前的数字对应着页码

因此可以通过更改keyword和页码，进一步选择我们需要的信息。

def Get_html(data,i):
    Url="https://search.51job.com/list/000000,000000,0000,00,9,99,"+data+",2,%s.html"%i #data是自定义搜索关键词，i的大小则直接控制了爬取信息量
    header = {'User-Agent':'Mozilla/5.0'} #头部信息
    r=requests.get(Url,headers=header)
    print(r.url)
    print(r.status_code)
    r.encoding=r.apparent_encoding
    #print(r.text)
    return(r.text) #函数返回html

万里长征完成第一步o.o

接下来就是解析html，进一步爬取岗位、公司、薪资、地区和url信息。

这个阶段卡了2个多小时（习惯用beautifulsoup爬取）。

代码1：

def Get_data(html):
soup=BeautifulSoup(html,"html.parser")
for div in soup.find_all("div",class_="el"): #find_all()遍历结果为列表
print(div)

输出结果：

数据分析师

沈阳市和平区鹏润衣世界服装批发城
沈阳
6-8千/月
03-19

发现再怎么利用beautifulsoup的函数也无法对div子节点的属性进行爬取。（习惯了用beautifulsoup，一下子不知道怎么办了）

这时候说明百度还是很重要的

发现除了beautifulsoup库外，xpath也可以实现这个功能。（详细功能自行百度）

代码2：

def Get_data(html,name):
    html = etree.HTML(html)
    divs = html.xpath("//div[@id='resultList']/div[@class='el']")
    print(divs)
    for div in divs:
        job1=div.xpath("./p/span/a/@title")
        print(job1[0])
        job_url1=div.xpath("./p/span/a/@href")
        print(job_url1)
        job_company1=div.xpath("./span[@class='t2']/a/@title")
        print(job_company1)
        job_area1=div.xpath("./span[@class='t3']/text()")
        print(job_area1)
        job_salary1=div.xpath("./span[@class='t4']/text()")
        print(job_salary1)
        try:
            job_salary.append(job_salary1[0])
            job_area.append(job_area1[0])
            shuju.append((job1[0], job_url1[0], job_company1[0], job_area1[0], job_salary1[0]))
        except:
            print("异常")
    print(shuju)
    print(job_salary,job_area)
    print(len(job_salary),len(job_area)) #查看招聘信息数量
    return(shuju,job_salary,job_area)

二、连接mysql数据库，创建表格，插入数据

利用pymysql库

代码1（创建表格函数）：

def Mysql_create_table(name):
    client=pymysql.connect(user="root",host="localhost",passwd="*******",db="xiaolimao")
    cursor=client.cursor()
    sql="create table if not exists table_%s"%name+"(job VARCHAR(100),job_url VARCHAR(100),job_company VARCHAR(100),job_area VARCHAR(100),job_salary VARCHAR(100));"
    cursor.execute(sql)
    cursor.close()
    client.close()

写入爬取数据:

代码2：

def Mysql_data(name,shuju):
    client=pymysql.connect(user="root",host="localhost",passwd="********",db="xiaolimao")
    cursor=client.cursor()
    sql="insert into table_%s"%name+" values(%s,%s,%s,%s,%s)"
    cursor.executemany(sql,shuju)
    client.commit()
    cursor.close()
    client.close()

处理结果：

三、初步筛选数据，做工资分布图（地点-薪资）

51job爬出的薪资数据均为string格式，且为1-2万/月或者1-2千/月格式。地点为城市或者城市-区格式

首先将工资数据进行处理：

def Num_salary():
    for num in job_salary: #job_salary 为工资列表
        if("万/月" in num ): 
            Num=(re.findall(r"\d+\.?\d*",num))  #将工资字符串中数字提取出
            n=int((float(Num[0])+float(Num[1]))*10000/2)  #将工资区间平均化
        elif ("千/月" in num ):
            Num = (re.findall(r"\d+\.?\d*", num))
            n = int((float(Num[0]) + float(Num[1])) * 1000 / 2)
        data_salary.append(n) # 新的工资列表
        print(data_salary)
    return (data_salary)

然后城市处理：

def Num_area():
    for area in job_area:
        if "-" in area:
            Area = area.split("-")[0] #将带有区的地点只取城市
        else :
            Area=area
        data_area.append(Area)
        print(data_area)
    print(len(data_area))
    return (data_area)

处理结果：

[20000, 9000, 6500, 6500, 15500, 9000, 7000, 5250, 7000, 9000, 12500, 7000, 9000, 7000, 5250, 10000, 9000, 8500, 7000, 6500, 7000, 9000, 18000, 9000, 7000, 6500, 12000, 12000, 12500, 11500, 11500, 8500, 5250, 7000, 7000, 7000, 6000, 12500, 7000, 5250, 5250, 9500, 9000, 9000, 7000, 6250, 6500, 7500, 4500, 10000, 7000, 15000, 14500, 8000, 25000, 7000, 12500, 27500, 9000, 25000, 15000, 8500, 7000, 5500, 24000, 10000, 10000, 6000, 16000, 11500, 12500, 12500, 17500, 7500, 11500, 9000, 7500, 12500, 7000, 7000, 11500, 11500, 12500, 6000, 12500, 5250, 11500, 7000, 12000, 9000, 12500, 10500, 12500, 7000, 6750, 6500, 9000, 9000, 10000, 5250, 5000, 5250, 7250, 9000, 7000, 6000, 9000, 9000, 9000, 9000, 7000, 12500, 4150, 6000, 5250, 9000, 17500, 20000, 20000, 5500, 8500, 4500, 7500, 8500, 6000, 5750, 22500, 11500, 11500, 5250, 12500, 7500, 7500, 5000, 17500, 9000, 19000, 15000, 12500, 5500, 11500, 11500, 6000, 6750, 11500, 12500, 12500]

['杭州', '无锡', '深圳', '异地招聘', '异地招聘', '无锡', '广州', '广州', '广州', '广州', '北京', '广州', '北京', '广州', '广州', '深圳', '深圳', '广州', '广州', '上海', '广州', '南昌', '深圳', '广州', '成都', '上海', '上海', '广州', '广州', '北京', '广州', '上海', '成都', '广州', '深圳', '上海', '合肥', '上海', '武汉', '郑州', '郑州', '广州', '上海', '广州', '杭州', '佛山', '中山', '海口', '异地招聘', '深圳', '沈阳', '上海', '异地招聘', '重庆', '上海', '北京', '北京', '珠海', '上海', '上海', '广州', '上海', '西安', '上海', '深圳', '深圳', '北京', '异地招聘', '南京', '深圳', '上海', '广州', '成都', '金华', '广州', '北京', '广州', '西安', '青岛', '异地招聘', '广州', '广州', '上海', '北京', '深圳', '沈阳', '成都', '大连', '武汉', '武汉', '南京', '武汉', '上海', '广州', '上海', '西安', '广州', '宜昌', '上海', '广州', '长沙', '昆明', '杭州', '福州', '广州', '佛山', '广州', '北京', '北京', '深圳', '广州', '深圳', '苏州', '温州', '异地招聘', '广州', '武汉', '北京', '广州', '上海', '广州', '深圳', '广州', '上海', '郑州', '郑州', '广州', '深圳', '上海', '广州', '上海', '广州', '深圳', '广州', '上海', '深圳', '北京', '深圳', '杭州', '广州', '上海', '上海', '合肥', '深圳', '上海', '北京', '杭州']

然后发现，在城市列表中存在“异地招聘”非城市名字符串。将城市列表中“异地招聘”元素删除并将其对应的工资列表中的元素删除。

def Get_rid(i):
    for j in range(i):  # 列表在删除元素时因为地址的更变会导致部分元素删除不彻底，此处加一个循环为了更彻底，i与爬取信息量有关
        for area in data_area :
            if area == "异地招聘" :
                data_salary.pop(data_area.index(area))
                data_area.remove(area)

处理结果：

[20000, 9000, 6500, 9000, 7000, 5250, 7000, 9000, 12500, 7000, 9000, 7000, 5250, 10000, 9000, 8500, 7000, 6500, 7000, 9000, 18000, 9000, 7000, 6500, 12000, 12000, 12500, 11500, 11500, 8500, 5250, 7000, 7000, 7000, 6000, 12500, 7000, 5250, 5250, 9500, 9000, 9000, 7000, 6250, 6500, 7500, 10000, 7000, 15000, 8000, 25000, 7000, 12500, 27500, 9000, 25000, 15000, 8500, 7000, 5500, 24000, 10000, 10000, 16000, 11500, 12500, 12500, 17500, 7500, 11500, 9000, 7500, 12500, 7000, 11500, 11500, 12500, 6000, 12500, 5250, 11500, 7000, 12000, 9000, 12500, 10500, 12500, 7000, 6750, 6500, 9000, 9000, 10000, 5250, 5000, 5250, 7250, 9000, 7000, 6000, 9000, 9000, 9000, 9000, 7000, 12500, 4150, 6000, 9000, 17500, 20000, 20000, 5500, 8500, 4500, 7500, 8500, 6000, 5750, 22500, 11500, 11500, 5250, 12500, 7500, 7500, 5000, 17500, 9000, 19000, 15000, 12500, 5500, 11500, 11500, 6000, 6750, 11500, 12500, 12500] ['杭州', '无锡', '深圳', '无锡', '广州', '广州', '广州', '广州', '北京', '广州', '北京', '广州', '广州', '深圳', '深圳', '广州', '广州', '上海', '广州', '南昌', '深圳', '广州', '成都', '上海', '上海', '广州', '广州', '北京', '广州', '上海', '成都', '广州', '深圳', '上海', '合肥', '上海', '武汉', '郑州', '郑州', '广州', '上海', '广州', '杭州', '佛山', '中山', '海口', '深圳', '沈阳', '上海', '重庆', '上海', '北京', '北京', '珠海', '上海', '上海', '广州', '上海', '西安', '上海', '深圳', '深圳', '北京', '南京', '深圳', '上海', '广州', '成都', '金华', '广州', '北京', '广州', '西安', '青岛', '广州', '广州', '上海', '北京', '深圳', '沈阳', '成都', '大连', '武汉', '武汉', '南京', '武汉', '上海', '广州', '上海', '西安', '广州', '宜昌', '上海', '广州', '长沙', '昆明', '杭州', '福州', '广州', '佛山', '广州', '北京', '北京', '深圳', '广州', '深圳', '苏州', '温州', '广州', '武汉', '北京', '广州', '上海', '广州', '深圳', '广州', '上海', '郑州', '郑州', '广州', '深圳', '上海', '广州', '上海', '广州', '深圳', '广州', '上海', '深圳', '北京', '深圳', '杭州', '广州', '上海', '上海', '合肥', '深圳', '上海', '北京', '杭州']

非城市名字符串全部删除

最后成图：

def Geo_chart(name): #利用pyecharts库的Geo函数做图
    data_geo=[]
    data_salary_max=np.max(data_salary) #利用工资列表最大值做为比例尺最大值
    print(data_salary_max)
    for i in range(len(data_area)-1):
        data_geo.append((data_area[i],data_salary[i]))
    geo=Geo("%s"%name+"薪资分布图","data from 51job", title_color="#fff", title_pos="center",width=1200, height=600, background_color='#404a59')
    attr,value=geo.cast(data_geo)
    geo.add("", attr, value, visual_range=[0, data_salary_max], visual_text_color="#fff", symbol_size=15, is_visualmap=True)
    geo.show_config()
    geo.render() #可以自定义保存位置

成果图：

大功告成！！！

总结：

从开始做一直到成功，花了接近一天时间。中间多次想要放弃，不过好在是坚持了下来。

好多东西真的是在自己动手做的时候才发现没有想象中的简单。

参考文章：

1.https://blog.csdn.net/legalhighhigh/article/details/79779832

贴上完整代码：

import requests
import re
from lxml import etree
import pymysql
from pyecharts import Geo
import numpy as np
job_salary=[]
job_area=[]
shuju=[]
data_salary=[]
data_area=[]

def Geo_chart(name):
    data_geo=[]
    data_salary_max=np.max(data_salary)
    print(data_salary_max)
    for i in range(len(data_area)-1):
        data_geo.append((data_area[i],data_salary[i]))
    geo=Geo("%s"%name+"薪资分布图","data from 51job", title_color="#fff", title_pos="center",width=1200, height=600, background_color='#404a59')
    attr,value=geo.cast(data_geo)
    geo.add("", attr, value, visual_range=[0, data_salary_max], visual_text_color="#fff", symbol_size=15, is_visualmap=True)
    geo.show_config()
    geo.render()


def Get_html(data,i):
    Url="https://search.51job.com/list/000000,000000,0000,00,9,99,"+data+",2,%s.html"%i
    header = {'User-Agent':'Mozilla/5.0'}
    r=requests.get(Url,headers=header)
    print(r.url)
    print(r.status_code)
    r.encoding=r.apparent_encoding
    #print(r.text)
    return(r.text)    
def Mysql_create_table(name):
    client=pymysql.connect(user="root",host="localhost",passwd="rongchao123",db="xiaolimao")
    cursor=client.cursor()
    sql="create table if not exists table_%s"%name+"(job VARCHAR(100),job_url VARCHAR(100),job_company VARCHAR(100),job_area VARCHAR(100),job_salary VARCHAR(100));"
    cursor.execute(sql)
    cursor.close()
    client.close()

def Mysql_data(name,shuju):
    client=pymysql.connect(user="root",host="localhost",passwd="rongchao123",db="xiaolimao")
    cursor=client.cursor()
    sql="insert into table_%s"%name+" values(%s,%s,%s,%s,%s)"
    cursor.executemany(sql,shuju)
    client.commit()
    cursor.close()
    client.close()

def Get_data(html,name):
    html = etree.HTML(html)
    divs = html.xpath("//div[@id='resultList']/div[@class='el']")
    print(divs)
    for div in divs:
        job1=div.xpath("./p/span/a/@title")
        print(job1[0])
        job_url1=div.xpath("./p/span/a/@href")
        print(job_url1)
        job_company1=div.xpath("./span[@class='t2']/a/@title")
        print(job_company1)
        job_area1=div.xpath("./span[@class='t3']/text()")
        print(job_area1)
        job_salary1=div.xpath("./span[@class='t4']/text()")
        print(job_salary1)
        try:
            job_salary.append(job_salary1[0])
            job_area.append(job_area1[0])
            shuju.append((job1[0], job_url1[0], job_company1[0], job_area1[0], job_salary1[0]))
        except:
            print("异常")
    print(shuju)
    print(job_salary,job_area)
    print(len(job_salary),len(job_area))
    return(shuju,job_salary,job_area)

def Num_salary():
    for num in job_salary: #job_salary 为工资列表
        if("万/月" in num ):
            Num=(re.findall(r"\d+\.?\d*",num))  #将工资字符串中数字提取出
            n=int((float(Num[0])+float(Num[1]))*10000/2)  #将工资区间平均化
        elif ("千/月" in num ):
            Num = (re.findall(r"\d+\.?\d*", num))
            n = int((float(Num[0]) + float(Num[1])) * 1000 / 2)
        data_salary.append(n) # 新的工资列表
        print(data_salary)
    return (data_salary)

def Num_area():
    for area in job_area:
        if "-" in area:
            Area = area.split("-")[0] #将带有区的地点只取城市
        else :
            Area=area
        data_area.append(Area)
        print(data_area)
    print(len(data_area))
    return (data_area)

def Get_rid(i):
    for j in range(i):  # 列表在删除元素时因为地址的更变会导致部分元素删除不彻底，此处加一个循环为了更彻底，i与爬取信息量有关
        for area in data_area :
            if area == "异地招聘" :
                data_salary.pop(data_area.index(area))
                data_area.remove(area)            
        
if __name__=="__main__":
    kywd=input("关键词：")
    name=input("表名：")
    Number=int(input("请输入一个整数："))
    Mysql_create_table(name)
    for i in range(1,Number):
        html=Get_html(kywd,i)
        Get_data(html,name)
    Mysql_data(name,shuju)
    Num_salary()
    Num_area()
    Get_rid(Number)
    print(data_salary,data_area)
    Geo_chart(kywd)

C#实现高性能异步文件下载器（支持进度显示/断点续传） WangMing_X C#实现各种功能工具集 c#开发语言异步下载
一、应用场景分析异步文件下载器用处很大，当我们需要实现以下功能时可以用的上：大文件下载（如4K视频/安装包）避免UI线程阻塞，保证界面流畅响应多任务并行下载支持同时下载多个文件，提升带宽利用率后台静默下载结合Windows服务实现应用自动更新断点续传系统网络中断后可恢复下载（扩展实现）二、技术实现方案核心组件选择方案优点缺点WebClient代码简洁无法精细控制下载过程HttpWebRequest
中国团体保险行业发展规模及投资发展趋向研究报告2021-2027年 Le9420 电子商务
第1章：中国团体保险行业发展综述1.1团体保险行业定义及特点1.1.1团体保险行业的定义1.1.2团体保险行业产品/业务特点（1）团体保险与个人保险（2）团体保险与社会统筹保险1.2团体保险行业统计标准1.2.1团体保险行业统计口径1.2.2团体保险行业统计方法1.2.3团体保险行业数据种类1.2.4团体保险行业研究范围（1）团体人寿保险（2）团体健康保险（3）团体意外伤害保险第2章：美国团体健康
Java jar包后台运行方式详解我真的不想做程序员 java java jar 后端开发语言 ide
目录一、打包成jar文件二、后台运行jar文件三、示例四、总结在Java开发中，我们经常需要将应用程序打包成可执行的jar文件，并在后台运行。这种方式对于部署长时间运行的任务或需要持续监听事件的应用程序非常重要。本文将详细介绍如何实现Javajar包的后台运行，并通过具体代码示例帮助您更好地理解和应用。一、打包成jar文件要将Java应用程序打包成jar文件，首先需要确保项目的目录结构符合要求。一
MySQL保姆级教程（SQL语法基础篇）从小白到高手的进阶指南，收藏这一篇就够了网安导师小李网络安全编程程序员 mysql sql adb 安全 web安全网络自动化
本章节精心构构造SQL语法学习之旅的基石，旨在从基础出发，逐步深入，全面解析SQL语法规则并辅以丰富实例。通过这一篇章，您将循序渐进地掌握MySQL的核心语法，开启数据库操作的新境界。1：SQL语言概述SQL（StructuredQueryLanguage），简称SQL。结构化查询语言包含6个部分：类型释义范例数据查询语言DQL：DataQueryLanguage如SELECT数据操作语言DML：
Golang后端学习笔记 — 6. Golang操作数据库事务的方法宝码 Golang后端学习笔记 golang 数据库事务 postgresql
之前，学习了对数据库的每个表执行CRUD操作。真实的场景中，我们经常需要执行一个事务，它组合了多个表的相关操作。本节学习如何在Golang中实现它。在开始之前，先聊一下事务。什么是数据库事务？它是一个单一的工作单元，通常由多个表操作组成。比如：在我们的小银行项目中，我们要从张三的账户中向李四的账户中转账10元。该交易就包括5个操作，涉及到accounts表、entries表和transfers表：
如何在PHP中实现API版本管理：保持向后兼容性奥顺互联V php php 开发语言
如何在PHP中实现API版本管理：保持向后兼容性在现代Web开发中，API（应用程序编程接口）是连接前端和后端的关键桥梁。随着业务需求的不断变化，API的版本管理变得尤为重要。良好的版本管理策略不仅能够确保新功能的顺利引入，还能保持向后兼容性，避免对现有客户端造成破坏性影响。本文将探讨如何在PHP中实现API版本管理，并保持向后兼容性。1.为什么需要API版本管理？API版本管理的主要目的是在不破
Golang分布式事务_golang 分布式事务 2401_87197933 golang 分布式开发语言
在TCC事务中，每个事务参与者都需要实现三个方法：Try方法用于执行事务操作，Confirm方法用于确认事务，Cancel方法用于回滚事务。事务协调者通过调用每个参与者的Try方法来执行事务操作，根据返回的结果来决定是否确认或回滚事务。由于TCC事务是用户自定义的，所以可以根据具体的业务需求来实现事务操作的逻辑，并且具有较好的灵活性和可扩展性。消息队列消息队列是一种异步通信机制，可以用于实现分布式
全网精简版js数据结构——排序 ..儒数据结构js javascript 数据结构前端
冒泡排序functionBubbleSort(){const{length}=arrayfor(leti=0;iarr[j+1]){swap(arr,j,j+1)}}}console.log(arry);}functionswap(arry,a,b){consttemp=arry[a]arry[a]=arry[b]arry[b]=temp//或者用[arry[b],arry[a]]=[arry[a
对象的介绍及使用 ..儒 javascript 前端开发语言
对象简介1.对象是什么?对象是一种数据类型无序的数据的集合2.对象有什么特点?无序的数据的集合可以详细的描述描述某个事物对象的使用：用它保存多个数据1.对象声明语法let对象名={} let对象名=newObject()例如：//声明了一个person的对象letperson={}实际开发中，我们多用花括号。{}是对象字面量属性数据描述性的信息称为属性，如人的姓名、身高、年龄、性别等，一般是名词性
数组 + 函数 ..儒数据结构 javascript 前端
数组1.声明语法let数组名=[数据1，数据2，...，数据n]letarr=newArray[数据1，数据2，..数据]例letnames=['小明'，‘小刚'，‘小红'，‘小丽'，‘小米']数组是按顺序保存，所以每个数据都有自己的编号计算机中的编号从0开始，所以小明的编号为0，小刚编号为1，以此类推在数组中，数据的编号也叫索引或下标数组可以存储任意类型的数据2,数组的基本使用一些术语：元素：数
JS: 类型转换 + 运算符 + 循环 ..儒 javascript 开发语言 ecmascript
类型转换一，为什么需要类型转换JavaScript是弱数据类型：JavaScript也不知道变量到底属于那种数据类型，只有赋值了才清楚。坑：使用表单、prompt获取过来的数据默认是字符串类型的，此时就不能直接简单的进行加法运算。console.log（'1000e'+‘2000')//输出结果100002000此时需要转换变量的数据类型。通俗来说，就是把一种数据类型的变量转换成我们需要的数据类型
RoboVQA：机器人多模态长范围推理三谷秋水计算机视觉智能体大模型机器人人工智能机器学习计算机视觉深度学习语言模型
23年11月来自GoogleDeepmind的论文“RoboVQA:MultimodalLong-HorizonReasoningforRobotics”。本文提出一种可扩展、自下而上且本质多样化的数据收集方案，该方案可用于长期和中期的高级推理，与传统的狭窄自上而下的逐步收集相比，其吞吐量提高2.2倍。通过在3栋办公楼内执行任何用户请求并使用多种具身（机器人、人类、带抓取工具的人类）来收集真实数据
Uniapp组件 Textarea 字数统计和限制 weixin_42220130 uniapp 微信小程序 uni-app textarea 输入框统计限制
UniappTextarea字数统计和限制在Uniapp中，可以通过监听textarea的input事件来实现字数统计功能。以下是一个简单的示例，展示如何在textarea的右下角显示输入的字符数。示例代码首先，在模板中定义一个textarea元素，并绑定input事件处理函数：{{fontNum}}/200然后，在JavaScript部分定义updateFontNum方法来更新字符数：expor
【C#实现手写Ollama服务交互，实现本地模型对话】吾与谁归in C#学习 WPF c#Ollama Deepseek 本地模型
前言C#手写Ollama服务交互，实现本地模型对话最近使用C#调用OllamaSharpe库实现Ollama本地对话，然后思考着能否自己实现这个功能。经过一番查找，和查看OllamaSharpe源码发现确实可以。其实就是开启Ollama服务后，发送HTTP请求，获取返回结果以及一些数据处理。基本流程1、启动Ollama服务进程。2、创建HttpClient对象。3、创建请求体（参数:模型名称、提示
深度学习PyTorch之数据加载DataLoader @Mr_LiuYang 计算机视觉基础深度学习 pytorch 人工智能
深度学习pytorch之简单方法自定义9类卷积即插即用文章目录数据加载基础架构1、Dataset类详解2、DataLoader核心参数解析3、数据增强数据加载基础架构核心类关系图torch.utils.data├──Dataset(抽象基类)├──DataLoader(数据加载器)├──Sampler(采样策略)├──BatchSampler(批量采样)└──IterableDataset(流式数
Web端测试时，接口返回200，页面有没显示，可能时什么原因？海姐软件测试测试工具面试职场和发展
需从系统架构、前后端交互、测试方法三个维度展开分析，结合具体场景给出可落地的排查方案：一、核心原因分析（按优先级排序）前端渲染异常JS脚本执行错误（如语法错误导致页面渲染中断）DOM元素未正确加载（XHR异步请求未完成时触发渲染）CSS样式冲突（display:none/visibility:hidden导致元素不可见）数据解析错误接口返回字段缺失（如缺少关键展示字段id）数据格式不符合预期（如字
接口测试中遇到的最大的困难是什么？Java接口测试中用到的框架有哪些？海姐软件测试接口测试测试工具
接口测试中的最大困难环境依赖与数据准备接口测试常依赖外部服务或数据库，测试环境不稳定（如第三方接口延迟）会导致测试结果不可靠。解决方案：使用Mock技术（如Mockito）模拟外部依赖，或通过Docker容器化测试环境，确保数据隔离。参数与逻辑复杂度复杂接口可能涉及多参数组合、加密签名（如Token、OAuth）或动态参数（如时间戳），手工构造请求容易出错。示例：电商接口需同时验证商品库存、用户优
模型上下文协议（MCP）：构建 AI 与数据交互的新范式 xxgshxs 人工智能 chatgpt prompt 文心一言 llama copilot
引言在人工智能领域，大型语言模型（LLMs）的应用正从通用问答向复杂任务执行演进，但数据孤岛、工具集成碎片化及隐私安全等问题制约了其潜力。模型上下文协议（ModelContextProtocol,MCP）作为Anthropic提出的开放标准，旨在通过标准化接口连接AI应用与异构数据源及工具，重塑AI开发范式。本文从技术架构、核心功能、应用场景等维度解析MCP的设计逻辑与实践价值。一、核心概念与设计
如何有效管理 JavaScript 中的内存：垃圾回收与最佳实践名之以父 JavaScript 前端安全 javascript 前端框架 react.js vue.js 网络
“垃圾回收是现代编程语言的核心特性之一，它使得开发者可以专注于功能实现，而无需担心内存管理的细节。”——在JavaScript中，垃圾回收（GC）是一个自动化的内存管理过程，它帮助我们确保不再使用的内存得到释放。尽管JavaScript的垃圾回收机制非常强大，但如果对其原理和工作方式不够了解，也可能导致一些性能问题和内存泄漏。本文将深入探讨JavaScript中的垃圾回收机制、算法以及如何优化垃圾
【JavaScript 】垃圾回收机制进阶解析：提高性能的终极指南名之以父 JavaScript java jvm 开发语言前端安全网络 vue.js
“垃圾回收机制不仅是内存管理的基石，更是高效Web开发的保障。在JavaScript中，理解其工作原理至关重要。”在JavaScript中，垃圾回收（GarbageCollection，GC）是一个自动化的内存管理过程，能够有效防止内存泄漏虽然这看似是一个简单的机制，但背后却包含着丰富的理论与实现细节。理解这些原理，不仅能够帮助我们写出更高效的代码，还能避免一些性能问题和内存泄漏。本文将带你深入探
Hive在大数据集群下的部署正在绘制中大数据大数据 hive
hive安装1）把apache-hive-3.1.3-bin.tar.gz上传到Linux的/opt/software目录下2）解压apache-hive-3.1.3-bin.tar.gz到/opt/module/目录下面tar-zxvf/opt/software/apache-hive-3.1.3-bin.tar.gz-C/opt/module/3）修改apache-hive-3.1.3-bin
搭建分布式Hive集群逸曦玥泱大数据运维分布式 hive hadoop
title:搭建分布式Hive集群date:2024-11-2923:39:00categories:-服务器tags:-Hive-大数据搭建分布式Hive集群本次实验环境：Centos7-2009、Hadoop-3.1.4、JDK8、Zookeeper-3.6.3、Mysql-5.7.38、Hive-3.1.2功能规划方案一（本地运行模式）Master主节点（Mysql+Hive）192.168
黑马程序员-接口测试-四天学习接口测试-第二天-接口用例设计，测试点，功能测试，安全测试，性能测试，单接口测试，业务场景测试用例，postman简介，安装学习记录wanxiaowan postman 学习功能测试
今日学习目标分析接口文档，设计编写接口测试用例使用Postman设置请求方法、URL、请求头、请求体，向接口发送http请求，并查看响应数据分析接口文档，设计接口测试用例使用postman设置请求方法，url请求头，请求体，查看响应数据3接口用例设计为什么写防止测试点漏测。条理清晰方便分配工作，评估工作量和时间面试时使用！接口测试的测试点测试点称之为测试维度。5功能测试单接口功能：手工测试中的单个
卡尔曼滤波算法c语言stm32,卡尔曼滤波算法及C语言实现_源代码 weixin_39643255 卡尔曼滤波算法c语言stm32
a往南向北2019-01-1620:39:2011340收藏111分类专栏：C语言嵌入式文章标签：卡尔曼滤波C代码卡尔曼滤波理论很容易就可以在MATLAB软件环境下实现，但是，实际的硬件板子上还是需要C语言，当然可以自动代码生成，还有一种就是直接手动编写C语言。1.前言在google上搜索卡尔曼滤波，很容易找到以下这个帖子：http://blog.csdn.net/lanbing510/artic
Hadoop、Spark和 Hive 的详细关系夜行容忍 hadoop spark hive
Hadoop、Spark和Hive的详细关系1.ApacheHadoopHadoop是一个开源框架，用于分布式存储和处理大规模数据集。核心组件：HDFS(HadoopDistributedFileSystem)：分布式文件系统，提供高吞吐量的数据访问。YARN(YetAnotherResourceNegotiator)：集群资源管理和作业调度系统。MapReduce：基于YARN的并行处理框架，用
电力行业中的AMI系统小赖同学啊人工智能服务器网络运维
在电力行业中，AMI系统（AdvancedMeteringInfrastructure，高级计量基础设施）是一种集成了智能电表、通信网络和数据管理系统的现代化计量体系。AMI系统能够实现电力公司与用户之间的双向通信，提供实时用电数据，支持远程抄表、负荷管理、故障检测等功能，是智能电网的重要组成部分。以下是AMI系统的核心组成、功能、优势及其在电力行业中的应用：AMI系统的核心组成智能电表（Smar
kubernetes的ingress实现同时支持http和https 忍冬行者 k8s http kubernetes https
生产环境中对外的服务一般需要配置https服务，使用ingress也可以很方面的添加https的证书。默认情况下，如果为该Ingress启用了TLS，控制器会使用308永久重定向响应将HTTP客户端重定向到HTTPS端口443。（Ingress里配置了https证书的话，默认就一定会走https）。即默认情况下，如果在ingress规则中配置了tls，所有http的流量都会重定向到https。在一
Kibana 单机与集群部署教程闲人编程大数据集群部署教程大数据集群单机部署 Kibana 日志分析数据可视化
目录Kibana单机与集群部署教程第一部分：Kibana概述第二部分：Kibana单机部署教程1.安装Kibana1.1安装依赖项1.2下载和安装Kibana1.3启动Kibana2.单机案例代码实现（Python）3.常见问题及解决方法3.1无法启动Kibana服务3.2Kibana无法连接到Elasticsearch第三部分：Kibana集群部署教程1.配置集群节点1.1配置Elasticse
JavaScript面试宝典傻小胖 javascript 面试前端
1.JS由哪三部分组成？JavaScript由以下三部分组成：ECMAScript（ES）：JavaScript的核心语法，如变量、作用域、数据类型、函数、对象等。DOM（文档对象模型）：用于操作HTML和XML文档的API，可以动态修改网页内容、结构和样式。BOM（浏览器对象模型）：用于操作浏览器窗口和页面，例如window、navigator、location、history、screen等对
Elasticsearch（ES）详解：从入门到实践坚持蛊 elasticsearch jenkins 大数据
引言简介：Elasticsearch是一个基于Lucene的分布式搜索引擎，具有高效的全文搜索功能，广泛应用于日志分析、搜索引擎、实时数据处理等领域。本文目标：介绍Elasticsearch的基本概念、架构设计、配置优化、常见应用以及实际案例，帮助开发者掌握ES1.Elasticsearch概述Elasticsearch的背景和发展历程核心功能：全文检索、分布式搜索、实时数据分析主要应用场景：日志
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><

抓取前程无忧51job岗位数据，实现数据可视化——心得体会

最近找工作，经常浏览51job，刚好学了python一段时间了，所以有了一个想法：为什么不将我需要的岗位信息给爬出来呢？

你可能感兴趣的:(抓取前程无忧51job岗位数据，实现数据可视化——心得体会)