Etui۹(･༥･´)و ̑̑

【Python】猎聘网招聘数据爬虫（Python网络爬虫课设简要）

注：

本文仅供学习交流使用！

合肥学院-20信管-20302211009

项目文件可自行前往博客主页下载或联系作者qq（3416252112）。

爬取数据耗时约50分钟！

1、背景介绍（废话）

随着全球经济的发展和全球化竞争的加剧，招聘人才对于企业的成功变得至关重要。同时，求职者也面临着日益激烈的就业竞争。在这样的背景下，招聘市场不断发展，招聘过程变得更加复杂和竞争激烈。

互联网的普及和技术的发展给招聘带来了新的机遇和挑战。互联网招聘平台的兴起为企业和求职者提供了更广泛的交流和信息渠道。企业可以在招聘平台上发布招聘信息，同时通过筛选和匹配算法更准确地找到符合要求的人才；求职者可以通过招聘平台查找和申请适合自己的工作岗位。这种高效便捷的招聘方式极大地提高了招聘效率和成功率。

作为国内领先的互联网招聘平台之一，猎聘网汇聚了众多企业和求职者。其庞大的企业用户群体和海量的招聘信息资源使得猎聘网成为了人力资源管理领域的重要参考和决策依据。因此，对于猎聘网招聘数据的爬取和可视化分析具有重要的研究和实践价值。

在接下来的报告中，我们将详细介绍猎聘网招聘数据的爬取与可视化方法，并探讨其在人力资源决策和市场分析中的应用。

2、研究内容与目标（废话）

招聘数据对于人力资源决策具有重要性。通过分析招聘数据，可以了解当前市场的人才需求情况、行业的就业趋势以及薪资水平的变化等信息。这些信息对企业在招聘岗位时可以更好地定位和吸引合适的人才，从而提高招聘的效率和成功率。同时，求职者可以利用招聘数据了解就业市场的动态，选择适合自己的岗位和行业，提升就业竞争力。

猎聘网作为一家知名的招聘平台，拥有庞大的招聘数据资源。理解和利用猎聘网的招聘数据，可以帮助我们深入了解不同行业的人才需求和就业趋势，为企业的人才战略提供有力支持。通过数据爬取和可视化的方法，我们可以将海量的数据转化为直观、易于理解的图表和图形，帮助决策者快速把握关键信息，做出准确的决策。

本报告的目的是介绍猎聘网招聘数据的爬取与可视化方法，通过对招聘数据的分析和可视化，为人力资源决策提供科学依据，提高招聘效率和成功率。同时，我们还希望能够推动数据爬取与可视化技术在招聘领域的应用和研究，促进人力资源管理的创新和发展。

3、爬取对象

爬取数据对象为[‘Java开发’, ‘数据挖掘’, ‘互联网产品经理’, ‘软件测试’, ‘图像算法工程师’]，这五个关键字的检索结果，每个关键字共有四百条检索结果，总计2000条记录，最终成功爬取记录数为1581条，表结构如下图所示。

4、功能描述

本次课设数据爬虫功能主要包括以下几个方面：

数据收集：数据爬虫能够自动化地从目标网站上抓取数据。通过指定合适的URL和参数，爬虫可以访问网页并提取所需的信息，例如招聘信息、公司信息、职位要求、工作地点等。爬虫可以遍历多个页面或进行深度抓取，以获取更全面的数据。
数据解析：爬虫可以解析从网页中提取的原始数据，并提取出有用的信息。这包括对HTML、XML等页面结构的解析，以及对文本、图像、链接等内容的提取和分析。通过数据解析，爬虫能够将抓取的数据转化为结构化的格式，以便后续的处理和分析。
数据清洗：抓取的数据往往包含冗余、不完整或错误的信息。数据爬虫可以进行数据清洗，去除重复项、清理无效数据，并进行格式化和规范化，以确保数据的准确性和一致性。数据清洗可以提高后续数据处理和分析的效果。
数据存储：抓取到的数据需要进行存储，以便后续的使用和分析。数据爬虫可以将清洗后的数据保存到合适的存储介质中，如数据库、文件或云存储服务。爬虫还可以管理数据存储的结构和索引，以方便数据的检索和查询。

5、数据爬取及存储流程

数据爬取及存储业务流程共包含以下步骤：

初始化：创建数据库、创建表、创建全局的数据列表（用于暂时存储爬取结果）；
使用selenium爬取关键字检索结果中的岗位信息链接，并存入txt文件中；
岗位链接爬取完成之后读取岗位链接，然后通过requests依次爬取岗位页面；
使用XPath对爬取到的页面进行解析并将解析结果添加到数据列表（同时将岗位的详细信息保存到txt文件中，以备生成词云图）；
页面解析完成后，遍历数据列表，将取出的数据依次插入到数据库表中，最后结束爬取.

流程图如下：

6、爬虫目录结构介绍

爬虫代码总体包含六个方法别为 __init__()、get_post_link()、get_post_detail()、save_data()、over()、run()，具体功能如下：

__init__：该方法主要作用为创建全局信息（岗位列表、岗位链接列表、岗位数据列表）、创建数据库连接和表、读取用户标识库（User-Agent）；
get_post_link：该方法主要功能为使用selenium动态爬取关键字（岗位列表）检索结果的岗位链接，并将链接信息保存到同级目录下的“PostUrls”目录；
get_post_detail：根据“PostUrls”目录下的url信息，使用requests依次爬取岗位详情页，并使用XPath对页面进行解析，将解析后的数据添加到岗位数据列表，以及将岗位详情字段保存到同级目录下得“PostIntroduceDatas”目录下以备生成岗位词云图；
save_data：遍历岗位数据列表使用SQL语句依次将列表中的数据插入到job_database数据库的Jobs表中；
over：该方法用于关闭数据库连接；
run：运行方法，调用get_post_link()、get_post_detail()和over()方法，进行爬虫工作；

代码结构如下图：

7、爬取过程截图

爬取岗位链接截图

提取岗位数据截图

8、爬虫源代码

import random
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time
from selenium.webdriver.common.by import By
import requests
import sqlite3
from lxml import etree


class LiePin:
    def __init__(self):
        # 岗位列表
        self.driver = None
        self.post_list = ['Java开发', '数据挖掘', '互联网产品经理', '软件测试', '图像算法工程师']
        # 岗位链接列表
        self.all_link = []
        # 等待3三秒
        time.sleep(3)

        # 随机用户(User_Agent)
        with open('User_Agent_pool.txt', 'r', encoding='utf8') as fp:
            self.user_Agent = fp.readlines()
            self.user_Agent = [i.strip() for i in self.user_Agent]

        # 创建数据库连接对象
        self.conn = sqlite3.connect('job_database.db')
        # 创建游标对象
        self.cursor = self.conn.cursor()
        # 创建jobs表
        self.create_table_sql = "CREATE TABLE Jobs (信息ID INTEGER PRIMARY KEY AUTOINCREMENT, 岗位链接 VARCHAR, 搜索岗位名 VARCHAR, 岗位名称 VARCHAR, " \
                               "企业名称 VARCHAR, 薪资区间 VARCHAR, 工作地点 VARCHAR, 工作经验 VARCHAR, 学历要求 VARCHAR, 岗位介绍 VARCHAR, 其他待遇 VARCHAR , 企业经营范围 VARCHAR)"
        self.cursor.execute(self.create_table_sql)

    def get_post_link(self, post):
        # 创建浏览器对象
        self.driver = webdriver.Chrome()
        # 打开网页
        self.driver.get('https://www.liepin.com/zhaopin/')
        time.sleep(3)
        print("===========开始爬取", post, "岗位链接===========")
        # 定位搜索框并输入关键词
        search_box = self.driver.find_element(By.XPATH, "//div[@id='lp-search-bar-section']//input")
        search_box.send_keys(post)
        search_box.send_keys(Keys.RETURN)
        # 共爬取10页链接
        # 结果数据
        result = []
        for page in range(10):
            print("开始爬取第", page + 1, "页链接…………")
            # 等待页面加载完成
            time.sleep(3)
            # 读取当前页岗位数量
            divs = self.driver.find_elements(By.XPATH, "//div[@class='content-wrap']//div[@class='job-list-box']/div")
            for i in range(1, len(divs) + 1):
                # print(i)
                link = self.driver.find_element(By.XPATH, f"//div[@class='job-list-box']/div[{i}]//a").get_attribute("href")
                # 存储岗位链接信息
                result.append(str(link))
                # print("测试", result[0])
            time.sleep(3)
            # 爬取下一页
            if page == 9:
                break
            self.driver.find_element(By.XPATH, "//div[@class='list-pagination-box']//li["
                                               "@class='ant-pagination-next']/button").click()
        # 将链接列表保存至文件
        self.all_link.append(result)
        with open(f'PostUrls/{post}_url.txt', 'a', encoding='utf-8') as fp:
            for item in result:
                fp.write(item + '\n')

    # 爬取岗位详情信息
    def get_post_detail(self):
        print("==========================开始提取各岗位详情页信息==========================")

        for post in self.post_list:
            print("++++++++++++开始获取", post, "相关岗位详情信息++++++++++++")
            with open(f'PostUrls/{post}_url.txt', 'r', encoding='utf-8') as fp:
                urls = fp.readlines()
            with open(f'PostIntroduceDatas/{post}_detail.txt', 'a', encoding='utf-8') as fp:
                index = 0
                result = []
                for url in urls:
                    index += 1
                    print(f"提取{post}岗位，第", index, "条数据……")
                    time.sleep(1)
                    try:
                        # 发送GET请求
                        response = requests.get(url=url, headers={"User-Agent": random.choice(self.user_Agent)})
                        html_str = etree.HTML(response.text)
                        # 岗位链接
                        post_link = str(url)
                        # 搜索岗位名
                        search_name = post
                        # 岗位名称
                        post_name = html_str.xpath("//body/section[3]//div[@class='name-box']/span[1]")[0].text
                        # 企业名称
                        enterprise_name = html_str.xpath("//aside//div[@class='company-info-container']//div["
                                                         "contains(@class,'name')]")[0].text
                        # 企业经营范围
                        enterprise_scope = html_str.xpath("//aside//div[@class='register-info']/div[contains(@class,"
                                                          "'ellipsis-4')]/span[2]")[0].text
                        # 薪资区间
                        post_salary = html_str.xpath("//body/section[3]//div[@class='name-box']/span[@class='salary']")[0].text
                        # 工作地点
                        post_location = html_str.xpath("//body/section[3]//div[@class='job-properties']/span[1]")[0].text
                        # 工作经验
                        work_experience = html_str.xpath("//body/section[3]//div[@class='job-properties']/span[3]")[0].text
                        # 学历要求
                        educational_requirements = html_str.xpath("//body/section[3]//div["
                                                                  "@class='job-properties']/span[5]")[0].text
                        # 其他待遇
                        about_treatment = ''
                        for sub in html_str.xpath("//body/section[4]//div[@class='labels']/span"):
                            about_treatment += ' ' + sub.text
                        # 岗位介绍
                        post_introduce = html_str.xpath("//main//dl[1]/dd")[0].text
                        # 保存数据
                        # self.save_data(post_link, )
                        detail = {
                            "岗位链接": post_link,
                            "搜索岗位名": search_name,
                            "岗位名称": post_name,
                            "企业名称": enterprise_name,
                            "薪资区间": post_salary,
                            "工作地点": post_location,
                            "工作经验": work_experience,
                            "学历要求": educational_requirements,
                            "岗位介绍": post_introduce,
                            "其他待遇": about_treatment,
                            "企业经营范围": enterprise_scope
                        }
                        # 添加至总结果列表
                        result.append(detail)
                        # print(detail)
                        # 将岗位介绍信息写入txt文件，以备提取词云
                        fp.write(detail['岗位介绍'] + '\n\n')
                    except Exception as e:
                        with open('error_url/error_message.txt', 'a', encoding='utf-8') as f:
                            f.write("爬取失败url：" + url)
            # 将数据存入数据库
            print(f"+++++开始将{post}岗位数据存入数据库+++++")
            self.save_data(result)
        # 保存结果数据
        # self.save_data(result)

    # 保存数据
    def save_data(self, result):
        print("==========开始将数据存入数据库=========")
        print("共", len(result), "条数据，开始存入数据库…………")

        for item in result:
            try:
                insert_sql = f"INSERT INTO Jobs(岗位链接, 搜索岗位名, 岗位名称, 企业名称, 薪资区间, 工作地点, 工作经验, 学历要求, 岗位介绍, 其他待遇, 企业经营范围) " \
                             f"VALUES('{item['岗位链接']}', '{item['搜索岗位名']}', '{item['岗位名称']}', '{item['企业名称']}', '{item['薪资区间']}', '{item['工作地点']}', '{item['工作经验']}', '{item['学历要求']}', '{item['岗位介绍']}', '{item['其他待遇']}', '{item['企业经营范围']}')"
                self.cursor.execute(insert_sql)
            except Exception as e:
                print("当前记录异常，忽略……")
        # 提交事务
        self.conn.commit()
        print("数据存储完毕！")

    def over(self):
        # 关闭数据库连接
        self.conn.close()

    def run(self):
        # 爬取各岗位链接
        for post in self.post_list:
            self.get_post_link(post)
        self.get_post_detail()
        self.over()


if __name__ == '__main__':
    liepin = LiePin()
    liepin.run()
    print("数据采集完毕！")

AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
Midscene.js自然语言驱动的网页自动化全指南 Hello.Reader 前端技术人工智能 javascript 自动化开发语言
一、概述网页自动化在数据抓取、UI测试和业务流程优化中发挥着重要作用。然而，传统工具如Selenium和Puppeteer要求用户具备编程技能，编写复杂的选择器和脚本维护成本高昂。Midscene.js通过自然语言接口革新了这一领域，用户只需描述任务（如“点击登录按钮”或“提取产品价格”），AI即可自动执行，大幅降低技术门槛。Midscene.js由web-infra-dev团队开发，开源于Git
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
力扣 160 - Intersection of Two Linked Lists. (相交链表) Python双指针小杨快没头发了 Leetcode 刷题
力扣160-IntersectionofTwoLinkedLists.(相交链表)Python双指针原题地址：https://leetcode.com/problems/intersection-of-two-linked-lists/Giventheheadsoftwosinglylinked-listsheadAandheadB,returnthenodeatwhichthetwolistsi
Opencv之计算机视觉一闭月之泪舞计算机视觉计算机视觉 opencv python
一、环境准备使用opencv库来实现简单的计算机视觉。需要安装两个库：opencv-python和opencv-contrib-python，版本可以自行选择，注意不同版本的opencv中的某些函数名和用法可能不同pipinstallopencv-python==3.4.18.65-ihttps://pypi.tuna.tsinghua.edu.cn/simplepipinstallopencv-
英伟达常用GPU参数速查表，含B300..... Ai17316391579 深度学习服务器人工智能机器学习服务器电脑计算机视觉深度学习神经网络
英伟达常用GPU参数速查表，收藏备用：含RTX5090、RTX4090D、L40、L20、A100、A800、H100、H800、H20、H200、B200、B300、GB300.....专注于高性能计算人工智能细分领域kyfwq001#5090##4090##英伟达“新核弹”B200发布##英伟达##英伟达B300##GPU##服务器##显卡##英伟达H800/A800芯片将禁售#
VSCode python 遇到的问题：vscode can't open file '': [Errno 2] No such file or dire... weixin_33984032 python 开发工具 json
代码很简单，就两行：importpandasaspdimportnetCDF4asncdataset=nc.Dataset('20150101.nc')环境：在VSCode中左下角把原环境的Python3.6.532-bit切换为Anaconda中的Python3.6.564-bit('base':conda)过程中有两种错误：（忘记截图了，都是历史记录中的google网页搜索栏找到的搜索记录）1
【测试工程师必备！】VS Code好用插件FastPytestRunner 花小田 pytest vscode
你是否还在为PythonTestExplorerforVisualStudioCode以下痛点焦头烂额？•测试扫描慢到怀疑人生，每次启动都要等待5分钟•调试时总是找不到断点入口，配置项复杂到崩溃•传统测试工具无法满足大规模测试需求•每次切换项目都要重新配置测试环境FastPytestRunner——专为测试工程师量身打造的极速测试利器来了！️实战进阶技巧：✅配置黄金法则：{"pytestRunne
如何用 Python 实现树结构不辉放弃 python 开发语言
一、树结构基础认知1.1树的四大特征层级关系：父子节点的从属关系唯一根节点：访问起点无循环：从根到叶的路径不形成环N叉分支：每个节点可有多个子节点1.2核心组件解析classTreeNode:def__init__(self,data):self.data=data#节点存储的数据self.children=[]#子节点容器（多叉树特性）defadd_child(self,node):self.c
Python 用户账户(让用户拥有自己的数据) 钢铁男儿 Python 从入门到精通 python 数据库 sqlite
Web应用程序的核心是让任何用户都能够注册账户并能够使用它，不管用户身处何方。在本章中，你将创建一些表单，让用户能够添加主题和条目，以及编辑既有的条目。你还将学习Django如何防范对基于表单的网页发起的常见攻击，这让你无需花太多时间考虑确保应用程序安全的问题。然后，我们将实现一个用户身份验证系统。你将创建一个注册页面，供用户创建账户，并让有些页面只能供已登录的用户访问。接下来，我们将修改一些视图
Python 用户账户(让用户能够输入数据) 钢铁男儿 Python 从入门到精通 python 数据库 sqlite
Web应用程序的核心是让任何用户都能够注册账户并能够使用它，不管用户身处何方。在本章中，你将创建一些表单，让用户能够添加主题和条目，以及编辑既有的条目。你还将学习Django如何防范对基于表单的网页发起的常见攻击，这让你无需花太多时间考虑确保应用程序安全的问题。然后，我们将实现一个用户身份验证系统。你将创建一个注册页面，供用户创建账户，并让有些页面只能供已登录的用户访问。接下来，我们将修改一些视图
安卓编译安装python_一文了解如何在安卓系统上安装Pydroid 3并进行编码 weixin_39916681 安卓编译安装python
由于Pydroid3集成开发环境(IDE)，因此可以用Python进行可移植的编码。Pydroid是Python3的极简解释器，可让您执行较小的项目并在Android设备上进行最少的编码。如果您还想在没有PC的任何地方学习Python编程，同时在Android上为Python复制PC平台，那么Pydroid3是一个不错的应用程序。无论您是Python编程的新手还是专家，让我们看看使用Pydroid
python为什么需要文本编辑器-推荐几款高效的Python文本编辑器| 高效的文本编辑器的特点是什么... weixin_39991305
我们都知道程序员花费大量的时间在编写、阅读和编辑代码上，因此一定要使用高效的文本编辑器才能够提高并很好的完成工作的效率和保证工作的质量。什么是高效的文本编辑器呢？除了自己用的得心应手外，小编认为还应该包含以下几个特点：·突出代码的结构，让你在编写代码时就能够发现常见的bug；·包含自动缩进功能；·显示代码长度的标志；·用于执行常见操作的快捷键；如果你是编程新手小白，小u非常建议你使用具备上述功能而
一文读懂Python列表（5）跟着杰哥学Python python
列表让你能够在一个地方存储成组的信息，其中可以只包含几个元素，也可以包含数百万个元素，列表是新手可直接使用的最强大的Python功能之一。一、列表是什么1.列表由按顺序排列的元素组成，用[]表示列表，用逗号分隔元素2.举例：bicycles=['trek','cannondale','redline','specialized']二、列表的索引1.第一个列表元素的索引为0，而不是12.举例：三、访
一文读懂Python异常（16）跟着杰哥学Python python
Python程序执行期间发生的错误叫做异常，如果你编写了处理异常的代码，程序将继续执行；如果未编写处理异常的代码，程序将停止，并返回一条traceback，其中包含异常的报告。通常使用try-except代码块来处理异常。一、try-except代码块1、如果try代码块的代码运行起来没问题，则跳过except代码块；如果try代码块的代码导致了错误，则运行except代码块。2、举例二、try-
一文读懂Python之random模块（31）跟着杰哥学Python python
random模块是Python的内置标准库，用于生成各类随机数，可以用作生成网站初始登录密码和随机验证码。一、random模块简介random模块可以生成随机数，包括随机整数、浮点数、随机元素等。二、random模块相关概念随机数：是指在一定范围内随机产生的数，每个数被选中的概率相等。随机数最重要的特性是其后产生的数与前面的数毫无关系，即随机性、不可预测性和不可重现性。三、random模块常用方法
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
应用-构建并优化 Python 的 Rust 扩展李星星BruceL 自动化测试 python rust 开发语言
目录构建并优化Python的Rust扩展如果你的Python代码运行速度不够快，你可以选择使用编译语言来编写更快的扩展。本文将重点介绍Rust，它具有以下优势：现代工具链，包括名为crates.io的包仓库和内置的构建工具（cargo）。出色的Python集成和工具支持。Rust的Python支持包是PyO3。对于打包，你可以使用setuptools-rust来与现有的setuptools项目集成
超详细Python教程——初识Python 月流霜 python 数据库服务器
初识Python温馨提示：2018年创建这个仓库的时候，关于Python语言基础这个部分的内容写得相对是比较粗糙，对粗学者可能不是那么友好。如果你正好是一名初学者，建议你移步到我的另一个仓库Python-for-Freshmen-2023，这个仓库对初学者更加友好，对应的内容，大家也可以在我的知乎专栏“从零开始学Python”中找到，点击进入传送门。Python简介Python的历史1989年圣诞
Python自制文本编辑器 Xiaoqing461 python 开发语言
Python自制文本编辑器。随便写的半成品fromtkinterimport*fromtkinterimportfiledialog,messageboxclassFindWindow:def__init__(self,parent):self.parent=parentself.find_window=Toplevel(parent)self.find_window.title("Find")s
【地图 Map3d】——2 花花 Show Python pyecharts—从0到精通信息可视化数据分析 python
解锁数据可视化的魔法钥匙——pyecharts实战指南在这个数据为王的时代，每一次点击、每一次交易、每一份报告背后都隐藏着无尽的故事与洞察。但你是否曾苦恼于如何将这些冰冷的数据转化为直观、吸引人的视觉盛宴？欢迎来到《pyecharts图形绘制大师班》在这里，你将不再受限于单调的表格和图表，而是学会如何运用pyecharts这一强大的Python数据可视化库，将复杂的数据转化为令人惊叹的交互式图形。
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
python垃圾分类游戏_垃圾分类就要来了？教你使用Python轻松完成垃圾分类 weixin_39627390 python垃圾分类游戏
从7月1日起，上海市正式实施《上海市生活垃圾管理条例》。条例规定，个人混合投放垃圾今后可最高罚200元，单位混装混运，最高可罚至5万元，而且违规还将会列入征信，堪称“史上最严垃圾分类措施”。相信最近一段时间大家已经被上海的小伙伴们因为垃圾分类的困扰而刷屏了，就在大家还在一片“与我无瓜”中暗自庆幸时，现实给了我们一击：该来的总要来，谁都逃不过去。其实，在我国垃圾分类的举措要从2000年开始，但效果并
灰狼优化算法（Grey Wolf Optimization, GWO）及其 Python 代码追蜻蜓追累了算法 python github pycharm jupyter matlab numpy
灰狼优化算法（GreyWolfOptimization,GWO）是一种基于灰狼社会行为觅食过程而设计的优化算法。其基本原理是模拟灰狼群体中个体的协作和竞争行为，以迭代更新的方式寻找最优解。灰狼优化算法涉及三种灰狼的角色：alpha（α）、beta（β）和delta（δ），它们分别代表群体中的优势个体。算法包括初始化灰狼位置、计算适应度值、更新灰狼位置等步骤。以下是一个简单的Python示例代码，实
编译QT5.15.2 qtwebengine模块以支持mp4 m0_74822999 qt 开发语言
由于版权限制，Qt官方无法在其二进制包中提供某些解码器，这导致QtWebEngine无法支持一些常见的视频格式（如MP4）。为了解决这一问题，我们可以通过重新编译QtWebEngine来集成所需的解码器一、编译准备1.获取源码qtwebengine-everywhere-src-5.15.2.zip2.编译环境Python2.7.5:Python2.7.5Perl:StrawberryPerlfo
人工智能与网络信息技术的深度融合鸭鸭鸭进京赶烤学术会议人工智能 AI编程 ai 机器人计算机视觉网络计算机网络
在当今时代，人工智能（AI）和网络信息技术正以前所未有的速度推动着社会变革。从通用人工智能（AGI）到具身智能的普及，AI不仅实现了技术上的飞跃，也在各个行业展现出巨大的应用潜力。随着技术的不断迭代，我们迎来了许多创新应用，例如AI在电子信息技术中的应用，通过算法优化与升级，显著提高了处理效率和准确性。网络信息技术同样在飞速发展。面向2030年的未来网络发展趋势表明，网络将支撑万亿级、人机物、全时
DeepSeek、Grok 与 ChatGPT 三巨头：技术架构与应用场景的全方位解析云策量化 Deepseek chatgpt deepseek grok
前言在当今人工智能领域，DeepSeek、Grok和ChatGPT作为语言模型的三巨头，各自凭借独特的技术架构和广泛的应用场景，在自然语言处理领域占据着重要地位。本文将对这三款模型的技术架构和应用场景进行全方位解析，以期为读者提供深入的了解和有价值的参考。一、技术架构（一）DeepSeekDeepSeek是由DeepSeek团队开发的一款大型语言模型，其技术架构基于深度学习中的Transforme
探索AI模型的巅峰之战：ChatGPT、DeepSeek与Grok 3，谁才是最强？温暖阳光阿斌人工智能 chatgpt
近年来，人工智能领域正处于一场高速迭代的革命中。大型语言模型（LLMs）如ChatGPT、DeepSeek和Grok3纷纷亮相，各展所长，为人们带来了前所未有的体验。在这场"谁是最强"的竞争中，每一方都展现出了令人惊叹的能力和独特的优势。然而，这些模型之间的差异和特点，究竟是什么？它们各自的优势在哪里？又有哪些隐藏的短板？本文将带您深入了解这三位AI巨头的亮点与争议，共同探讨它们在AI领域的位置，
Python多进程Logging ftpeak Python python linux 开发语言 logging
多个进程的logging向同一个.log文件写入是一套Python程序被多次启动时（多进程启动）无法回避的问题。一个进程的程序正在向.log文件写入的同时，另一个进行启动的程序也需要向同一个.log文件写入，会产生异常吗？答案是：会的！直接写入存在的问题如果多个进程直接使用Python的logging模块向同一个文件写入日志，可能会出现日志内容混乱、数据丢失等问题。这是因为多个进程同时访问和修改文
Tenacity（Python的坚韧重试库） ftpeak Python python 开发语言网络爬虫
概述Tenacity是一个基于Apache2.0协议的通用重试库，用Python编写，旨在简化向任何代码添加重试逻辑的过程。它起源于已停止维护的retrying库的分叉版本。Tenacity不兼容retrying的API，但新增了大量功能并修复了长期存在的错误。文档：Tenacity—Tenacitydocumentation主页：https://github.com/jd/tenacity核心功
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它

【Python】猎聘网招聘数据爬虫（Python网络爬虫课设简要）