安悦悦ya

Python 数据采集-爬取学校官网新闻标题与链接（进阶）

Python 爬虫爬取学校官网新闻标题与链接（进阶）

前言
一、拼接路径
二、存储
三、读取翻页数据
四、完整代码展示
五、小结

前言

⭐ 本文基于学校的课程内容进行总结，所爬取的数据均为学习使用，请勿用于其他用途

准备工作：
- 爬取地址：https://www.hist.edu.cn/index/sy/kyyw.htm
- 爬取目的：爬取全部新闻的标题与链接（绝对路径）并存储
- 了解前导文章 Python 数据采集-爬取学校官网新闻标题与链接（基础）
环境需求：安装扩展库 BeautifulSoup、urllib（⭐不会安装点这里 Python 下载安装第三方库）
基本知识：
- 了解网页的基本知识
- 掌握 python 基础语法
- 掌握 python 文件写入的语法

一、拼接路径

上一篇文章中，我们获得的网页链接是网页的相对路径，不是可以即时使用的链接，如下所示：

而我们常见的链接都是形如以下：
https://blog.csdn.net/Pola_/article/details/121316947?spm=1001.2014.3001.5501
这种链接都是可以即时使用的链接，那么能不能把上面的链接也换成可以即时使用的形式呢？我们需要用到 urllib 库的 urljoin() 去拼接地址，urljoin() 的第一个参数是基础母站的 url, 第二个是需要拼接成绝对路径的 url，利用 urljoin，我们可以将之前爬取到的 url 的相对路径拼接成绝对路径。

首先我们需要知道之前爬取到的 url 的基础母站是谁？很简单，将新闻的链接与我们爬取到的链接对比一下就可以知道基础母站，如下所示，基础母站即为 https:www.hist.edu.cn/：

其次是知道需要拼接成绝对路径的 url，也就是我们之前爬取到的 url

两个参数具备之后，我们就可以使用 urljoin() 进行拼接路径了，具体如下：

import urllib.request
from urllib.parse import urljoin
from bs4 import BeautifulSoup

# 读取给定 url 的 html 代码
response = urllib.request.urlopen('https://www.hist.edu.cn/index/sy/kyyw.htm')
content = response.read().decode('utf-8')

# 转换读取到的 html 文档
soup = BeautifulSoup(content, 'html.parser', from_encoding='utf-8')
# 获取转换后的 html 文档里属性 class=list-main-warp 的 div 标签的内容
divs = soup.find_all('div', {'class': "list-main-warp"})
# 从已获取的 div 标签的内容里获取 li 标签的内容
lis = divs[0].find_all('li')
# 遍历获取到的 lis 列表，并从中抓取链接和标题
for li in lis:
		url1 = "https://www.hist.edu.cn/" # 基础母站
		# 需要拼接成绝对路径的 url，也就是我们之前爬取到的 url（相对路径形式）
        url2 = li.find_all('a')[0].get("href") 
        # 使用 urllib 的 urljoin() 拼接两个地址
        # urljoin 的第一个参数是基础母站的 url, 第二个是需要拼接成绝对路径的 url
        # 利用 urljoin，我们可以将爬取的 url 的相对路径拼接成绝对路径
        url = urljoin(url1, url2)
        # 我们爬取到的新闻标题
        title = li.find_all('a')[0].get("title")
        # 打印拼接的路径和对应的新闻标题
    	print(url)
    	print(title)

输出结果如下(只截取部分)：

可以看到，我们之前爬取的链接的相对路径已经通过 urljoin() 与基础母站拼接成绝对路径，此时的链接就可以即时使用了

二、存储

前面我们已经获取了新闻的链接与标题，接下来我们希望可以将爬取到的数据存储下来，例如，将每条新闻的链接与对应的标题以逗号分隔存入 txt 文件中，txt 文件命名为 urlList.txt。

已经熟悉 Python 文件操作的同学肯定会说一句 “这波操作我熟悉”，确实，完成我们想要的功能只需要掌握文件写入的知识即可

难度不大，我就直接放代码了，注释也比较详细，有问题可以在评论里提出

import urllib.request
from urllib.parse import urljoin
from bs4 import BeautifulSoup

# 读取给定 url 的 html 代码
response = urllib.request.urlopen('https://www.hist.edu.cn/index/sy/kyyw.htm')
content = response.read().decode('utf-8')

# 转换读取到的 html 文档
soup = BeautifulSoup(content, 'html.parser', from_encoding='utf-8')
# 获取转换后的 html 文档里属性 class=list-main-warp 的 div 标签的内容
divs = soup.find_all('div', {'class': "list-main-warp"})
# 从已获取的 div 标签的内容里获取 li 标签的内容
lis = divs[0].find_all('li')

# 向 urlList.txt 文件写入内容
with open('urlList.txt', 'w', encoding='utf8') as fp:
	# 遍历获取到的 lis 列表，并从中抓取链接和标题
    for li in lis:
        url1 = "https://www.hist.edu.cn/"
        url2 = li.find_all('a')[0].get("href")
        # 使用urllib的urljoin()拼接两个地址
        # urljoin的第一个参数是基础母站的url, 第二个是需要拼接成绝对路径的url
        # 利用urljoin，我们可以将爬取的url的相对路径拼接成绝对路径
        url = urljoin(url1, url2)
        title = li.find_all('a')[0].get("title")
        # 写入新闻链接和标题，并以逗号分隔
        fp.write(url + "," + title + '\n')

三、读取翻页数据

根据我们爬到的数据可以发现，我们目前只能爬到当前一页的数据，但是学校新闻不止一页，我们想要爬取第二页、第三页、…等所有页的数据并存储下来，如何实现呢？很明显，我们可以爬到一页的数据，但是无法爬取下一页的数据，是因为我们无法实现爬虫的翻页，如果我们可以实现翻页，那么下一页就可以当作当前页，而爬取当前页的数据我们已经做到，所以当前的问题是解决如何翻页。
我们所做的爬虫就是在模拟浏览器去获取数据，而翻页行为是我们人为手动的去点击下一页，然后浏览器跳转到下一页，因此我们需要让爬虫去模拟我们人为手动的点击下一页这一个行为，去让浏览器可以实现跳转到下一页，然后一直点击下一页直到最后一页，这样就能翻取所有页。
接下来我们调试网页，观察我们点击下一页按钮后，浏览器是如何实现跳转到下一页，如下：

观察下图可知:

下页按钮其实是一个下一页的链接

这个链接并不全，只是一部分，真的去点击的话也不会跳转到下一页的，结合之前解决相对路径的思路，我们可以使用 urljoin() 去拼接路径

下页链接的末尾是 410.htm，而尾页链接的末尾是1.htm，结合网页基础如识可知，这个数字就是每一页的页码，如果我们想一直翻页直到最后一页的话，我们可以利用这个数字去做循环结束的判断条件

然后我们点击下页，跳转到下一页继续观察（爬虫的过程就是我们要多观察不同之处，从而将这些不同之处作为我们代码实现的条件），如下：

观察可以发现：

跳转到下一页后，网站有了首页和上页，因此下页和尾页的链接之前多了首页和上页的链接，这样一来，我们想要获取下页和尾页的链接时就需要对链接进行判断，找出下页和尾页的链接，细心一点，这个判断条件很明显，就是链接的class属性，下页和尾页的链接的 class 属性为 class=“Next”，而首页和上页的链接的 class 属性为 class=“Prev”，因此我们可以把 tag 属性为 class=“Next” 的 a 标签作为筛选下页和尾页的链接的条件

此外，我们还可以发现这时候下页和尾页的链接开头相较于上图中看到的下页和尾页的链接少了 kyyw/，只剩下单独的页码了，而之后几页调试发现链接开头都少了 kyyw/，因此我们在拼接路径的时候还需要注意从新闻第一页跳转下一页时，拼接路径的基础母站为 https://www.hist.edu.cn/index/sy/，而从新闻第二页以及之后的页跳转下一页时，拼接路径的基础母站为c，我们要把缺少的 kyyw/ 给手动补上。因为只有新闻第一页跳转下一页时链接开头没有缺少 kyyw/，而之后的页全部缺少，因此我们在代码中可以这样判断：

当第一次跳转下一页时，选择拼接路径的基础母站为 https://www.hist.edu.cn/index/sy/

当第二次及之后跳转下一页时，选择拼接路径的基础母站为 https://www.hist.edu.cn/index/sy/kyyw/

根据以上调试网页的观察，我们想要爬虫实现翻页的一个思路就是：
① 从获取的第一页的网页 html 代码里筛选 tag 属性为 class=“Next” 的 a 标签，然后获取其中的下页和尾页的 href 链接
② 使用 while 循环来实现翻页，循环结束的条件是下页的 herf 链接等于尾页的 herf 链接，循环体内，
爬取当前页的新闻标题与链接，然后判断循环是否是第一次，根据判断结果确定拼接的基础母站路径，之后根据我们拼接好的路径，实现跳转到下一页，周而复始，直到循环结束，我们就可以获取到所有页的新闻标题与链接

代码实现如下：

import urllib.request
from urllib.parse import urljoin
from bs4 import BeautifulSoup

# 读取URL的HTML代码，输入 URL，输出 html
response = urllib.request.urlopen('https://www.hist.edu.cn/index/sy/kyyw.htm')
# print(response.read().decode('utf-8'))
content = response.read().decode('utf-8')

# 解析
soup = BeautifulSoup(content, 'html.parser', from_encoding='utf-8')
Pages = soup.find_all('a', {'class': "Next"})
endPage = Pages[1].get("href")
# print(endPage)
# 用来判断第一次的基础母站路径
i = 1
while Pages[0].get("href") != Pages[1].get("href"):
	# while 循环之外我们已经读取到了首页的新闻内容，直接开始分析
    divs = soup.find_all('div', {'class': "list-main-warp"})
    lis = divs[0].find_all('li')

	# 开始写入
	# 需要注意，写入的方式是追加 'a+'
	# 因为每读一页都会向文件中写入一次，如果还使用之前的 w 写入方式，
	# 就会导致上一页的内容被当前页的内容覆盖，这样最后，文件里就被覆盖的只有最后一页的新闻标题与链接
    with open('urlList.txt', 'a+', encoding='utf8') as fp:
        for li in lis:
            url1 = "https://www.hist.edu.cn/"
            url2 = li.find_all('a')[0].get("href")
            # 使用urllib的urljoin()拼接两个地址
            # urljoin的第一个参数是基础母站的url, 第二个是需要拼接成绝对路径的url
            # 利用urljoin，我们可以将爬取的url的相对路径拼接成绝对路径
            url = urljoin(url1, url2)
            title = li.find_all('a')[0].get("title")
            fp.write(url + "," + title + '\n')
	
	# 判断是否是第一次跳转下一页
    if i == 1:
        # 设置基础母站路径
        url1 = "https://www.hist.edu.cn/index/sy/"
        i = i+1
    else:
    	# 设置基础母站路径
        url1 = "https://www.hist.edu.cn/index/sy/kyyw/"
    # 获取下一页链接
    url2 = Pages[0].get("href")
    # 拼接路径
    url = urljoin(url1, url2)
    # 用于提示爬到哪一页了
    print(url)
    # 读取下一页的内容
    response = urllib.request.urlopen(url)
    content = response.read().decode('utf-8')

    # 解析下一页的内容，同时将soup指向为下一页的内容
    soup = BeautifulSoup(content, 'html.parser', from_encoding='utf-8')
    Pages = soup.find_all('a', {'class': "Next"})

输出结果如下：

四、完整代码展示

import urllib.request
from urllib.parse import urljoin
from bs4 import BeautifulSoup

# 读取URL的HTML代码，输入 URL，输出 html
response = urllib.request.urlopen('https://www.hist.edu.cn/index/sy/kyyw.htm')
# print(response.read().decode('utf-8'))
content = response.read().decode('utf-8')

# 解析
soup = BeautifulSoup(content, 'html.parser', from_encoding='utf-8')
Pages = soup.find_all('a', {'class': "Next"})
endPage = Pages[1].get("href")
# print(endPage)
# 用来判断第一次的基础母站路径
i = 1
while Pages[0].get("href") != Pages[1].get("href"):
	# while 循环之外我们已经读取到了首页的新闻内容，直接开始分析
    divs = soup.find_all('div', {'class': "list-main-warp"})
    lis = divs[0].find_all('li')

	# 开始写入
	# 需要注意，写入的方式是追加 'a+'
	# 因为每读一页都会向文件中写入一次，如果还使用之前的 w 写入方式，
	# 就会导致上一页的内容被当前页的内容覆盖，这样最后，文件里就被覆盖的只有最后一页的新闻标题与链接
    with open('urlList.txt', 'a+', encoding='utf8') as fp:
        for li in lis:
            url1 = "https://www.hist.edu.cn/"
            url2 = li.find_all('a')[0].get("href")
            # 使用urllib的urljoin()拼接两个地址
            # urljoin的第一个参数是基础母站的url, 第二个是需要拼接成绝对路径的url
            # 利用urljoin，我们可以将爬取的url的相对路径拼接成绝对路径
            url = urljoin(url1, url2)
            title = li.find_all('a')[0].get("title")
            fp.write(url + "," + title + '\n')
	
	# 判断是否是第一次跳转下一页
    if i == 1:
        # 设置基础母站路径
        url1 = "https://www.hist.edu.cn/index/sy/"
        i = i+1
    else:
    	# 设置基础母站路径
        url1 = "https://www.hist.edu.cn/index/sy/kyyw/"
    # 获取下一页链接
    url2 = Pages[0].get("href")
    # 拼接路径
    url = urljoin(url1, url2)
    # 用于提示爬到哪一页了
    print(url)
    # 读取下一页的内容
    response = urllib.request.urlopen(url)
    content = response.read().decode('utf-8')

    # 解析下一页的内容，同时将soup指向为下一页的内容
    soup = BeautifulSoup(content, 'html.parser', from_encoding='utf-8')
    Pages = soup.find_all('a', {'class': "Next"})

五、小结

又要听我说小结了哈哈哈，开头是至此…

至此，我们相较上一篇文章，完成了一些相对来说更加进阶的功能，首先是我们通过 urljoin() 拼接路径，其次是利用 Python 的文件写入将我们爬取的新闻链接与标题存储到 txt 文件当中，最后是我们实现读取翻页数据从而获取所有的新闻链接与标题。我爬取的我们学校的新闻，你也可以试试你的学校，原理都是相通的！

值得一提的是，这两篇文章结束之后，我们就基本可以摸到爬虫是个什么样的东西了，简单入个门，学校新闻网站是静态网页，所有的东西、代码我们都看得见，因此无论是网页调试还是爬取数据都会简单很多，但是还有很多网页是动态网页，里面有些数据我们是看不到的，看不到的话又该怎么爬取呢？如果你感兴趣的话，可以关注 Pola 后续爬取动态网页的文章！

不过在此之前，Pola 会更一篇词频分析的文章，你有没有发现我们只是爬取了新闻标题和链接并存储下来，但其实并没有什么很大的用途？你有没有见过年度关键词、网络热词排榜之类的词云图？我们可以利用已爬取的新闻标题和链接去获取新闻内容，并对所有的新闻内容进行分析，找出其中最高频率被提到的词语，也就是来一次简单的词频分析！根据分析结果你也可以做一个词云图！

写在最后，如果有疑惑不理解的地方或者代码调试有问题的请在文章下方评论，Pola 会和你一起解决！

Python uWSGI 安装配置 AI老李 python python 开发语言
关键要点uWSGI安装和配置适合PythonWSGI应用，资源丰富，适合初学者和中级用户。推荐菜鸟教程和官方文档，涵盖Linux和Windows环境。配置需注意操作系统差异和框架（如Django、Flask）需求。安装步骤uWSGI安装通常通过pip或源码编译完成。以下是基本步骤：Linux：安装依赖（如build-essentialpython-dev），然后用pipinstalluwsgi或编
《Python星球日记》第35天：全栈开发（综合项目） Code_流苏 Python星球日记编程项目实战 Python全栈开发 Django Flask 后端开发博客系统
名人说：路漫漫其修远兮，吾将上下而求索。——屈原《离骚》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder）专栏：《Python星球日记》，限时特价订阅中ing目录一、全栈开发概述1.全栈开发的优势2.全栈开发技能组合二、博客系统项目需求分析1.功能需求2.技术栈选择3.项目结构规划三、数据库设计1.实体关系分析2.Django模型设计四、后端开发1.Django项目创建2.视图
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
vllm本地部署bge-reranker-v2-m3模型API服务实战教程雷电法王大模型部署 linux python vscode language model
文章目录一、说明二、配置环境2.1安装虚拟环境2.2安装vllm2.3对应版本的pytorch安装2.4安装flash_attn2.5下载模型三、运行代码3.1启动服务3.2调用代码验证一、说明本文主要介绍vllm本地部署BAAI/bge-reranker-v2-m3模型API服务实战教程本文是在Ubuntu24.04+CUDA12.8+Python3.12环境下复现成功的二、配置环境2.1安装虚
《Effective Python》第十三章测试与调试——使用 pdb 进行交互式调试不学无术の码农 Effective Python 精读笔记 python 开发语言
引言本文基于《EffectivePython:125SpecificWaystoWriteBetterPython,3rdEdition》第十三章：测试与调试中的Item114:ConsiderInteractiveDebuggingwithpdb，旨在系统总结书中关于Python内置调试器pdb的使用方法，结合笔者在实际开发中的调试经验，探讨其应用场景、技巧以及延伸思考。Python开发过程中，
Python装饰器（decorator）
Python装饰器（decorator）是一种高阶函数，用于在不修改原函数代码的情况下，动态地为函数添加额外的功能。它本质上是一个接受函数作为输入并返回新函数的函数，常用于日志记录、性能测试、权限验证等场景。以下是关于Python装饰器的详细讲解：1.基本概念装饰器是一个函数，它接受一个函数作为参数，并返回一个新的函数。新函数通常会在调用原函数前后执行一些额外的逻辑。装饰器的语法糖是@decora
卫星分析系列之使用卫星图像量化野火烧毁面积在 Google Colab 中使用 Python 使用 Sentinel-2 图像确定森林火灾烧毁面积知识大胖 NVIDIA GPU和大语言模型开发教程 python sentinel 开发语言
简介几年前，当大多数气候模型预测如果我们不采取必要措施，洪水、热浪和野火将会发生更多时，我没想到这些不寻常的灾难现象会成为常见事件。其中，野火每年摧毁大量森林面积。如果你搜索不同地方的重大野火表格，你会发现令人震惊的统计数据，显示由于野火，地球上有多少森林面积正在消失。在本教程中，我将结合我已经发表过的关于下载、处理卫星图像和可视化野火的故事，量化加州发生的其中一场重大野火的烧毁面积。与之前的帖子
使用NVIDIA NeRF将2D图像转换为逼真的3D模型（Python） ByteWhiz 3d python 计算机视觉 Python
使用NVIDIANeRF将2D图像转换为逼真的3D模型（Python）NeuralRadianceFields（NeRF）是一种强大的方法，可以将2D图像转换为逼真的3D模型。它使用神经网络来建模场景的辐射场，并通过渲染多个视角的图像来重建3D模型。在本文中，我们将使用Python和NVIDIANeRF库来实现这一过程。首先，我们需要安装所需的库。我们可以通过以下命令使用pip安装NVIDIANe
【收藏系列】Python 常用装饰器全解析 Gaffey大杂烩 python python 装饰器
Python常用装饰器全解析装饰器是Python中一个强大的特性，它允许我们在不修改原函数或类的情况下，扩展或修改其功能。本文将详细介绍几个最常用的内置装饰器。Python装饰器速查表（一句话用途）装饰器一句话作用概述@classmethod定义一个类方法，第一个参数是类本身（cls），常用于工厂函数或操作类属性。@staticmethod定义一个不依赖实例或类的工具方法，无需self或cls参数
python中plus_Python token.PLUS属性代码示例
#需要导入模块:importtoken[as别名]#或者:fromtokenimportPLUS[as别名]deftest_exact_type(self):self.assertExactTypeEqual('()',token.LPAR,token.RPAR)self.assertExactTypeEqual('[]',token.LSQB,token.RSQB)self.assertExac
三网BGP服务器——CDN加速的底层基石群联云防护小杜安全问题汇总服务器 python 运维游戏安全自动化网络
为什么跨网访问会成为业务性能杀手？场景痛点当电信用户访问联通机房的资源时，平均延迟高达120ms以上，而跨网丢包率可达15%。传统单线机房导致30%的用户体验直接下降。BGP协议的核心价值#三网路由优化模拟器（Python3）importrandomdefbgp_route_selection(user_isp,cdn_nodes):#用户ISP：1=电信2=移动3=联通#节点示例：{'node1
Python入门--day04--Python 推导式、常见语句和内置函数总结 the time zips by #Python基础 python 开发语言
文章目录前言一、推导式1.列表推导式2.集合推导式3.字典推导式4.生成器推导式二、常见语句1赋值语句2.控制语句2.1条件语句2.1.1if-elif-else2.1.2match-case2.2循环语句2.2.1for循环2.2.2while循环2.3循环控制语句2.3.1break2.3.2continue2.3.3pass3.range语句3.函数定义语句4.异常处理语句4.1try-ex
windows exe爬虫：exe抓包程序猿阿三爬虫项目实战 exe抓包
不论任何爬虫，抓包是获取数据最直接和最方便的方式，这章节我们一起看一下windowsexe是如何拦截数据的。用mitmproxy/Charles/Fiddler或Wireshark拦截它的HTTP/HTTPS/TCP流量。如果是HTTPS，安装并信任代理的根证书。由于exe大部分可能走的是自定义应用层协议。在不知情所拦截应用使用的流量时，所以建议用Wireshark。本文利用python代码，实现
PythonDay01
这里写目录标题一、注释1、单行注释2、多行注释二、定义变量1、要求2、代码三、关键字四、print函数五、基本数据类型1、整型2、字符串类型3、小数类型4、布尔类型5、空类型六、类型之间的相互转换1、从字符串转成int类型2、字符串转换成浮点型3、float转换成int4、丢失精度时不会去做四舍五入5、布尔类型七、字符串的常见操作1、split切分2、strip去除字符串两边的隐藏字符3、字符串的
Python Day9
@浙大疏锦行PythonDay9.内容：热力图的绘制enumerate()方法子图的绘制代码：list_nums=[1,2,3,4,5,6]forindex,valinenumerate(list_nums):print(f"index={index},val={val}")forvalinlist_nums:print(f"val={val}")importpandasaspdimportmat
【医学影像】无痛安装mamba 周树皮医学影像 python
去年编辑的一个帖子。摆了一段时间后重新回归，发送一下作为状态分界线。很癫狂的体验，man，whatcanisay！issue查看我的狗急跳墙状态1.确定版本cudanvcc-Vpythonpython--versiontorchpipshowtorch2.下载对应版本wheelcausal-conv1d：https://github.com/Dao-AILab/causal-conv1d/rele
macd的python代码同花顺_同花顺最牛MACD副图源码再来一碗饭
DIFF:EMA(CLOSE,6)-EMA(CLOSE,16),ColorFFFF26;DEA:EMA(DIFF,5),Color8A15FF;MACD:=2*(DIFF-DEA);对DIFF:0-(EMA(CLOSE,6)-EMA(CLOSE,16));对DEA:0-(EMA(DIFF,5));对称:0-(2*(DIFF-DEA)),STICK,ColorFF6060,LINETHICK1;{D
Mamba项目用户指南：高效管理Python环境的利器左松钦Travis
Mamba项目用户指南：高效管理Python环境的利器mambaTheFastCross-PlatformPackageManager项目地址:https://gitcode.com/gh_mirrors/mam/mamba什么是Mamba？Mamba是一个基于Conda的CLI工具，专为高效管理Python环境而设计。它继承了Conda的所有优点，同时在性能上进行了显著优化，特别是在解决依赖关系
【亲测免费】 Mamba：快速跨平台的包管理器林梦雅
Mamba：快速跨平台的包管理器项目基础介绍和主要编程语言Mamba是一个用C++重新实现的Conda包管理器。它旨在提供比传统Conda更快的包管理和依赖解析速度。Mamba的核心部分使用C++编写，以确保高效性和性能。同时，Mamba也使用了Python和其他一些辅助语言来实现其功能。项目核心功能Mamba的核心功能包括：快速依赖解析：利用libsolv库进行高效的依赖解析，这是RedHat、
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink DataStream API详解（一） bxlj_jcj Flink flink 大数据
一、引言Flink的DataStreamAPI，在流处理领域大显身手的核心武器。在很多实时数据处理场景中，如电商平台实时分析用户购物行为以实现精准推荐，金融领域实时监控交易数据以防范风险，DataStreamAPI都发挥着关键作用，能够对源源不断的数据流进行高效处理和分析。接下来，就让我们一起深入探索FlinkDataStreamAPI。二、DataStream编程基础搭建在开始使用FlinkDa
OpenCV图像数据处理:convertTo,normalize和scaleAdd luofeiju OpenCV函数实战 opencv
在OpenCV图像处理的世界里，有几个函数进行一些基本数据变换：cv::convertTo()：类型转换与线性缩放；cv::normalize()：归一化处理；cv::scaleAdd()：加权叠加运算。cv::addWeighted():与scaleAdd相似，进行加权叠加运算；一、cv::convertTo()：线性变换+数据类型转换voidcv::Mat::convertTo(OutputA
Matlab裁剪降水数据：1km掩膜制作实战咋（za）说 matlab 降水数据处理裁剪掩膜制作降水数据裁剪 China_Pre
1km降水数据处理-制作数据裁剪掩膜1.数据概述2掩膜文件制作示例2.1数据准备2.2matlab掩膜制作示例代码3结语中国1km分辨率逐月降水量数据集（1901-2024）是高精度、长时间序列的气候数据产品，广泛应用于水文、生态、农业等领域的研究。本篇基于应用需要，以该数据集为输入，结合研究区shp边界文件，制作用于数据提取/裁剪的掩膜文件。下面为具体内容。1.数据概述中国1km分辨率逐
LeetCode第317题_离建筑物最近的距离 @蓝莓果粒茶算法 leetcode linux 算法 c#学习 python c++
LeetCode第317题：离建筑物最近的距离文章摘要本文详细解析LeetCode第317题"离建筑物最近的距离"，这是一道图论和广度优先搜索的问题。文章提供了基于多源BFS的解法，包含C#、Python、C++三种语言实现，配有详细的算法分析和性能对比。适合想要提升图论算法能力的程序员。核心知识点：广度优先搜索、图论、矩阵遍历难度等级：困难推荐人群：具有图论基础，想要提升算法能力的程序员题目描述
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图宁儿数据安全 #机器学习学习笔记 matplotlib
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图一、绘制混淆矩阵热图代码解析1.1、导入必要的库importmatplotlib.pyplotaspltfromsklearn.metricsimportconfusion_matriximportseabornassnsmatplotlib.pyplot：Python中最常用的绘图库，用于创建各种图表confusion_matr
Python 实战：构建本地多线程定时任务调度器 xiaocainiao881 python 开发语言
引言在企业自动化流程、数据周期更新、本地脚本执行等场景中，定时任务调度器是不可或缺的一类工具。尽管Linux有crontab，Windows有任务计划，但它们不够灵活，缺乏图形界面，不适合动态启停、可视化控制等需求。本文将带你实现一个本地运行的多线程定时任务调度器，具备以下功能：一、项目功能说明1.1功能亮点多任务并行运行（非阻塞）每个任务支持独立间隔设置支持任务启动/停止/删除/修改支持即时日志
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
Python爬虫实战：基于最新技术的定时签到系统开发全解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言人工智能自动化知识图谱
摘要本文详细介绍了如何使用Python开发一个功能完善的定时签到爬虫系统。文章从爬虫基础知识讲起，逐步深入到高级技巧，包括异步请求处理、浏览器自动化、验证码破解、分布式架构等最新技术。我们将通过一个完整的定时签到项目案例，展示如何构建一个稳定、高效且具有良好扩展性的爬虫系统。文中提供了大量可运行的代码示例，涵盖requests、aiohttp、selenium、playwright等多种技术方案，
Python爬虫实战：使用最新技术爬取新华网新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言在当今信息爆炸的时代，网络爬虫技术已经成为获取互联网数据的重要手段。作为国内权威新闻媒体，新华网每天发布大量高质量的新闻内容，这些数据对于舆情分析、市场研究、自然语言处理等领域具有重要价值。本文将详细介绍如何使用Python最新技术构建一个高效、稳定的新华网新闻爬虫系统。二、爬虫技术选型2.1技术栈选择在构建新华网爬虫时，我们选择了以下技术栈：请求库：httpx（支持HTTP/2，异步请求
Mac 电脑crontab执行定时任务【Python 实战】 qifengle2014 Linux Docker Java Python技术分享合集 macos python 开发语言
1、crontab-e编辑定时任务列表crontab-e查看当前定时任务列表，长按i编辑，编辑完之后按esc退出编辑，然后输入:wq保存并提出。如下：(base)charles@zl~%crontab-e5815***/Library/Frameworks/Python.framework/Versions/3.8/bin/python3/Users/charles/Documents/first
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts