目录
一、概述
二、原理
三、爬虫分类
1、传统爬虫
2、聚焦爬虫
3、通用网络爬虫(全网爬虫)
四、网页抓取策略
1、宽度优先搜索:
2、深度优先搜索:
3、最佳优先搜索:
4、反向链接数策略:
5、Partial PageRank策略:
五、网页抓取的方法
1、分布式爬虫
2、Java爬虫
3、非Java爬虫
六、项目实战
1、抓取指定网页
2、抓取包含关键词网页
3、下载贴吧中图片
4、股票数据抓取
六、结语
一、概述
网络爬虫(Web crawler),又称为网络蜘蛛(Web spider)或网络机器人(Web robot),主要用来爬取目标网站内容的程序或脚本。
从功能上来区分网络爬虫:
数据采集
数据处理
数据储存
以上三个部分,基本工作框架流程如下图:
二、原理
功能:下载网页数据,为搜索引擎系统提供数据来源。组件:控制器、解析器、资源库。
Web网络爬虫系统首先将种子URL放入下载队列,然后简单地从队首中取出一个URL下载其对应的网页。得到网页的内容将其储存后,再经过解析网页中的链接信息可以得到一些新的URL,将这些URL加入下载队列。然后取出一个URL,对其对应的网页进行下载,再解析,如此反复进行,直到遍历了整个网络或满足某种条件后才会停止下来。
三、爬虫分类
1、传统爬虫
传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
2、聚焦爬虫
聚焦爬虫工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用链接并将其放入等待抓取URL队列。然后它将根据一定搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统某一条件时停止。另外所有被爬虫抓取的网页将会被系统存储,进行一定的分析、过滤,并建立索引,以便之后的查询和检索。对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
3、通用网络爬虫(全网爬虫)
通用网络爬虫又称全网爬虫, 爬行对象从一些种子URL扩充到整个Web,主要为门户站点搜索引擎和大型Web服务提供商采集数据。这类网络爬虫的爬行范围和数量巨大,对于爬行速度和存储空间要求较高,对于爬行页面顺序要求相对较低,同时由于待刷新页面太多,通常采用并行工作方式,但需要较长时间才能刷新一次页面。虽然存在一定缺陷, 但通用网络爬虫适用于为搜索引擎搜索广泛的主题,有较强应用价值。
实际的网络爬虫系统通常是几种爬虫技术相结合实现的。
四、网页抓取策略
在爬虫系统中,待抓取URL队列是很重要的一部分。队列中URL以什么样顺序排列也是一个很重要的问题,因为这涉及先抓取哪个页面,后抓取哪个页面。
而决定这些URL排列顺序的方法,称之为抓取策略。
1、宽度优先搜索:
在抓取过程中,在完成当前层次搜索后,才进行下一层次搜索。
优点:算法设计和实现相对简单。缺点:随着抓取网页增多,大量无关网页将被下载并过滤,算法效率将变低。
2、深度优先搜索:
从起始网页开始,选择一个URL进入,分析这个网页中的URL,一个链接一个链接地抓取下去,直到处理完一条路线之后再处理下一条URL中的路线。
例如,下图中深度优先搜索的遍历方式时 A 到 B 到 D 到 E 到 F(ABDECF),而宽度优先搜索的遍历方式是 A B C D E F 。
3、最佳优先搜索:
按照一定的网页分析法,预测候选URL与目标网页的相似度,或者与主题的相关性,并选取评价最好的一个或几个URL进行抓取。
4、反向链接数策略:
反向链接数是指一个网页被其他网页链接指向的数量。反向链接数表示的是一个网页的内容受到其他人的推荐程度。
5、Partial PageRank策略:
Partial PageRank算法借鉴了PageRank算法的思想,对于已经下载的网页,连同待抓取URL队列中的URL,形成网页集合,计算每个页面的PageRank值,计算完之后,将待抓取URL队列中的URL按照PageRank值的大小排列,并按照该顺序抓取页面。
五、网页抓取的方法
1、分布式爬虫
用于目前互联网中海量URL管理,它包含多个爬虫(程序),每个爬虫(程序)需要完成的任务和单个爬行器类似。它们从互联网上下载网页,并把网页保存在本地的磁盘,从中抽取URL并沿着这些URL的指向继续爬行。由于并行爬行器需要分割下载任务,可能爬虫会将自己抽取的URL发送给其他爬虫。
这些爬虫可能分布在同一个局域网之中,或分散在不同地理位置。
现在比较流行的分布式爬虫:
Apache Nutch: 依赖hadoop运行,hadoop本身会消耗很多时间。Nutch是为搜索引擎设计的爬虫,如果不是要做搜索引擎,尽量不要选择Nutch。
2、Java爬虫
用Java开发的抓取网络资源的小程序,常用的工具包括Crawler4j、WebMagic、WebCollector等。
3、非Java爬虫
Scrapy: 由Python编写的,轻量级的、高层次的屏幕抓取框架。最吸引人的地方在于Scrapy是一个框架,任何使用者可以根据自己的需求进行进行修改,并具有一些高级函数,可以简化抓取过程。
六、项目实战
1、抓取指定网页
抓取某网首页
使用urllib模块,此模块提供了读取Web页面数据接口,可以像读取本地文件一样读取www和ftp上的数据。urllib是一个URL处理包,这个包中集合了一些处理URL的模块。
urllib.request 模块: 用来打开和读取URLs的。urllib.error 模块: 包含一些由 urllib.request 产生的错误,可以用try进行捕捉处理。urllib.parse 模块: 包含一些解析 URLs的方法。urllib.robotparser: 用来解析 robots.txt 文本文件。它提供了一个单独的 RobotFileParser 类,通过该类提供的 can_fetch() 方法测试爬虫是否可以下载一个页面。
以下代码为抓取某网页的代码:
import urllib.request
url = "https://www.douban.com/"
# 这边需要模拟浏览器才能进行抓取
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36'}
request = urllib.request.Request(url, headers=headers)
response = urllib.request.urlopen(request)
data = response.read()
# 这边需要转码才能正常显示
print(str(data, 'utf-8'))
# 下面代码可以打印抓取网页的各类信息
print(type(response))
print(response.geturl())
print(response.info())
print(response.getcode())
2、抓取包含关键词网页
代码如下:
import urllib.request
data = {'word': '海贼王'}
url_values = urllib.parse.urlencode(data)
url = "http://www.baidu.com/s?"
full_url = url + url_values
data = urllib.request.urlopen(full_url).read()
print(str(data, 'utf-8'))
3、下载贴吧中图片
代码如下:
import re
import urllib.request
# 获取网页源代码
def getHtml(url):
page = urllib.request.urlopen(url)
html = page.read()
return html
# 获取网页所有图片
def getImg(html):
reg = r'src="([.*\S]*\.jpg)" pic_ext="jpeg"'
imgre = re.compile(reg)
imglist = re.findall(imgre, html)
return imglist
html = getHtml('https://tieba.baidu.com/p/3205263090')
html = html.decode('utf-8')
imgList = getImg(html)
imgName = 0
# 循环保存图片
for imgPath in imgList:
f = open(str(imgName) + ".jpg", 'wb')
f.write((urllib.request.urlopen(imgPath)).read())
f.close()
imgName += 1
print('正在下载第 %s 张图片 ' % imgName)
print('该网站图片已经下载完')
4、股票数据抓取
代码如下:
import random
import re
import time
import urllib.request
# 抓取所需内容
user_agent = ["Mozilla/5.0 (Windows NT 10.0; WOW64)", 'Mozilla/5.0 (Windows NT 6.3; WOW64)',
'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko',
'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36',
'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; rv:11.0) like Gecko)',
'Mozilla/5.0 (Windows; U; Windows NT 5.2) Gecko/2008070208 Firefox/3.0.1',
'Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070309 Firefox/2.0.0.3',
'Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070803 Firefox/1.5.0.12',
'Mozilla/5.0 (Macintosh; PPC Mac OS X; U; en) Opera 8.0',
'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.12) Gecko/20080219 Firefox/2.0.0.12 Navigator/9.0.0.6',
'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Win64; x64; Trident/4.0)',
'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)',
'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2; .NET4.0C; .NET4.0E)',
'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Maxthon/4.0.6.2000 Chrome/26.0.1410.43 Safari/537.1 ',
'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2; .NET4.0C; .NET4.0E; QQBrowser/7.3.9825.400)',
'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0 ',
'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.92 Safari/537.1 LBBROWSER',
'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; BIDUBrowser 2.x)',
'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/3.0 Safari/536.11']
stock_total = []
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36'}
for page in range(1, 8):
url = 'http://quote.stockstar.com/stock/ranklist_a_3_1_' + str(page) + '.html'
request = urllib.request.Request(url=url, headers={"User-Agent": random.choice(user_agent)})
response = urllib.request.urlopen(request)
content = str(response.read(), 'gbk')
pattern = re.compile('(.*?)<')
# 正则匹配
stock_page = re.findall(pattern, body[0])
stock_total.extend(stock_page)
time.sleep(random.randrange(1, 4))
# 删除空白字符
stock_last = stock_total[:]
print(' 代码', '\t', ' 简称', '\t', '最新价', '\t', '涨跌幅', '\t', '涨跌额', '\t', '5分钟涨幅')
for i in range(0, len(stock_last), 13):
print(stock_last[i], '\t', stock_last[i + 1], '\t', stock_last[i + 2], ' ', '\t', stock_last[i + 3], ' ', '\t',
stock_last[i + 4], '\t', stock_last[i + 5])
六、结语
以上使用Python版本为 3.9。
本篇内容参考自《Python3 数据分析与机器学习实战》一书,编写此篇以学习为主。
写完就有点懒洋洋的咩~(+ω+)
到此这篇关于python网络爬虫实战的文章就介绍到这了,更多相关python 爬虫内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
你可能感兴趣的:(python网络爬虫实战)
利用Python进行数据可视化(Plotly与Dash的应用)
步入烟尘
Python超入门指南全册 信息可视化 python plotly
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学,从基础到精通不断进阶深入,后续还有实战项目,轻松应对面试,专栏订阅地址:https://blog.csdn.net/mrdeam/category_12647587.html优点:订阅限时19.9付费专栏,私信博主还可进入全栈VIP答疑群,作者优先解答机会(代码指导、远程服务),群里大佬众多可以
百度站群收录2025最新:实战策略与趋势解读
SEO黑猫
百度 dubbo
引言:重新认识站群生态最近接触到一个跨境电商案例:某服饰企业通过搭建15个行业细分站群,在2024年百度收录量同比提升380%。这不禁让人思考——2025年的站群运营,究竟需要哪些创新策略?一、2024实战案例拆解案例背景:某母婴用品品牌通过「三级站群矩阵」实现收录突破:1个品牌主站(权重培育)5个地域分站(长尾词覆盖)9个产品专题站(精准流量捕获)RewriteRule^(.*)/product
从FFmpeg命令行到Rust:多场景实战指南
Yeauty
ffmpeg rust video-codec
FFmpeg作为功能强大的多媒体处理工具,被广泛应用于视频编辑、格式转换等领域。然而,直接使用FFmpeg的命令行界面(CLI)可能会遇到以下挑战:命令复杂度高:FFmpeg的命令行参数众多且复杂,初学者可能难以掌握,配置错误时调试困难。集成困难:在Rust等现代编程语言中,直接调用FFmpeg的C语言API需要处理复杂的内存管理和安全性问题,可能引发内存泄漏、非法访问等问题。为了解决这些问题,R
《Python实战进阶》No26: CI/CD 流水线:GitHub Actions 与 Jenkins 集成
带娃的IT创业者
Python实战进阶 python ci/cd github
No26:CI/CD流水线:GitHubActions与Jenkins集成摘要持续集成(CI)和持续部署(CD)是现代软件开发中不可或缺的实践,能够显著提升开发效率、减少错误并加速交付流程。本文将探讨如何利用GitHubActions和Jenkins构建高效的CI/CD流水线,并通过实战案例展示如何自动化构建、测试和部署Python应用程序。无论你是个人开发者还是团队成员,本文都将帮助你掌握CI/
谈谈 TypeScript 中的模块系统,如何使用 ES Modules 和 CommonJS 模块?
程序员黄同学
TypeScript 前端开发 JavaScript typescript ubuntu javascript
模块系统是TypeScript项目组织代码的核心机制,主要用于代码拆分、复用和依赖管理。TypeScript支持ESModules(ESM)和CommonJS两种主流模块系统,理解它们的差异和使用场景是前端开发中的必备技能。以下从基础语法、配置、互操作性到实战建议展开说明。一、ESModules(ESM):标准化的模块系统1.基础语法ESM使用import/export语法,是ECMAScript
Hive函数大全:从核心内置函数到自定义UDF实战指南(附详细案例与总结)
一个天蝎座 白勺 程序猿
大数据开发从入门到实战合集 hive hadoop 数据仓库
目录背景一、Hive函数分类与核心函数表1.内置函数分类2.用户自定义函数(UDF)分类二、常用函数详解与实战案例1.数学函数2.字符串函数3.窗口函数4.自定义UDF实战三、总结与优化建议1.核心总结2.性能优化建议3.常问问题背景Hive作为Hadoop生态中最常用的数据仓库工具,其强大的函数库是高效处理和分析海量数据的核心能力之一。Hive函数分为内置函数和用户自
C#运算符与表达式:从入门到游戏伤害计算实践
吴师兄大模型
C#编程从入门到进阶 c# 游戏 开发语言 运算符 表达式 变成 游戏程序
Langchain系列文章目录01-玩转LangChain:从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块:四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain:从核心链条构建到动态任务分配的实战指南04-玩转LangChain:从文档加载到高效问答系统构建的全程实战05-玩转LangChain:深度评估问答系统的三种高效方法(示例生成、手
思维链在可控核聚变等离子体控制中的应用:AI驱动的能源革命
AI大模型应用之禅
DeepSeek 人工智能 能源 ai
概述《思维链在可控核聚变等离子体控制中的应用:AI驱动的能源革命》旨在探讨AI技术在可控核聚变等离子体控制中的实际应用,以及如何通过思维链实现能源革命。本文将从以下几个方面展开讨论:核聚变等离子体控制背景、思维链技术介绍、AI在等离子体控制中的应用、算法原理与实现、系统设计与实现、项目实战以及最佳实践与展望。一、核聚变等离子体控制背景核聚变是一种通过将轻原子核在高温高压下聚合成更重的原子核,释放出
巴菲特的成功秘诀:长期持有优质股票
AI大模型应用之禅
DeepSeek 大数据 人工智能 ai
巴菲特的成功秘诀:长期持有优质股票关键词:巴菲特、投资哲学、股票选择、风险管理、长期持有、优质股票摘要:本文将深入探讨巴菲特的成功秘诀——长期持有优质股票。通过分析巴菲特的投资理念、股票选择方法、投资策略与风险管理,结合实际案例,总结出投资者可以借鉴的投资实战指南,以期为读者提供有价值的投资参考。1.开篇:书名介绍与作者介绍本书《巴菲特的成功秘诀:长期持有优质股票》旨在揭示世界著名投资家沃伦·巴菲
Git 实战指南:本地客户端连接 Gitee 全流程
Yant224
Git git gitee 开发语言 python
本文将以Gitee(码云)、系统Windows11为例,详细介绍从本地仓库初始化到远程协作的全流程操作目录1.前期准备1.1注册与配置Gitee1.2下载、安装、配置客户端1.3配置公钥到Gitee2.本地仓库操作(PowerShell/GitBash)2.1初始化本地仓库2.2关联Gitee远程仓库3.克隆已有仓库4.日常开发操作4.1分支管理(GitBash示例)4.2处理换行符问题(CRLF
AI:188-利用Python进行自然语言生成和文本摘要
一键难忘
python 开发语言 人工智能 自然语言处理
本文收录于专栏:精通AI实战千例专栏合集https://blog.csdn.net/weixin_52908342/category_11863492.html从基础到实践,深入学习。无论你是初学者还是经验丰富的老手,对于本专栏案例和项目实践都有参考学习意义。每一个案例都附带关键代码,详细讲解供大家学习,希望可以帮到大家。正在不断更新中~一.利用Python进行自然语言生成和文本摘要近年来,人工智
使用Windbg分析dump文件定位软件异常的方法与操作步骤
dvlinker
C++软件调试 异常排查 Windbg Windbg命令 dump文件 pdb符号文件 函数调用堆栈
目录1、Windbg简介2、Windbg版本与安装3、Windbg常用命令4、静态分析dump文件的一般步骤4.1、查看异常类型4.2、使用.ecxr命令切换到发生异常的线程上下文,查看发生异常的那条汇编指令4.3、使用kn/kv/kp命令查看异常发生时的函数调用堆栈4.4、使用lm命令查看模块的时间戳,找到对应的pdb文件,设置到Windbg中5、实战问题分析实例说明6、使用Windbg详细分析
C#入门:从变量与数据类型开始你的游戏开发之旅
吴师兄大模型
C#编程从入门到进阶 c# 开发语言 变量与数据类型 游戏开发 Unity基础 C#变量 数据类型
Langchain系列文章目录01-玩转LangChain:从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块:四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain:从核心链条构建到动态任务分配的实战指南04-玩转LangChain:从文档加载到高效问答系统构建的全程实战05-玩转LangChain:深度评估问答系统的三种高效方法(示例生成、手
程序员必看!DeepSeek全栈开发实战指南:从代码生成到性能优化
AI创享派
后端
一、DeepSeek技术新突破:程序员效率革命(开篇结合最新技术动态)2025年2月25日,DeepSeek接连放出两大技术王牌:全球首个面向MoE模型的全栈通信库DeepEP开源,以及深度思考R1模型的全面升级。这两项技术突破对程序员群体意义重大:通信效率飞跃:DeepEP通过NVLink优化实现GPU间158GB/s传输速度,后端开发者训练大模型时可节省60%集群资源推理性能突破:R1模型在H
基于生成对抗网络(GAN)的图像超分辨率实战:从SRGAN到ESRGAN
Evaporator Core
# 深度学习 强化学习 生成模型 生成对抗网络 人工智能 神经网络
图像超分辨率(ImageSuper-Resolution)是一种通过算法将低分辨率图像转换为高分辨率图像的技术,广泛应用于医学影像、卫星图像和视频增强等领域。生成对抗网络(GAN)是图像超分辨率的经典方法,而增强型超分辨率生成对抗网络(ESRGAN)则通过引入残差网络和感知损失进一步提升了图像质量。本文将通过一个完整的实战案例,展示如何使用SRGAN和ESRGAN进行图像超分辨率,并提供详细的代码
Pandas与PySpark混合计算实战:突破单机极限的智能数据处理方案
Eqwaak00
Pandas pandas 学习 python 科技 开发语言
引言:大数据时代的混合计算革命当数据规模突破十亿级时,传统单机Pandas面临内存溢出、计算缓慢等瓶颈。PySpark虽能处理PB级数据,但在开发效率和局部计算灵活性上存在不足。本文将揭示如何构建Pandas+PySpark混合计算管道,在保留Pandas便捷性的同时,借助Spark分布式引擎实现百倍性能提升,并通过真实电商用户画像案例演示全流程实现。一、混合架构设计原理1.1技术栈优势分析维度P
5大陷阱+实战:C#日志分析,从‘日志迷宫’到‘监控神殿’的逆袭全攻略!
墨瑾轩
C#乐园 c# 网络 开发语言
关注墨瑾轩,带你探索编程的奥秘!超萌技术攻略,轻松晋级编程高手技术宝库已备好,就等你来挖掘订阅墨瑾轩,智趣学习不孤单即刻启航,编程之旅更有趣你的日志还在‘打哑谜’吗?“错误日志像‘天书’读不懂?监控告警像‘哑巴’不发声?”——别慌!今天用C#日志分析,让你的系统像“福尔摩斯”一样精准破案,从实时监控到根因定位,从此告别“黑盒运维”!权威背书:日志分析≠‘抄作业’!“90%的故障因‘日志解析缺失’导
PyTorch 深度学习实战(12):Actor-Critic 算法与策略优化
进取星辰
PyTorch 深度学习实战 深度学习 pytorch 算法
在上一篇文章中,我们介绍了强化学习的基本概念,并使用深度Q网络(DQN)解决了CartPole问题。本文将深入探讨Actor-Critic算法,这是一种结合了策略梯度(PolicyGradient)和值函数(ValueFunction)的强化学习方法。我们将使用PyTorch实现Actor-Critic算法,并应用于经典的CartPole问题。一、Actor-Critic算法基础Actor-Cri
PyTorch 深度学习实战(17):Asynchronous Advantage Actor-Critic (A3C) 算法与并行训练
进取星辰
PyTorch 深度学习实战 深度学习 pytorch 算法
在上一篇文章中,我们深入探讨了SoftActor-Critic(SAC)算法及其在平衡探索与利用方面的优势。本文将介绍强化学习领域的重要里程碑——AsynchronousAdvantageActor-Critic(A3C)算法,并展示如何利用PyTorch实现并行化训练来加速学习过程。一、A3C算法原理A3C算法由DeepMind于2016年提出,通过异步并行的多个智能体(Worker)与环境交互
OpenCV-Python实战(1)——OpenCV简介与图像处理基础
数字化转型2025
AI人工智能方向 opencv python 图像处理
OpenCV介绍Python安装OpenCV:对于Linux和Windows操作系统,首先需要在shell或cmd中运行以下命令安装NumPy:pipinstallnumpy。然后再安装OpenCV,可以选择仅安装主模块包:pipinstallopencv-python,或者安装完整包(包括主模块和附加模块):pipinstallopencv-contrib-python。OpenCV主要模块:O
开发规范与编码标准原理与代码实战案例讲解
AI天才研究院
DeepSeek R1 & 大数据AI人工智能大模型 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 计算科学 神经计算 深度学习 神经网络 大数据 人工智能 大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
开发规范与编码标准原理与代码实战案例讲解作者:禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming/TextGenWebUILLM开发规范与编码标准原理与代码实战案例讲解1.背景介绍1.1问题的由来随着软件工程的快速发展,尤其是在大型团队协作下开发复杂系统时,一致性、可读性、维护性成为影响代码质量的关键因素。不一致的开发风格、冗余的代码模式以及缺乏标准化的命名
【商城实战(39)】Spring Boot 携手微服务,商城架构焕新篇
奔跑吧邓邓子
商城实战 架构 spring boot 微服务 商城实战
【商城实战】专栏重磅来袭!这是一份专为开发者与电商从业者打造的超详细指南。从项目基础搭建,运用uniapp、ElementPlus、SpringBoot搭建商城框架,到用户、商品、订单等核心模块开发,再到性能优化、安全加固、多端适配,乃至运营推广策略,102章内容层层递进。无论是想深入钻研技术细节,还是探寻商城运营之道,本专栏都能提供从0到1的系统讲解,助力你打造独具竞争力的电商平台,开启电商实战
电商 API 接口开发实战:以淘宝商品描述 API 为例
javapython爬虫
在电商领域,API接口扮演着至关重要的角色,它连接着平台、商家和开发者,为数据流通和功能扩展提供了桥梁。本文将以淘宝商品描述API为例,带你走进电商API接口开发实战,从零开始构建你的数据应用。一、准备工作注册淘宝开放平台账号:访问淘宝开放平台或第三方服务数据,注册开发者账号。完成实名认证,创建应用并获取AppKey和AppSecret。了解API文档:仔细阅读淘宝商品API文档,了解接口功能、请
HarmonyNext实战:基于ArkTS的分布式任务调度系统开发
harmonyos
HarmonyNext实战:基于ArkTS的分布式任务调度系统开发引言在HarmonyNext生态系统中,分布式任务调度是一个复杂且关键的需求。无论是大规模数据处理,还是多设备协同计算,都需要高效、可靠的任务调度机制。本文将深入探讨如何基于ArkTS设计和实现一个分布式任务调度系统,适配HarmonyNext,并满足实际工程中的高性能和高可靠性需求。本文面向有一定开发经验的读者,假设您已经熟悉Ha
企业本地化部署实战:基于Websoft9构建私有化生产力平台
开源
在数字化转型的浪潮中,企业越来越重视对数据主权和应用灵活性的掌控。而本地化部署(On-Premises)正成为许多组织的首选方案——它不仅能够满足数据合规需求,还能深度定制功能,适配企业独特的工作流程。本文将探讨如何通过Websoft9面板的本地部署,结合EPP、AI工具与知识库等应用,构建一个高效、安全的企业生产力平台。一、为什么选择本地部署?数据主权与合规性企业核心数据(如客户信息、财务记录)
《AI大模型趣味实战》 No3:快速搭建一个漂亮的AI家庭网站-相册/时间线/日历/多用户/个性化配色/博客/聊天室/AI管家(下)
带娃的IT创业者
AI大模型趣味实战 人工智能 xcode macos
《AI大模型趣味实战》No3:快速搭建一个漂亮的AI家庭网站-相册/时间线/日历/多用户/个性化配色/博客/聊天室/AI管家(下)摘要本文介绍了家庭网站V1.3版本的更新内容,主要聚焦于AI管家功能的优化与完善。V1.3版本对AI管家模块进行了全面升级,包括使用更快速的GLM-4-Flash模型、优化语音交互体验、改进用户界面以及增强系统稳定性。本文详细解析了这些改进的技术实现,包括语音识别与合成
《前端监控与性能优化全景指南:构建企业级高性能应用》
前端极客探险家
前端 性能优化 sentry prometheus grafana
文章目录前言技术栈覆盖范围一、监控体系架构设计1.1全链路监控系统组成1.2核心监控指标清单二、性能数据采集实战2.1增强版性能采集器2.2用户行为轨迹录制三、深度性能优化策略3.1构建阶段优化(Webpack5示例)3.2运行时优化技巧四、错误监控与智能诊断4.1增强型错误边界4.2网络请求监控五、生产环境调优指南5.1Nginx极致配置5.2CDN策略优化六、自动化质量保障体系6.1CI/CD
php开发转go的学习计划及课程资料信息
老李要转行
php golang 学习
以下是为该课程体系整理的配套教材和教程资源清单,包含书籍、视频、官方文档和实战项目资源,帮助你系统化学习:Go语言学习教材推荐(PHP开发者适配版)一、核心教材(按学习阶段分类)1.基础语法阶段(阶段一)资源类型名称推荐理由链接/获取方式官方教程Go语言之旅交互式学习,快速上手基础语法官方免费中文书籍《Go语言入门指南》专为有其他语言经验的开发者编写京东/当当速查手册Go速查表PHP与Go语法对比
Haskell语言的迭代器
祝瑾萱
包罗万象 golang 开发语言 后端
Haskell语言的迭代器:深入理解与实战应用引言Haskell是一种纯函数式编程语言,以其强大的类型系统和惰性求值特性而闻名。在Haskell中,迭代器(Iterator)是一个非常重要的概念,尤其是在处理大规模数据或无限序列时。本文将深入探讨Haskell中的迭代器,包括其基本概念、实现方式、常见应用场景以及如何在实际项目中高效使用迭代器。一、迭代器的基本概念1.1什么是迭代器?在编程中,迭代
仙境传说(RO)私人服务器端源代码实战指南
你这人真狗
本文还有配套的精品资源,点击获取简介:《仙境传说(RO)》是一款韩国MMORPG游戏,其私人服务器端源代码让游戏爱好者能自定义游戏环境。源代码使用DELPHI语言编写,涵盖游戏核心功能如玩家移动、战斗和交易等,并支持定制化游戏体验。该代码包含网络通信机制,允许高效的数据交换和游戏状态更新。DELPHI开发者可利用第三方网络库实现服务器与客户端间的通信。该源代码下载需要一定的编程基础和网络编程知识,
[星球大战]阿纳金的背叛
comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的.........
但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会
所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它,你就可以任性的玩耍了!
aijuans
JavaScript
javascript作为前端开发的标配技能,如果不掌握好它的三大特点:1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢?如果标配的技能都没有撑握好,怎么可以任性的玩耍呢?怎么验证自己学好了以上三个基本点呢,我找到一段不错的代码,稍加改动,如果能够读懂它,那么你就可以任性了。
function jClass(b
Java常用工具包 Jodd
Kai_Ge
java jodd
Jodd 是一个开源的 Java 工具集, 包含一些实用的工具类和小型框架。简单,却很强大! 写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb
Jodd 被分成众多模块,按需选择,其中
工具类模块有:
jodd-core &nb
SpringMvc下载
120153216
springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD)
public void download(HttpServletRequest request,HttpServletResponse response,String fileName) {
OutputStream os = null;
InputStream is = null;
Python 标准异常总结
2002wmj
python
Python标准异常总结
AssertionError 断言语句(assert)失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF(Ctrl+d) FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询
357029540
SQL Server
这两天在做一个查询的SQL,这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据,这些数据都是INT类型,然后用IN条件进行查询,并且查询这两张表需要通过外部传入参数才能查询出所需数据,于是想到了用SQL函数返回值,并且也这样做了,由于是返回多条数据,所以把查询出来的INT类型值都拼接为了字符串,这时就遇到问题了,在查询SQL中因为条件是INT值,SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区 个人笔记
7454103
java eclipse tomcat c MyEclipse
个人总结! 不当之处多多包含!
引用 1.0 如何设置 tomcat 的时区:
位置:(catalina.bat---JAVA_OPTS 下面加上)
set JAVA_OPT
时间获取Clander的用法
adminjun
Clander 时间
/**
* 得到几天前的时间
* @param d
* @param day
* @return
*/
public static Date getDateBefore(Date d,int day){
Calend
JVM初探与设置
aijuans
java
JVM是Java Virtual Machine(Java虚拟机)的缩写,JVM是一种用于计算设备的规范,它是一个虚构出来的计算机,是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息,使Java程序只需生成在Java虚拟机上运行的目标代码(字节码),就可以在多种平台
SQL中ON和WHERE的区别
avords
SQL中ON和WHERE的区别
数据库在通过连接两张或多张表来返回记录时,都会生成一张中间的临时表,然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时,on和where条件的区别如下: 1、 on条件是在生成临时表时使用的条件,它不管on中的条件是否为真,都会返回左边表中的记录。
说说自信
houxinyou
工作 生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗?
无论工作还
WEBLOGIC事务超时设置
bijian1013
weblogic jta 事务超时
系统中统计数据,由于调用统计过程,执行时间超过了weblogic设置的时间,提示如下错误:
统计数据出错!
原因:The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去,再看该如何快速融入新团队
bingyingao
java 互联网 融入 架构 新团队
偶得的空闲,翻到了两年前的帖子
该如何快速融入一个新团队,有所感触,就记下来,为下一个两年后的今天做参考。
时隔两年半之后的今天,再来看当初的这个博客,别有一番滋味。而我已经于今年三月份离开了当初所在的团队,加入另外的一个项目组,2011年的这篇博客之后的时光,我很好的融入了那个团队,而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log
bit1129
apache
Spark分析Nginx和Apache的access.log,第一个问题是要对Nginx和Apache的access.log文件进行按行解析,按行解析就的方法是正则表达式:
Nginx的access.log解析正则表达式
val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch
bookjovi
erlang
Totally five patchs committed to erlang otp, just small patchs.
IMO, erlang really is a interesting programming language, I really like its concurrency feature.
but the functional programming style
log4j日志路径中加入日期
bro_feng
java log4j
要用log4j使用记录日志,日志路径有每日的日期,文件大小5M新增文件。
实现方式
log4j:
<appender name="serviceLog"
class="org.apache.log4j.RollingFileAppender">
<param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式
bylijinnan
java 设计模式
声明: 本文只为方便我个人查阅和理解,详细的分析以及源代码请移步 原作者的博客http://chjavach.iteye.com/
/**
* 个人觉得关于桥接模式的例子,蜡笔和毛笔这个例子是最贴切的:http://www.cnblogs.com/zhenyulu/articles/67016.html
* 笔和颜色是可分离的,蜡笔把两者耦合在一起了:一支蜡笔只有一种
windows7下SVN和Eclipse插件安装
chenyu19891124
eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装,今天弄好了。svn插件和Eclipse整合有两种方式,一种是直接下载插件包,二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别,始终是没装上。最后在网上找到了适合的版本。所用的环境系统:windows7JDK:1.7svn插件包版本:1.8.16Eclipse:3.7.2工具下载地址:Eclipse下在地址:htt
[转帖]工作流引擎设计思路
comsci
设计模式 工作 应用服务器 workflow 企业应用
作为国内的同行,我非常希望在流程设计方面和大家交流,刚发现篇好文(那么好的文章,现在才发现,可惜),关于流程设计的一些原理,个人觉得本文站得高,看得远,比俺的文章有深度,转载如下
=================================================================================
自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存,CPU及硬盘大小的方法
daizj
linux cpu 内存 硬盘 大小
一、查看CPU信息的命令
[root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id"
model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz
model name :
linux 踢出在线用户
dongwei_6688
linux
两个步骤:
1.用w命令找到要踢出的用户,比如下面:
[root@localhost ~]# w
18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00
USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样
dcj3sjt126com
内容提要:
静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事,触碰生命最深层次的感动,献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由,将那些令你痛苦的、扛起的、背负的,一并都放下吧!把憔悴的面容换做一种清淡的微笑,把沉重的步伐调节成春天五线谱上的音符,让自己踏着轻快的节奏,在人生的海面上悠然漂荡,享受宁静与
php二进制安全的含义
dcj3sjt126com
PHP
PHP里,有string的概念。
string里,每个字符的大小为byte(与PHP相比,Java的每个字符为Character,是UTF8字符,C语言的每个字符可以在编译时选择)。
byte里,有ASCII代码的字符,例如ABC,123,abc,也有一些特殊字符,例如回车,退格之类的。
特殊字符很多是不能显示的。或者说,他们的显示方式没有标准,例如编码65到哪儿都是字母A,编码97到哪儿都是字符
Linux下禁用T440s,X240的一体化触摸板(touchpad)
gashero
linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大,其中最让人恼火的莫过于触摸板。
Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位,还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板,不再有实体的按键了。问题是要是好用也行。
实际使用中,触摸板一堆问题,比如定位有抖动,以及按键时会有飘逸。这就导致了单击经常就
graph_dfs
hcx2013
Graph
package edu.xidian.graph;
class MyStack {
private final int SIZE = 20;
private int[] st;
private int top;
public MyStack() {
st = new int[SIZE];
top = -1;
}
public void push(i
Spring4.1新特性——Spring核心部分及其他
jinnianshilongnian
spring 4.1
目录
Spring4.1新特性——综述
Spring4.1新特性——Spring核心部分及其他
Spring4.1新特性——Spring缓存框架增强
Spring4.1新特性——异步调用和事件机制的异常处理
Spring4.1新特性——数据库集成测试脚本初始化
Spring4.1新特性——Spring MVC增强
Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证
liyonghui160com
具体从网上看
http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication
LDAP Authentication using OpenLDAP
Setting
一位30多的程序员生涯经验总结
pda158
编程 工作 生活 咨询
1.客户在接触到产品之后,才会真正明白自己的需求。
这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候,他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间,所有安全防御系统都将失败。
安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它,因为黑客只要有一次成功,就可以彻底打败你。 3.
分布式web服务架构的演变
自由的奴隶
linux Web 应用服务器 互联网
最开始,由于某些想法,于是在互联网上搭建了一个网站,这个时候甚至有可能主机都是租借的,但由于这篇文章我们只关注架构的演变历程,因此就假设这个时候已经是托管了一台主机,并且有一定的带宽了,这个时候由于网站具备了一定的特色,吸引了部分人访问,逐渐你发现系统的压力越来越高,响应速度越来越慢,而这个时候比较明显的是数据库和应用互相影响,应用出问题了,数据库也很容易出现问题,而数据库出问题的时候,应用也容易
初探Druid连接池之二——慢SQL日志记录
xingsan_zhang
日志 连接池 druid 慢SQL
由于工作原因,这里先不说连接数据库部分的配置,后面会补上,直接进入慢SQL日志记录。
1.applicationContext.xml中增加如下配置:
<bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc