Upupup6

PyTorch框架：（6）图像识别实战常用模块解读

1、TorchVision

官网：torchvision — Torchvision 0.10.0 documentation

在torchvision这个模块当中，包含了很多后续需要的功能：

需要自己安装这个模块pip install torchvision。安装完之后我们就可以使用这里边的三大核心模块了。

（1）torchvision.datasets里边不止封装了我们常用的数据集，可以下载和使用的；并且还定义了一些方法，比如数据该如何存放，然后让我们分类模型构建的更方便一些。

（2）models模块里边包含了很多经典网络架构的实现，还可以拿到他们预训练的模型(训练好的权重和偏置)，要这些权重和偏置的作用(在我们训练网络模型的时候我们得对权重和偏置自己初始化，接下来去训练，不断的调解w和b，但是可能会存在一个问题，我们自己训练的模型可能收敛的比较慢，收敛程度可能也不是很好，人家训练的模型有一个好处，人家训练的模型任务可能跟我们差不多，他们训练好的卷积层和池化层跟我们现在要用的卷积和全连接带参数的这些也是类似的，那么用他们的权重参数帮我们初始化会使得训练更容易一些，之后会给大家演示如何做迁移学习(拿人家的权重当做我们的初始化)这件事)

（3）torchvision.transforms模块：当我们读进来数据比如一个图像数据，我们可以对这个图像数据做一个预处理，比如说一些resize操作，去均值，标准化，然后再做一些data Augmentation数据增强(样本数据能够变换的更多一些)操作，这些在transforms中都有，人家都帮我们实现好了，所以图像预处理操作，transforms里边都有，我们直接用就好了。

2、分类任务数据集定义预配置

2.1、数据文件夹的定义：

3、花朵分类任务实战

3.1、导入模块

3.2、数据读取与预处理

3.2.1、数据读取

3.2.2、数据预处理

数据增强：

比如说我现在有了一张猫的图像，但是我就一张图像，我能不能让这张图像更多一些呢？所以可以直接把这张图像做一个翻转，就是另外的一个图像，就把一张图像变成两张图像，这只是其中一种方法(所以其中一个功能就是我们原始的输入数据可能没有那么多，那我得想办法让数据量更多起来)；还可以对猫做旋转，他还是一个猫，只不过是图像里边的像素点全变了，这个图像矩阵全变了，这就是我们得到了新的数据，这是旋转也是比较常见的；对猫进行放大和缩小，可能爪子没了只剩下脸了，但是还是一个猫，我就得到了另外的一个图像了；也可以旋转翻转缩放组合起来使用。只要我们对数据做了一个图像当中的变化，就可以得到另外的一些数据；数据增强要做的其中一件事就是这个，扩大数据量。一张图像只利用了一次太浪费了，可以变换一下多利用几次。

PS：torchvision模块里边给我们提供了data Augmentation里边常用的一些方法，这个模块里边提供好了，这样就不用再使用opencv去做了，torchvision里边几行代码就搞定了。

数据增强在代码中的实现：

第一步：指定一个data_transforms，data_transforms是这样的我先按照流水线的模式去写一写，一旦图像来了之后，他的一个变化换都先经过哪个变换，然后再经过哪个变换，再经过哪个变换，按照顺序去写；

对数据做一个角度的旋转：transforms.RandomRotation(45)这里的45并不是说只旋转45度，而是在+45或者-45之间随机的选择一个角度进行旋转。(我们要做数据增强，一般都会强调随机)

裁剪：我们拿到的数据可能有的大有的小规格不一，先需要做一个resize操作，一般先将图像resize成256x256的，然后再裁剪；这里CenterCop(224)以中心进行裁剪，就留下一个224x224的区域；也可以进行随机裁剪，这样随机裁剪的话224x224的区域就会很多了。

反转：水平翻转、竖直反转；RandomHorizontalFilp和RandomVerticalFilp，做一个镜面变换，原来猫在左边，变到右边的过程；传进来p是概率表示一张图像当去执行我们这样的流水线的时候，执行翻转到这一步的时候，他会选择随机的概率，他有50%的概率会去执行这个翻转，50%他是不动的；

图像中的基本变换：亮度、对比度、饱和度、可以传进来一些参数来做变换；ColorJitter();

灰度图：此处的概率比较小，只有2.5%的可能性，把我当前的图像再转化成灰度图(如果说原来他就是彩色图的时候，转灰度图保留的也是3通道，只不过说R=G=B都是一样的)。

transforms.ToTensor做完变换之后把数据转化成tensor的格式。

做标准化操作，一会会拿别人训练好的模型去做，比如使用VGG或者Resnet都可以，人家在训练的时候，比如说在Imagenet上训练，人家减了个均值除以人家的标准差，做了个标准化操作，为了做迁移学习效果更好，把我们的数据跟人家的越类似越好，人家怎么做的我们就怎么做，他们做了个标准化处理，我们也做一个但是这里我们减的均值和标准差都是人家计算好的(也得拿人家的去做)，不能使用自己的。

----------------上述是在训练集上去做。

验证集不需要做数据增强，验证集就是我现在训练好一个模型之后，我看一下模型效果好不好，把验证效果往里边一丢看一下效果就好了。

多了一个resize操作，防止拿的数据非常大，先resize一下，再裁剪成224大小，再转成tensor的格式，然后再转化成标准化操作。

PS：在我们做数据的时候，你训练集是怎么做预处理的，你测试集也得怎么做预处理。

3.3、构建训练的数据集

第一步：指定batch_size。

第二步：把数据结构读进来。使用的是datasets里边的ImageFolder模块。(文件夹中数据已经放好了，只用告诉我他当前的一个路径就好了)

打印查看构建的数据：

----------------------------------至此把数据全部的构建好了--------------

在数据中还提供了一个json文件：表示的是每一个花它对应的标签，因为之后在预测的时候我们需要得到的是一个类别值，其实正常情况下先得到他类别的概率值，然后在概率值当中选择最大的一个，找到当前的概率值对应的是哪个类别，但是我们得到的是类别的编号，比如说23，这里编号对应的是他实际类别的名字，

展示数据：

在我们构建好的数据当中，可以把数据读进来看一看这个数据实际长什么样子，PS：现在我们做好的tensor做好的数据当中，他都是已经预处理完的数据了，如果说你需要把这个数据拿出来做展示的话，你需要把这些处理过的数据还原回去，还原步骤：

正常情况下我们的数据是 $h\times w\times c$ 的，但是在torch当中它的颜色通道是不太一样的，他是把颜色通道放到了第一个，所以需要执行一个image.transpose操作把这个 $h\times w\times c$ 还原回去。
把做的标准化还原回去，先乘再加。

只要是迭代一次那就是取了一个batch数据，把这个batch数据拿到手，把数据展示一下，标签显示在他的上边就可以了。

3.4、加载训练好的网络模型

在model中加载人家已经提供的模型，比如说VGG，并且还要用人家已经训练好的权重来当作我们初始化的参数；

把网络加载进来，这里使用的是resnet152层网络来做的。现在model当中，把这个模型给加载进来，再打印这个模型，看一下一步步人家这个模型是怎么去做的。

看一下最后一个全连接层是2048x1000人家的网络是1000分类的，所以我们需要根据自己的任务需求将1000分类改成我们自己的分类数。拿到别人的模型后，但是别人的模型跟我们的任务可能不太一样，我们需要改一改。

3.5、初始化模型(参考pytorch官网例子)

参数：模型的名字model_name，类别个数num_classes；

第一步：加载进来模型，此处添加了一个参数就是pretrained=use_pretrained意思就是要不要把人家的模型也下载下来，模型的网络架构就是代码，在代码当中给他生成就好了；如果要下载别人的预训练模型必须要有一个下载的操作，如果把pretrained指定为true值，他会自动的帮大家进行下载。

第二步：有选择性的冻住一些层(把这些层指定为false就是不做训练，不做更新，即在迁移学习中指定哪些层进行训练)

第三步：重新的做全连接层，model_ft.fc()；

如何去构建一个网络：第一步把网络模型拿过来，并且指定pretrained model等于true，相当于用别人训练好的我们去做；第二步：我们指定要不要把某些层给他冻住，在上边可以指定，在进行梯度更新时给他指定为False，(即param.requires_grad=False)相当于给他冻住。第三步：需要把最后的全连接层给他修改一下与自己任务一致。

3.6、设置哪些层需要训练

我们上边写了一个函数def initalize_model()，但是还没有去做，把这个函数实际执行一下，

参数：model_name选择模型resnet传进行；实际的分类结果102；选择要不要去冻住某些层feature_extract；是否使用别人的pretrained model即use_pretrained=True；

3.7、优化器设置

学习率一开始指定为lr并没有特别小，因为下边有一个学习率衰减的策略，让他随着我们的学习慢慢的变小。利用衰减函数optim.lr_scheduler.StepLR()在optim中有一个lr_scheduler学习率衰减的策略StepLR，可以随着你迭代的step进行一个衰减的，参数是把你的优化器传进去，然后告诉我一个step_size，迭代多少个epoch之后，学习率衰减多少；gamma就是你衰减的比率；

3.8、训练模块

参数：model是模型；定义的一个batch,一个batch取数据dateloaders；损失函数criterion；优化器optimizer；训练多少个epoch，num_epoch；后边参数可以不用去管，表示要不要去用一些其他的网络，is_inception；

best_acc表示保存一个最好的准确率，因为在迭代过程当中我要保存模型，我可能不是所有模型都进行保存的，我可能是每一个epoch都要做一个验证，哪个epoch验证集效果要好，我把当前这个模型保存下来比较合适，不是保存最后一个而是保存哪个最好。

best_model表示：在学习的过程当中我们要把他学习的结果给他拿到手，在迭代的过程中要进行一个实时的更新，model当中他当前的这个模型或者说权重参数每次更新她都会变，我希望把最好的那次给拿过来保存。

最后加载一个最好的模型当作我们的训练结果；

3.9、开始训练

上述训练只改变了最后一层，前边都是保持不变的，再继续训练所有的层，训练全部的网络(parameter.requires_grad=True)

之前已经保存了一个最好的结果了，接下来再训练的时候，把这个模型读进来在此基础上进行训练，(filename就是保存了之前训练的较好的模型)

3.10、测试

所谓测试就是走一遍网络的前向传播，传进来一张图像，再把model传进去；先把模型加载进来，

进行测试：

绿色的表示预测对了，红色的标识预测错了；

你可能感兴趣的:(Deep,learning,pytorch,python)

Python中什么时候需要返回值，什么时候不需要返回值？？？似乎很简单 Python学习日记 python 开发语言
在Python中，函数是否需要返回值取决于它的设计目的和功能需求。需要返回值的情况计算结果需要被后续代码使用当函数的主要目的是计算或生成数据，且调用方需要这些结果时：defadd(a,b):returna+b#结果需要被其他代码使用total=add(3,5)#需要返回值需要传递状态或信息如果函数执行后需要告诉调用方是否成功、返回状态码或错误信息：defvalidate_input(input):
Python中的高阶函数---便捷的语法书写！！！！，可以简化一些函数的书写！！！似乎很简单 Python学习日记 python 开发语言学习笔记
目录1.map()函数示例1：单可迭代对象（平方运算）示例2：多可迭代对象（元素相加）2.mapvs列表推导式什么是列表推导式（ListComprehension）？对比示例列表推导式的优势map的优势5.实际应用场景场景1：批量转换数据类型场景2：多列数据处理场景3：链式操作6.性能与注意事项总结3.sorted()函数1.语法：sorted(iterable,*,key=None,revers
Seaborn高阶玩法全解析：从复杂图表到多图布局的可视化实战指南
数据可视化就像给数据“画肖像”——初级阶段是勾勒轮廓，高级阶段则是赋予灵魂。在Python可视化生态中，Seaborn凭借“一行代码出美图”的优雅，成为数据分析的“画笔利器”。但你是否遇到过这样的场景：想同时展示数据分布与统计量，却被基础图表限制；想批量绘制分面图，手动拼接效率低下；想让图表更具设计感，却对颜色搭配和注解技巧一知半解？本文将带你解锁Seaborn的高阶玩法，从复杂图表绘制到多图布局
内网环境部署Deepseek+Dify，构建企业私有化AI应用我是鲁阿姨
0.简介#公司为生产安全和保密，内部的服务器不可连接外部网络，为了可以在内网环境下部署，采用的方案为ollama(Docker)+Dify(DockerCompose)，方便内网环境下迁移和备份，下文将介绍部署的全部过程。1.镜像拉取#镜像拉取为准备工作，因服务器在内网环境，需要先在可以连接外网的电脑上拉取相关镜像或文件。由于公司笔记本的Windows系统屏蔽了MicrosoftStore，导致D
scanpy保存图片的常用方法汇总 Bio Coder 空间转录组 &单细胞 scanpy 保存图片汇总
在使用Scanpy（一个用于单细胞RNA测序数据分析的Python库）时，保存图片（如可视化结果）是常见的操作。Scanpy的绘图功能主要基于Matplotlib和Seaborn，保存图片的方法也与这些库的保存机制一致。以下是Scanpy保存图片的详细方法及注意事项：1.基本保存图片的方法Scanpy的绘图函数（如sc.pl.umap、sc.pl.tsne、sc.pl.pca等）通常会返回Matp
MCP Streamable HTTP 样例（qbit） pythonagent
前言模型上下文协议（ModelContextProtocol，MCP），是由Anthropic推出的开源协议，旨在实现大语言模型与外部数据源和工具的集成，用来在大模型和数据源之间建立安全双向的连接。本文代码技术栈Python3.11.8FastMCP2.10.3MCP的传输机制StandardInput/Output(stdio)StreamableHTTPServer-SentEvents(SS
掌握变量命名与Python继承机制
掌握变量命名与Python继承机制背景简介在编程中，变量命名和继承是基础且重要的概念。良好的命名习惯可以提升代码的可读性，而继承则是一种代码复用的重要机制。本文将结合具体的书籍章节内容，深入解析变量命名规则和Python继承机制。变量命名规则变量命名是编程中最基础的部分，而正确的命名习惯能够帮助其他开发者（或未来的自己）更好地理解代码。根据书籍提供的内容，我们应当遵守以下规则：变量名只包含数字、下
从零开始：构建支持上下文窗口的AI原生应用实战指南 AI天才研究院 AI人工智能与大数据 AI-native ai
从零开始：构建支持上下文窗口的AI原生应用实战指南关键词：大语言模型（LLM）、上下文窗口、AI原生应用、token管理、对话状态保持、向量检索、记忆压缩摘要：本文从AI原生应用的核心需求出发，系统讲解支持上下文窗口的应用构建全流程。通过解析上下文窗口的技术本质、关键挑战及解决方案，结合Python代码实战和真实场景案例，帮助开发者掌握从需求分析到落地部署的完整方法。内容涵盖上下文窗口管理策略、t
EgoAlpha/prompt-in-context-learning项目解析：Prompt Engineering核心技术指南霍日江Eagle-Eyed
EgoAlpha/prompt-in-context-learning项目解析：PromptEngineering核心技术指南prompt-in-context-learningAwesomeresourcesforin-contextlearningandpromptengineering:MasteryoftheLLMssuchasChatGPT,GPT-3,andFlanT5,withup-
python进程线程协程区别_Python：线程、进程与协程(1)——概念 weixin_39989159 python进程线程协程区别
最近的业余时间主要放在了学习Python线程、进程和协程里，第一次用python的多线程和多进程是在两个月前，当时只是简单的看了几篇博文然后就跟着用，没有仔细去研究，第一次用的感觉它们其实挺简单的，最近这段时间通过看书，看Python中文官方文档等等相关资料，发现并没有想想中的那么简单，很多知识点需要仔细去理解，Python线程、进程和协程应该是Python的高级用法。Python的高级用法有很多
全栈运维的“诅咒”与“荣光”：为什么“万金油”工程师是项目成功的隐藏MVP？云原生水神职业发展系统运维运维
大家好，今天，我们来聊一个特殊且至关重要的群体：运维工程师。特别是那些在项目制中，以一己之力扛起一个或多个产品生死的“全能战士”。你是否就是其中一员？你的技能树上点亮了：操作系统、网络协议、mysql与Redis中间件、Docker与K8s容器化、Ansible与Terraform自动化、Go/Python工具开发、Prometheus监控体系、opentelemetry可视化，甚至要负责信息安全
VIT视觉妄想成为master opencv 目标检测机器学习数据挖掘语音识别人工智能计算机视觉
VisionTransformer视觉和语言(Vision-Language)NLPrompt:Noise-LabelPromptLearningforVision-LanguageModelsPaper:https://arxiv.org/abs/2412.01256Code:GitHub-qunovo/NLPromptPhysVLM:EnablingVisualLanguageModelsto
Python Selenium 使用指南
Selenium是一个用于自动化Web浏览器交互的强大工具，常用于网页测试、数据抓取和自动化任务。以下是Python中Selenium的详细使用说明。安装Selenium首先需要安装Selenium库和浏览器驱动：pipinstallselenium然后下载对应浏览器的驱动：Chrome:ChromeDriverFirefox:GeckoDriverEdge:EdgeDriver将驱动放在系统PA
C#实现SVM支持向量机（附完整源码）源代码大师 C#实战教程 c#支持向量机开发语言
C#实现SVM支持向量机下面是使用C#实现支持向量机（SVM）的示例代码：usingSystem;usingAccord.MachineLearning.VectorMachines;usingAccord.MachineLearning.VectorMachines.Learning;usingAccord
【Python进阶】Python网络协议与套接字编程：构建客户端和服务器
1、网络通信基础与网络协议1.1网络通信模型概述网络通信是信息时代基石，它如同现实世界中的邮递系统，将数据从一处传递到另一处。其中，OSI七层模型与TCP/IP四层或五层模型是理解和构建网络通信的基础。1.1.1OSI七层模型与TCP/IP四层/五层模型OSI（开放系统互连）参考模型提出了七层结构，从物理层到应用层，每一层都有其特定的功能和职责，例如物理层关注的是信号如何在介质上传输，而应用层则处
AI驱动的个人工作革命：基于DeepSeek构建全场景智能工作助理（含源代码+多应用场景） AI_DL_CODE DeepSeek深度应用人工智能 DeepSeek 个人智能助理 LangChain 任务自动化知识管理大模型应用
摘要：本文详细阐述基于DeepSeek大模型构建个人工作助理的完整技术方案，通过LangChain实现任务分解、知识检索与工具调用的智能协同。方案融合向量数据库、多模态交互与个性化学习算法，构建涵盖邮件处理、会议管理、文档生成等15大核心工作场景的自动化系统。文中提供可运行代码、完整部署指南及效能测试数据，实现邮件处理效率提升13倍、会议纪要生成时间缩短100%、任务安排错误率降低83%的显著优化
基于Deepseek+RAG构建企业知识库：文档预处理与数据整理大势下的牛马搭建本地gpt 人工智能 RAG Deepseek 知识库
在当今数字化时代，企业知识库的构建对于知识管理和高效决策至关重要。基于Deepseek+RAG（Retrieval-AugmentedGeneration）技术构建企业知识库，能够有效整合企业内外部知识资源，实现知识的快速检索和精准应用。而在这一过程中，文档预处理与数据整理是关键的基础环节，直接关系到知识库的质量和后续应用效果。一、文件预处理：格式转换与数据清洗（一）支持格式与转换要求优先格式：在
Python 网络爬虫的基本流程及 robots 协议详解女码农的重启 python 网络爬虫 JAVA 开发语言
数据驱动的时代，网络爬虫作为高效获取互联网信息的工具，其规范化开发离不开对基本流程的掌握和对robots协议的遵守。本文将系统梳理Python网络爬虫的核心流程，并深入解读robots协议的重要性及实践规范。一、Python网络爬虫的基本流程Python网络爬虫的工作过程可分为四个核心阶段，每个阶段环环相扣，共同构成数据采集的完整链路。1.1发起网络请求这是爬虫与目标服务器交互的第一步，通过发送H
python中的pydantic是什么？ John Song Python python 前端开发语言 pydantic
Pydantic是Python中一个用于数据验证和设置管理的库，主要通过Python类型注解（TypeHints）来定义数据结构，并自动验证输入数据的合法性。它广泛应用于API开发（如FastAPI）、配置管理、数据序列化等场景。核心功能数据验证自动检查输入数据是否符合类型和约束条件（如字符串长度、数字范围等）。类型转换将原始数据（如JSON、字典）转换为Python类型（如datetime、En
[特殊字符] AlphaGo：“神之一手”背后的智能革命与人机博弈新纪元大千AI助手人工智能 Python #OTHER 人工智能算法数据挖掘机器学习 alphago google 围棋
从围棋棋盘到科学前沿的通用人工智能范式突破本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与历史意义AlphaGo是由谷歌DeepMind团队开发的围棋人工智能程序，其里程碑意义在于：首破人类围棋壁垒：2016年以4:1击败世界冠军李世石九段，成为首个在完整对局中战胜人类顶尖棋手的AI。
python视频工具包 ffmpeg 使用示例 pythonffmpeg
1.简介FFMPEG堪称自由软件中最完备的一套多媒体支持库，它几乎实现了所有当下常见的数据封装格式、多媒体传输协议以及音视频编解码器，提供了录制、转换以及流化音视频的完整解决方案。2.ffmpeg的常用方法将某文件下所有ts文件按顺序合并，转换成MP4格式存储：importffmpegdeftest2():ts_folder='path/ts_files/ceshi/'output_mp4="pa
python汇率_用Python抓取汇率
抓取的是中行的数据:网址代码#-*-coding:utf-8-*-importreimporturllib.requesturl='http://www.boc.cn/sourcedb/whpj/index.html'#网址req=urllib.request.Request(url)response=urllib.request.urlopen(req)the_page=response.rea
python抓取汇率_09 使用Python爬取中国银行网站选择汇率最坑的一天
爬取2018年8月27日~9月2日的欧元汇率。先说结论：如果是现汇卖出价，可以选择2018-08-3109:19:26，现钞卖出价805.28。我刚问了报销过的人她说任选都行，可以不是中行折算价。最近出差，学校可以以人民币的形式报销路费、住宿费，汇率，可以任选出差期间的任何一天任何时候的中国银行的汇率，中国银行网站上的汇率长这样：如果想要合理利用规则，多回一点本，不妨选择汇率最坑的一天(默默给财务
【DeepSeek实战】24、LangGraph完全指南：从入门到实战，构建复杂AI工作流无心水人工智能 LangGraph教程多Agent协作框架 LangGraph实战案例复杂AI逻辑实现 DeepSeek实战 AI工作流开发
引言：为什么LangGraph是AI工作流的“下一代引擎”？当你需要构建一个能处理循环逻辑的AI客服系统——比如“用户投诉未解决时自动转人工，解决后发送满意度调查”——传统的链式框架（如LangChain基础链）会显得力不从心：它们难以实现分支跳转、状态保存和循环执行。而LangGraph的出现，正是为了解决这一痛点。LangGraph是LangChain团队推出的AI工作流引擎，专为复杂业务逻辑
爬虫小结 Crescent_P python小项目 python 数据分析
python爬虫小组作业上周布置了python的小组作业,每一组要求爬取老师指定的信息,本组抽到的题目如下:从中国银行网址：http://www.boc.cn/sourcedb/whpj/获取主要外汇（美元、欧元、英镑、加拿大元、澳大利亚元、日元、韩元、新台币、澳门元和港币）的牌价信息，计算出它们的每天平均价。要求把今年5月份每天平均价格保存到Excel文件中，每种外汇的数据保存在一个工作表中，并
Python 爬虫实战：抓取华尔街日报付费文章摘要的全方位指南 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
引言在全球化的信息时代，获取高质量的新闻内容对于研究、投资和决策具有重要意义。《华尔街日报》（TheWallStreetJournal，简称WSJ）作为国际知名的财经媒体，其文章内容备受关注。然而，WSJ的大部分内容属于付费订阅，普通用户无法直接访问。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，抓取WSJ的付费文章摘要。一、了解目标网站结构1.1WSJ网站结构分析WSJ的官方
Python爬虫实战：使用最新技术爬取头条新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言：Python爬虫在现代数据获取中的重要性在当今信息爆炸的时代，数据已经成为最宝贵的资源之一。作为数据获取的重要手段，网络爬虫技术在各个领域发挥着越来越重要的作用。Python凭借其简洁的语法、丰富的库生态系统和强大的社区支持，已经成为网络爬虫开发的首选语言。本文将详细介绍如何使用Python及其最新的爬虫技术来爬取头条新闻数据。我们将从基础概念讲起，逐步深入到高级技巧，最后给出完整的爬虫
Python爬虫实战：爬取ETF基金持仓变化 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
1.项目背景ETF（Exchange-TradedFund，交易型开放式指数基金）作为一种在交易所上市交易的基金，其持仓信息对于投资者具有重要参考价值。了解ETF的持仓变化，可以帮助投资者判断市场趋势和资金流向。本文将通过Python爬虫技术，自动化地获取ETF基金的持仓变化数据，进行存储和分析。2.技术选型与环境准备2.1技术选型编程语言：Python3.8+爬虫框架：Scrapy数据解析：Be
【Python】（一）面试题和Py基础题戏精亿点点菜 python 开发语言
1.技术面试题（1）TCP与UDP的区别是什么？答：TCP（TransmissionControlProtocol，传输控制协议）提供的是面向连接，可靠的字节流服务。即客户和服务器交换数据前，必须现在双方之间建立一个TCP连接，之后才能传输数据。并且提供超时重发，丢弃重复数据，检验数据，流量控制等功能，保证数据能从一端传到另一端。UDP（UserDataProtocol，用户数据报协议）是一个简单
Python 爬虫实战：实时采集外汇汇率数据的全方位指南 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
引言在全球化的金融市场中，外汇汇率的实时数据对于投资者、企业和研究人员来说至关重要。通过自动化的方式获取这些数据，不仅可以提高效率，还能为决策提供及时的支持。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，实时采集外汇汇率数据。一、外汇汇率数据的获取途径1.1使用官方API接口许多金融机构和数据提供商提供了官方的API接口，供开发者获取外汇汇率数据。例如：AlphaVantage
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他