小北的北

OCR快速入门（二）| Python版

点击关注我哦

一篇文章带你了解OCR | Python版

方法与策略

如上所示，文本识别主要是一个分两步的任务。首先，需要检测图像中的文本外观，它可能是密集的（如打印文档中的）或稀疏的。

在检测到行/字级别之后，我们可以再次从大量的解决方案中进行选择，这些解决方案通常来自三种主要方法：

1.经典的计算机视觉技术。

2.专业的深度学习。

3.标准深度学习方法（检测）。

下面我们来分析一下这三种方法：

1. 经典的计算机视觉技术

如前所述，计算机视觉在很长一段时间内解决了各种文本识别问题。你可以在网上找到很多例子:

· 在 Great Adrian Rosebrook 的网站上有大量的教程，比如下面这个链接：

https://www.pyimagesearch.com/2017/07/17/credit-card-ocr-with-opencv-and-python/

· Stack overflow上也有一些类似的教程，比如下面这个链接：https://stackoverflow.com/questions/9413216/simple-digit-recognition-ocr-in-opencv-python

传统的计算机视觉的方法通常有如下步骤：

1. 使用过滤器使字符从背景中脱颖而出

2. 应用轮廓检测对字符进行逐一分割

3. 应用图像分类识别字符

显然，如果第二部分做得好，则通过模式匹配或机器学习（例如Mnist）可以轻松实现第三部分。

然而，轮廓检测是一个具有挑战性的泛化问题。它需要大量的手动微调，因此在大多数问题中变得不可行。让我们从这里对来自 SVHN 数据集（https://scikit-image.org/docs/dev/auto_examples/segmentation/plot_label.html#sphx-glr-download-auto-examples-segmentation-plot-label-py）的一些图像应用一个简单的计算机视觉脚本。一开始我们可能会取得非常好的结果:

但是当字符之间的距离越来越近时，事情就开始变得不一样了:

我发现很难解决的问题是，当你开始弄乱参数时，可以减少此类错误，但不幸的是会导致其他错误。换句话说，如果你的任务不简单，这些方法就不可行。

2. 专业的深度学习方法

大多数成功的深度学习方法都具有通用性。然而，考虑到上面描述的属性，专业化网络可能是非常有用的。

下面将介绍一些主要方法，并对提供这些方法的文章做一个简要的总结。

EAST

EAST (高效准确的场景文本检测器)是一种简单而有效的文本检测方法。

与我们将要讨论的其他方法不同，它仅限于文本检测(而不是实际的识别) ，但是它的鲁棒性使它值得一提。另一个优点是，它还被添加到 OpenCV 库(第四版)中，因此您可以非常方便地使用它(参见这里的教程https://www.pyimagesearch.com/2018/08/20/opencv-text-detection-east-text-detector/)。这个网络实际上是著名的 U-Net 的一个版本，它可以很好地检测大小不同的特征。这个网络的底层前馈“stem”(见下图)，在本文中使用的是PVANet，而 opencv中的实现使用的是Resnet。显然，它也可以预先训练(使用 imageet 等)。和 U-Net 一样，在网络中从不同层次提取特征。

最后，网络允许两种类型的输出旋转包围盒: 一种是具有旋转角度(2X2 + 1参数)的标准包围盒，另一种是仅仅具有所有顶点坐标的旋转包围盒。

如果真实生活的结果和上面的图片一样，那么识别文本并不需要太多的努力。然而，现实生活中的结果并不完美。

CRNN

卷积递归神经网络，是2015年的一篇文章，它提出了一种混合端到端的体系结构，即用三步方法捕获单词。

它的思路是这样的: 第一层是一个标准的完全卷积网络。网络的最后一层被定义为特征层，并分为“特征列”。请参阅下面的图片，看看每一个这样的特征栏是如何用来表示文本中的某一部分的。

然后，将特征列输入一个深度双向 LSTM，该 LSTM 输出一个序列，用于查找字符之间的关系。

最后，第三部分是转录层。它的目标是采取杂乱的字符序列，其中一些字符是冗余的，另一些字符是空白的，并使用概率方法统一和理解它。

这种方法称为CTC损失，如果你相对它有更深入的了解，可以访问下面的链接：https://gab41.lab41.org/speech-recognition-you-down-with-ctc-8d3b558943f0

该层可以使用/不使用预定义的词典，虽然它可能有助于预测单词。

本文使用固定的文本词典，准确率高达95% 以上，没有固定的词典，准确率也会发生变化。

STN-net/SEE

半监督式端到端场景文本识别是Christian Bartzi的作品。他和他的同事们采用了一种真正的端到端策略来检测和识别文本。他们使用非常薄弱的监督(他们称之为半监督，与通常的含义不同)。因为它们只使用文本注释(没有边界框)来训练网络。这使他们可以使用更多数据，但使他们的训练过程充满挑战，并且他们讨论了使之起作用的不同技巧，例如，不训练多于两行文本的图像（至少在训练的第一阶段）。

这篇论文有一个早期版本，叫做STN-OCR。在最后一篇论文中，研究者们改进了他们的方法和表现形式，而且由于结果的高质量，他们更加强调他们方法的普遍性。

STN-OCR 这个名字暗示了使用空间转换器的策略(= STN，与最近的 google 转换器无关)。

它们训练两个串联的网络，其中第一个网络，即变换器，学习图像的变换，以输出更容易解释的子图像。

然后，另一个带有LSTM的前馈网络来识别文本。

研究人员在这里强调了使用resnet的重要性（他们使用了两次），因为它为前面的层提供了“强大”的传播。当然，这种做法现在已被广泛接受。

不管怎样，这都是一个值得一试的有趣的方法。

3. 标准的深度学习方法

如题所示，在检测到“单词”之后，我们可以应用标准的深度学习检测方法，如SSD、YOLO和Mask-RCNN。由于网上有大量信息，因此我将不对这些方法进行过多的阐述。

我必须说这是当前我最喜欢的方法，因为我在深度学习中喜欢的是“端到端”的思想，可以在其中应用一个强大的模型，并进行一些调整可以解决几乎所有问题。在本文的下一部分，我们将看到它是如何实际工作的。

但是，正如本文所述，SSD和其他检测模型在涉及密集的相似类时面临挑战。我觉得这有点讽刺，因为事实上，深度学习模型发现识别数字和字母要比识别更具挑战性和复杂的物体（例如狗，猫或人）困难得多。它们往往无法达到所需的精度，因此，专业的方法蓬勃发展。

实例

所以说了这么多之后，是时候上手做一些实践了。我们将尝试处理SVHN任务。SVHN数据包含三个不同的数据集：train、test和extra。这些差异并不是100%清楚，但是最大的extra数据集（大约50万个样本）包含了更容易识别的图像。因此我们将使用它。

首先我们需要以下准备工作：

· 你需要一个GPU显卡，并配置TensorFlow>=1.4，Keras>=2.0

· 从此处克隆SSD_Keras项目

· 从此处下载关于coco数据集上的预训练的SSD300模型

· 从此处拷贝项目工程

· 下载extra.tar.gz文件，其中包含SVHN数据集的其他图像

· 更新项目中json_config.json文件中的所有相关路径

要有效地执行此过程，需要仔细阅读项目资料库中的ssd_OCR.ipynb笔记。

现在让我们开始吧！

1.解析数据

不管喜欢与否，但是在检测任务中没有标准格式的数据表示形式。一些众所周知的格式是：coco，via，pascal，xml等等。SVHN数据集使用晦涩的.mat格式。但幸运的是，它提供了一个read_process_h5脚本，可以将.mat文件转换为标准json，当然我们要进一步将它转为pascal格式，代码如下所示：

def json_to_pascal(json, filename): #filename is the .mat file    # convert json to pascal and save as csv    pascal_list = []    for i in json:        for j in range(len(i['labels'])):            pascal_list.append({'fname': i['filename']             ,'xmin': int(i['left'][j]), 'xmax': int(i['left'][j]+i['width'][j])            ,'ymin': int(i['top'][j]),  'ymax': int(i['top'][j]+i['height'][j])            ,'class_id': int(i['labels'][j])})    df_pascal = pd.DataFrame(pascal_list,dtype='str')    df_pascal.to_csv(filename,index=False)p = read_process_h5(file_path)json_to_pascal(p, data_folder+'pascal.csv')

现在我们已经有了一个标准的pascal.csv文件，可以继续进行下一步了。如果转换速度很慢，应该注意，我们不需要所有的数据样本。大约一万个就够了。

2.查看数据

在开始建模之前，我们最好查看一下数据，对它的构成有个大概的了解。下面只提供了一个简单的快速测试功能，小编建议您进行更深度分析哦~

def viz_random_image(df):    file = np.random.choice(df.fname)    im = skimage.io.imread(data_folder+file)    annots =  df[df.fname==file].iterrows()    plt.figure(figsize=(6,6))    plt.imshow(im)    current_axis = plt.gca()    for box in annots:        label = box[1]['class_id']        current_axis.add_patch(plt.Rectangle(            (box[1]['xmin'], box[1]['ymin']), box[1]['xmax']-box[1]['xmin'],            box[1]['ymax']-box[1]['ymin'], color='blue', fill=False, linewidth=2))          current_axis.text(box[1]['xmin'], box[1]['ymin'], label, size='x-large', color='white', bbox={'facecolor':'blue', 'alpha':1.0})        plt.show()viz_random_image(df)

对于以下步骤，我在项目中提供了一个utils_ssd.py，它有助于训练，减轻权重等。其中一些代码参考了SSD_Keras项目。

3.算法选择

如前所述，我们有许多解决此问题的方法。本教程将采用标准的深度学习检测方法，并将使用SSD检测模型。具体实现是采用的PierreLuigi的SSD keras。当然YOLO模型和Mask RCNN也是不错的选择。

4.训练SSD模型

导入库与定义变量

我们需要确定是否下载了改项目，并且设置好json_config.json中的路径。

首先是导入库:

import osimport sysimport skimage.ioimport scipyimport jsonwith open('json_config.json') as f:     json_conf = json.load(f)ROOT_DIR = os.path.abspath(json_conf['ssd_folder']) # add here mask RCNN pathsys.path.append(ROOT_DIR)
import cv2from utils_ssd import *import pandas as pdfrom PIL import Image
from matplotlib import pyplot as plt
%matplotlib inline%load_ext autoreload% autoreload 2

然后是一些定义：

task = 'svhn'labels_path = f'{data_folder}pascal.csv'input_format = ['class_id','image_name','xmax','xmin','ymax','ymin' ]    df = pd.read_csv(labels_path)

模型配置：

class SVHN_Config(Config):    batch_size = 8        dataset_folder = data_folder    task = task        labels_path = labels_path
    input_format = input_format
conf=SVHN_Config()
resize = Resize(height=conf.img_height, width=conf.img_width)trans = [resize]

定义模型，加载权重

与大多数深度学习案例一样，我们不会从头开始训练，但会加载预先训练的权重。在这种情况下，我们将加载以COCO数据集为训练对象的SSD模型权重，该模型具有80个类别。显然，我们的任务只有10个类，因此在加载权重之后，我们将重构顶层以具有正确数量的输出。我们在init_weights函数中执行此操作。

定义数据加载器

5.训练模型

现在模型已经准备好了，我们将设置一些与最后训练相关的定义，并开始训练

learner.init_training()history = learner.train(train_generator, val_generator, steps=100,epochs=80)

另外，我在训练脚本中加入了training_plot回调，可在每个epoch后可视化一个随机图像。例如，以下是第六个epoch之后的预测图像：

这个SSD_Keras资料库几乎在每个epoch后都会保存一次模型，所以你只需将weights_destinamtion_path这行改成相等路径进行加载模型即可。

weights_destination_path =

根据我们的步骤就可以顺利的训练模型。ssd_keras提供了更多功能，例如数据扩充，不同的加载程序和评估程序。经过短暂的训练，我达到了大于80的mAP。

你达到了多少呢？

概要

在本文中，我们讨论了OCR领域中的不同挑战和方法。深度学习/计算机视觉中有许多问题，它比起初看起来具有更多的意义。我们已经看到了它的许多子任务，以及解决它的一些不同方法，但它们目前都不是灵丹妙药。另一方面，我们已经看到要取得初步结果并不难，没有太多麻烦。

· END ·

HAPPY LIFE

Seaborn高阶玩法全解析：从复杂图表到多图布局的可视化实战指南
数据可视化就像给数据“画肖像”——初级阶段是勾勒轮廓，高级阶段则是赋予灵魂。在Python可视化生态中，Seaborn凭借“一行代码出美图”的优雅，成为数据分析的“画笔利器”。但你是否遇到过这样的场景：想同时展示数据分布与统计量，却被基础图表限制；想批量绘制分面图，手动拼接效率低下；想让图表更具设计感，却对颜色搭配和注解技巧一知半解？本文将带你解锁Seaborn的高阶玩法，从复杂图表绘制到多图布局
scanpy保存图片的常用方法汇总 Bio Coder 空间转录组 &单细胞 scanpy 保存图片汇总
在使用Scanpy（一个用于单细胞RNA测序数据分析的Python库）时，保存图片（如可视化结果）是常见的操作。Scanpy的绘图功能主要基于Matplotlib和Seaborn，保存图片的方法也与这些库的保存机制一致。以下是Scanpy保存图片的详细方法及注意事项：1.基本保存图片的方法Scanpy的绘图函数（如sc.pl.umap、sc.pl.tsne、sc.pl.pca等）通常会返回Matp
MCP Streamable HTTP 样例（qbit） pythonagent
前言模型上下文协议（ModelContextProtocol，MCP），是由Anthropic推出的开源协议，旨在实现大语言模型与外部数据源和工具的集成，用来在大模型和数据源之间建立安全双向的连接。本文代码技术栈Python3.11.8FastMCP2.10.3MCP的传输机制StandardInput/Output(stdio)StreamableHTTPServer-SentEvents(SS
掌握变量命名与Python继承机制
掌握变量命名与Python继承机制背景简介在编程中，变量命名和继承是基础且重要的概念。良好的命名习惯可以提升代码的可读性，而继承则是一种代码复用的重要机制。本文将结合具体的书籍章节内容，深入解析变量命名规则和Python继承机制。变量命名规则变量命名是编程中最基础的部分，而正确的命名习惯能够帮助其他开发者（或未来的自己）更好地理解代码。根据书籍提供的内容，我们应当遵守以下规则：变量名只包含数字、下
从零开始：构建支持上下文窗口的AI原生应用实战指南 AI天才研究院 AI人工智能与大数据 AI-native ai
从零开始：构建支持上下文窗口的AI原生应用实战指南关键词：大语言模型（LLM）、上下文窗口、AI原生应用、token管理、对话状态保持、向量检索、记忆压缩摘要：本文从AI原生应用的核心需求出发，系统讲解支持上下文窗口的应用构建全流程。通过解析上下文窗口的技术本质、关键挑战及解决方案，结合Python代码实战和真实场景案例，帮助开发者掌握从需求分析到落地部署的完整方法。内容涵盖上下文窗口管理策略、t
python进程线程协程区别_Python：线程、进程与协程(1)——概念 weixin_39989159 python进程线程协程区别
最近的业余时间主要放在了学习Python线程、进程和协程里，第一次用python的多线程和多进程是在两个月前，当时只是简单的看了几篇博文然后就跟着用，没有仔细去研究，第一次用的感觉它们其实挺简单的，最近这段时间通过看书，看Python中文官方文档等等相关资料，发现并没有想想中的那么简单，很多知识点需要仔细去理解，Python线程、进程和协程应该是Python的高级用法。Python的高级用法有很多
全栈运维的“诅咒”与“荣光”：为什么“万金油”工程师是项目成功的隐藏MVP？云原生水神职业发展系统运维运维
大家好，今天，我们来聊一个特殊且至关重要的群体：运维工程师。特别是那些在项目制中，以一己之力扛起一个或多个产品生死的“全能战士”。你是否就是其中一员？你的技能树上点亮了：操作系统、网络协议、mysql与Redis中间件、Docker与K8s容器化、Ansible与Terraform自动化、Go/Python工具开发、Prometheus监控体系、opentelemetry可视化，甚至要负责信息安全
板凳-------Mysql cookbook学习（十一--------4)
唐宇迪机器学习实战课程笔记https://blog.csdn.net/weixin_54338498/article/details/128818007?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ECtr-1-12881
AAAI—24—Main—paper（关于Multi—Modal的全部文章摘要）
我们生活在一个由多种模态（Multimodal）信息构成的世界，包括视觉信息、听觉信息、文本信息、嗅觉信息等等，当研究的问题或者数据集包含多种这样的模态信息时我们称之为多模态学习多模态机器学习旨在处理学习（视觉，听觉，语言等）不同模态融合交织的信息。下游任务（1）视觉问答1.视觉问答(visualquestionanswering,VQA).给予视觉输入(图像或视频),VQA代表了正确提供一个问题
Python Selenium 使用指南
Selenium是一个用于自动化Web浏览器交互的强大工具，常用于网页测试、数据抓取和自动化任务。以下是Python中Selenium的详细使用说明。安装Selenium首先需要安装Selenium库和浏览器驱动：pipinstallselenium然后下载对应浏览器的驱动：Chrome:ChromeDriverFirefox:GeckoDriverEdge:EdgeDriver将驱动放在系统PA
【Python进阶】Python网络协议与套接字编程：构建客户端和服务器
1、网络通信基础与网络协议1.1网络通信模型概述网络通信是信息时代基石，它如同现实世界中的邮递系统，将数据从一处传递到另一处。其中，OSI七层模型与TCP/IP四层或五层模型是理解和构建网络通信的基础。1.1.1OSI七层模型与TCP/IP四层/五层模型OSI（开放系统互连）参考模型提出了七层结构，从物理层到应用层，每一层都有其特定的功能和职责，例如物理层关注的是信号如何在介质上传输，而应用层则处
神经网络初步学习3——数据与损失 X Y O 神经网络学习人工智能
一、传统机器学习与神经网络前言：该部分需要一定的机器学习与数学基础（很浅的基础），如果有不理解的地方可以自行查阅。（1）区别这里不妨以图像识别为例子：（1）在传统的机器学习视角中：我们需要人工手动去设置并提取我们的特征量，例如常见的SIFT、SURF和HOG等，随后需要我们选择合适的分类器（例如：SVM、KNN等分类器）,接着把我们的参数训练出来。（2）而在神经网络的视角中：我们只需要把图片喂给它
Python 网络爬虫的基本流程及 robots 协议详解女码农的重启 python 网络爬虫 JAVA 开发语言
数据驱动的时代，网络爬虫作为高效获取互联网信息的工具，其规范化开发离不开对基本流程的掌握和对robots协议的遵守。本文将系统梳理Python网络爬虫的核心流程，并深入解读robots协议的重要性及实践规范。一、Python网络爬虫的基本流程Python网络爬虫的工作过程可分为四个核心阶段，每个阶段环环相扣，共同构成数据采集的完整链路。1.1发起网络请求这是爬虫与目标服务器交互的第一步，通过发送H
python中的pydantic是什么？ John Song Python python 前端开发语言 pydantic
Pydantic是Python中一个用于数据验证和设置管理的库，主要通过Python类型注解（TypeHints）来定义数据结构，并自动验证输入数据的合法性。它广泛应用于API开发（如FastAPI）、配置管理、数据序列化等场景。核心功能数据验证自动检查输入数据是否符合类型和约束条件（如字符串长度、数字范围等）。类型转换将原始数据（如JSON、字典）转换为Python类型（如datetime、En
异物检测的计算机视觉算法技术路线思绪漂移计算机视觉算法人工智能
异物检测的计算机视觉算法技术路线在现代智能监测系统中，异物检测有着其必要性和运维重要性，通过计算机视觉算法，可以实时识别各种异常物体，为设备安全运行提供有力保障。本文将介绍异物检测的主要技术路线。一、分类识别适应场景分类识别技术主要适用于已知目标类别的异物检测场景。在运维环境中，这类场景包括：固定区域内的障碍物监测（如轨道区域的石块、工具、动物等）关键部件的异物附着检测（如固定装置上的杂物）安全通
vivo Pulsar 万亿级消息处理实践（3）-KoP指标异常修复
作者：vivo互联网大数据团队-ChenJianbo本文是《vivoPulsar万亿级消息处理实践》系列文章第3篇。Pulsar是Apache基金会的开源分布式流处理平台和消息中间件，它实现了Kafka的协议，可以让使用KafkaAPI的应用直接迁移至Pulsar，这使得Pulsar在Kafka生态系统中更加容易被接受和使用。KoP提供了从Kafka到Pulsar的无缝转换，用户可以使用Kafka
python视频工具包 ffmpeg 使用示例 pythonffmpeg
1.简介FFMPEG堪称自由软件中最完备的一套多媒体支持库，它几乎实现了所有当下常见的数据封装格式、多媒体传输协议以及音视频编解码器，提供了录制、转换以及流化音视频的完整解决方案。2.ffmpeg的常用方法将某文件下所有ts文件按顺序合并，转换成MP4格式存储：importffmpegdeftest2():ts_folder='path/ts_files/ceshi/'output_mp4="pa
量化价值投资中的深度学习技术：TensorFlow实战
量化价值投资中的深度学习技术：TensorFlow实战关键词：量化价值投资,深度学习,TensorFlow,股票预测,因子模型,LSTM神经网络,量化策略摘要：本文将带你走进"量化价值投资"与"深度学习"的交叉地带，用小学生都能听懂的语言解释复杂概念，再通过手把手的TensorFlow实战案例，教你如何用AI技术挖掘股票市场中的价值宝藏。我们会从传统价值投资的痛点出发，揭示深度学习如何像"超级分析
python汇率_用Python抓取汇率
抓取的是中行的数据:网址代码#-*-coding:utf-8-*-importreimporturllib.requesturl='http://www.boc.cn/sourcedb/whpj/index.html'#网址req=urllib.request.Request(url)response=urllib.request.urlopen(req)the_page=response.rea
python抓取汇率_09 使用Python爬取中国银行网站选择汇率最坑的一天
爬取2018年8月27日~9月2日的欧元汇率。先说结论：如果是现汇卖出价，可以选择2018-08-3109:19:26，现钞卖出价805.28。我刚问了报销过的人她说任选都行，可以不是中行折算价。最近出差，学校可以以人民币的形式报销路费、住宿费，汇率，可以任选出差期间的任何一天任何时候的中国银行的汇率，中国银行网站上的汇率长这样：如果想要合理利用规则，多回一点本，不妨选择汇率最坑的一天(默默给财务
爬虫小结 Crescent_P python小项目 python 数据分析
python爬虫小组作业上周布置了python的小组作业,每一组要求爬取老师指定的信息,本组抽到的题目如下:从中国银行网址：http://www.boc.cn/sourcedb/whpj/获取主要外汇（美元、欧元、英镑、加拿大元、澳大利亚元、日元、韩元、新台币、澳门元和港币）的牌价信息，计算出它们的每天平均价。要求把今年5月份每天平均价格保存到Excel文件中，每种外汇的数据保存在一个工作表中，并
Spring Data Neo4j 与后端人工智能算法的数据交互 AI大模型应用实战 spring neo4j 人工智能 ai
SpringDataNeo4j与后端人工智能算法的数据交互关键词：SpringDataNeo4j、图数据库、人工智能算法、数据交互、知识图谱、图神经网络、数据集成摘要：本文深入探讨了如何利用SpringDataNeo4j框架实现后端人工智能算法与图数据库的高效数据交互。文章首先介绍了图数据库和人工智能算法的基本概念，然后详细解析了SpringDataNeo4j的核心架构和原理。接着，通过实际代码示
Python 爬虫实战：抓取华尔街日报付费文章摘要的全方位指南 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
引言在全球化的信息时代，获取高质量的新闻内容对于研究、投资和决策具有重要意义。《华尔街日报》（TheWallStreetJournal，简称WSJ）作为国际知名的财经媒体，其文章内容备受关注。然而，WSJ的大部分内容属于付费订阅，普通用户无法直接访问。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，抓取WSJ的付费文章摘要。一、了解目标网站结构1.1WSJ网站结构分析WSJ的官方
Python爬虫实战：使用最新技术爬取头条新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言：Python爬虫在现代数据获取中的重要性在当今信息爆炸的时代，数据已经成为最宝贵的资源之一。作为数据获取的重要手段，网络爬虫技术在各个领域发挥着越来越重要的作用。Python凭借其简洁的语法、丰富的库生态系统和强大的社区支持，已经成为网络爬虫开发的首选语言。本文将详细介绍如何使用Python及其最新的爬虫技术来爬取头条新闻数据。我们将从基础概念讲起，逐步深入到高级技巧，最后给出完整的爬虫
Python爬虫实战：爬取ETF基金持仓变化 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
1.项目背景ETF（Exchange-TradedFund，交易型开放式指数基金）作为一种在交易所上市交易的基金，其持仓信息对于投资者具有重要参考价值。了解ETF的持仓变化，可以帮助投资者判断市场趋势和资金流向。本文将通过Python爬虫技术，自动化地获取ETF基金的持仓变化数据，进行存储和分析。2.技术选型与环境准备2.1技术选型编程语言：Python3.8+爬虫框架：Scrapy数据解析：Be
【Python】（一）面试题和Py基础题戏精亿点点菜 python 开发语言
1.技术面试题（1）TCP与UDP的区别是什么？答：TCP（TransmissionControlProtocol，传输控制协议）提供的是面向连接，可靠的字节流服务。即客户和服务器交换数据前，必须现在双方之间建立一个TCP连接，之后才能传输数据。并且提供超时重发，丢弃重复数据，检验数据，流量控制等功能，保证数据能从一端传到另一端。UDP（UserDataProtocol，用户数据报协议）是一个简单
Python 爬虫实战：实时采集外汇汇率数据的全方位指南 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
引言在全球化的金融市场中，外汇汇率的实时数据对于投资者、企业和研究人员来说至关重要。通过自动化的方式获取这些数据，不仅可以提高效率，还能为决策提供及时的支持。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，实时采集外汇汇率数据。一、外汇汇率数据的获取途径1.1使用官方API接口许多金融机构和数据提供商提供了官方的API接口，供开发者获取外汇汇率数据。例如：AlphaVantage
ResNet：深度卷积神经网络的里程碑心想事“程” 小知识点 cnn 人工智能神经网络
一、引言在深度学习的发展历程中，深度卷积神经网络（CNN）不断演进，旨在提升对图像等数据的特征提取与分类能力。然而，随着网络层数的增加，传统CNN面临着梯度消失、梯度爆炸以及退化等棘手问题，训练变得愈发困难。2015年，由微软研究院提出的ResNet（ResidualNetworks，残差网络）横空出世，它以独特的残差学习思想，成功攻克了这些难题，在ImageNet竞赛中大放异彩，开创了深度神经网
从零构建智能ai语音助手：ESP32s3+Python+大语言模型实战指南
从零构建智能ai语音助手：ESP32s3+Python+大语言模型实战指南一、项目概述大家好！今天给大家带来一个干货满满的实战项目——基于ESP32S3硬件和Python后端的智能语音助手系统。这个项目将物联网技术与AI技术完美结合，打造一个可以实时对话、意图识别的智能语音交互系统。相比传统的离线语音系统只能识别固定命令词，我们这套系统可以：实现自然语言理解，支持多种表达方式无需预设固定命令词，更
视觉算法之卷积神经网络清风AI 深度学习算法详解及代码复现计算机视觉 cnn 神经网络深度学习 python 课程设计毕业设计
定义与特点卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种专为处理具有网格结构的数据而设计的深度学习模型。其独特的结构和功能使其在图像处理、语音识别等领域展现出卓越的性能:CNN的核心设计理念源于对生物视觉系统的模仿。通过模拟大脑皮层中视网膜和视觉皮层的层次化结构,CNN能够有效地捕捉图像中的局部特征并逐步抽象为高层语义信息。这种设计使得CNN特别擅长处理图像和音
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include

OCR快速入门（二）| Python版

你可能感兴趣的:(大数据,python,计算机视觉,神经网络,机器学习)