weixin_39630813

python识别文字 opencv_文本识别使用 Tesseract 进行 OpenCV OCR 和文本识别

文本识别用 Tesseract 进行 OpenCV OCR 和文本识

在本教程中，您将学习如何应用OpenCV OCR（光学字符识别）。我们将使用OpenCV，Python和Tesseract 执行（1）文本检测和（2）文本识别。

几周前，我向您展示了如何使用OpenCV的EAST深度学习模型进行文本检测。使用此模型，我们能够检测并本地化图像中包含的文本的边界框坐标。

下一步是采用包含文本的每个区域，并使用OpenCV和Tesseract实际识别和OCR文本。要了解如何构建自己的OpenCV OCR和文本识别系统，请继续阅读！寻找这篇文章的源代码？跳到下载部分。使用Tesseract进行OpenCV OCR和文本识别

为了执行OpenCV OCR文本识别，我们首先需要安装Tesseract v4，其中包括一个高度准确的基于深度学习的文本识别模型。从那里，我将向您展示如何编写以下Python脚本：

使用OpenCV的EAST文本检测器执行文本检测，这是一种高度精确的深度学习文本检测器，用于检测自然场景图像中的文本。

一旦我们用OpenCV 检测到文本区域，我们就会提取每个文本ROI并将它们传递给Tesseract，使我们能够构建一个完整的OpenCV OCR管道！

最后，我将通过向您展示使用OpenCV应用文本识别的一些示例结果以及讨论该方法的一些限制和缺点来结束今天的教程。

让我们继续开始使用OpenCV OCR吧！

如何安装Tesseract 4

Tesseract是一种非常受欢迎的OCR引擎，最初由Hewlett Packard在20世纪80年代开发，然后于2005年开源。谷歌于2006年采用该项目，并一直赞助它。

如果您已经阅读过我之前关于使用Tesseract OCR和Python的帖子，您就会知道Tesseract在受控条件下可以很好地工作……

…但如果在应用Tesseract之前有大量噪音或图像没有经过适当的预处理和清洁，表现会很差。

正如深度学习几乎影响了计算机视觉的每个方面一样，字符识别和手写识别也是如此。

基于深度学习的模型已经设法获得前所未有的文本识别准确性，远远超出传统的特征提取和机器学习方法。

Tesseract采用深度学习模型来进一步提高OCR准确度只是时间问题 – 实际上，时机已到。

Tesseract （V4）的最新版本支持深学习型OCR是显著更准确。底层OCR引擎本身使用长短期记忆（LSTM）网络，一种回归神经网络（RNN）。

在本节的其余部分中，您将学习如何在计算机上安装Tesseract v4。

在本博文后面，您将学习如何在单个Python脚本中将OpenCV的EAST文本检测算法与Tesseract v4相结合，以自动执行OpenCV OCR。

让我们开始配置您的机器！

安装OpenCV

要运行今天的脚本，您需要安装OpenCV。需要3.4.2或更高版本。要在您的系统上安装OpenCV，只需按照我的一个OpenCV安装指南，确保您在此过程中下载正确/所需版本的OpenCV和OpenCV-contrib。

在Ubuntu上安装Tesseract 4

用于在Ubuntu上安装Tesseract 4的确切命令将根据您使用的是Ubuntu 18.04还是Ubuntu 17.04及更早版本而有所不同。

要检查您的Ubuntu版本，您可以使用 lsb_release 命令$ lsb_release -a对于Ubuntu 18.04用户，Tesseract 4是主要apt-get存储库的一部分，通过以下命令可以非常轻松地安装Tesseract$ sudo apt install tesseract-ocr如果您正在使用Ubuntu 14,16或17，则由于依赖性要求，您将需要一些额外的命令。

好消息是Alexander Pozdnyakov 为Tesseract创建了一个Ubuntu PPA（个人包存档），这使得在旧版本的Ubuntu上安装Tesseract 4非常容易。

只需将 alex – p / tesseract – ocr PPA存储库添加到您的系统，更新您的包定义，然后安装Tesseract$ sudo add-apt-repository ppa:alex-p/tesseract-ocr$ sudo apt-get update$ sudo apt install tesseract-ocr假设没有错误，您现在应该在您的计算机上安装Tesseract 4。

在macOS上安装Tesseract 4

如果您的系统上安装了Homebrew，macOS’“非官方”软件包管理器，那么在macOS上安装Tesseract非常简单。

只要运行下面的命令，确保指定 – HEAD 参数，Tesseract V4将您的Mac上安装：$ brew install tesseract --HEAD如果您已经在Mac上安装了Tesseract（例如，如果您按照我以前的Tesseract安装教程），您首先要取消原始安装的链接$ brew unlink tesseract从那里你可以运行install命令。

验证您的Tesseract版本

在计算机上安装Tesseract后，应执行以下命令以验证Tesseract版本$ tesseract -v安装Tesseract + Python绑定

现在我们已经安装了Tesseract二进制文件，现在我们需要安装Tesseract + Python绑定，这样我们的Python脚本就可以与Tesseract进行通信，并对OpenCV处理的图像执行OCR。

如果您使用的是Python虚拟环境（我强烈建议您使用独立的独立Python环境），请使用 workon 命令访问您的虚拟环境$ workon cv从那里，我们将使用pip来安装Pillow，一个更适合Python的PIL版本，然后是 pytesseract 和 imutils ：OpenCV OCR and text recognition with TesseractShell

在这种情况下，我正在访问名为cv （“计算机视觉”的缩写）的Python虚拟环境 – 您可以将cv替换为您命名为虚拟环境的任何内容。$ pip install pillow$ pip install pytesseract$ pip install imutils现在打开一个Python shell并确认您可以导入OpenCV和 pytesseract

Congratulations!

如果您没有看到任何导入错误，您的计算机现在配置为使用OpenCV执行OCR和文本识别

让我们继续下一节（跳过Pi指令），我们将学习如何实际实现Python脚本来执行OpenCV OCR。

在树莓派 Raspberry Pi和Raspbian上安装Tesseract 4和支持软件注意：如果您不在Raspberry Pi上，可以跳过本节。不可避免地，我会被问到如何在Rasberry Pi上安装Tesseract 4。

以下说明不适合胆小的人 – 您可能会遇到问题。它们经过测试，但里程可能因您自己的Raspberry Pi而异。

首先，从系统站点包卸载OpenCV绑定$ sudo rm /usr/local/lib/python3.5/site-packages/cv2.so 从我的cv2开始，我在这里使用了 rm命令。所以在site中的文件 – 包只是一个sym-link。如果是 cv2 。所以绑定是你真正的 OpenCV绑定，那么你可能想要将文件移出站点- 包安全保存。

现在在您的系统上安装两个QT包$ sudo apt-get install libqtgui4 libqt4-test然后，通过Thortex的GitHub安装tesseract$ cd ~$ git clone https://github.com/thortex/rpi3-tesseract$ cd rpi3-tesseract/release$ ./install_requires_related2leptonica.sh$ ./install_requires_related2tesseract.sh$ ./install_tesseract.sh无论出于何种原因，安装中缺少经过培训的英语语言数据文件，因此我需要下载并将其移动到正确的目录中$ cd ~$ wget https://github.com/tesseract-ocr/tessdata/raw/master/eng.traineddata$ sudo mv -v eng.traineddata /usr/local/share/tessdata/从那里，创建一个新的Python虚拟环境$ mkvirtualenv cv_tesseract -p python3并安装必要的包$ workon cv_tesseract$ pip install opencv-contrib-python imutils pytesseract pillow你完成了！请记住，您的体验可能会有所不同。

了解OpenCV OCR和Tesseract文本识别

现在我们已经在我们的系统上成功安装了OpenCV和Tesseract，我们需要简要回顾一下我们的管道和相关命令。

首先，我们将应用OpenCV的EAST文本检测器来检测图像中是否存在文本。EAST文本检测器将为我们提供文本ROI 的边界框（x，y） –坐标。

我们将提取每个ROI，然后将它们传递给Tesseract v4的LSTM深度学习文本识别算法。

LSTM的输出将为我们提供实际的OCR结果。

最后，我们将在输出图像上绘制OpenCV OCR结果。

但在我们实际进入项目之前，让我们简要回顾一下Tesseract命令（将由pytesseract 库在引擎盖下调用）。

在调用 tessarct 二进制文件时，我们需要提供许多标志。最重要的三个是 – l ， – oem 和 – psm 。

本 – l 标志控制输入文本的语言。我们将在此示例中使用 eng（英语），但您可以在此处查看Tesseract支持的所有语言。(支持中文)

的 – OEM 参数，或者OCR引擎模式，控制由超正方体使用的算法的类型。

您可以通过执行以下命令来查看可用的OCR引擎模式

我们将使用–oem 1表示我们只希望使用深度学习LSTM引擎。

最后一个重要标志， – psm 控制Tesseract使用的自动页面分割模式

对于OCR的文本ROI，我发现模式6和7运行良好，但如果你是OCR的大块文本，那么你可能想尝试3，默认模式

每当您发现自己获得不正确的OCR结果时，我强烈建议您调整 – psm，因为它会对您的输出OCR结果产生巨大影响。

项目结构

请务必从博客文章的“下载”部分获取zip 。

从那里解压缩文件并导航到目录。该树命令让我们看到在我们的终端目录结构

我们的项目包含一个目录和两个值得注意的文件：

images / ：包含六个包含场景文本的测试图像的目录。我们将尝试使用这些图像中的每一个OpenCV OCR。

frozen_east_text_detection .pb ：EAST文本检测器。CNN经过预先培训，可以进行文本检测并准备就绪。我没有训练这个模型 – 它提供OpenCV; 为方便起见，我还将其包含在 “下载”中。

text_recognition .py ：我们的OCR脚本 – 我们将逐行查看此脚本。该脚本利用EAST文本检测器查找图像中的文本区域，然后利用Tesseract v4进行识别。

实现我们的OpenCV OCR算法

我们现在准备用OpenCV进行文本识别！

打开 text_recognition .py 1

今天的OCR脚本需要五个导入，其中一个内置在OpenCV中。

最值得注意的是，我们将使用 pytesseract 和OpenCV。我的 imutils 包将用于非最大值抑制，因为OpenCV的 NMSBoxes 函数似乎不能与Python API一起使用。我还会注意到NumPy是OpenCV的依赖项。

该 argparse 包包括在Python和处理命令行参数-没有什么可以安装。

既然已经完成了我们的导入，那么让我们实现 decode_predictions 函数：

使用基于深度学习的文本检测器来检测（不识别）图像中的文本区域。

文本检测器生成两个数组，一个包含给定区域包含文本的概率，另一个包含将分数映射到输入图像中的边界框位置。

正如我们在OpenCV OCR管道中看到的那样，EAST文本检测器模型将产生两个变量：

scores ：正文本区域的概率。

geometry ：文本区域的边界框。

…每个都是decode_predictions 函数的参数。

该函数处理此输入数据，从而生成一个元组，其中包含（1）文本的边界框位置和（2）包含文本的区域的相应概率：

rects ：这个值基于几何，并且是一个更紧凑的形式，因此我们以后可以应用NMS。

confidences 置信度：此列表中的置信度值对应于 rects中的每个矩形。

这两个值都由函数返回。注意：理想情况下，旋转的边界框将包含在 rects中，但为今天的概念证明提取旋转的边界框并不是很简单。相反，我已经计算了水平边界矩形，它考虑了角度。如果要提取单词的旋转边界框以传递到Tesseract，则可在第41行上使用该角度。有关上述代码块的更多详细信息，请参阅此博客文章。从那里让我们解析我们的命令行参数

我们的脚本需要两个命令行参数：

–image : 输入图像的路径。

– east ：预训练EAST文本检测器的路径。

（可选）可以提供以下命令行参数：

– min – confidence ：检测到的文本区域的最小概率。

– width ：我们的图像在通过EAST文本检测器之前将调整大小的宽度。我们的探测器需要32的倍数。

– height ：与宽度相同。同样，我们的探测器要求调整高度为 32的倍数。

– padding ：添加到每个ROI边界的（可选）填充量。如果您发现OCR结果不正确，您可以尝试0.05 5％或 0.10 ,10％（依此类推）。

从那里，我们将加载+预处理我们的图像并初始化关键变量

我们的图像被加载到内存中并被复制（因此我们可以稍后在第82和83行上绘制输出结果）。

我们抓住原始的宽度和高度（第84行），然后从args 字典中提取新的宽度和高度（第88行）。

使用原始维度和新维度，我们计算用于稍后在脚本中缩放我们的边界框坐标的比率（第89和90行）。

然后调整我们的图像大小，忽略纵横比（第93行）。

接下来，让我们使用EAST文本检测器

我们的两个输出图层名称放在第99-101行的列表表单中。要了解为什么这两个输出名称很重要，您需要参考我原来的EAST文本检测教程。

然后，我们预先训练的EAST神经网络被加载到存储器中（第105行）。我不能强调这一点：你至少需要OpenCV 3.4.2来拥有 cv2 。dnn 。readNet 实现。接下来发生了第一个“魔术”：

要确定文本位置，我们：

在第109行和第110行构造一个 blob。了解更多关于该过程在这里。

将斑点传递通过神经网络，获得 scores 和 geometry （第111和112行）。

使用先前定义的decode_predictions 函数解码预测（第116行）。

通过我的imutils方法应用非最大值抑制（第117行）。NMS有效地采用最可能的文本区域，消除了其他重叠区域。

现在我们知道了文本区域的位置，我们需要采取措施来识别文本！我们开始遍历边界框并处理结果，为实际文本识别做好准备

我们初始化 result列表以包含我们在第120行的 OCR边界框和文本。

然后我们开始循环框（第123行），我们在这里：

根据先前计算的比率（第126-129行）缩放边界框。

填充边界框（第134-141行）。

最后，提取填充的 roi （144行）。

我们的OpenCV OCR管道可以使用一些Tesseract v4“magic”来完成

记下代码块中的注释，我们在第151行设置了Tesseract 配置参数（英语，LSTM神经网络和单文本）。注意：您可能需要配置 – PSM 使用本教程顶我的指示值，如果你发现自己得到不正确的OCR结果。该 pytesseract 库需要照顾其余的 152行，我们称之为 pytesseract 。image_to_string ，传递我们的 roi 和配置字符串。

在两行代码中，您使用Tesseract v4识别图像中的文本ROI。请记住，引擎盖下有很多事情发生。

我们的结果（边界框值和实际文本字符串）将附加到结果列表（第156行）。

然后我们继续在循环顶部的其他ROI进行此过程。

现在让我们显示/打印结果，看看它是否真的有效

基于边界框的y坐标，我们的结果在第159行从上到下排序（尽管您可能希望对它们进行不同的排序）。

从那里，循环 result，我们：

将OCR的文本打印到终端（第164-166行）。

从文本中删除非ASCII字符，因为OpenCV不支持cv2中的非ASCII字符。putText 函数（第171行）。

绘制（1）围绕ROI的边界框和（2） ROI上方的结果文本（第173-176行）。

显示输出并等待按下任何键（第179和180行）。

OpenCV文本识别结果

现在我们已经实现了OpenCV OCR管道，让我们看看它的实际应用。

请务必使用此博客文章的“下载”部分下载源代码，OpenCV EAST文本检测器模型和示例图像。

从那里，打开命令行，导航到您下载的位置+解压缩zip，然后执行以下命令：$ python text_recognition.py --east frozen_east_text_detection.pb \ --image images/example_01.jpg

我们从一个简单的例子开始。

请注意我们的OpenCV OCR系统如何能够正确地（1）检测图像中的文本，然后（2）识别文本。

下一个示例更能代表我们在实际图像中看到的文本$ python text_recognition.py --east frozen_east_text_detection.pb \ --image images/example_02.jpg

再次，请注意我们的OpenCV OCR管道如何能够正确地本地化和识别文本; 然而，在我们的终端输出中，我们看到一个注册商标Unicode符号–Thisseract可能在这里被混淆，因为OpenCV的EAST文本检测器报告的边界框流入标志后面的草地灌木/植物。

让我们看看另一个OpenCV OCR和文本识别示例$ python text_recognition.py --east frozen_east_text_detection.pb \ --image images/example_03.jpg

在这种情况下，有三个单独的文本区域。

OpenCV的文本检测器能够对每个文本检测器进行本地化 – 然后我们应用OCR来正确识别每个文本区域。

我们的下一个示例显示了在某些情况下添加填充的重要性$ python text_recognition.py --east frozen_east_text_detection.pb \ --image images/example_04.jpg

在OCR’这个烘焙店店面的第一次尝试中，我们看到“SHOP”是正确的OCR，但是：

“CAPUTO”中的“U”被错误地识别为“TI”。

“CAPUTO’S”中缺少撇号和“S”。

最后，“BAKE”被错误地识别为带有句点（“。”）的竖线/竖线（“|”）。

通过添加一些填充，我们可以扩展ROI的边界框坐标并正确识别文本$ python text_recognition.py --east frozen_east_text_detection.pb \ --image images/example_04.jpg --padding 0.05

只需在边界框的每个角落添加5％的填充，我们不仅能够正确地OCR“BAKE”文本，而且我们还能够识别“CAPUTO”中的“U”和“S”。

当然，有一些OpenCV扁平化失败的例子$ python text_recognition.py --east frozen_east_text_detection.pb \ --image images/example_05.jpg --padding 0.25

我将填充增加到25％以适应此符号中单词的角度/透视。这允许“Designer”与EAST和Tesseract v4正确地进行OCR。但较小的单词可能是由于字母与背景的颜色相似而导致丢失的原因。

在这些情况下，我们无能为力，但我建议您参考下面的限制和缺陷部分，了解如何在遇到错误的OCR结果时改进OpenCV文本识别管道。

限制和缺点重要的是要了解没有OCR系统是完美的！没有完美的OCR引擎，特别是在现实条件下。此外，期望100％准确的光学字符识别是不切实际的。我们发现，我们的OpenCV OCR系统在某些图像中运行良好，但在其他图像中却失败了。

我们将看到文本识别管道失败的主要原因有两个：

文本倾斜/旋转。

文本本身的字体与Tesseract模型训练的内容不同。

尽管Tesseract v4比Tesseract v3强大且准确，但深度学习模型仍然受到训练数据的限制 – 如果您的文本包含Tesseract未经过训练的装饰字体或字体，则Tesseract不太可能能够OCR文本。

其次，请记住，Tesseract 仍假定您的输入图像/ ROI已相对清理。

由于我们在自然场景图像中执行文本检测，因此这种假设并不总是成立。

一般情况下，您会发现我们的OpenCV OCR管道最适用于（1）以90度角（即自上而下，鸟瞰图）捕获图像的文本，以及（2）相对容易从背景细分。

如果不是这种情况，您可以应用透视变换来更正视图，但请记住，今天查看的Python + EAST文本检测器不提供旋转边界框（如我之前的帖子中所述），所以你仍然可能有点受限。

Tesseract将始终使用干净的预处理图像，因此在构建OpenCV OCR管道时请记住这一点。

如果您需要更高的准确度，并且您的系统将具有互联网连接，我建议您尝试使用“大3”计算机视觉API服务之一：

…每个都使用在云中的强大机器上运行的更高级的OCR方法。

摘要

在今天的教程中，您学习了如何应用OpenCV OCR来执行以下两项操作：

文字检测

文字识别

为完成这项任务，我们：

利用OpenCV的EAST文本检测器，使我们能够应用深度学习来定位图像中的文本区域

从那里，我们提取每个文本ROI，然后使用OpenCV和Tesseract v4应用文本识别。

我们还研究了Python代码，以便在单个脚本中执行文本检测和文本识别。

我们的OpenCV OCR管道在某些情况下运行良好，但在其他情况下也失败了。为了获得最佳的OpenCV文本识别结果，我建议您确保：

您的输入ROI将尽可能地进行清理和预处理。在理想的世界中，您的文本将与图像的其余部分完美地分割，但实际上，这并非总是可行的。

您的文字是从相机以90度角拍摄的，类似于自上而下的鸟瞰图。如果不是这种情况，透视变换可以帮助您获得更好的结果。

我希望你喜欢今天关于OpenCV OCR和文本识别的博客文章

原文链接

文本识别使用 Tesseract 进行 OpenCV OCR 和文本识别hotdog29.com

文章转自 Adrian Rosebrock ，OpenCV Face Recognition，PyImageSearch，https://www.pyimagesearch.com/OpenCV OCR and text recognition with Tesseract/,2009年7月18日访问

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
绘本讲师训练营【24期】8/21阅读原创《独生小孩》 1784e22615e0
24016-孟娟《独生小孩》图片发自App今天我想分享一个蛮特别的绘本，讲的是一个特殊的群体，我也是属于这个群体，80后的独生小孩。这是一本中国绘本，作者郭婧，也是一个80厚。全书一百多页，均为铅笔绘制，虽然为黑白色调，但并不显得沉闷。全书没有文字，犹如“默片”，但并不影响读者对该作品的理解，反而显得神秘，梦幻，給读者留下想象的空间。作者在前蝴蝶页这样写到：“我更希望父母和孩子一起分享这本书，使他
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
梁文道《尽头:怎样是好的阅读和书写》片段白夜书摘
1、写小说的人，有时会强烈地感到一种现实的召唤，想去面对和回应现实。这时他们会觉得自己正站在时代中心，就像黑格尔说的，要把时代精神掌握在自己的小说（不是哲学）里面。但是这也很危险，当一个作家像一个时代那样书写，可能就会出现问题了。2、文字是远比语言大块而且湿冷的木头，又距离我们内心的火花稍远，不容易瞬间点燃起来，这处隙缝，给了我们回身的余地，可以再多看一下想一下设身处地一下；人类过往这最后五千年，
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后

python识别文字 opencv_文本识别 使用 Tesseract 进行 OpenCV OCR 和 文本识别

你可能感兴趣的:(python识别文字,opencv)

python识别文字 opencv_文本识别使用 Tesseract 进行 OpenCV OCR 和文本识别