飞桨PaddlePaddle

一键与图片对话！LLM实现图片关键信息提取与交互

本期文心开发者说邀请到飞桨开发者技术专家徐嘉祁，主要介绍了如何通过小模型与大模型的结合，解决数据分析中的问题。

项目背景

在智能涌现的大模型时代，越来越多的企业和研究机构开始探索如何利用大模型来提升工作效率，助力业务智能化转型。但其实小模型与大模型结合后，能够更加高效、低成本地解决业务中出现的问题，带给用户不一样的体验。我想分享的内容是小模型与大模型结合后产生的理解记忆逻辑和生成能力。

在工作场景下，普遍存在效率问题。比如要想了解一张股东持股数据图的最大值与最小值，但面对密密麻麻的数据，人眼排序出错率高。比如你是一位数据工程师，领导让你对数据进行分析，如何能更快地将图片数据转为JSON格式。

在日常生活中，也常常出现难以解决或耗时过长的问题。例如，购买进口产品，国内消费者最大的困扰在于看不懂英文说明书。有些人可能会使用手机拍照翻译来理解或使用说明书，但这无法从根本上解决问题。

在这一背景下，我们的项目应运而生。

在2023年的WAVE SUMMIT+深度学习开发者大会上，文心一言通过飞桨星河社区提供一整套开发机制，社区用户可以通过API和SDK使用文心大模型的基础能力，并支持插件、多工具智能编排开发，创造AI原生应用。文心一言强大的能力也使得多个模态贯通成为可能，亦给我带来更多延伸思考：如果数据的呈现形式不是文档而是图片，我们是否依旧能对图片中的数据进行分析，甚至将其绘制成饼状图呢？

对此，我这次尝试给出的解决方案是使用小模型加大模型，也就是PP-OCR加上文心一言带来新的体验，也可以使得文心一言的应用范围更加广泛。

项目实现流程

该项目是如何实现的呢？

首先，用户上传图片，通过PP-OCR进行文本提取，将结果结合Prompt上传文心一言。文心一言同时对第一轮对话输入的Prompt和PP-OCR进行初步分析，再反馈结果给用户。

项目前储备

PP-OCR

PP-OCR应用领域广泛，如自动化录入、数据统计、档案管理等。它可以将纸质文档快速准确地转化为数字化信息，极大地提升了办公效率与工作便利性。然而，PP-OCR还存在着一些挑战，例如对于手写字体、复杂排版或图像质量的识别准确性，仍存在局限。该项目使用的是PP-OCR v3的版本，在PP-OCR v2版本的基础上有所升级，能够优化后续开发流程。

PP-OCR v3效果

飞桨星河社区 ERNIE SDK

ERNIE SDK提供便捷易用的接口，可以调用文心一言的能力，包含文本创作、通用对话、语义向量、Al作图等。

环境配置

环境配置包括星河社区的基础平台与环境，Python 3.7的版本，PaddlePaddle2.1.2，ERNIE SDK。

案例

接下来将以两个案例作为示意，说明应用的开发步骤。

股东持股

PP-OCR的配置

首先，安装PP-OCR，默认的是PP-OCR v3的版本。

!pip install paddleocr -i https://mirror.baidu.com/pypi/simple

通过以下这段代码检查是否有PP-OCR的数据集，中间需要选择股东持股的照片，因此需要先下载PP-OCR的数据集再进行解压。

import os
file_path = "ppocr_img.zip"
if os.path.isfile(file_path):
    print(file_path, "OK")
else:
    !wget https://paddleocr.bj.bcebos.com/dygraph_v2.1/ppocr_img.zip
file_path = "ppocr_img/imgs/00015504.jpg" #这里选择的是股东持股的图片，后面完成其他项目的时候需要改为说明书的图片
if os.path.isfile(file_path):
    print(file_path, "OK")
else:
    !unzip ppocr_img.zip
    print("unzip OK!")

其次，将股东持股的图片路径传给变量，确认输入图片是否正确。

from IPython import display
display.Image(filename=file_path, width=640) #看看待处理图片

随后，PP-OCR对图片的文本数据进行提取。

#图片OCR识别
from paddleocr import PaddleOCR, draw_ocr
# Paddleocr目前支持的多语言语种可以通过修改lang参数进行切换
# 例如`ch`, `en`, `fr`, `german`, `korean`, `japan`
ocr = PaddleOCR(use_angle_cls=True, lang="ch")  
img_path = file_path
result = ocr.ocr(img_path, cls=True)
for idx in range(len(result)):
    res = result[idx]
    for line in res:
        print(line)

由于直接使用OCR输出结果进行文本分析和抽取的效果不佳，并且存在大量无关内容，影响大模型的处理速度，因此需要处理将识别出的内容，删除无关信息，留下关键数据。初步处理数据后，OCR输出的结果被存储在变量ocr_result1中，这是进行内容整理的基础。

ocr_result1 = ""
for idx in range(len(result)):
    res = result[idx]
    for line in res:
#         print(line[1][0])
        ocr_result1 = ocr_result1 + " " + str(line[1][0])
#         break
print(ocr_result1)

与文心一言进行交互

首先，需要对Prompt进行设计，这一步会影响到文心一言输出的结果。本项目的Prompt设置为“你现在的任务是从OCR文字识别的结果中提取我指定的关键信息。OCR的文字识别结果使用符号包围，包含所识别出来的文字，顺序在原始图片从左至右、从上至下。我指定的关键信息使用符号包围。请注意OCR文字识别结果可能会存在长句子换行被切断、不合理的分词、对应错位等问题，你需要结合上下文语义进行综合判断，以抽取准确的关键信息，输出为JSON格式。”

如果希望获得更详细的信息，需要与文心一言进行多轮对话。那么需要将设计好的Prompt传给文心一言。

#多轮对话
model = 'ernie-bot'
messages = [{'role': 'user', 'content': "你现在的任务是从OCR文字识别的结果中提取我指定的关键信息。OCR的文字识别结果使用```符号包围，包含所识别出来的文字，顺序在原始图片中从左至右、从上至下。我指定的关键信息使用[]符号包围。请注意OCR的文字识别结果可能存在长句子换行被切断、不合理的分词、对应错位等问题，你需要结合上下文语义进行综合判断，以抽取准确的关键信息。输出为JSON格式。"}]
first_response = erniebot.ChatCompletion.create(
    model=model,
    messages=messages,
)
print(first_response.result)

接着，将OCR的结果传给文心一言，进行第二轮对话。第二轮对话的结果是基于第一轮对话的Prompt和第二轮输入的OCR的result。

messages.append({'role': 'assistant', 'content': first_response.result})
messages.append({'role': 'user', 'content': ocr_result1})

second_response = erniebot.ChatCompletion.create(
    model=model,
    messages=messages,
)
print(second_response.result)

随后便可以开启第三轮对话，此处Prompt设计为“请你帮我分析前十名股东持股情况中，持股比例最多的是哪个？”

messages.append({'role': 'assistant', 'content': second_response.result})
messages.append({'role': 'user', 'content': "请你帮我分析前十名普通股东持股情况中，持股比例最多的是哪个？"})

third_response = erniebot.ChatCompletion.create(
    model=model,
    messages=messages,
)
print(third_response.result)

根据提供的信息，前十名普通股东持股情况中，持股比例最多的是“成都交子金融控股集团有限公司”，其持股比例为18.0613%。可以看到，文心一言不仅对数据做出了初步处理，还对数据进行了分析，找出了占比最大值。

英文说明书

流程和股东持股基本一致，都是采用小模型加大模型的流程进行开发，需要对Prompt进行修改。第一步，将图片路径改成“说明书的图片路径”。

file_path = "/home/aistudio/sms.jpg" #这里选择的是说明书的图片

from IPython import display
display.Image(filename=file_path, width=600) #看看待处理图片

第二步，对图片进行OCR识别。

#图片OCR识别
from paddleocr import PaddleOCR, draw_ocr
# Paddleocr目前支持的多语言语种可以通过修改lang参数进行切换
# 例如`ch`, `en`, `fr`, `german`, `korean`, `japan`
ocr = PaddleOCR(use_angle_cls=True, lang="en")  
img_path = file_path
result = ocr.ocr(img_path, cls=True)
for idx in range(len(result)):
    res = result[idx]
    for line in res:
        print(line)

与第一个案例不同的是，该段内容由大段英文组成，需要再次对输出的结果进行处理，删除无关内容，将结果命名为OCR result 2。

第三步，对输出的result进行处理。

ocr_result2 = ""
for idx in range(len(result)):
    res = result[idx]
    for line in res:
#         print(line[1][0])
        ocr_result2 = ocr_result2 + " " + str(line[1][0])
#         break
print(ocr_result2)

第四步，设计Prompt，文心一言能够进行机器翻译，将result翻译成中文格式。接下来，可以进行多轮对话。

#多轮对话
model = 'ernie-bot'
messages = [{'role': 'user', 'content': "你现在的任务是从OCR文字识别的结果中提取我指定的关键信息。OCR的文字识别结果使用符号包围，包含所识别出来的文字，顺序在原始图片中从左至右、从上至下。我指定的关键信息使用[]符号包围。请注意OCR的文字识别结果可能存在长句子换行被切断、不合理的分词、对应错位等问题，你需要结合上下文语义进行综合判断，以抽取准确的关键信息。输出为JSON中文格式。"}]
first_response = erniebot.ChatCompletion.create(
    model=model,
    messages=messages,
)
print(first_response.result)

messages.append({'role': 'assistant', 'content': first_response.result})
messages.append({'role': 'user', 'content': ocr_result2})

second_response = erniebot.ChatCompletion.create(
    model=model,
    messages=messages,
)
print(second_response.result)

```json
{
  "重要安全说明": [
    "仅按本手册中的说明使用该产品，否则可能导致严重伤害。",
    "使用电子设备时，应始终遵循基本预防措施以减少火灾、电击和人身伤害的风险，包括以下内容：",
    "使用前：请勿在浴室等潮湿位置使用该设备。",
    "警告：为减少火灾或电击的风险，请勿将本风扇与任何固态速度控制装置一起使用。",
    "清洁说明：请勿使用腐蚀性化学品清洁电源插头或电源线，以免造成损坏、电击或火灾。",
    "存储说明：请将设备存放在干燥的地方，并远离易燃和可燃物品。",
    "使用提示：请勿将设备放在热源（如炉子或任何有可燃气体泄漏的地方）附近。",
    "使用限制：如果电源线或任何机器部件损坏，必须由制造商、其服务代理或合格人员更换，以避免危险。",
    "限制使用：本产品所提供的线缆含有化学品，如果设备在运行时产生特殊气味，请勿在有自由基、铅或镉化合物的地方使用。",
    "加州法规提案65：在使用后，请立即洗手。"
  ]
}```

此处，将Prompt设计为“上面这个产品是否可以放到潮湿的地方”，再提供给文心一言分析文本。

messages.append({'role': 'assistant', 'content': second_response.result})
messages.append({'role': 'user', 'content': "上面这个产品是否可以放到潮湿的地方？"})

third_response = erniebot.ChatCompletion.create(
    model=model,
    messages=messages,
)
print(third_response.result)

根据OCR文字识别结果，有一句话是“使用前：请勿在浴室等潮湿位置使用该设备。”因此，文心一言给出回答：“所以，这个产品不应该放在潮湿的地方，在使用电子设备时应该采取基本的预防措施。”文心一言不仅能基于文本提供答案，还会提供使用电子产品的建议。

总的来说，PP-OCR可以初步提取比较清晰的结果。

案例一：

案例二：

文心一言可以对数据进行预处理。例如案例一，将表格转化为图片中的格式。该技术能够极大地简化数据工程师的工作。

对话二基于上一轮提取的数据输出的结果，可以帮助用户更快了解图片的信息。

总结

针对数据转换，该项目采用PP-OCR技术识别图片的文本信息，借此更加快速、准确地提取数据，规避手动输入造成的麻烦与错误。随后对获取的数据进行排序，找出最大值与最小值，并以JSON格式输出。该方法提高了数据处理和输出的效率。其次，文心一言能将英文说明书翻译为中文，并为用户解答具体问题、提供操作建议。因此，用户无需理解全篇说明书，只需询问特定问题，就能获得满意的答案。PP-OCR与文心一言的结合，使得大量数据处理更加高效，关键信息提取更加准确，同时解决了语言障碍所导致的产品使用问题，优化用户体验。这一项目展示了人工智能技术在解决生活和工作问题的巨大潜力，引领未来科技的发展方向。

其他解决方案

PaddleX中的PP-ChatOCRv2是一个融合了LLM大模型和OCR技术，用于进行通用文本图像智能分析的利器。该技术覆盖20+高频应用场景，支持5种文本图像智能分析能力和部署，包括通用场景关键信息抽取（快递单、营业执照和机动车行驶证等）、复杂文档场景关键信息抽取（解决生僻字、特殊标点、多页pdf、表格等难点问题）、通用OCR、文档场景专用OCR、通用表格识别。此外针对垂类业务场景，也支持模型训练、微调和Prompt优化。

欢迎在线体验：

https://aistudio.baidu.com/application/detail/10368

JVM 深入浅出：一文看懂 JVM 内存结构 kkkllllss spring Java Java架构 spring boot spring redis java 架构
文章目录1.概述2.程序计数器3.Java虚拟机栈3.1.栈深度3.2.栈帧3.2.1.局部变量表3.2.2.操作数栈3.2.3.动态链接3.2.4.方法正常结束3.2.5.方法异常结束4.堆5.方法区5.1.去永久代过程6.运行时常量池7.本地方法栈8.参考资料1.概述JVM把内存进行了划分，不同的内存区域有不同的功能。有的内存区域是线程私有的，比如Java虚拟机栈、本地方法栈和程序计数器，每一
深入浅出JVM(一)---两种环境杨洪波 Java jvm java class api 语言引擎
如果你想真正掌握JAVA技术,请首先记住它的四个组成部分:JAVA语言,class文件格式,JVM和JAVAAPI.如果你说你学过JAVA,那么,你已经知道了,JAVA有两个环境:编译环境和运行环境.好,我们分别讨论.1)编译环境编译环境是什么?如果你装了JDK,那么,你的D:/j2sdk1.4.2目录下的所有东西,就是你的JAVA编译环境.编译环境的工作流程如下:你利用JAVA语言规范,或利用J
FerretDB 2.0：开源 MongoDB 替代品的安装与使用指南田猿笔记 MongoDB 开源数据库 FerretDB
介绍FerretDB2.0是一个开源数据库，旨在作为MongoDB的替代品。它与MongoDB5.0+的驱动程序和工具兼容，适合需要避免MongoDB许可复杂性的开发者。它的核心特点是使用PostgreSQL作为后端，并通过DocumentDB扩展提升性能，研究表明某些工作负载可快20倍。安装与使用安装FerretDB2.0使用dockercompose需要以下步骤：创建docker-compos
linux find 命令超全完整指南疑犯 linux 服务器 find命令
linuxfind命令超全完整指南一、基础语法与工作逻辑find[起始路径][表达式][操作]起始路径：指定搜索根目录，默认为当前目录.。支持多路径（如find/etc/var）表达式：定义搜索条件（如文件名、类型、时间等）。操作：对匹配文件执行命令（如删除、压缩等）。二、核心查找条件详解1.按名称查找精确匹配：-name"文件名"find/home-name"example.txt"#精确查找文
大数据和人工智能概念全面解析就犯得上方法
一、大数据和人工智能大数据是伴随着信息数据爆炸式增长和网络计算技术迅速发展而兴起的一个新型概念。根据麦肯锡全球研究所的定义，大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能够帮助各行各业的企业从原本毫无价值的海量数据中挖掘出用户的需求，使数据能够从量变到质变，真正产生价值
数据库管理-第303期数据库相关硬件文章汇总（20250319）胖头鱼的鱼缸（尹海文）数据库数据库
数据库管理303期2025-03-19数据库管理-第303期数据库相关硬件文章汇总（20250319）1CPU&内存2SSD3RDMA4存储5CXL6硬件采购7数据库一体机总结数据库管理-第303期数据库相关硬件文章汇总（20250319）作者：胖头鱼的鱼缸（尹海文）OracleACEPro:DatabasePostgreSQLACEPartner10年数据库行业经验拥有OCM11g/12c/19
数据库管理-第304期业绩？有绩无业！（20250320）胖头鱼的鱼缸（尹海文）数据库数据库 oracle
数据库管理304期2025-03-20数据库管理-第304期业绩？有绩无业！（20250320）1词解2跑偏3活动预告总结数据库管理-第304期业绩？有绩无业！（20250320）作者：胖头鱼的鱼缸（尹海文）OracleACEPro:DatabasePostgreSQLACEPartner10年数据库行业经验拥有OCM11g/12c/19c、MySQL8.0OCP、Exadata、CDP等认证墨天
Python之pip的安装和使用详细教程叫我技术帝 Python python
我们都知道python有海量的第三方库或者说模块，这些库针对不同的应用，发挥不同的作用。我们在实际的项目中，或多或少的都要使用到第三方库，那么如何将他人的库加入到自己的项目中内呢？打个电话？大哥你好，想用下你那个库，麻烦给邮箱发个源码呗！显然这是个笑话。Python官方的PyPi仓库为我们提供了一个统一的代码托管仓库，所有的第三方库，甚至你自己写的开源模块，都可以发布到这里，让全世界的人分享下载。
DeepSeek爆火，背后模型竟藏着这些秘密！ qq_23519469 ai
DeepSeek是什么来头最近，AI圈可是被一个名字刷爆了屏，那就是DeepSeek！它就像一颗横空出世的超级新星，在全球范围掀起了一阵狂热的追捧潮，这热度，简直了！大家都在疯狂讨论它，各种测评、对比层出不穷。它到底有啥过人之处，能让这么多人都为之疯狂？今天咱就来好好唠唠。DeepSeek，全称杭州深度求索人工智能基础技术研究有限公司，是一家专注于开发先进大语言模型（LLM）和相关技术的企业。它成
从0到1，带你快速上手Scala语言 qq_23519469 scala 开发语言后端
什么是ScalaScala，读作“skah-lah”，是“ScalableLanguage”的缩写，是一门多范式编程语言。它就像是编程世界里的“变形金刚”，融合了面向对象编程（OOP）和函数式编程（FP）的特性，这意味着开发者能在同一语言中，把面向对象的设计和函数式编程的抽象结合起来使用，超级灵活！它运行在Java虚拟机（JVM）上，能与现有的Java代码无缝集成。这就好比Scala是Java的“
一文搞懂大数据神器Spark，真的太牛了！ qq_23519469 大数据 spark 分布式
Spark是什么在如今这个大数据时代，数据量呈爆炸式增长，传统的数据处理方式已经难以满足需求。就拿电商平台来说，每天产生的交易数据、用户浏览数据、评论数据等，数量巨大且种类繁多。假如要对这些数据进行分析，比如分析用户的购买行为，找出最受欢迎的商品，预测未来的销售趋势等，用普通的单机处理方式，可能需要花费很长时间，甚至根本无法完成。这时，Spark就应运而生了。Spark是一个开源的、基于内存计算的
决策树算法全解析：从零基础到Titanic实战，一文搞定机器学习经典模型吴师兄大模型 0基础实现机器学习入门到精通算法机器学习决策树人工智能深度学习编程开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
如何在一行代码中初始化各种AI模型 qahaj 人工智能 python 深度学习
技术背景介绍在开发大语言模型(LLM)应用时，用户有时需要选择不同的模型提供商和具体模型。这通常需要一定的逻辑来根据用户配置初始化不同的聊天模型。为了简化这一过程，init_chat_model()方法被引入，让开发者能够轻松地初始化多种模型集成，而无需担心导入路径和类名。核心原理解析init_chat_model()方法通过传入模型名称及其提供商，自动推断并实例化对应的聊天模型。该功能在lang
Angular 18：从模块化到独立组件的转变 t0_54coder 编程问题解决手册 angular.js 前端 javascript 个人开发
随着Angular17的发布，Angular18继续推动开发者走向更简化的架构模式——独立组件（StandaloneComponents）。在这篇博客中，我们将探讨如何将一个使用模块化（NgModule）的Angular应用转变为使用独立组件的架构，并以一个具体的案例来说明这个过程。为什么选择独立组件？Angular18鼓励使用独立组件，主要有以下几个原因：减少冗余代码：不再需要为每个组件创建独立
AI人工智能代理工作流AI Agent WorkFlow：设计智能任务处理流程 AI天才研究院计算 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：设计智能任务处理流程作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在当今的数字化时代，随着数据量的爆炸式增长和复杂性的提升，传统的手动任务处理方式已经无法满足高效、准确的需求。人工智能技术的发展为自动化任务处理提供了新的可能性。AI人工智能代理（AIAgent）作为一
Telegram bot教程：通过BotFather设置Telegram bot的命令菜单鲲志说 Web3相关业界资讯 telegram bot 经验分享笔记 twitter Telegram Bot
最近在研究Telegrambot嘛，总有些小细节可以记录了，今天就记录一个通过BotFather设置Telegrambot的命令菜单功能➡️【好看的灵魂千篇一律，有趣的鲲志一百六七！】-欢迎认识我～～作者：鲲志说（公众号、B站同名，视频号：鲲志说996）科技博主：极星会星辉大使后端研发：java、go、python、TS，前电商、现web3主理人：COC杭州开发者社区主理人、周周黑客松杭州主理人、
教书育人杂志教书育人杂志社教书育人编辑部2024年第34期目录 QQ296078736 人工智能
卷首教育没有捷径韩庆文;1教育观察法制化视角下的幼儿园爱国主义教育邓敏;曾彬;4-7教育转型视域下优化师生关系的三个着力点严挺;8-10家庭环境对幼儿性格形成的影响钟兴琴;11-13探索创新中华优秀传统文化融入中职思政教育的创新路径高书文;李金怡;吴金星;14-16新媒体时代高中音乐教育特色发展路径朱静;17-19基于绘本阅读的幼儿阅读习惯培养丁艳娥;20-22本期话题_地域文化与学科教学的融合区
黄河之声杂志黄河之声杂志社黄河之声编辑部2024年第23期目录 QQ296078736 人工智能
原创歌曲复兴之梦张杰文;薛亚东;石静;2杂诗·思乡覃艳;何家国;183我们在一起周敏;184祖国处处好风光马戈;185民族音乐学与传统音乐理论山西戏剧环境下原创音乐剧现状分析及发展思索王景璐;4-9基于音乐分析的聊斋俚曲【叠断桥】溯源研究杨晨宇;10-18从聊城尺八现状看中华优秀传统文化回流现象赵蕊;19-23徽班与徽商解飞;24-27四川白玉县“手指锅庄”艺术特征与传承发展研究李明明;28-31
教师杂志教师杂志社教师编辑部2025年第3期目录 QQ296078736 人工智能
德育与管理基于差异化教学的留学生跨文化适应能力的提升策略研究柯思琼;5-7高校思政教育第一课堂与第二课堂双向育人模式构建策略研究章迎春;李聪;8-10皖西红色文化融入地方开放大学思想政治教育的策略探究马陈晨;王文韬;陈瑞丹;11-13工匠精神融入中职英语专业学生职业素养培养的策略研究吴小燕;14-16高质量发展视域下高中政治教学创新路径研究汪文刚;17-19红色文化教育融入幼儿体育游戏的路径研究陆
大众文艺杂志社大众文艺杂志大众文艺编辑部2025年第3期目录 QQ296078736 人工智能
公共文化服务研究提高基层群众音乐鉴赏水平的策略研究罗婉琳;1-3文艺评论《增广贤文》：深入剖析其中的人学智慧姚志清;4-6当代战争视阈下近20年军旅戏剧军事文化观的嬗变研究（2000～2023年）邱远望;7-9从奥威尔的《射象》看分裂的自我与身份认同何玉蔚;10-12南宋都市笔记中的临安园林及其美学意义张凯歌;13-15文博与数字化研究数字时代与媒介史视域下的多模态图书馆系统及新质书香社会建设鹿钦
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
目前市场上主流的机器视觉的框架有哪些？他们的特点及优劣 yuanpan 机器学习计算机视觉
目前市场上主流的机器视觉框架和工具可以分为商业软件、开源工具和深度学习框架三大类。以下是它们的总结及特点对比：1.商业软件(1)Halcon(MVTec)特点：专注于工业机器视觉，提供高精度、高效率的算法。支持复杂的工业应用，如缺陷检测、3D视觉、深度学习等。提供图形化开发工具HDevelop和多种编程接口。优势：算法优化好，适合实时工业应用。硬件兼容性强，支持多种工业相机和设备。劣势：商业软件，
双均线量化策略实战指南：基于 iTick 外汇API、股票API报价源的 Python 实现算法pythonai开发
在量化交易领域，iTick报价API凭借其强大的多市场覆盖能力，已成为专业交易员的首选数据解决方案。其外汇API支持全球主要货币对（如EURUSD、GBPUSD）的毫秒级行情推送，包含Bid/Ask深度报价和实时波动率数据；股票API则覆盖A股、港股及美股市场，提供Level-2逐笔成交和十档盘口信息。通过统一的RESTful接口，开发者可轻松获取标准化的OHLCV数据，实现外汇、股票等多资产策略
1.1PaddleTS_环境配置：一个易用的深度时序建模的Python库 pythonQA python paddlepaddle
PaddleTS是一个易用的深度时序建模的Python库，它基于飞桨深度学习框架PaddlePaddle，专注业界领先的深度模型，旨在为领域专家和行业用户提供可扩展的时序建模能力和便捷易用的用户体验。PaddleTS的主要特性包括：设计统一数据结构，实现对多样化时序数据的表达，支持单目标与多目标变量，支持多类型协变量封装基础模型功能，如数据加载、回调设置、损失函数、训练过程控制等公共方法，帮助开发
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
代码逐行解析 | 教你在C++中使用深度学习提取特征点 3Ｄ视觉工坊 3D视觉从入门到精通 c++深度学习开发语言人工智能
点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达扫描下方二维码，加入3D视觉技术星球，星球内汇集了众多3D视觉实战问题，以及各个模块的学习资料：最新顶会论文、书籍、源码、视频（近20门系统课程[星球成员可免费学习]）等。想要入门3D视觉、做项目、搞科研，就加入我们吧。作者：泡椒味的口香糖|来源：3DCV添加微信：dddvision
再聊 Reducer Context 和 Redux
原文链接这是一次突发奇想的感悟，感觉还挺神奇的，遂记录一下。前言作为一个React的开发者已经蛮久的了，大大小小的应用也开发了不少，除了一开始学习React时用过Redux以外，后来基本都不碰了，不管多么复杂的应用，我也简单的觉得使用Context就能够解决我所有的问题。说来惭愧，我基本没有思考过Redux存在的原因，可能是React真的做的太好了，又或者是我们现在的设备性能已经严重过剩了，让我完
热点研究 | OpenAI 重磅发布 Agents SDK，人人都能手搓 Manus? Ai野生菌技术面 php 开发语言 manus openai agent
3月12日，OpenAI正式发布了OpenAIAgentsSDK，这一重要发布不仅为开发者提供了强大的工具，更预示着AIAgent技术即将进入快速发展期。这些工具为开发者提供更强大功能，使代理能够独立执行复杂任务，如搜索网络、处理文件和自动化计算机操作。ResponsesAPI同步发布，为开发者提供了构建自定义AIAgent的能力，能够执行网络搜索、文件检索等任务。这套新工具和API旨在赋能开发者
Lombok常用注解 AWen_X Java常用框架注解 java 开发语言
Lombok常用注解Lombok是一个Java库，通过注解的方式帮助开发者减少样板代码的编写，提高开发效率。本文将Lombok常用注解分类整理，并提供详细说明和使用示例。目录构造器相关注解字段相关注解方法相关注解代码简化注解异常处理注解日志相关注解实用工具注解高级用法注解配置与扩展构造器相关注解@NoArgsConstructor作用：生成一个无参构造器。示例：@NoArgsConstructor
Halcon 和 opencv比有什么区别与优劣 yuanpan opencv 人工智能计算机视觉
Halcon和OpenCV都是机器视觉领域的重要工具，但它们的设计目标、功能特点和适用场景有所不同。以下是两者的详细对比：1.定位与目标用户Halcon：定位：商业机器视觉软件，专注于工业应用。目标用户：工业自动化、质量控制、机器人引导等领域的专业开发者。OpenCV：定位：开源计算机视觉库，适用于通用图像处理和计算机视觉任务。目标用户：学术研究、教育、初创公司以及需要低成本解决方案的开发者。2.
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb