蜗牛@漫步

文字识别（OCR）介绍与开源方案对比

OCR （Optical Character Recognition，光学字符识别）技术是一种将印刷体或手写文字转化为可编辑文本的技术。亦即将图像中的文字进行识别，并以文本的形式返回。
从图像化的文本信息中提取到文字符号做表征的语义信息，其重要性不言而喻，在实际应用场景中也比较容易想到跟NLP技术结合来完成比较优质的人机交互等任务。

二、OCR基本原理说明

为了识别一张图片中的文字，通常包含两个步骤：

1）、文本检测：检测出图片中文字所在的位置；
2）、文字识别：识别包含文字的图片局部，预测具体的文字。

三、OCR基本实现流程

OCR（光学字符识别）的简单实现流程通常包括以下步骤：

1、图像预处理：首先，对输入的图像进行预处理，包括灰度化、二值化、去噪等操作。这些操作有助于提高字符识别的准确性和稳定性。
2、文本区域检测：使用图像处理技术（如边缘检测、轮廓分析等），找到图像中可能包含文本的区域。这些区域通常是字符或文本行的边界。
3、字符分割：对于文本行，需要将其分割为单个字符。这可以通过字符之间的间距、连通性等特征进行分割。
4、特征提取：对于每个字符，提取其特征表示。常见的特征包括形状、角度、纹理等。特征提取有助于将字符转化为可供分类器处理的数值表示。
5、字符分类：使用分类器（如机器学习算法或深度学习模型）对提取的字符特征进行分类，将其识别为相应的字符类别。分类器可以是预训练模型，也可以是自定义训练的模型。
6、后处理：对识别的字符进行后处理，如纠正错误、校正倾斜、去除冗余等。这可以提高最终结果的准确性和可读性。
7、输出结果：将识别的字符组合成最终的文本输出，可以是单个字符、单词或完整的文本。

四、OCR开源项目调研

1、tesseract

https://github.com/tesseract-ocr/tesseract

Tesseract是一个开源的OCR（光学字符识别）引擎，由Google开发和维护。它能够将图像中的文本转换为可编辑的文本，并且支持多种语言的文本识别。Tesseract已经成为广泛使用的OCR工具之一，具有较高的准确率和可扩展性。

以下是Tesseract的主要特点和功能：
1、多语言支持：Tesseract支持多种语言的文本识别，包括英语、中文、日语、韩语、法语、德语、西班牙语等。它具有训练和识别多种语言的能力，并且用户可以根据需要添加自定义语言模型。
2、高准确率：Tesseract使用了一系列的图像处理和机器学习算法，以实现高准确率的文本识别。它经过大规模数据集的训练和优化，能够在各种图像条件下准确地识别出字符信息。
3、可扩展性：Tesseract具有良好的可扩展性，用户可以使用自定义训练数据来训练和优化OCR模型，以提高识别的准确性和适应性。此外，Tesseract还提供了API和接口，方便用户进行二次开发和集成。
4、平台兼容性：Tesseract支持多种操作系统，包括Windows、Mac和Linux等。它可以在各种平台上运行，并且提供了与不同编程语言（如Python、Java、C++等）的接口，方便开发者进行集成和使用。
5、开源和社区支持：Tesseract是一个开源项目，具有活跃的社区支持。用户可以自由查看和修改源代码，并参与社区讨论和贡献。这使得Tesseract成为一个不断发展和改进的OCR工具。

2、PaddleOC

https://github.com/PaddlePaddle/PaddleOCR

PaddleOCR是一个基于飞桨（PaddlePaddle）深度学习平台的开源OCR（光学字符识别）工具，旨在提供高性能和准确率的文本识别功能。它可以识别和提取多语言文本中的字符信息，并具有广泛的应用场景，包括文档处理、图像文字提取、自动化数据录入等。

以下是PaddleOCR的主要特点和功能：
1、多语言支持：PaddleOCR支持多种语言的文本识别，包括英语、中文、日语、韩语、法语、德语、西班牙语等。它可以处理不同语言的文本，并满足跨国应用的需求。
2、多种模型选择：PaddleOCR提供了多种预训练的OCR模型供选择，包括文本检测模型和文本识别模型。文本检测模型用于检测文本区域，而文本识别模型用于识别文本内容。用户可以根据自己的需求选择适合的模型。
3、高准确率和性能：PaddleOCR采用了深度学习技术，利用预训练的神经网络模型实现高准确率的文本识别。它在大规模数据集上进行了训练和优化，能够在各种图像条件下识别出准确的字符信息，并具有较高的性能和效率。
4、强大的功能扩展性：PaddleOCR提供了丰富的功能扩展接口和工具，使用户可以自定义和定制OCR模型。用户可以根据自己的数据集和应用场景进行模型训练、微调和优化，以进一步提高识别的准确性和适应性。
5、开源和社区支持：PaddleOCR是一个开源项目，具有活跃的社区支持。用户可以自由查看和修改源代码，也可以参与社区讨论和贡献。这为用户提供了一个共享和合作的平台，以促进OCR技术的发展和应用。

3、EasyOCR

https://github.com/JaidedAI/EasyOCR

EasyOCR是一种简单易用的开源OCR（光学字符识别）工具，旨在识别和提取多语言文本中的字符信息。它提供了一种快速而准确的方式来将印刷体字符转换为可编辑的文本，可以应用于多种场景，包括文档扫描、图像文字提取、自动化数据录入等。EasyOCR 是由 Jaided AI 公司创建的。全语种的（包括80+门外语识别），不单单针对中文，所以它的官方文档是英文。

以下是EasyOCR的主要特点和功能：
1、多语言支持：EasyOCR支持多种语言的文本识别，包括英语、中文、日语、韩语、法语、德语、西班牙语等。这使得它能够处理不同语言的文本，并满足跨国应用的需求。
2、高准确率：EasyOCR采用了基于深度学习的方法，利用深度神经网络模型来实现高准确率的文本识别。这些模型经过大规模数据的训练和优化，能够在各种图像条件下识别出准确的字符信息。
3、简单易用：EasyOCR注重用户友好性，提供了简单易用的API和命令行界面，使用户能够轻松集成和使用该工具。无需复杂的配置和调优，即可进行快速的文本识别。
4、支持多种图像格式：EasyOCR能够处理多种常见的图像格式，包括JPEG、PNG、BMP等。这使得用户可以使用各种图像来源，如扫描仪、手机拍摄等，进行文本识别。
5、高性能：EasyOCR针对效率进行了优化，能够在较短的时间内处理大量的图像并进行文本识别。这对于需要处理大批量图像或实时应用的场景非常有用。

官方demo：
https://www.jaided.ai/easyocr/

4、chineseocr

https://github.com/chineseocr/chineseocr

它基于 YOLO V3 与 CRNN 实现中文自然场景文字检测及识别

如果要做个性化的话，Chineseocr框架相对来说非常方便，只需要修改对应模块的函数就可以，因为本身这些模块其实就是可扩展的，比如后续pull request到项目里的lstm推理和ncnn核扩展。

5、chineseocr_lite

https://github.com/DayBreak-u/chineseocr_lite

ChineseOCR Lite是一种基于深度学习的开源OCR（光学字符识别）引擎，旨在识别和提取中文文本中的字符信息。它使用深度神经网络来实现高准确率的文本识别功能，并且具有较小的模型体积和较快的识别速度。
以下是一些ChineseOCR Lite的主要特点和功能：
1、中文文本识别：ChineseOCR Lite专注于中文文本的识别和提取。它可以处理印刷体中文字符，并能够在各种图像中准确识别和提取文本信息。
2、深度学习模型：该引擎采用深度神经网络模型，通常使用卷积神经网络（CNN）和循环神经网络（RNN）的组合。这种模型能够学习和理解字符的特征，并能够对复杂的文本进行准确的识别。
3、开源和可定制：ChineseOCR Lite是一个开源项目，这意味着用户可以自由地查看和修改源代码，以满足自己的需求。用户可以根据自己的数据集和应用场景进行训练和微调，以提高识别的准确性和性能。
4、小模型体积：ChineseOCR Lite着重于设计轻量级的模型，以减小模型的体积和内存占用。这使得它能够在嵌入式设备或资源受限的环境中运行，提供实时的文本识别能力。
5、高速识别：由于模型的小尺寸和优化，ChineseOCR Lite能够快速处理图像并进行实时的文本识别。这对于需要快速处理大量图像或实时应用的场景非常有用。

超轻量级中文ocr，支持竖排文字识别, 支持ncnn推理 , psenet(8.5M) + crnn(6.3M) + anglenet(1.5M) 总模型仅17M。

相比 chineseocr，chineseocr_lite 采用了轻量级的主干网络 PSENet，轻量级的 CRNN 模型和行文本方向分类网络 AngleNet。尽管要实现多种能力，但 chineseocr_lite 总体模型只有 17M。目前 chineseocr_lite 支持任意方向文字检测，在识别时会自动判断文本方向。

6、cnocr

https://github.com/breezedeus/CnOCR

cnocr是一个基于深度学习的中文OCR（光学字符识别）工具，专门用于识别和提取中文文本中的字符信息。它采用了深度神经网络模型，具有高准确率和较快的识别速度。

以下是cnocr的主要特点和功能：
1、中文文本识别：cnocr专注于中文文本的识别和提取。它能够处理印刷体中文字符，并能够在各种图像中准确识别和提取中文文本信息。
2、基于深度学习：cnocr使用深度神经网络模型进行文本识别。这种模型能够学习和理解字符的特征，并能够对复杂的中文文本进行准确的识别。
3、简单易用：cnocr提供了简单易用的API和命令行界面，使用户能够轻松集成和使用该工具。无需复杂的配置和调优，即可进行快速的中文文本识别。
4、高准确率：由于采用了深度学习模型，cnocr具有较高的准确率，能够识别出复杂字形和字体的中文字符。
5、快速识别：cnocr经过优化，能够在较短的时间内处理图像并进行实时的中文文本识别。这对于需要快速处理大量图像或实时应用的场景非常有用。

7、商业付费OCR

1）腾讯OCR（付费） - AI 基础产品模块

AI 基础产品
https://cloud.tencent.com/document/product/866/17624

2）阿里OCR（付费） - 阿里灵杰AI开放服务

阿里灵杰AI开放服务
https://help.aliyun.com/document_detail/442328.html?spm=a2c4g.295341.0.0.5bc4525aeKeSzs

3) 百度OCR （付费） - 百度AI开放能力

百度AI开放能力
https://ai.baidu.com/tech/ocr

五、主要开源项目对比和结论

1、项目优缺点对比

项目	优点	缺点
tesseract	1、github上面star非常多，项目非常活跃 2、多语言支持：Tesseract支持多种语言的文本识别，可以处理多种语言的文本 3、后面做背书的公司非常强（google） 4、Tesseract提供了扩展接口和工具，可以自定义训练和优化OCR模型	1、不是专门针对中文场景 2、相关文档主要是英文，对于阅读和理解起来有一定困难 3、学习成本比较高 4、对于复杂字形和字体的识别准确性较低 5、与其他OCR相比，Tesseract的准确率可能相对较低
PaddleOCR	1、github上面star非常多，项目非常活跃 2、模型只针对中文进行训练 3、百度后面做背书，公司非常强 4、提供了多种预训练模型和接口，支持用户进行自定义训练和优化 5、识别的精确度比较高	1、安装和配置相对复杂一些，需要一定的技术知识和经验 2、对于一些较小的文字或低分辨率的图像，PaddleOCR的性能可能受到影响 3、使用的训练模型是基于百度公司自己的PaddlePaddle框架，对于小公司来说并不主流（对比于ts或者pytorch），所使用深度学习框架为后续其他深度学习无法做很好的铺垫 4、项目整体比较复杂，学习成本较高
EasyOCR	1、github上面的star也是比较多 2、支持的语言也是非常多的，多达80多种 3、识别的精确度尚可	1、从官方的页面体验来说识别的速度较慢 2、识别的文字种类多，学习难度较高 3、相关的官方文档是基于英文的，学习难度较高，对于新手不太友好 4、由于模型较大，EasyOCR的内存占用较高
chineseocr	1、github上面的star也是比较多 2、专门针对中文进行学习和训练的模型 3、具有一定的准确性和可扩展性	1、需要一定的技术知识和经验来进行安装和配置。 2、文档和社区支持相对较少
chineseocr_lite	1、github上面的star也是比较多 2、专门针对中文进行学习和训练的模型 3、比较轻量级，具有较小的模型和内存占用 4、由于模型较小，chineseocr_lite具有较快的文本识别速度	1、因为没有大厂和公司的背书，所以存在一些bug 2、对于复杂场景下的效果不佳 3、准确率相对较低 4、功能和扩展性相对有限
CNOCR	1、高准确率：cnocr利用深度学习模型实现高准确率的中文文本识别。 2、简单易用：cnocr提供了简单易用的API和命令行界面，方便用户集成和使用。 3、快速识别：cnocr经过优化，能够快速处理图像并进行实时的中文文本识别。	1、依赖深度学习框架：cnocr依赖于深度学习框架，因此在使用之前需要安装相应的框架和依赖库。 2、仅支持中文文本：cnocr主要用于中文文本识别，对于其他语言的文本识别支持有限。

2、综合对比

Tesseract: Tesseract是一个成熟且广泛使用的OCR引擎，具有强大的社区支持和多语言的识别能力。它是开源的，可扩展性强，但准确度相对其他工具可能略低一些。对于简单的文本识别任务，Tesseract可能是一个简单易用的选择。

PaddleOCR: PaddleOCR是基于飞桨深度学习平台的OCR工具，具有多语言支持和较高的准确率。它提供了多种预训练模型和自定义训练的功能，适用于复杂的文本识别任务。然而，PaddleOCR的安装和配置可能相对复杂一些。

EasyOCR: EasyOCR是一个简单易用的OCR工具，支持多语言和多种字体的文本识别。它具有较高的准确率，并提供简单的API和界面，便于集成和使用。对于快速部署和简单的文本识别需求，EasyOCR可能是一个不错的选择。

chineseocr: chineseocr是一个开源的中文OCR工具，具有一定的准确性和可扩展性。然而，它的文档和社区支持相对较少，可能需要一定的技术知识和经验进行安装和配置。

chineseocr_lite: chineseocr_lite是一个轻量级的中文OCR工具，具有较小的模型和快速识别速度。然而，它的准确率相对较低，适用于一些简单的文本识别场景。

cnocr: cnocr是一个专门用于中文文本识别的OCR工具，基于深度学习模型，具有较高的准确率和较快的识别速度。它适用于中文文本的识别和提取任务，但对于其他语言的支持可能有限。

对于简单易用性和准确度高的要求，EasyOCR和cnocr可能是较好的选择。EasyOCR提供了简单易用的API和界面，适用于快速部署和简单的文本识别任务。而cnocr则专注于中文文本识别，具有较高的准确率和较快的识别速度。根据具体的需求和实际情况，可以选择适合自己的OCR工具。

【重构推荐系统】国产大模型驱动的电商个性化推荐完整实战：架构设计、推理优化与在线部署闭环观熵国产大模型部署实战全流程指南重构人工智能 Agent 智能体落地方案
个人简介作者简介：全栈研发，具备端到端系统落地能力，专注大模型的压缩部署、多模态理解与Agent架构设计。热爱“结构”与“秩序”，相信复杂系统背后总有简洁可控的可能。我叫观熵。不是在控熵，就是在观测熵的流动个人主页：观熵个人邮箱：[email protected]座右铭：愿科技之光，不止照亮智能，也照亮人心！专栏导航观熵系列专栏导航：AI前沿探索：从大模型进化、多模态交互、AIGC内容生成，到
代码随想录算法训练营第52天 | 101.孤岛的总面积、102.沉没孤岛、103.水流问题、104.建造最大岛屿 Amor_Fati_Yu 算法 java 数据结构
101.孤岛的总面积importjava.util.*;publicclassMain{privatestaticintcount=0;privatestaticfinalint[][]dir={{0,1},{1,0},{-1,0},{0,-1}};//四个方向privatestaticvoidbfs(int[][]grid,intx,inty){Queueque=newLinkedList=gr
Unity知识点-Renderer常用材质变量徐子竣 unity 材质游戏引擎
本篇总结了Unity中renderer的3种常用的材质相关的变量：renderer.material,renderer.sharedMaterial,renderer.MaterialPropertyBlock。以及三者对SRPBatcher的影响。一.介绍及对比1.概念介绍1.material定义：material是Render组件（如MeshRenderer）的实例化材质。特点：访问rende
Git使用基本指南 LEIX_lll git
一、Git基础配置首先需要配置用户信息，让Git知道你是谁：gitconfig--globaluser.name"你的名字"gitconfig--globaluser.email"你的邮箱@example.com"如果需要查看配置信息，可以使用：gitconfig--list二、仓库操作1.创建新仓库gitinit该命令会在当前目录下创建一个新的Git仓库。2.克隆已有仓库gitclone[远程仓
川翔云电脑全新上线：三维行业高效云端算力新选择渲染101专业云渲染电脑 houdini maya blender 3d 云计算
一、核心定位与优势云端虚拟工作站服务依托云端高性能CPU/GPU集群，提供远程桌面服务，支持普通设备运行专业软件。按需付费模式：无需采购高端硬件，大幅降低成本投入。生态协同优势：与渲染101同属母公司，可在云电脑中完成创作后一键提交至渲染101平台进行分布式渲染。二、硬件配置与性能参数CPU机型（侧重计算能力）GPU机型（图形渲染/AI训练）性能亮点支持最高8卡并联，显存叠加提升复杂场景处理能力。
Prompt Engineering for Large Language Models 三月七꧁ ꧂ 论文合集llm+prompt prompt 语言模型人工智能自然语言处理 pdf javascript 前端
题目大型语言模型的快速工程简介随着OpenAI的ChatGPT和Google的Bard等软件的普及，大语言模型（LLM）已经渗透到生活和工作的许多方面。例如，ChatGPT可用于提供定制食谱，建议替换缺失的成分。它可用于起草研究提案、用多种编程语言编写工作代码、在语言之间翻译文本、协助政策制定等等（Gao2023）。用户通过“提示”或自然语言指令与大型语言模型进行交互。精心设计的提示可以带
【RAG面试题】LLMs已经具备了较强能力,存在哪些不足点? 一叶千舟 AI面试题【RAG】RAG
目录LLMs核心不足点1、知识过时与静态性（LackofReal-Time&DynamicKnowledge）：2、幻觉与事实性错误（Hallucinations&FactualInaccuracies）：3、领域专业知识深度不足（LimitedDomain-SpecificExpertise）：4、缺乏透明度和可追溯性（LackofTransparency&Traceability）：5、上下文
微信小程序跳转其他小程序以及跳转网站
一、跳转其他小程序1.1知道appid和页面路径wx.navigateToMiniProgram({appId:appid,//替换为目标小程序AppIDpath:pathWithParams,//小程序路径envVersion:'release',//开发版、体验版或正式版success(res){console.log("跳转到其他小程序成功！",res);},fail(err){consol
MCP-Proxy：开发多LLM & 多MCP 支持并安全访问MCP Server的秘密 IT古董技术杂谈安全 MCP MCP-Proxy
在构建多模型、多协议、可控可信的大模型接入平台时，MCP-Proxy扮演着关键中枢。它不仅要支持多个LLM接入，还要保障对后端MCPServer的安全访问、请求审计、能力切换与资源隔离。什么是MCP/MCP-Proxy？MCP（ModelCapabilityProtocol）是新一代模型能力调用协议，类似于OpenAI的API，但可支持：多厂商大模型（OpenAI、DeepSeek、Yi、Chat
构建医学文献智能助手：基于 LangChain 的专业领域 RAG 系统实践
前言在当今医疗科技快速发展的时代，每天都有数以千计的医学研究成果在全球范围内发表。从临床试验报告到基础研究论文，从流行病学调查到药物研发数据，这些专业文献承载着推动医学进步的重要知识。然而，面对如此海量且专业性极强的文献资料，医疗从业者往往感到力不从心。如何在有限的时间内，准确把握文献核心价值，并将其转化为临床实践的指导？这个问题一直困扰着整个医疗行业。1.项目背景与业务价值1.1医学文献阅读的困
Spring AI快速入门学java的cc spring 大数据 java
一、引入依赖org.springframework.aispring-ai-starter-model-openaiorg.springframework.aispring-ai-bom${spring-ai.version}pomimport二、配置模型spring：ai:openai:base-url:https://dashscope.aliyuncs.com/compatible-mode
【网络】Linux 内核优化实战 - net.ipv4.tcp_rmem 和 net.core.rmem_default 关系锅锅来了 Linux性能优化原理和实战网络 linux tcp/ip
net.ipv4.tcp_rmem和net.core.rmem_default都是Linux内核中控制网络接收缓冲区的参数，但它们的作用范围、优先级和使用场景存在明显区别。以下是详细对比：核心区别参数net.ipv4.tcp_rmemnet.core.rmem_default作用协议仅针对TCP协议针对所有网络协议（TCP、UDP等）参数类型三元组：mindefaultmax单个值：默认缓冲区大小
.NET C# async/定时任务的异步线程池调度方案最大线程数‌ = 处理器核心数 × 250 专注VB编程开发20年 .net c#开发语言
关于.NET中Threading.Timer的线程机制，结合线程池特性和异步协作原理分析如下：一、线程复用机制‌共享进程级线程池‌Threading.Timer的回调任务‌不会每次新建线程‌，而是提交到.NET进程全局线程池统一调度，该线程池与async/await任务共享同一资源池。线程池维护可复用工作线程队列，避免频繁创建/销毁开销任务优先由空闲线程执行，无空闲线程则进入全局队列等待‌线程池扩
“自动化失败归因”测试集-Who&When liliangcsdn 自动化人工智能语言模型
在MAS(Multi-Agent系统)中，Agent之间自主协作、信息链条长，异常常见而且诊断困难。Who&When就是测者MAS系统异常诊断的benchmark。Who&When的prompt问题来源于GAIAandAssistantBench，包含了127个LLMMulti-Agent系统中收集的异常日志，并经过系统和人工处理。Who&When样本配有如下所示的细粒度标注：“谁”(Who)：哪
AIRIOT物联网低代码平台如何配置MQTT驱动？ AIRIOT 网络服务器物联网
MQTT驱动配置简介MQTT全称为消息队列遥测传输（英语：MessageQueuingTelemetryTransport），是ISO标准（ISO/IECPRF20922）下基于发布(Publish)/订阅(Subscribe)范式的消息协议，工作在TCP/IP协议族上。MQTT最大优点在于，可以用极少的数据和有限的带宽，为连接远程设备提供实时可靠的消息服务。作为一种低开销、低带宽占用的即时通讯协
鸿蒙 ArkTS 开发知识点全体系（HarmonyOS NEXT 架构）码农乐园 harmonyos 架构华为
一、基础知识：ArkTS语言与项目结构1.ArkTS基础语法（华为增强TypeScript）类型声明与推导函数与箭头函数类、接口、枚举、泛型模块导入与导出装饰器语法（@Entry、@Component等）异步编程（async/await）2.DevEcoStudio开发环境项目创建与构建模拟器配置与真机调试工程结构（entry、pages、resources、common、config.json）
【开源项目】「安卓原生3D开源渲染引擎」：Sceneform‑EQR
「安卓原生3D开源渲染引擎」：Sceneform‑EQR渲染引擎“那一夜凌晨3点，第一次提交PR的手在抖……”——我深刻体会这种忐忑与激动。仓库地址：(github.com)。一、前言：开源对我意味着什么DIY的自由Vs.工业化的束缚刚入Android原生开发时，我习惯自己在项目里嵌入各种3D渲染／AR／XR模块，结构臃肿、流程混乱。当我知道GoogleSceneformSDK被弃用，起初只是出于
GPT-4o重磅升级！只需一条指令，教你秒出SCI级专业科研图！智写AI AI学术写作指南信息可视化人工智能
经过数月爆肝，七哥终于完成专业的学术AI使用教程，估计也有个80万字的详细操作指南。分为多个细分的专业写作场景，跟着一步一步操作，借助ChatGPT做学术、干科研、写论文、课题申报都变得超简单。欢迎加我交流（yida985），祝你一臂之力。七哥之前写过关于用AI生成流程图的教程，不过需要借助其他软件才能搞定完美的流程图。近期GPT-4o全新推出了“生图功能”，这个生图的过程就更加方便轻松了，全能G
RAG 调优指南：Spring AI Alibaba 模块化 RAG 原理与使用 ApacheDubbo spring 人工智能架构 Spring AI RAG
>夏冬,SpringAIAlibabaContributorRAG简介什么是RAG（检索增强生成）RAG（RetrievalAugmentedGeneration，检索增强生成）是一种结合信息检索和文本生成的技术范式。核心设计理念RAG技术就像给AI装上了「实时百科大脑」，通过先查资料后回答的机制，让AI摆脱传统模型的"知识遗忘"困境。️四大核心步骤1.文档切割→建立智能档案库核心任务:将海量文档
华为云welink考试试题_华为内部开启WeLink项目，华为云是这样考虑的-通信/网络-与非网... weixin_39820437 华为云welink考试试题
协同办公市场竞争激烈华为云WeLink是华为旗下智能工作平台，它融合消息，邮件，会议、音视频、云空间、小程序等服务，可助力用户随时、随地、通过各类终端设备等实现协作办公。华为还宣布携手合作伙伴成立华为云WeLink生态联盟，金山办公、中软国际、致远互联、罗技、华为商旅、红圈营销、合思费控、Coremail论客、芯盾集团、视源股份、喜马拉雅等成为首批生态伙伴。IDC曾发布了《2018年下半年中国企业
潜入思维的海洋：SoftCoT++如何让语言模型更聪明步子哥智能涌现语言模型人工智能自然语言处理
在人工智能的浩瀚星空下，大型语言模型（LLMs）如同一颗颗璀璨的恒星，照亮了从文本生成到复杂推理的广阔领域。然而，这些模型在推理任务中往往像是在迷雾中航行——尽管它们能抵达目的地，却常常因为固定的思维路径而错过更优的航线。2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让
PyWavelets shangjg3 PyTorch pytorch 人工智能 python
PyWavelets（pywt）是Python中用于小波变换的核心库，提供了丰富的信号处理和图像处理功能。以下是其核心功能的详细介绍：1.小波变换基础（1）离散小波变换（DWT）将信号分解为近似系数（Approximation）和细节系数（Detail）。importpywtimportnumpyasnp#示例信号signal=np.array([1
为什么90%企业的AI数据分析都失败了？奥威BI给出破局方案 qq_43696218 人工智能数据分析数据挖掘
一、引言：AI数据分析在数字化转型中的核心地位在当今企业全面数字化转型的背景下，‌AI数据分析已成为解锁业务增长潜力的关键钥匙。然而，市场上众多AI数据分析产品常陷入“伪需求场景”，看似前沿却难以真正落地。本文将深入探讨奥威BI如何通过其AI数据分析能力，突破伪需求，实现数据价值的最大化。二、AI数据分析：伪需求场景的挑战伪需求场景的定义与表现AI数据分析领域的伪需求场景，指的是那些表面创新实则难
BI+AI实战：我们如何用3秒完成车企供应链推演 qq_43696218 人工智能
一、BI+AI引领财务分析新纪元在财务数据分析领域，奥威BI+AI正以革命性的姿态颠覆传统。当金蝶、用友等工具仍深陷报表泥潭时，奥威BI+AI通过深度融合商业智能（BI）与人工智能（AI），实现了从滞后报表到实时洞察的飞跃。这不仅极大地提升了财务分析的效率，更为企业的战略决策提供了前所未有的精准支持。二、BI+AI的核心技术优势‌实时动态分析‌o奥威BI+AI摒弃了静态数据集，依托原始科目余额表实
Spring AI Alibaba 支持国产大模型的Spring ai框架程序员老陈头面试学习路线阿里巴巴 spring 人工智能 java
总计30万奖金，SpringAIAlibaba应用框架挑战赛开赛点此了解SpringAI：java做ai应用的最好选择过去，Java在AI应用开发方面缺乏一个高效且易于集成的框架，这限制了开发者快速构建和部署智能应用程序的能力。SpringAI正是为解决这一问题而生，它提供了一套统一的接口，使得AI功能能够以一种标准化的方式被集成到现有的Java项目中。此外，SpringAI与原有的Spring生
技术调研：时序数据库（一） myskybeyond 时序数据库时序数据库数据库
选择时序数据库时，选择当下主流的解决方案。目前主流的开源解决方案有InfluxDB、TDengine和TimescaleDB。下文从多个维度对比分析，最终根据需求做出选型决策。1.核心架构与设计理念数据库架构特点核心优势InfluxDB-专为时序数据设计的分布式数据库-基于时间线（TimeSeries）模型-开源版（OSS）与商业版（Cloud/Enterprise）功能差异大高写入吞吐量、原生支
初中学习机推荐：从功能、内容到用户体验的深度解析资讯分享周 ux 人工智能
在教育信息化持续深化的背景下,初中阶段的学习辅助设备正逐步成为家长和学生关注的重点。尤其在“双减”政策推动下,传统补习班的作用被削弱,越来越多家庭开始依赖智能学习工具来提升学习效率和自主性。其中,初中学习机因其集视频课程、AI辅导、错题整理、学习反馈等多功能于一体,成为当前市场热度最高的教育硬件之一。本文将围绕市场上主流的几款初中学习机进行客观分析,重点介绍简单一百、学而思、科大讯飞、作业帮四款产
DeepSeek-V3 通俗详解：从诞生到优势，以及与 GPT-4o 的对比码事漫谈 AI ai
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站1.DeepSeek的前世今生1.1什么是DeepSeek？DeepSeek是一家专注于人工智能技术研发的公司，致力于打造高性能、低成本的AI模型。它的目标是让AI技术更加普惠，让更多人能够用上强大的AI工具。1.2DeepSeek-V3的诞生DeepSeek-V3是DeepSeek公司推出的最新一代A
企业级AI开发利器：Spring AI框架深度解析与实战_spring ai实战 AI大模型-海文人工智能 spring python 算法开发语言 java 机器学习
企业级AI开发利器：SpringAI框架深度解析与实战一、前言：Java生态的AI新纪元在人工智能技术爆发式发展的今天，Java开发者面临着一个新的挑战：如何将大语言模型（LLMs）和生成式AI（GenAI）无缝融入企业级应用。传统的Java生态缺乏统一的AI集成方案，开发者往往需要为不同AI供应商（如OpenAI、阿里云、HuggingFace）编写大量重复的接口适配代码，这不仅增加了开发成本，
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb