oDooDo

ocr基础入门到毕业

ocr基础入门到毕业

1.背景

最近为了实现读取图片文字，在网上也是各种查询资料，下载软件，遇到各种坑，总结一下

相关资源下载：
https://download.csdn.net/download/u011376439/11460005

2.安装

tesseract下载地址：https://digi.bib.uni-mannheim.de/tesseract/

注意： 安装版本推荐3.05。
路过的坑1：tesseract-ocr-setup-3.02.02：在文字库合并的时候，会导致合并后字库识别出来都是空的。

1.双击运行“tesseract-ocr-setup-3.02.02.exe”tesseract ocr 中文版开始安装软件，点击“是”。

2.根据下面图片上的教程，连续点击“next”。

3.目录结构：

4.配置环境变量：

第一步：在环境变量界面的系统变量中找到Path，点击编辑，新建一个D:\Tesseract\tesseract-ocr–4.00.00dev\Tesseract-OCR（你的安装目录），然后确定。
第二步：在系统变量下面新建一个变量，然后确定。
变量名：TESSDATA_PREFIX
变量值：D:\Tesseract\tesseract-ocr–4.00.00dev\Tesseract-OCR\tessdata(安装目录下的tessdata文件夹)

5.检验环境变量是否配置成功：打开cmd命令行，在任意路径，输入“tesseract”，出现下面信息则表示配置成功。

3.tesseract-OCR初认识

-l lang
使用的语言。如果没有指定，则采用英文。可以指定多种语言，由加号字符分隔。Tesseract使用3个字符的ISO 639-2语言代码。（请参阅语言）

–psm N将Tesseract设置为只运行布局分析的一个子集并假定某种形式的图像。N的选项是：

0 =只有方向和脚本检测（OSD）。
1 =使用OSD自动分页。
2 =自动分页，但没有OSD或OCR。
3 =全自动页面分割，但没有OSD。（默认）
4 =假设一列可变大小的文本。
5 =假设一个统一的垂直排列文本块。
6 =假设一个统一的文本块。
7 =将图像作为单个文本行处理。
8 =将图像视为一个单词。
9 =将图像视为一个圆圈中的单个单词。
10 =将图像视为单个字符。

3.1 开始操作

识别图片：fw.png

tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile…]

tesseract 图片名输出文件名 -l 字库文件 -psm pagesegmode 配置文件

tesseract .\fw.png result -l chi_sim

运行成功：

打开result.txt 结果为：寮叉果命中 +10%
显然只是识别一部分而已。。。。
顺便把-psm 0-10都试了一遍，也是没有一个正确的结果。。。

3.2 开始训练自己的字库

直接看这文章就可以实现

Tesseract-OCR-04-使用 jTessBoxEditor 提高文字识别准确率

4.tesseract-OCR字库合并

训练完一个box，后续又发现新的需要训练，要是在把原来的图片在弄一遍，那就要崩溃了，幸好tesseract-OCR提供字库合并（别安装3.02的版本，会合并不了）
1.准备
先准备以下的文件，要合并的.box和.tif文件,命名规则
chi.font.exp[x].box 和 chi.font.exp[x].tif
[x]可以按序号来，方便以后合并字库
.box和.tif文件的由来，请看上一个步骤

这里的font文件内容为

fout 0 0 0 0 0

这里的box.bat内容为

tesseract chi.font.exp0.tif chi.font.exp0 nobatch box.train  
tesseract chi.font.exp1.tif chi.font.exp1 nobatch box.train

unicharset_extractor chi.font.exp0.box chi.font.exp1.box

mftraining -F font -U unicharset -O unicharset chi.font.exp0.tr chi.font.exp1.tr 
cntraining chi.font.exp0.tr chi.font.exp1.tr 


echo Rename Files..
rename normproto mlzh.normproto
rename inttemp mlzh.inttemp
rename pffmtable mlzh.pffmtable
rename shapetable mlzh.shapetable
rename unicharset mlzh.unicharset

combine_tessdata mlzh.    

pause

上面都准备好了，就可以运行box.bat文件了，结果如下


生成mlzh.traineddata 字库，就是合并后的字库了，复制到Tesseract-OCR\tessdata ，就可以试试看，新字库是否好用。。。

tesseract .\fw.png result -l chi_sim+mlzh

结果如下，合并成功

你可能感兴趣的:(ocr)

使用 Xinference 命令行工具（xinference launch）部署 Nanonets-OCR-s 没刮胡子 Linux服务器技术人工智能AI 软件开发技术实战专栏 ocr
使用Xinference命令行工具（xinferencelaunch）部署Nanonets-OCR-s一、核心优势与适用场景通过xinferencelaunch命令可直接在命令行完成模型部署，无需编写Python代码，适合快速验证或生产环境批量部署。二、部署步骤：从命令行启动模型1.确认环境与依赖已安装Xinference：pipinstall"xinference[all]"GPU显存≥9GB（
Ubuntu基础（上传文件和部署Python） aaiier ubuntu linux 运维
首先打开[email protected]然后写yes，在输入密码然后就是输入ls/查看根目录ls/结果是ubuntu@x0-x-xx-xx:~$ls/binbootdevhomelib.usr-is-mergedlost+foundmntprocrunsbin.usr-is-mergedsrvtmpvarbin.usr-is-mergeddataetclibli
车牌识别与标注：基于百度OCR与OpenCV的实现（一）喜欢踢足球的老罗大模型应用开发实践之旅 ocr opencv 人工智能
车牌识别与标注：基于百度OCR与OpenCV的实现在计算机视觉领域，车牌识别是一项极具实用价值的技术，广泛应用于交通监控、智能停车场管理等领域。本文将介绍如何在macOS系统下，利用百度OCRAPI进行车牌识别，并结合OpenCV库在图片上绘制标注框和车牌号码，实现一个完整的车牌识别与标注流程。整个工程将使用PyCharm进行组织和开发。一、系统环境与工程结构系统环境操作系统：macOS开发工具：
数据标注师学习内容汇总试着数据标注师学习数据标注师
目录文本标注图像标注语音标注文本标注词性标注1词性标注2实体标注关系标注事件标注1事件标注2意图标注关键词标注分类标注问答标注对话标注图像标注拉框标注关键点标注2D标注3D标注线标注目标跟踪标注OCR标注图像分类标注语音标注语音切割转写语音校对标注拼音和停顿标注
基于PaddleOCR的表格识别系统开发 pk_xz123456 仿真模型深度学习算法深度学习开发语言分类安全 cnn
基于PaddleOCR的表格识别系统开发1.项目概述本项目旨在使用PaddleOCR框架开发一个高性能的表格识别系统，能够准确识别约30种不同类型的表格结构。系统将处理2500张合成表格图像作为训练数据，并在合成测试集上进行评估。系统核心功能包括表格检测、表格结构识别和表格内容识别三部分。1.1项目背景表格是信息传递的重要载体，广泛存在于各类文档中。传统表格识别方法需要复杂的规则和模板，而基于深度
【向上教育】国企面试手册(OCR).pdf ㏕追忆似水年华あ人工智能大数据算法旅游 c语言
国企各省面试的形式主要是结构化面试，也有少部分单位采用无领导小组讨论的面试形式。全面了解面试形式是考生须知的重要信息之一。一、结构化面试结构化面试，也称标准化面试，是相对于传统的经验型面试而言的，是根据科学制定的评价指标，运用特定的问题、评价方法和评价标准，严格遵循特定程序，通过测评人员与被测试者进行语言交流，对被测试者进行评价的标准化过程。(一)结构化面试之三大规范1.考题规范化（1）测评要素一
使用vllm部署 Nanonets-OCR-s 没刮胡子软件开发技术实战专栏 Linux服务器技术人工智能AI ocr python 深度学习
使用vLLM部署Nanonets-OCR-s模型的完整指南Nanonets-OCR-s作为基于Qwen2.5-VL-3B的多模态OCR模型，结合vLLM的高效推理引擎可显著提升部署性能。一、环境准备与依赖安装1.安装vLLM与多模态依赖#安装vLLM（含CUDA加速）pipinstallvllm==0.3.21#建议使用稳定版本pipinstalltransformers==4.35
15.OCR训练 Echo`` Halcon系统化学习 ocr 人工智能深度学习算法计算机视觉机器学习
目录1.OCR训练2.助手训练13.助手训练24.算子训练5.OCR训练联合编程6.练习1.OCR训练*OCR训练*1.分类器文件*.omc*2.halcon官方的*1.局限性只能识别数字和字母*2.样式比较单一*3.样本数量较少*...**3.训练方法*1.助手训练*1.打开OCR助手*2.选择图片*3.选择训练区域*4.分割*5.字体*6.训练文件*7.新*8.学习*9.加入训练样本*10.保
14.OCR字符识别 Echo`` Halcon系统化学习 ocr 计算机视觉算法人工智能前端
目录1.识别方法1.OCR识别2.OCR识别方法1-助手识别3.OCR识别方法2-算子分割识别4.文本分割识别2.文本分割1.借用助手设置参数文本分割+混合识别2.借用助手设置参数文本分割场景23.不同字符场景1.倾斜字符1.识别方法1.OCR识别*OCR*1.概念*光学字符识别**2.识别的是什么*1.图片里面的文字符号**3.怎么识别*1.基于halcon的OCR识别**4.halconOCR
Excel处理控件Aspose.Cells教程：Java 在 Excel 中插入和删除行和列
Aspose.Cells是Excel电子表格编程API，可加快电子表格的管理和处理任务，支持构建能够生成，修改，转换，呈现和打印电子表格的跨平台应用程序。同时不依赖于MicrosoftExcel或任何MicrosoftOfficeInterop组件，AsposeAPI支持旗下产品覆盖文档、图表、PDF、条码、OCR、CAD、HTML、电子邮件等各个文档管理领域，为全球.NET、Java、C++等1
C# WPF自定义窗口 XMJ2002 wpf
C#WPF自定义窗口书接上文，我们已经实现了如何利用百度智能云实现文字OCR功能，WPF制作文字OCR软件(一)：本地图片OCR识别，最后整体的效果是要呈现在一个窗口上的，而WPF的默认窗口并不能符合我们的需求，能够自己定义的内容少，所以这篇文章将介绍如何自定义窗口。整体实现效果如下：一、自定义标题栏首先需要在窗口定义的时候加上WindowStyle="None"AllowsTransparenc
[SQLSERVER][SQL]监控SQlserver存储过程 awonw sqlserver sqlserver sql 数据库
USE[master]GO/******Object:StoredProcedure[dbo].[sp_who_run_plus]ScriptDate:2021-09-1016:51:26******/SETANSI_NULLSONGOSETQUOTED_IDENTIFIERONGOCREATEPROC[dbo].[sp_who_run_plus]ASBEGINSELECTDB_NAME(er.[
Python+dddocr自动化突破多缺口滑块验证技术详解
Python+dddocr自动化突破多缺口滑块验证技术详解在当今互联网环境中，滑块验证已成为阻挡自动化程序的主要防线之一。本文将通过Python+dddocr实现一套完整的自动化解决方案，突破多缺口滑块验证，内容涵盖技术原理、实现细节和实战技巧。一、多缺口滑块验证的技术原理多缺口滑块验证是传统滑块验证的升级版，通过设置多个干扰项增加识别难度：验证机制图像生成验证逻辑背景图缺口碎片缺口匹配行为分析添
python代码判断两棵二叉树是否相同 Data+Science+Insight 数据结构 leetcode 算法 python 二叉树
python代码判断两棵二叉树是否相同给定两个二叉树，编写一个函数来校验它们是否相同。如果两个树在结构上相同，并且结点具有相同的值，则认为它们是相同的。判断两个二叉树是否是相同的，相同的依据是二叉树结构相同二叉树对应节点值相同#二叉树基础类#ABinaryTreenodeclassNode:#Utilitytocreatenewnodedef__init__(self,val):self.val=
OpenVINO™2025部署PaddleOCR模型 OpenVINO 中文社区经验分享
PaddleOCR模型下载OpenVINO™2025支持直接加载paddle的模型。所以可以直接先从官网直接下载PaddleOCRv5.0的模型：文本检测模型下载地址#DownloadandunzipPP-OCRv5_server_detpre-trainedmodelhttps://paddle-model-ecology.bj.bcebos.com/paddlex/official_infer
内存泄漏系列专题分析之二十二：句柄/文件描述符fd泄漏实例分析一起搞IT吧内存泄漏和内存占用拆解系列专题相机图像处理 android
【关注我，后续持续新增专题博文，谢谢！！！】上一篇我们讲了：这一篇我们开始讲：内存泄漏系列专题分析之二十二：句柄/文件描述符fd泄漏实例分析目录一、背景二、：句柄fd文件描述符内存泄漏分析思路2.1：闭源库libcvp2.socrash分析Camxhal异常日志2.2：内存分配失败，接着看kernelKMD日志2.3：crash的根因是拿不到fd2.4：分析getfdfail2.5：重新复现并分析
基于 opencv+yolov8+easyocr的车牌追踪识别（ECUT）Edward-tan 人工智能--CV python进阶全栈开发 opencv yolov8 ocr python
（本项目所有代码打包至我的资源中，大家可在我的文章底部选择下载）目录需求实现效果学习视频大致思路代码实现资源下载需求通过车辆识别技术，识别视频中每个车辆及其车牌号，车辆应进行追踪，避免重复计数量。实现效果车牌识别学习视频使用Python、Yolov8和EasyOCR自动识别车牌计算机视觉教程_哔哩哔哩_bilibili大致思路通过opencv将视频转换为帧，对帧应用车辆识别模型，并使用model.
RapidOCR4j项目学习 cmdch2017 学习
https://rapidai.github.io/RapidOCRDocs/install_usage/api/RapidOCR/#_1功能实现多平台OCR识别：支持Windows、Linux、macOS（包括Intel和ARM架构）多种图片输入方式：支持图片路径（Path）、BufferedImage、byte[]、OpenCV的Mat四种输入类型模型推理：通过ONNXRuntime加载和推理
Openssl生成RSA证书，Java实现公钥证书加密，私钥证书解密 RonTech Java 算法 Security RSA 证书加密公钥加密私钥解密 API数据加密
1、证书生成过程生成RSA私钥：genrsa-outprivate_key.pem1024把RSA私钥转换成PKCS8格式pkcs8-topk8-informPEM-inprivate_key.pem-outformPEM–nocrypt生成RSA公钥rsa-inprivate_key.pem-pubout-outrsa_public_key.pem生成供Java使用的私钥pkcs8_privat
Python处理滑块缺口验证码以及字母数字验证码识别
该功能主要运用到的模块有：re、cv2、ddddocr、matplotlib等字母数字识别该识别可以直接下载第三方工具包ddddocr进行处理使用Python的包管理工具来安装ddddocr及其所需的依赖库pipinstallddddocr具体实现，分别处理保存在本地的图片已经base64格式的图片importddddocr#识别本地图片defalphanumericProcessing(img_
PaddleOCR + Flask 构建 Web OCR 服务实战随风九天服务 flask 前端 ocr PaddleOCR
1、前言随着图像识别技术的发展，OCR（光学字符识别）已经成为很多应用场景中的基础能力。PaddleOCR是百度开源的一个高性能OCR工具库，支持中英文、多语言、轻量级部署等特性。而Flask是一个轻量级的PythonWeb框架，非常适合快速构建RESTfulAPI或小型Web应用。本文将带你一步步使用PaddleOCR+Flask搭建一个完整的WebOCR服务，实现图片上传→文字识别→返回结构化
Python OCR库：自动化测试验证码识别神器！测试界霄霄软件测试 python ocr 开发语言功能测试软件测试自动化测试职场和发展
↵在接口自动化工作中，经常需要处理文字识别的任务，而OCR（OpticalCharacterRecognition，光学字符识别）库能够帮助我们将图像中的文字提取出来。Python中有几个常用的OCR库，包括pyocr、pytesseract和python-tesseract、EasyOCR。本文将对它们进行比较，并提供一些示例代码来演示它们在实际接口自动化工作中的应用。1、pyocrPyOCR是
【Python】超实用的ddddocr库-一个基于深度学习的OCR（光学字符识别）工具库穿山甲yyds ocr
一、Ddddocr简介ddddocr（DeepDouble-DigitalDigitsOCR）是一个基于深度学习的OCR（OpticalCharacterRecognition，光学字符识别）库，用于从图像中提取文本，尤其擅长处理验证码、票据、表单数据提取、文档自动化处理等场景。主要用户已下三种：自动化测试：自动填写网页验证码，提升测试效率。数据采集：从截图或文档中提取结构化文本。安全验证：辅助处
Termux：Android 上的本地开发环境和终端模拟器林泽炯
Termux：Android上的本地开发环境和终端模拟器termux-create-packagePythonscripttocreateTermuxpackageseasily.项目地址:https://gitcode.com/gh_mirrors/te/termux-create-package扩展，它提供了额外的功能，如自动启动服务、发送广播接收器等。技术分析Termux基于Android的
Python文字识别自动化处理库之pytesseract使用详解
概要在当今数字化时代，文字识别技术扮演着越来越重要的角色。Pythonpytesseract库是一个强大的工具，能够帮助开发者轻松实现图像中文字的识别。本文将深入探讨pytesseract库的原理、功能、使用方法以及实际应用场景，并提供丰富的示例代码，让读者更全面地了解这个工具库。什么是Pythonpytesseract库？Pythonpytesseract库是TesseractOCR引擎的Pyt
Predic‘ng Early-Onset Colorectal Cancer with Large Language Models UnknownBody LLM Daily 语言模型人工智能自然语言处理
文章主要内容总结研究背景与目的：早发性结直肠癌（EoCRC，年龄<45岁）发病率逐年上升，但现有筛查指南推荐年龄为45岁，导致年轻患者确诊时多为晚期。研究旨在利用电子健康记录（EHR）数据，通过机器学习（ML）和大型语言模型（LLM）预测EoCRC，以实现早期干预。数据与方法：回顾性分析美国多个医疗系统的1,953例CRC患者，收集确诊前6个月的患者状况、实验室结果和观察数据。对比10种ML模型（
百度飞桨（PaddlePaddle）案例分享：基于 PaddleOCR 的图像文字提取系统 univerbright 百度 paddlepaddle 人工智能 paddleocr 图像文字提取
一、案例背景在实际教学、办公及政务系统中，纸质材料（如手写作文、表格、试卷等）仍广泛存在。为提升信息处理效率，采用OCR（OpticalCharacterRecognition）技术将图像中的文字提取为可编辑文本已成为刚需。本项目基于开源深度学习库PaddleOCR，构建了一个轻量级的图像文字识别工具，能够自动识别图像中的中文文本，并提供置信度评估和可视化支持。该工具特别适用于作业扫描图像中的内容
使用 C++/OpenCV 构建中文 OCR 系统：实现账单、发票及 PDF 读取
使用C++/OpenCV构建中文OCR系统：实现账单、发票及PDF读取在当今数字化浪潮中，自动从文档中提取信息至关重要，尤其是在处理大量账单、发票和PDF文件时。光学字符识别（OCR）技术是实现这一目标的核心。本文将详细介绍如何利用C++和强大的计算机视觉库OpenCV，构建一个专门用于读取中文账单、发票和PDF的OCR系统。核心技术栈我们的系统将主要围绕以下核心技术构建：C++:作为主要的编程语
各有优势！Neocrm销售易与纷享销客产品对比新讯网大数据
Neocrm销售易与纷享销客是国产CRM领域的头部厂商，以下是它们的产品对比：技术架构Neocrm销售易：基于Salesforce先进的元数据架构深度改造，充分继承了全球领先CRM的技术精髓，确保系统稳定性和可扩展性。与腾讯云深度合作，享受腾讯云强大的基础设施支持和安全保障。企业微信集成紧密，为企业提供一体化办公体验。专注核心业务场景优化，确保关键功能的高性能表现。Java高代码开发平台专业性强，
下载链接记录 chde2Wang 我
下载歌曲：https://www.gequbao.com/music/79500pdf转word：下载文件|iLovePDF识别文字：CatOCR:易飞文字识别,免费在线图片转文字
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他