weixin_30606669

深入学习Tesseract-ocr识别中文并训练字库的方法

　　上篇文章简单的学习了tesseract-ocr识别图片中的英文（链接地址如下：https://www.cnblogs.com/wj-1314/p/9428909.html），看起来效果还不错，所以这篇文章继续深入学习tesseract-ocr识别图片中的中文。

一，准备中文字库

　　下载chi_sim.traindata字库。要有这个才能识别中文。下好后，放到Tesseract-OCR项目的tessdata文件夹里面。（注意下载字库，一定要看库对应的tesseract版本下载）

　　为什么强调版本呢，小编这里讲自己做的愚蠢的事情附上，希望大家别入坑了。

　上一篇学习Tesseract-ocr中，识别的是英文，然后小编下载了中文库，如下

　　不知道是什么原因，总是报错。报错如下：

　　我找了多种方法，包括重新安装库，配置环境变量，仍然没有解决问题，所以在这里，我又考虑到Tesseract的版本问题，所以打算重新最新版 w64-v4.0.0，继续试试。附上下载链接地址

　　下载Tesseract的地址：https://digi.bib.uni-mannheim.de/tesseract/

　　下载Tesseract-ocr包的地址：https://github.com/tesseract-ocr/tesseract/wiki/Data-Files

　　下载Tesseract的Git地址：https://github.com/tesseract-ocr/tesseract/wiki

　　经过一天的折腾，在tesseract的GitHub中，我偶然发现了问题的所在，可以说自己是非常的蠢，请看下图

　　也就是不同的版本，安装的中文包是不同的，而我乱安装了包，所以一直报错，还没有解决问题，下次一定不能这么粗心。

二，准备训练字库

　　下载jTessBoxEditor，这个是用来训练字库的。

　　以上的在百度都能找到下载，就不详细讲了（要是找不到的，可以留言给我），下载好之后就是这样的。

三，下载Java虚拟机（Java大法好啊）

　　如果你刚刚接触Java语言，并且对它兴趣很大，想继续研究。那么这节就来给你说说怎么安装Java工具JDK，它是你进行Java的第一步。

首先你要下载Java的JDK（JDK的全称是:Java Development Kit即Java语言软件工具开发包），目前最新的JDK版本是1.8，Java最初是SUN公司，因后来被oracle公司收购，故你需要到oracle官网上下载JDK网址是：http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html。输入这个网址你就可以看到下面图片

　　其中图片中现实的上面是oracle公司提供的Java JDK，上面有两个按钮，默认是不接受License，你需要接受以后就可以下载Java的JDK，这里你需要根据自己电脑的类型，以及操作系统的位数，下载对应的JDK。下面的一个是oracle公司对JDK提供的demos和Samples即简单的例子，可以供我们学习，感兴趣的可以下载下来学习。

这里我选择下载JDK的Windows的64位JDK，下面图片是下载的JDK的安装包。

双击JDK安装包，点击下一步。

　　这里选择不安装公共JRE，因为公共JRE是一个独立的JRE系统，它是单独的安装在windows系统下的其他路径下。公用的JRE会向浏览器和系统中注册Java运行时的环境。通过向浏览器和系统中注册运行时的环境，系统中的任何应用程序都可以使用公用JRE。但是现在在浏览器网页上执行applet的机会几乎没有，并且JDK目录下JRE完全可以胜任，所以一般选择不安装公用JRE。这里如果你不想安装在默认路径下，可以选择更改目录。

　　　　单击下一步，会出现如下安装条。

　　输入Java -version可以查看自己的Java版本。这样你的JDK就安装成功了。

四，识别中文效果

1，随便制作一张有汉字的图片，小编做的图片如下：

2，使用中文字库训练，程序如下：

import pytesseract
from PIL import Image

#打开验证码图片
image = Image.open('07.jpg')
#加载一下图片防止报错，此处可以省略
image.load()
#调用show来展示图片，调试用此处可以省略
image.show()
text = pytesseract.image_to_string(Image.open('07.jpg'),lang ='chi_sim')

print(text)

　　

3，使用中文字库训练的结果如下：

　　从结果来看，效果不太理想，所以我们要想得到更好的结果，那么就需要训练自己的字库，下面小编开始训练自己的字库。

五，训练自己的文库

1、将图片转换成tif格式，用于后面生成box文件。可以通过画图，然后另存为tif即可

　　更改图片名字，这个是有要求的

tif文面命名格式[lang].[fontname].exp[num].tif

lang是语言           fontname是字体 

比如我们要训练自定义字库myfontlab      字体名normal

那么我们把图片文件重命名 myfontlab.normal.exp0.jpg在转tif。

　　

2、生成box文件

tesseract myfontlab.normal.exp0.jpg myfontlab.normal.exp0 -l chi_sim batch.nochop makebox

　

　box文件和对应的tif一定要在相同的目录下，不然后面打不开。

　

　

3、打开jTessBoxEditor矫正错误并训练

　　打开train.bat

　　用jTessBoxEditor.jar打开tif文件，然后根据实际情况修改box文件

　　找到tif图，打开，并校正。

4、训练，生成.tr文件。

　　只要在命令行输入命令即可。

tesseract  myfontlab.normal.exp07.jpg  myfontlab.normal.exp07  nobatch box.train

　

　　生成一个unicharset文件

unicharset_extractor myfontlab.normal.exp07.box

　　

　　在这我明明已经矫正好了，但是还是有1个字符不能识别出来，报的错跟实际上完全没有相关性，不知道是不是bug，到后面的结果就是“一”字没有识别出来。

5，新建一个font_properties文件

里面内容写入 normal 0 0 0 0 0 表示默认普通字体

　

　　运行命令

shapeclustering -F font_properties.txt -U unicharset myfontlab.normal.exp07.tr

　　

mftraining -F font_properties.txt -U unicharset -O unicharset myfontlab.normal.exp07.tr

　　

cntraining myfontlab.normal.exp07.tr

　　

　　目录下会生成对应下列五个文件，在这五个文件前加上normal.进行重命名

6 执行 combine_tessdata normal.

　　合并五个文件，此时目录下的normal.traineddata 就是训练好的字库文件

combine_tessdata normal.

　　

　　得到训练好的字库如下：

六测试字库

1，把normal.traineddata 复制到Tesseract-OCRt程序目录下的“tessdata”目录,

2，在Tesseract-OCRt程序目录下执行

 tesseract.exe myfontlab.normal.exp07.jpg out –l normal

　　下面文件中会保存你识别到的数据；

　　这个其实网上资料很多，但大都描述的不够详细和完整，这里我一步一步把使用tesseract-ocr 训练字库的方法和步骤进行了描述，亲测是没有问题。

七，如何通过jTessBoxEditor进行Tesseract3.02.02样本训练

　　Tesseract生成.box文件后，需要用到jTessBoxEditor工具对其进行纠正，以下是jTessBoxEditor的使用步骤。

1 加载要纠正的.tif文件

　　box文件的内容也同时会加载到jTessBoxEditor，如果这部分的内容为空，则是没有生成.box文件的！如下图：

2 加载步骤如下：

　　此处借用的是网友的图片，方便，如有侵权，请联系小编及时删除。

3 矫正文字

　　当一个字被识别为两个时，按住Ctrl键选中两个，然后点击Merge，即可进行合并！

　　进行矫正主要就是坐标位置的调整,注意添加需要选择上一个文字才能分离

4.删除空白的方法

　　有些空白处可能也会被jTessBoxEditor误认为是字体，用蓝色框框住，

　　这个可以直接选中，delete掉就好了！

5.总结

　　正常情况下是每个字体都会有蓝色框框住，如果说有其中的两个相邻的字都没有被框住，这时候即使采用insert后加上蓝色框，但是最后识别还是有问题，这个不懂是不是我操作不对！最后发现原来是两个字体挨的太近的，导致区别不开了，在老大的建议下，把两个字的距离隔开点来，就可以正常的框出来了！（如果有更好的方法，请指出，谢谢）

　　修改完成后保存即可！这里我是一张张样本图片进行修改的，但是我这样做每张都有做同样的纠正，不知道有没有批量修改的方法呢？

　　在对图片进行训练之前，最好先用Opencv进行下处理，比如说二值化，这样就可以去掉一些干扰！但是要注意的是在识别之前同样的也对图片先进行相同效果的处理！这样的识别率会有所提高！

八软件设置字体的方法

　　在setting>font 设置中文字体

转载于:https://www.cnblogs.com/wj-1314/p/9454656.html

你可能感兴趣的:(深入学习Tesseract-ocr识别中文并训练字库的方法)

（1）【个人使用篇】github代码管理 RoboticsTechLab 开发技术管理 git github ssh
文章目录（1）第一步【下载、新建代码】：clone拉取下载项目/新建自己的项目方法（1）方式一：【clone拉取下载项目到本地目录】步骤一：创建本地版本库（repository）第一步：创建一个目录第二步：把目录进行git初始化步骤二：从远程库拉取项目到本地第1步：创建SSHKey第2步：登陆GitHub，打开“Accountsettings”，“SSHKeys”页面，设置SSH和keys第3步：
ChatGPT智能聊天机器人实现云端源想 chatgpt 机器人
以下是一个从零实现类ChatGPT智能聊天机器人的完整开发指南，包含技术选型、核心代码逻辑和推荐学习资源：—云端平台整理一、技术架构与工具核心模型基座模型：HuggingFaceTransformers库（如GPT-2/GPT-3.5TurboAPI/LLaMA2）轻量化方案：微软DeepSpeed或MetaFairScale（降低显存占用）训练框架PyTorchLightning+Acceler
Apache Doris 3.0.4 版本正式发布
亲爱的社区小伙伴们，ApacheDoris3.0.4版本已于2025年02月28日正式发布。该版本持续在存算分离、湖仓一体、异步物化视图等方面进行改进提升与问题修复，进一步加强系统的性能和稳定性，欢迎大家下载体验。官网下载：https://doris.apache.org/downloadGitHub下载：https://github.com/apache/doris/releases/tag/3
读取RAMS输出文件(RAMS-ISAN文件)的基本程序 Hardess-god RAMS 人工智能
importnumpyasnpfromnetCDF4importDatasetimportxarrayasxrdefread_rams_data(filename):"""读取RAMS输出文件的基本函数"""try:#使用xarray打开文件ds=xr.open_dataset(filename)#提取基本变量temp=ds['THETA'].values#位温pressure=ds['PI'].
【面试经验】华为 AI软开计算产品线（面经+时间线） litterfinger 面试华为人工智能
一.岗位：AI软开二.时间线：投递08.09，机试08.28，测评08.29；面试均线上，一面09.12，二面09.27，三面09.29（本来是09.19线下二三面，但由于本人有事推迟）三.一面（50min）自我介绍简单介绍一下传统知识图谱建设和大模型对于知识的构建的差异和整体的趋势聊聊实习经历中的提示工程和sft具体的工作AI的一个发展历史流程和相关算法的引进知识图谱建设的总体流程回顾机试：老鼠
【CSS】background-position属性详解 Peter-Lu #CSS css 前端 node.js html javascript
文章目录一、background-position属性概述1.属性介绍2.属性的取值3.属性的默认值二、background-position的基本用法1.使用关键字2.使用百分比3.使用像素值4.混合使用关键字与百分比/像素值三、background-position属性详解1.关键字定位2.百分比定位3.长度值定位四、background-position的实际应用场景1.背景图像居中显示2.
【第十节】windows sdk编程：截获控件消息攻城狮7号 Windows编程(C++)windows windows编程 windows sdk c++
目录一、控件消息的截获概述二、相关函数三、示例代码四、高级技巧与注意事项五、常见问题解答六、总结一、控件消息的截获概述控件的消息处理函数通常由系统定义，开发者无需干预。但在需要实现特殊交互逻辑（如自定义点击效果、消息过滤或增强功能）时，可通过消息处理函数替换技术截获控件消息。此技术通过替换控件的默认消息处理函数（WindowProcedure），在自定义处理完成后，调用原函数确保消息链完整。该技术
React封装通用Form组件，类型转换、命名控件样式隔离、支持表单验证、位置自定义、自定义布局、提示信息info等功能。未采用二次封装调整灵活，包含使用文档夜斗(dou) react.js javascript ecmascript
封装通用组件一、封装思想二、react代码三、css代码四、实现效果五、使用文档BasicFormModal表格模态框组件组件简介功能特点使用方法基础用法宽度和位置控制使用初始值多种输入类型示例表单验证字段提示信息禁用字段自定义样式更新日志v1.0.0API说明PropsFormField配置项dataType数据类型选项Rule配置项Option配置项数据类型使用示例数值类型示例布尔类型示例注意
纯代码非插件实现wordpress右侧悬浮在线客服咨询台 wodrpress资源分享 wordpress wordpress
为了创建一个悬浮在右侧的在线客服咨询台，您可以使用HTML和CSS。以下是一个简单的示例，包含了QQ咨询和微信咨询的链接。HTML代码：在线客服咨询台QQ咨询微信咨询CSS代码：#right-sidebar{width:200px;height:100vh;position:fixed;right:0;top:0;background-color:#f5f5f5;padding:20px;}#on
wordpress导入mysql数据库文件的方法及注意事项 wodrpress资源分享 wordpress 数据库 mysql wordpress
WordPress是一个流行的开源内容管理系统，通常用于构建网站和博客。它使用MySQL数据库来存储和管理网站数据。在某些情况下，您可能需要将现有的MySQL数据库导入到新的WordPress安装中。本文将介绍如何导入MySQL数据库文件到WordPress以及需要注意的事项。一、备份现有数据库在进行任何数据库导入操作之前，强烈建议您先备份现有的数据库。这样可以确保在导入过程中出现问题时，您不会丢
CSS 自适应图片根据 div 大小进行均匀填充前端小助手 css tensorflow 前端
目录前言使用object-fit属性示例代码HTMLCSS总结相关阅读1.前言在Web开发中，经常需要图片根据其容器的大小进行自适应填充，使得图片在任何设备和屏幕尺寸下都能保持良好的显示效果。本文将介绍如何使用CSS中的object-fit属性来实现这一需求。2.使用object-fit属性object-fit是一个CSS属性，专门用于控制替换元素（如、等）在其容器内的显示方式。常用的值有：fil
为什么很多人喷 Java 开发者离了 spring 框架就不会写代码了 getapi java spring 开发语言
很多人批评Java开发者离开Spring框架后难以独立开发的原因可从技术特性与开发者习惯两方面分析：Java语言的历史设计局限Java的泛型实现存在缺陷，其原始值包装类（如Integer与int）的自动装拆箱机制出现较晚（Java5引入），且编译器无法彻底解决原始值与包装类的隐式转换问题[[1]][[2]]。这种设计导致开发者在处理基础类型与对象时需要额外关注类型转换，而Spring框架通过封装（
解决 Flutter Device Daemon 启动失败问题的实践记录又吹风_Bassy flutter Flutter Daemon file handles Daemon Crash AndroidStudio
解决FlutterDeviceDaemon启动失败问题的实践记录最近在使用Flutter开发时踩了一个坑。看似是个小问题，但折腾了好久，最终通过日志分析和查阅资料才找到了解决办法。这里记录一下整个问题的排查过程，希望能帮助到遇到类似问题的小伙伴。问题背景事情是这样的，我在启动AndroidStudio时突然弹出了一个错误窗口：提示Flutterdaemon启动失败，过了一会儿之后，又弹出下面的弹窗
Python学习日记-第二十九天-tcp（客户端）差点长成吴彦祖 python pandas tcp/ip 网络
系列文章目录tcp介绍tcp特点tcp客户端一、tcp介绍Tcp协议，传输控制协议是一种面向连接的、可靠的、基于字节流的传输层通信协议，由IETF的RFC793定义TCP通信需要经过创建连接、传输数据、终止连接三个步骤TCP通信模型中，在通信开始之前，一定要先建立相关的链接，才能发送数据，类似于生活中的“打电话”（注：之前学习的udp，在通信前，不需要建立相关的链接，只需要发送数据即可，类似于“写
使用自定义域名访问github上的pages 六圈儿建站 github 域名
1.什么是pages大家应该知道github提供了pages功能，详细介绍见pages.github.com(英文的，估计很少人仔细看)。其实就是，可以把你的代码仓库作为静态站点的资源文件。对于普通用户来说又分为两种pages：userpages和projectpages。1.userpages的仓库名必须是username.github.io比如我的github账号时zhouchangxun，所
GitHub图床 Thinking_calculus Linux github
GitHub之图床github当图床使用的方法了解了，最简单的、安全的方式是创建一个私有库，通过发起issue的方式把想要保存的图片放在issue区title中可以添加便于记忆的字段，虽然大概率以后不会用到，但如果需要时可以使用爬虫爬取issue保存下来，也便于查找之前还有些照片以仓库的形式同步在这个仓库中，但取url这个过程十分麻烦，不过如果是用于储存大量照片的话，使用仓库同步的方式可能不会差,
2018 Kotlin中的model Shigq-droid Kotlin kotlin model
数据类我们经常创建主要用于保存数据的类。在这样的类中，一些标准功能和效用函数通常可以从数据中机械地导出。在Kotlin中，这称为数据类，标记为data：dataclassUser(valname:String,valage:Int)编译器自动从主构造函数中声明的所有属性派生以下成员：equals()/hashCode()pair;toString()形式”User(name=John,age=42
训练数据重复采样，让正负样本比例1：1 kimi-222 机器学习人工智能深度学习
详细解释resample函数：resample函数来自sklearn.utils，用于从数据集中重新抽样。replace=True表示允许重复抽样，即同一个样本可以被多次选中。n_samples指定抽样的数量。确保训练集数量相同：通过resample函数，你可以确保正训练集和负训练集的数量相同，即使其中一个集的数量小于另一个集的数量。如果n_train_num小于max_train_num，res
组件化/Kotlin Ice_Lemon_dc android kotlin 开发语言
七、组件化组件化原理引入组件化的原因：项目随着需求的增加规模变得越来越大，规模的增大导致了各种业务错中复杂的交织在一起,每个业务模块之间，代码没有约束，带来了代码边界的模糊，代码冲突时有发生,更改一个小问题可能引起一些新的问题,牵一发而动全身，增加一个新需求，需要熟悉相关的代码逻辑，增加开发时间避免重复造轮子，可以节省开发和维护的成本。可以通过组件和模块为业务基准合理地安排人力，提高开发效率。不同
如何在GitHub上Clone项目：一步步指南 Fanstay985 github
GitHub作为全球最大的代码托管平台，汇聚了无数开发者的智慧结晶。对于初学者和资深开发者来说，学会如何从GitHub上克隆（Clone）项目是一项基本且重要的技能。本文将详细介绍如何在GitHub上克隆项目的步骤，帮助你轻松将他人的代码库下载到本地进行学习和开发。一、准备工作在开始之前，请确保你已经安装了Git。Git是一个分布式版本控制系统，用于代码的版本管理。如果你还没有安装Git，可以从G
Schneider MDI1PRD23B7-EQ程序参数使用教程MDI1FRD34C7-EQ-N技术广州葵璟机器学习人工智能
SchneiderMDI1PRD23B7-EQ，MDI1FRD34C7-EQ-N步进电机。这是一款包括电机+控制器+驱动器集成一起的微步进电机，所以这是为什么需要设置程序参数的重要原因。在更换维修电机之前，先要将原MDI1PRD23B7-EQ，MDI1FRD34C7-EQ-N电机的程序参数进行备份。这里需要用到原厂配套的通讯线MD-CC400-001（如果没有可以自行准备）。下面是MDI1PRD2
【北上广深杭大厂AI算法面试题】计算机视觉篇...详解目标检测中的多尺度训练和测试? 努力毕业的小土博^_^ AI算法题库人工智能计算机视觉算法深度学习神经网络目标检测
【北上广深杭大厂AI算法面试题】计算机视觉篇…详解目标检测中的多尺度训练和测试?【北上广深杭大厂AI算法面试题】计算机视觉篇…详解目标检测中的多尺度训练和测试?文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...详解目标检测中的多尺度训练和测试?前言多尺度训练核心思想：优点与注意点：多尺度测试核心思想：优点与注意点：综合作用参考示例总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上
【step by step】Easyi3C Host I3C/I2C adapter (8) Scott.W 嵌入式硬件 python 功能测试
Easyi3C是一家领先的嵌入式系统工具供应商，可简化各种通信协议的开发和调试。公司提供一系列产品，旨在帮助工程师和开发人员更高效地使用I3C/I2C、USB和MIPI、JEDEC、MCTP等协议。Easyi3C提供PythonAPI。用户可以使用Python脚本对Easyi3C进行编程和控制，通过I2C或I3C协议访问从设备。API的使用，适合用户搭建更加复杂的测试环境，对提高自动化测试程度会有
信息收集之子域名收集，子域名爆破_dnsdumpster 2401_89829398 网络
「作者主页」：士别三日wyx「作者简介」：CSDNtop100、阿里云博客专家、华为云享专家、网络安全领域优质创作者「专栏简介」：此文章已录入专栏《网络安全快速入门》子域名收集一、域名爆破原理二、搜索引擎收集子域名三、第三方网站收集子域名1.VirusTotal2.DNSdumpster四、工具收集子域名子域名就是下一级域名的意思，比如map.baidu.com和image.baidu.com就是
探索大模型应用：构建基于检索的RAG实战指南李逍遥猿人工智能计算机视觉 microsoft AIGC 开源深度学习神经网络
在AI技术的浪潮中，大模型以其强大的问题回答能力，正逐渐渗透到各行各业，成为推动行业发展的新引擎。然而，大模型并非万能，它在实时性和私有领域知识覆盖上存在局限。为了克服这些限制，本文将带你深入了解如何利用检索增强生成模型（RAG）来扩展大模型的能力，并通过一个实战案例，展示如何构建一个基于RAG的AI知识库。一、大模型的局限与RAG的机遇大模型虽然在处理通用问题上表现出色，但在面对实时数据和私有领
kotlin中的模块化结构组件每次的天空 kotlin android 开发语言
模块化结构组件包含ViewModel、LiveData、Room和Navigation，我将讲解它们的工作原理和基础使用。ViewModel工作原理创建与存储机制：当调用ViewModelProvider的get方法获取ViewModel实例时，ViewModelProvider会先检查ViewModelStore中是否已存在该类型的实例。若存在则直接返回，若不存在则使用ViewModelProv
面试中必会的Java基础(一）每次的天空面试 java 学习
Java是面向对象编程所以第一就是面向对象编程的特点是什么？面向对象编程类与对象：掌握类的定义、成员变量和成员方法的声明与使用，以及如何通过类创建对象。理解对象的生命周期，包括创建、使用和销毁。封装：明白封装的概念，即把数据和操作数据的方法封装在一个类中，通过访问修饰符（public、private、protected等）来控制对类成员的访问。继承：理解继承的概念和作用，掌握通过extends关键
MVC/MVP/MVVM框架学习总结（二）每次的天空 mvc 学习 java
上次已经了解到MVC的知识，现在是扩展实现MVP/MVVM的框架改进本身项目MVVM框架即Model-View-ViewModel框架，是一种软件架构设计模式，以下是具体介绍：核心组件Model（模型）：代表应用程序的数据结构和业务逻辑，负责数据的存储、检索、验证和处理，定义业务规则和算法，是应用程序的数据核心。比如在一个电商应用中，商品数据、用户订单数据等的存储和相关逻辑处理都属于Model层。
CURL一文通 calmtho curl 网络
文章目录1.什么是curl2.curl可以发送什么请求3.常见curl发http相关请求怎么写4.curl带上的参数分别有什么，可以怎么用5.进阶用法6.常见错误以及学习指导建议1.什么是curl是利用URL语法在命令行下工作的开源文件传输工具。尤其被广泛应用的在linux系统下。2.curl可以发送什么请求由定义可知道，curl主要应用于网络传输，它支持常用的多种请求，如http,https,f
Python学习第十九天 Leo来编程 Python学习学习 python
Django-分页后端分页Django提供了Paginator类来实现后端分页。Paginator类可以将一个查询集（QuerySet）分成多个页面，每个页面包含指定数量的对象。fromdjango.shortcutsimportrender,redirect,get_object_or_404from.modelsimportUserfrom.formsimportUserFormfromdja
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他