Python文本相似性计算之编辑距离详解

编辑距离

编辑距离（Edit Distance），又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。

例如将kitten一字转成sitting：（'kitten' 和 ‘sitting' 的编辑距离为3）

sitten （k→s）

sittin （e→i）

sitting （→g）

Python中的Levenshtein包可以方便的计算编辑距离

包的安装： pip install python-Levenshtein

我们来使用下：

# -*- coding:utf-8 -*-
import Levenshtein
texta = '艾伦 图灵传'
textb = '艾伦•图灵传'
print Levenshtein.distance(texta,textb)

上面的程序执行结果为3，但是只改了一个字符，为什么会发生这样的情况？

原因是Python将这两个字符串看成string类型，而在 string 类型中，默认的 utf-8 编码下，一个中文字符是用三个字节来表示的。

解决办法是将字符串转换成unicode格式，即可返回正确的结果1。

# -*- coding:utf-8 -*-
import Levenshtein
texta = u'艾伦 图灵传'
textb = u'艾伦•图灵传'
print Levenshtein.distance(texta,textb)

接下来重点介绍下保重几个方法的作用：

Levenshtein.distance(str1, str2)

计算编辑距离（也称Levenshtein距离）。是描述由一个字串转化成另一个字串最少的操作次数，在其中的操作包括插入、删除、替换。算法实现：动态规划。

Levenshtein.hamming(str1, str2)

计算汉明距离。要求str1和str2必须长度一致。是描述两个等长字串之间对应位置上不同字符的个数。

Levenshtein.ratio(str1, str2)

计算莱文斯坦比。计算公式 r = (sum �C ldist) / sum, 其中sum是指str1 和 str2 字串的长度总和，ldist是类编辑距离。注意这里是类编辑距离，在类编辑距离中删除、插入依然+1，但是替换+2。

Levenshtein.jaro(s1, s2)

计算jaro距离，Jaro Distance据说是用来判定健康记录上两个名字是否相同，也有说是是用于人口普查，我们先来看一下Jaro Distance的定义。

两个给定字符串S1和S2的Jaro Distance为：

其中的m为s1, s2匹配的字符数，t是换位的数目。

两个分别来自S1和S2的字符如果相距不超过

时，我们就认为这两个字符串是匹配的；而这些相互匹配的字符则决定了换位的数目t，简单来说就是不同顺序的匹配字符的数目的一半即为换位的数目t。举例来说，MARTHA与MARHTA的字符都是匹配的，但是这些匹配的字符中，T和H要换位才能把MARTHA变为MARHTA,那么T和H就是不同的顺序的匹配字符，t=2/2=1。

两个字符串的Jaro Distance即为：

Levenshtein.jaro_winkler(s1, s2)

计算Jaro�CWinkler距离，而Jaro-Winkler则给予了起始部分就相同的字符串更高的分数，他定义了一个前缀p，给予两个字符串，如果前缀部分有长度为ι的部分相同，则Jaro-Winkler Distance为：

dj是两个字符串的Jaro Distance

ι是前缀的相同的长度，但是规定最大为4

p则是调整分数的常数，规定不能超过25，不然可能出现dw大于1的情况，Winkler将这个常数定义为0.1

这样，上面提及的MARTHA和MARHTA的Jaro-Winkler Distance为：

dw = 0.944 + (3 * 0.1(1 − 0.944)) = 0.961

个人觉得算法可以完善的点：

去除停用词（主要是标点符号的影响）

针对中文进行分析，按照词比较是不是要比按照字比较效果更好？

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家学习或者使用python能有所帮助，如果有疑问大家可以留言交流。

其他参考资料：

https://en.wikipedia.org/wiki/Jaro%E2%80%93Winkler_distance

http://www.coli.uni-saarland.de/courses/LT1/2011/slides/Python-Levenshtein.html#Levenshtein-inverse

你可能感兴趣的:(Python文本相似性计算之编辑距离详解)

python办自动化--读取邮箱中特定的邮件，并下载特定的附件宝山哥哥 python办公自动化 python 自动化信息可视化
系列文章目录python办公自动化–数据可视化（pandas+matplotlib）–生成条形图和饼状图python办公自动化–数据可视化（pandas+matplotlib）–生成折线图python办公自动化–数据可视化（pandas读取excel文件，matplotlib生成可视化图表）python办公自动化-openpyxl学习-工资表生成工资条python办公自动化–使用将csv大文件分割
今日读书之你一定要懂的人情世故爱容容
书名：《别人不说，你一定要懂的人情世故》——送给中国打拼一族的成人礼——墨墨编著编者语：人情有尺度，有深浅，有轻重，出来混的都要懂。简而言之：人情世故就是做人的艺术。关键词：说话，利益，面子，分寸，人性，职场，交际应酬、情感主要内容：第一章，话说七分，酒至微醺——言语中的人情世故第二章，利益很重要，不要忽略利益的考量第三章，伤什么都不要伤了别人的面子第四章，为人处世要把握一些分寸第五章，不要抱怨人
两月速通大模型开发，你需要做什么？32岁程序员转行大模型，大龄程序员如何转行大模型？
别再犹豫转不转行，只看理论不行动了！作为一位30+北漂男程序员，2个月零基础转行大模型，成功拿下月薪2w+的offer！今天我来分享一下我的亲身经历，希望能给还在迷茫中的你一些启发！转行前的“悲惨”生活我，一个30+男单身青年，因为家里在一个小城市，大学时一心想报到大城市来，想尝试一下新的生活方式，所以选择了一个普通的二本学院在北京开启了我的大学生活。因为选择的计算机专业，每天都很忙，也比较难，听
《理财就是理生活》：要不要玩一场游戏，做金钱的掌控者？疯华绝代的四喜
理财这件事很重要，一开始的重点不在“财”字，而在“理”字。因为钱数的递增在没有与之匹配的管理能力面前是无法发挥它的巨大作用，所以人一定要尽早学习相关知识，从小额积累经验。这是《理财就是理生活》这本书中艾玛·沈所讲的主要内容，在我读完并整理后，发现整本书其实就是让一个想要学习理财知识的初学者去建立一个对自我生活的正确掌控和指导的框架。但我个人觉得《理财就是理生活》这本书不能单独以理财书去看，因为它启
2018-07-27 梵音陈静
图片发自App图片发自App图片发自App每次骑小蓝车心情都好好喔，因为很轻啊，可以说是没有对比就没有伤害了，小黄车百分之九十都像老爷车，蹬起来那费劲儿的，大腿都变粗了555...。最近看姚家园店的小伙伴嗖嗖出订金好生羡慕，她他们真的超棒超厉害哦⊙∀⊙！辛苦付出总是会有回报的！预祝明天姚家园店开盘大卖大吉大利一切顺利！我自己呢已经进入疲惫期两周左右了，虽然没有力气竭尽全力了但是要坚持尽力！
Kafka单条消息长度限制详解及Java实战指南
在分布式消息系统中，Kafka以其高吞吐、低延迟的特性成为主流选择。但很多开发者在使用时会遇到一个常见问题：单条消息长度限制。本文将深入剖析Kafka的消息大小限制机制，并提供Java解决方案。一、Kafka消息长度限制核心参数Kafka通过多级配置控制消息大小，关键参数如下：配置项作用范围默认值说明message.max.bytesBroker1MB(1048588)Broker允许的最大消息尺
Kafka 如何优雅实现 Varint 和 ZigZag 编码
ByteUtils是Kafka中一个非常基础且核心的工具类。从包名common.utils就可以看出，它被广泛用于Kafka的各个模块中。它的主要职责是提供一套高效、底层的静态方法，用于在字节缓冲区(ByteBuffer)、字节数组(byte[])以及输入/输出流(InputStream/OutputStream)中读写Java的基本数据类型。ZigZag编解码过程的数学原理详解康托尔对角线映射。
[数学基础] 坐标系详解：笛卡尔坐标系、惯性坐标系与极坐标系极客不孤独算法信号处理学习数学建模
坐标系详解：笛卡尔坐标系、惯性坐标系与极坐标系文章目录坐标系详解：笛卡尔坐标系、惯性坐标系与极坐标系1.引言2.笛卡尔坐标系（CartesianCoordinateSystem）2.1数学定义2.2几何意义2.3特点与应用3.惯性坐标系（InertialCoordinateSystem）3.1数学定义3.2物理意义3.3特点与应用4.极坐标系（PolarCoordinateSystem）4.1数学
长沙水做亲子鉴定在哪里做(附2024年最新亲子鉴定办理流程) 成之嘉_基因检测
2024年长沙最新亲子鉴定收费标准：个人隐私亲子鉴定收费标准：￥2000-￥2400，常见用途：怀疑孩子的父亲身份，想私下偷偷检测；无创胎儿亲子鉴定收费标准：￥4500-￥5000，常见用途：孩子未出世，怀疑胎儿的父亲身份，想思想偷偷检测；司法亲子鉴定收费标准：￥2400-￥3600，常见用途：上户口、移民；成之嘉亲子鉴定优势1、全程匿名2、快速出结果3、检测更精准口号：每一次检测都是一份责任孕期
Here-Document的`＜＜` 与 `＜＜-` 与 `＜＜＜` 多解说笔记250722 kfepiza #Linux #控制台命令行 Shell bash cmd 等笔记 linux bash
Here-Document的poem.txt静夜思床前明月光疑是地上霜FORMATTED#2.空格敏感的配置catconfig.ymlindentation:level:4#必须4空格SPACE何时用tabs.txt重要制表符:→这里Tab会被保留但行首Tab会被移除TABS#2.空格缩进的环境#（如Python脚本）技术原理图解HereDocumentquery.sqlSELECT*FROM${
LazyVim 加载顺序胖大和尚 lazyvim
在LazyVim中，加载顺序是精心设计的，遵循特定的层次结构。理解这个顺序对于解决配置问题至关重要：LazyVim加载顺序详解（从先到后）init.lua核心初始化位置：~/.config/nvim/init.lua作用：设置基本路径和全局选项典型内容：vim.g.mapleader=""require("config.lazy")Lazy插件管理器设置位置：~/.config/nvim/lua/
梨花又开放谢悦悦夏寻之最新章节在线阅读_谢悦悦夏寻之全本免费在线阅读热门小说_1
这本小说主要讲述了订婚宴上，我不小心摔坏女友的陶瓷杯。相恋十三年的女友瞬间红了眼眶，一反常态的将我推到碎片上，独自开车离去。我捂着流血的手臂自己走回了家。半路上却看到她在我们相爱的梨花树下，抱着竹马忏悔。“这些年我爱的人其实一直是你，夏寻之只是我疗伤的替代品。”梨花又开放谢悦悦夏寻之最新章节在线阅读_谢悦悦夏寻之全本免费在线阅读书名：梨花又开放主角：谢悦悦夏寻之>>>>>>>请前往文章底部全文完整
2020-2-18晨间日记 leeerou
今天是什么日子起床：7：00就寝：24：00天气：晴心情：好纪念日：无任务清单昨日完成的任务，最重要的三件事：1、人生101个目标清单之50个2、梳理81项目事3、完成《逻辑思维》学习改进：日更持续中习惯养成：锻炼周目标·完成进度无学习·信息·阅读樊登读书会《低风险创业》、《危机领导力》《见识》阅读中健康·饮食·锻炼无人际·家人·朋友无工作·思考尽快梳理出项目目前存在的问题及轻急缓重，列出计划最美
第二阶段-第二章—8天Python从入门到精通【itheima】-133节（SQL——DQL——基础查询） Patrick_kafka sql python 数据库开发语言学习 android 程序人生
目录133节——DQL：基础查询1.学习目标2.基础数据查询：select3.进行过滤的基础数据查询：where4.代码演练5.小节总结6.关于MySQL和SQL的DDL、DML、DCL、DQL的最底层逻辑MySQL与SQL的底层逻辑：从磁盘到内存的数据流解析一、DDL（数据定义语言）：构建数据大厦的蓝图二、DML（数据操作语言）：数据流动的三重关卡三、DCL（数据控制语言）：权限的多维管控四、D
Android-jetpack之DataBinding实战应用
一、DataBinding基础配置1.启动流程在build.gradle中启用：android{dataBinding{enabled=true}}这会让编译器为每个布局文件生成对应的绑定类（如ActivityMainBinding、DetailsFragmentBinding）。2.布局文件转换将普通布局文件转换为DataBinding布局，需要在根标签外包裹标签：二、绑定基础操作1.绑定基本数
Python爬虫教程：抓取地方政府网站的公开文件与政策信息 Python爬虫项目 python 爬虫开发语言数据分析 mysql
1.引言在信息化时代，政府网站已成为信息公开的重要渠道。各级地方政府网站上发布的政策、公告和公开文件，通常包含了政府决策、法律法规等关键信息。爬取这些公开数据，可以为研究人员、政策分析师、企业决策者等提供有价值的数据支持。本文将通过Python爬虫技术，展示如何抓取地方政府网站上的公开文件、政策等信息。我们将使用最新的爬虫技术，如requests、BeautifulSoup、Selenium等工具
2023-05-29 快乐有我_c00f
大荔县心理咨询协会郭亚婵坚持分享第900天：《道德经》第九章原文：持而盈之，不如其已。揣而锐之，不可长保。金玉满堂，莫之能守。富贵而骄，自遗其咎。功遂身退，天之道。译文：个人的所得将要满溢，不如及时停止追求。锤炼金属使其锋芒毕露，锐利的势头难以保持长久。金玉满堂，不会长久守持住。富贵而骄横的人，自寻灾祸，功成名就之后，自己便归隐离去，这才是符合天道。尽管人常说书读百遍题意自现，哈哈哈哈哈对于这一章
Python 库手册：xml.etree.ElementTree 处理 XML 数据模块
xml.etree.ElementTree（简称ElementTree）是Python标准库中用于解析、创建和操作XML数据的模块。它提供了一种轻量、易用的方式来读取、修改和写入XML文件，适用于配置文件处理、数据交换、网络通信等应用场景。常见应用场景：（1）读取XML配置文件并提取参数。（2）修改XML数据结构（如节点属性、内容）。（3）创建新的XML文档并保存。（4）从WebAPI获取的XML
[学习] 笛卡尔坐标系的任意移动与旋转详解极客不孤独学习算法信号处理
笛卡尔坐标系的任意移动与旋转详解文章目录笛卡尔坐标系的任意移动与旋转详解**1.笛卡尔坐标系基础****2.坐标变换原理****2.1平移变换****2.2旋转变换****3.组合变换**Python仿真与动态展示**动画说明**：**关键数学原理**：1.笛卡尔坐标系基础笛卡尔坐标系用(x,y)(x,y)(x,y)表示平面内任意点的位置，原点为(0,0)(0,0)(0,0)。几何图形可视为点的集
408考研逐题详解：2010年第35题——RIP协议
2010年第35题某自治系统内采用RIP协议，若该自治系统内的路由器R1收到其邻居路由器R2的距离矢量，距离矢量中包含信息，则能得出的结论是（）A.R2可以经过R1到达net1，跳数为17B.R2可以到达net1，跳数为16C.R1可以经过R2到达net1，跳数为17D.R1不能经过R2到达net1解析本题主要考查RIP（RoutingInformationProtocol）协议，相关内容如下：R
2021-11-04 心心向善
南无羌佛《世法哲言》浅释（四十一）有或何以喜恶而不欢其善?恶道多出私利之为，故宽而善行，人者好之;善道多於施品破利，由是窄而却步，故或远之。有些人为什么喜欢恶而不喜欢善呢?一说到做恶事他就高兴得很，做坏事他跃跃欲试，做对自己有益的事也兴趣盎然，而做好事、利益他人的事，他就不愿意去做，甚至於连边都不愿意去沾，其原因就是，凡是恶道，都出於私利，出於自己所得到利益而实施的一种行为，比如占別人的钱財、占別
删除 XML 格式中双引号内的空格胖大和尚 xml
要使用Shell命令删除XML格式中双引号内的空格（仅处理属性值中的空格，保留标签外的空格），可以使用以下sed命令：sed-i':loop;s/$"[^"]*$$[^"]*"$/\1\2/g;tloop'filename.xml命令详解：核心逻辑：s/$"[^"]*$$[^"]*"$/\1\2/g：匹配双引号内的内容，将捕获分组\1（双引号后到空格前的文本）和\2（空格后到双引号
第二阶段-第二章—8天Python从入门到精通【itheima】-134节（SQL——DQL——分组聚合） Patrick_kafka sql 数据库 mysql 大数据开发语言 python pycharm
目录134节——DQL：分组聚合1.学习目标2.分组聚合3.论MySQL中GROUPBY和WHERE的异同MySQL中GROUPBY和WHERE的异同：一、相同点：都是“筛数据”的工具二、不同点：筛的时机和对象完全不一样1.作用时机不同：先筛行，再分组2.作用对象不同：筛单行vs筛分组3.不能混搭的“规矩”三、一句话总结4.小节总结编辑好了，又一篇博客和代码写完了，励志一下吧，下一小节等等继续：1
python库下载超时_Python pip使用超时问题解决方案 weixin_39597318 python库下载超时
Pythonpip使用超时问题解决方案引言之前有位群友在群里发了个问题，说使用pip安装第三方包遇到"Readtimeout"。我相信很多时候，大家在使用pip都会遇到这个问题，所以，我想有必要写一遍文章来总结一下。具体如下：解决方案在这之前，你要明白一点，直接使用pip安装超时，绝大多数原因是pip源在外国，所以国内使用，网络就算稳定，也有一定超时。要想解决pip安装软件包超时问题，目前只有两种
民间故事：尬聊诗文书画汇
戏说古今奇闻趣事，传递世间真情善意。本故事为《民间故事》系列之第520期，如果您喜欢，不妨给个关注！文/小田在笔者身边有很多人常说，“情商低”的人不怎么会聊天。或者说聊着聊着就会出现没有话题的尴尬局面，这种尴尬聊天，被大家伙戏称之为“尬聊”。如果出现这种局面，在座的人心里面都会觉得不自然，想必大家伙都碰见过这种情况吧！今天咱要讲的这篇民间小故事便与“尬聊”有关。咱们书归正传，一起来看看这则民间故事
AI人工智能 Agent：金融投资中智能体的应用 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能Agent：金融投资中智能体的应用1.背景介绍在金融投资领域，人工智能（AI）技术的应用已经成为一种趋势。随着数据量的爆炸性增长和计算能力的提升，AI技术在金融市场中的应用变得越来越广泛和深入。智能体（Agent）作为AI技术的重要组成部分，能够在金融投资中发挥重要作用。智能体可以通过学习和适应市场环境，自动执行交易策略，优化投资组合，甚至预测市场趋势。2.核心概念与联系2.1智能体（
年轻干部想要向上生长必先向下扎根组工人
河流唯有深邃才能平静无波，树木只有扎根地底才能茁壮茂盛。年轻干部成长也是如此，朝着目标大步前进的同时，别忘了沉淀自己，努力向基层一线“扎根”，在基层一线学习历练，摔打磨合，努力成长为国之栋梁。要沉下“身子”联系群众。“不登高山，不知天之高也；不临深溪，不知地之厚也。”年轻干部出校门进机关门，对基层不了解，跟群众不接触，要想“扎深根”，就要走出办公室，到基层一线去，学会与群众交朋友，把群众当亲人，了
VS厂欧米茄蝶飞明亮之蓝多少钱(VS厂蝶飞明亮之蓝价格一览表) 潮品会
近年来，瑞士知名手表品牌欧米茄（Omega）的蝶飞系列备受瞩目，尤其是其中的明亮之蓝款式。这款手表凭借其独特的设计、精湛的工艺和卓越的性能，受到了广大消费者的喜爱。然而，由于正品欧米茄手表的价格较高，许多消费者将目光投向了VS厂生产的欧米茄蝶飞明亮之蓝高仿表【重要提醒】文章最下面有联系方式为您详细解析VS厂欧米茄蝶飞明亮之蓝的价格及市场行情。一、正品欧米茄蝶飞明亮之蓝手表价格正品欧米茄蝶飞明亮之蓝
python基础变量之---集合暴龙胡乱写博客 python基础 python chrome 开发语言
python基础变量之—集合文章目录python基础变量之---集合一、集合1.集合介绍2.集合创建3.集合操作4.集合常见API二，可变与不可变类型1.可变2.不可变3.二者区别三，类型转换一、集合1.集合介绍在Python中，集合（set）是一种无序的、不重复的数据结构，用于存储唯一的元素，支持数学集合的一些操作，如交集、并集、差集等。集合中的元素是无序的，即不记录元素的插入顺序，且每个元素只
轻量、高性能、易扩展——为什么 Elysia.js 是 Node.js 的未来？朱公子的Note 编程语言 node.js javascript Elysia.js凭什么封神？
“你还在用Express吗？功能不少，但每秒处理能力却像蜗牛爬行。”现如今，Serverless、边缘计算与微服务已成趋势，传统后端框架难以应对高并发需求。Elysia.js脱胎于Bun生态，以其超强性能与类型安全特性，正成为后端开发的新宠。本篇将带你深入剖析为什么它是未来绝佳选择。在Node.js生态中，Elysia.js凭借其极致的性能、优雅的API设计和强大的类型安全，迅速成为现代后端开发的
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他