Simhash算法原理和网页查重应用

Simhash算法原理和网页查重应用

传统的hash算法只负责将原始内容尽量均匀随机地映射为一个签名值，原理上相当于伪随机数产生算法。产生的两个签名，如果相等，说明原始内容在一定概率下是相等的；如果不相等，除了说明原始内容不相等外，不再提供任何信息，因为即使原始内容只相差一个字节，所产生的签名也很可能差别极大。从这个意义上来说，要设计一个hash算法，对相似的内容产生的签名也相近，是更为艰难的任务，因为它的签名值除了提供原始内容是否相等的信息外，还能额外提供不相等的原始内容的差异程度的信息。

而Google的simhash算法产生的签名，可以用来比较原始内容的相似度时，便很想了解这种神奇的算法的原理。出人意料，这个算法并不深奥，其思想是非常清澈美妙的。

Simhash算法

simhash算法的输入是一个向量，输出是一个f位的签名值。为了陈述方便，假设输入的是一个文档的特征集合，每个特征有一定的权重。比如特征可以是文档中的词，其权重可以是这个词出现的次数。simhash算法如下：

1，将一个f维的向量V初始化为0；f位的二进制数S初始化为0；

2，对每一个特征：用传统的hash算法对该特征产生一个f位的签名b。对i=1到f：

如果b的第i位为1，则V的第i个元素加上该特征的权重；

否则，V的第i个元素减去该特征的权重。

3，如果V的第i个元素大于0，则S的第i位为1，否则为0；

4，输出S作为签名。

算法几何意义和原理

这个算法的几何意义非常明了。它首先将每一个特征映射为f维空间的一个向量，这个映射规则具体是怎样并不重要，只要对很多不同的特征来说，它们对所对应的向量是均匀随机分布的，并且对相同的特征来说对应的向量是唯一的就行。比如一个特征的4位hash签名的二进制表示为1010，那么这个特征对应的
4维向量就是(1, -1, 1,
-1)^T，即hash签名的某一位为1，映射到的向量的对应位就为1，否则为-1。然后，将一个文档中所包含的各个特征对应的向量加权求和，加权的系数等于该特征的权重。得到的和向量即表征了这个文档，我们可以用向量之间的夹角来衡量对应文档之间的相似度。最后，为了得到一个f位的签名，需要进一步将其压缩，如果和向量的某一维大于0，则最终签名的对应位为1，否则为0。这样的压缩相当于只留下了和向量所在的象限这个信息，而64位的签名可以表示多达2⁶⁴个象限，因此只保存所在象限的信息也足够表征一个文档了。

明确了算法了几何意义，使这个算法直观上看来是合理的。但是，为何最终得到的签名相近的程度，可以衡量原始文档的相似程度呢？这需要一个清晰的思路和证明。在simhash的发明人Charikar的论文中[2]并没有给出具体的simhash算法和证明，以下列出我自己得出的证明思路。

Simhash是由随机超平面hash算法演变而来的，随机超平面hash算法非常简单，对于一个n维向量v，要得到一个f位的签名(f<<n)，算法如下：

1，随机产生f个n维的向量r1,…rf；

2，对每一个向量ri，如果v与ri的点积大于0，则最终签名的第i位为1，否则为0.

这个算法相当于随机产生了f个n维超平面，每个超平面将向量v所在的空间一分为二，v在这个超平面上方则得到一个1，否则得到一个0，然后将得到的
f个0或1组合起来成为一个f维的签名。如果两个向量u, v的夹角为θ，则一个随机超平面将它们分开的概率为θ/π，因此u,
v的签名的对应位不同的概率等于θ/π。所以，我们可以用两个向量的签名的不同的对应位的数量，即汉明距离，来衡量这两个向量的差异程度。

Simhash算法与随机超平面hash是怎么联系起来的呢？在simhash算法中，并没有直接产生用于分割空间的随机向量，而是间接产生的：第
k个特征的hash签名的第i位拿出来，如果为0，则改为-1，如果为1则不变，作为第i个随机向量的第k维。由于hash签名是f位的，因此这样能产生
f个随机向量，对应f个随机超平面。下面举个例子：

假设用5个特征w1,…,w5来表示所有文档，现要得到任意文档的一个3维签名。假设这5个特征对应的3维向量分别为：

h(w1) = (1, -1, 1)^T

h(w2) = (-1, 1, 1)^T

h(w3) = (1, -1, -1)^T

h(w4) = (-1, -1, 1)^T

h(w5) = (1, 1, -1)^T

按simhash算法，要得到一个文档向量d=(w1=1, w2=2, w3=0, w4=3, w5=0)
^T的签名，

先要计算向量m = 1*h(w1) + 2*h(w2) + 0*h(w3) + 3*h(w4) + 0*h(w5) = (-4,
-2, 6) ^T，

然后根据simhash算法的步骤3，得到最终的签名s=001。

上面的计算步骤其实相当于，先得到3个5维的向量，第1个向量由h(w1),…,h(w5)的第1维组成：

r1=(1,-1,1,-1,1) ^T；

第2个5维向量由h(w1),…,h(w5)的第2维组成：

r2=(-1,1,-1,-1,1) ^T；

同理，第3个5维向量为：

r3=(1,1,-1,1,-1) ^T.

按随机超平面算法的步骤2，分别求向量d与r1,r2,r3的点积:

d ^T r1=-4 < 0，所以s1=0;

d ^T r2=-2 < 0，所以s2=0;

d ^T r3=6 > 0，所以s3=1.

故最终的签名s=001，与simhash算法产生的结果是一致的。

从上面的计算过程可以看出，simhash算法其实与随机超平面hash算法是相同的，simhash算法得到的两个签名的汉明距离，可以用来衡量原始向量的夹角。这其实是一种降维技术，将高维的向量用较低维度的签名来表征。衡量两个内容相似度，需要计算汉明距离，这对给定签名查找相似内容的应用来说带来了一些计算上的困难；我想，是否存在更为理想的simhash算法，原始内容的差异度，可以直接由签名值的代数差来表示呢？

大规模网页的近似查重

详细内容可以看WWW07的 Detecting Near-Duplicates
for Web Crawling。

例如，文本的特征可以选取分词结果，而权重可以用df来近似。

Simhash具有两个“冲突的性质”：

1. 它是一个hash方法

2. 相似的文本具有相似的hash值，如果两个文本的simhash越接近，也就是汉明距离越小，文本就越相似。

因此海量文本中查重的任务转换位如何在海量simhash中快速确定是否存在汉明距离小的指纹。也就是：在n个f-bit的指纹中，查询汉明距离小于k的指纹。

在文章的实验中，simhash采用64位的哈希函数。在80亿网页规模下汉明距离=3刚好合适。

因此任务的f-bit=64 , k=3 , n= 8*10^11

任务清晰，首先看一下两种很直观的方法：

1.
枚举出所有汉明距离小于3的simhash指纹，对每个指纹在80亿排序指纹中查询。（这种方法需要进行C（64，3）=41664词的simhash指纹，再为每个进行一次查询）

2.
所有接近的指纹排序到一起，这至多有41664排序可能，需要庞大的空间。提出的方法介于两者之间，合理的空间和时间的折中。

•
假设我们有一个已经排序的容量为2^d，f-bit指纹集。看每个指纹的高d位。该高低位具有以下性质：尽管有很多的2^d位组合存在，但高d位中有只有少量重复的。

•
现在找一个接近于d的数字d’，由于整个表是排好序的，所以一趟搜索就能找出高d’位与目标指纹F相同的指纹集合f’。因为d’和d很接近，所以找出的集合f’也不会很大。

• 最后在集合f’中查找和F之间海明距离为k的指纹也就很快了。

• 总的思想：先要把检索的集合缩小，然后在小集合中检索f-d’位的海明距离

按照例子，80亿网页有2^34
个，那么理论上34位就能表示完80亿不重复的指纹。我们假设最前的34位的表示完了80亿指纹，假设指纹在前30位是一样的，那么后面4位还可以表示2⁴个，
只需要逐一比较这16个指纹是否于待测指纹汉明距离小于3。

假设：对任意34位中的30位都可以这么做。

因此在一次完整的查找中，限定前q位精确匹配（假设这些指纹已经是q位有序的，可以采用二分查找，如果指纹量非常大，且分布均匀，甚至可以采用内插搜索），之后的2^d-q个指纹剩下64-q位需要比较汉明距离小于3。

于是问题就转变为如何切割64位的q。

将64位平分成若干份，例如4份ABCD，每份16位。

假设这些指纹已经按A部分排序好了，我们先按A的16位精确匹配到一个区间，这个区间的后BCD位检查汉明距离是否小于3。

同样的假设，其次我们按B的16位精确匹配到另一个区间，这个区间的所有指纹需要在ACD位上比较汉明距离是否小于3。

同理还有C和D

所以这里我们需要将全部的指纹T复制4份， T1 T2 T3 T4， T1按A排序，T2按B排序…
4份可以并行进行查询，最后把结果合并。这样即使最坏的情况：3个位分别落在其中3个区域ABC,ACD,BCD,ABD…都不会被漏掉。

只精确匹配16位，还需要逐一比较的指纹量依然庞大，可能达到2^d-16个，我们也可以精确匹配更多的。

例如：将64位平分成4份ABCD，每份16位，在BCD的48位上，我们再分成4份，WXZY，每份12位，
汉明距离的3位可以散落在任意三块，那么A与WXZY任意一份合起来做精确的28位…剩下3份用来检查汉明距离。
同理B，C，D也可以这样，那么T需要复制16次，ABCD与WXYZ的组合做精确匹配，每次精确匹配后还需要逐一比较的个数降低到2^d-28个。不同的组合方式也就是时间和空间上的权衡。

最坏情况是其中3份可能有1位汉明距离差异为1。

算法的描述如下：

1）先复制原表T为Tt份：T1,T2,….Tt

2）每个Ti都关联一个pi和一个πi，其中pi是一个整数, πi是一个置换函数，负责把pi个bit位换到高位上。

3）应用置换函数πi到相应的Ti表上，然后对Ti进行排序

4）然后对每一个Ti和要匹配的指纹F、海明距离k做如下运算：

a) 然后使用F’的高pi位检索，找出Ti中高pi位相同的集合

b) 在检索出的集合中比较f-pi位，找出海明距离小于等于k的指纹

5）最后合并所有Ti中检索出的结果

由于文本已经压缩成8个字节了，因此其实Simhash近似查重精度并不高：

附参考文献：

[1] Detecting near-duplicates for web crawling.

[2] Similarity estimation techniques from rounding
algorithms.

[3] http://en.wikipedia.org/wiki/Locality_sensitive_hashing

[4] http://www.coolsnap.net/kevin/?p=23

[5] http://www.cnblogs.com/linecong/archive/2010/08/28/simhash.html

[6] http://blog.csdn.net/lgnlgn/article/details/6008498

博主注：本文主要就是拼接了参考文献[5][6]而成。

数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
✔2848. 与车相交的点程序员小小聪力扣 leetcode
代码实现：方法一：哈希表#definefmax(a,b)((a)>(b)?(a):(b))intnumberOfPoints(int**nums,intnumsSize,int*numsColSize){inthash[101]={0};intmax=0;for(inti=0;i=x){j--;}if(i=nums[i][0]){r=r>nums[i][1]?r:nums[i][1];}else{
Lombok：Java开发者的代码简化神器【后端 17】终末圆 Java后端 java 开发语言 mysql 数据库后端 spring boot python
Lombok：Java开发者的代码简化神器在Java开发中，我们经常需要编写大量的样板代码，如getter、setter、equals、hashCode、toString等方法。这些代码虽然基础且必要，但往往占据了大量开发时间，且容易在属性变更时引发错误。幸运的是，Lombok这个Java库通过注解的方式，为我们提供了一种高效的解决方案。本文将详细介绍Lombok的使用及其优势。什么是Lombok
python使用MD5 18.程序员哈希算法算法
一、要使用Python进行MD5加密，可以使用Python标准库中的hashlib模块。二、案例importhashlibstring="Hello,World!"#要进行加密的字符串hash_object=hashlib.md5(string.encode())#将字符串编码并进行MD5加密hash_hex=hash_object.hexdigest()#获取加密后的十六进制字符串print(h
2019-05-29 vue-router的两种模式的区别 Kason晨
1、大家都知道vue是一种单页应用,单页应用就是仅在页面初始化的时候加载相应的html/css/js一单页面加载完成,不会因为用户的操作而进行页面的重新加载或者跳转,用javascript动态的变化html的内容优点:良好的交互体验,用户不需要刷新页面,页面显示流畅,良好的前后端工作分离模式,减轻服务器压力,缺点:不利于SEO,初次加载耗时比较多2、hash模式vue-router默认的是hash
synchronized锁升级过程 liang8999 java jvm 开发语言
一、synchronized锁加到什么地方synchronized上锁，其实锁信息是加在对象头中的markdown，对象中的前四个字节表示markdown；markdown还记录了对象的gc、hashcode信息注意：markdown结构与jvm虚拟机的实现有关，I）32位Hotspot虚拟机markdown结构如下：II）64位Hotspot虚拟机的markdown结构如下：二、synchron
【编程底层原理】HashMap Hashtable ConcurrentHashMap Dylanioucn 开发语言后端 java
在Java的不同版本中，集合的实现原理有所变化，尤其是在HashMap、Hashtable和ConcurrentHashMap这三种实现中。以下是它们的一些关键区别和实现原理：一、HashMapJDK1.7：HashMap使用数组和链表的组合来解决冲突。当一个桶（数组的每个位置）中的元素超过一定数量时，会使用链表来存储这些元素。HashMap在JDK1.7中不是线程安全的。JDK1.8：进行了优化
关于Redis集群同步/持久化/淘汰机制的详解尾巴尖上的阳光大数据 redis 数据库
Redis是非常常用的KV数据库,使用内存以及HashMap进行存储的特点带来了高效的查询.本文将围绕Redis的常见开发使用场景,阐述在Redis集群中各个节点是如何进行数据同步,每个节点如何进行持久化以及在长期使用中如何对数据进行更新和淘汰.如果对Redis有更多的兴趣,可以查看我的技术博客:https://dingyuqi.com下面是Redis在开发过程中常用的几种使用场景.集群Redis
互联网 Java 工程师面试题（Java 面试题四）苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
下面列出这份Java面试问题列表包含的主题多线程，并发及线程基础数据类型转换的基本原则垃圾回收（GC）Java集合框架数组字符串GOF设计模式SOLID抽象类与接口Java基础，如equals和hashcode泛型与枚举JavaIO与NIO常用网络协议Java中的数据结构和算法正则表达式JVM底层Java最佳实JDBCDate,Time与CalendarJava处理XMLJUnit编程现在是时候给
区块链私有链new qis_qis 区块链区块链以太坊数字货币
{“config”:{“chainld”:666,“homesteadBlock”:0,“eip150Block”:0,“eip150Hash”:“0x0000000000000000000000000000000000000000000000000000000000000000”,“eip155Block”:0,“eip158Block”:0,“byzantiumBlock”:0,“consta
区块链私有链 qis_qis 区块链区块链以太坊数字货币
{"config":{"chainld":666,"homesteadBlock":0,"eip150Block":0,"eip150Hash":"0x0000000000000000000000000000000000000000000000000000000000000000","eip155Block":0,"eip158Block":0,"byzantiumBlock":0,"consta
注册中心 Nacos 异常实例需要30s才能剔除 Nacos心跳时间设置（踩坑） 2401_84046645 程序员 java 开发语言
instance.setPort(9999);Mapmetadata=newHashMap();//设置心跳的周期，单位为秒，这里将心跳间隔设置为3秒：metadata.put(PreservedMetadataKeys.HEART_BEAT_INTERVAL,“3000”);//设置心跳超时时间，单位为秒，这里将心跳超时时间设为6秒，//即服务端6秒收不到客户端心跳，会将该客户端注册的实例设为不
微服务治理：Nacos, Zookeeper, consul, etcd, Eureka等 5 个常用微服务注册工具对比 surfirst 架构微服务 zookeeper consul
当然！下面是Nacos、Zookeeper、Consul、etcd和Eureka这五个常用的注册中心的详细对比：Nacos：Nacos是由HashiCorp开发的高度可扩展和可靠的服务发现、配置管理和服务网格解决方案。它的架构基于一组服务器代理形成的共识组和与服务器交互的许多客户端代理。主要特点包括：服务发现：服务在Nacos中注册，客户端可以通过DNS或HTTPAPI发现服务及其位置。健康检查：
AtCoder Beginner Contest 363 菜比乌斯反演 AtCoder 算法 c++开发语言
A-PilingUp题意不同的分数段有不同的^数量，Takahashi想要使得他的^数量增加，问他所需要的最少分数增幅。思路我们只需要找到下一阶段的下限。a/100是本阶段+1变成下一阶段，再*100变成下限，再与原来的相减即可。代码inlinevoidsolve(){inta;cin>>a;cout>n>>t>>p;vectora(n+1);for(inti=1;i>a[i];nth_eleme
Redis的持久化和高可用性小辛学西嘎嘎 redis 数据库缓存
目录一、淘汰策略1、背景2、淘汰策略二、持久化1、背景2、fork进程写时复制机制3、Redis持久化方式1、aof2、rdb三、高可用1、主从复制2、Redis哨兵模式3、Rediscluster集群一、淘汰策略1、背景首先Redis是一个内存数据库，将所有数据存放在内存中，通过对K值进行hash后存储在散列表中。有一个小问题Redis数据库占96G，但为什么最终占满只有48G呢。因为中间有个过
哈希表 and 算法 (笑)z 算法散列表哈希算法
哈希表：哈希表（Hashtable），也被称为散列表，是一种根据关键码值（Keyvalue）而直接进行访问的数据结构。它通过把关键码值映射到表中一个位置来访问记录，以加快查找的速度。这个映射函数被称为散列函数或哈希函数，而存放记录的数组则被称为散列表或哈希表。哈希表的优点查找速度快：哈希表通过哈希函数直接定位到数组中的位置，因此查找速度非常快，时间复杂度接近O(1)。插入和删除操作方便：由于哈希表
Java面试必问之Hashmap底层实现原理(JDK1.7) 当我遇上你csy Java基础 java hashmap 面试源码
1.前言Hashmap可以说是Java面试必问的，一般的面试题会问:Hashmap有哪些特性？Hashmap底层实现原理(get\put\resize)Hashmap怎么解决hash冲突？Hashmap是线程安全的吗？…今天就从源码角度一探究竟。笔者的源码是OpenJDK1.72.构造方法首先看构造方法的源码//默认初始容量staticfinalintDEFAULT_INITIAL_CAPACIT
HashMap 原理解释及其常见面试题 Justdoforever java
HashMap原理解释及其常见面试题在多线程下在javaHashMap的1948或2239行都会出现死循环情况，1948行treeify函数中将链表转为树的时候，2239在balanceInsertion函数中，让树变为平衡时，总之多线程下HashMap在链表转树或涉及树的操作时会出现死循环。测试代码：importjava.util.*;publicclassMainTest{Mapmap=new
Java后端面试高频问题：HashMap的底层原理 2401_84408267 程序员 java 面试开发语言
④如果该位置不为null,则判断key是否一样(hashCode和equals)，如果一样则直接覆盖value⑤如果key不一样，则判断该元素是否为红黑树的节点，如果是，则直接在红黑树中插入键值对⑥如果不是红黑树的节点，则就是链表，遍历这个链表执行插入操作，如果遍历过程中若发现key已存在，直接覆盖value即可。如果链表的长度大于等于8且数组中元素数量大于等于阈值64，则将链表转化为红黑树，（先
你必须掌握的 21 个 Java 核心技术！ 2401_83916204 程序员 java 开发语言
Object类型：equals，hashcodeString类型的特点4.对象和实例，对象的创建在这方面，开发者需要了解class和instance的概念以及之间的差别，这是java面向对象特性的一个基础。主要知识点有：Class和Instance的概念Instance创建的过程：1、无继承：分配内存空间，初始化变量，调用构造函数2、有继承：处理静态动作，分配内存空间，变量定义为初始值，从基类->
SingleFlight模式你这个代码我看不懂 Spring python 开发语言
SingleFlight在Java中实现SingleFlight模式，可以通过使用ConcurrentHashMap和CompletableFuture来管理并发请求。以下是一个示例代码，展示了如何在Java中实现SingleFlight模式：示例代码importjava.util.concurrent.CompletableFuture;importjava.util.concurrent.Co
喜大普奔：HashiCorp Vagrant 2.2.0发布！ HashiCorpChina
OCT172018BRIANCAINWearepleasedtoannouncethereleaseofVagrant2.2.0.Vagrantisatoolforbuildinganddistributingdevelopmentenvironments.ThehighlightofthisreleaseistheintroductionofVagrantCloudcommandlinetool
Python 对文件的加密和解密 Jinx Boy python 哈希算法开发语言
cryptography库中的Fernet模块提供了一种简单的方法来加密和解密数据。它使用对称加密算法，其中相同的密钥用于加密和解密数据。以下是用Fernet模块对文件进行的加密和解密。加密：importhashlibimportbase64fromcryptography.fernetimportFernetimportosdefstring_to_fernet_key(input_string
flask-sqlalchemy的模型类两个表，既有一对一又有一对多的情况时，解决方法 skyTree,, Flask python
这种情况时，直接进行数据迁移会回报错，因为一个表需要依赖另一个表，所以可以将两个表的基本字段先迁移好，然后再新增外键字段进行迁移，就不会报错了fromdatetimeimportdatetimefromapi.models.baseimportBaseModelfromapiimportdbfromwerkzeug.securityimportcheck_password_hash,generat
Redis基础知识学习笔记(三) 晚睡早起₍˄·͈༝·͈˄*₎◞ ̑̑ redis redis 学习笔记
文章目录Redis命令一.Redis命令1.启动redis服务器2.本地启动redis客户端3.远程启动redis客户端4.测试是否建立连接二.Redis键(key)RedisKey相关命令三.Redis字符串(String)Redis字符串命令四.Redis哈希(Hash)Redis字符串命令五.Redis列表(List)Redis列表命令六.Redis集合(Set)Redis集合基本命令七.R
高阶数据结构之哈希表基础讲解与模拟实现渡我白衣 c++知识点数据结构 c++
程序猿的读书历程：x语言入门—>x语言应用实践—>x语言高阶编程—>x语言的科学与艺术—>编程之美—>编程之道—>编程之禅—>颈椎病康复指南。前言：哈希表（HashTable）是一种高效的键值对存储数据结构，广泛应用于各种需要快速查找的场景，如数据库索引、缓存系统、集合等。它的基本思想是通过哈希函数将键映射到哈希表中的一个位置，从而实现快速的数据插入、删除和查找操作。下面我们将详细介绍哈希表的工作
使用爬虫写一个简易的翻译器+图像界面+python w²大大 python学习 python tkinter json
翻译器+图像界面+python1.效果图如下：2.代码实现1.效果图如下：2.代码实现importtkinterimportrandomimportrequestsimportrequestimporturllibfromurllibimportrequest,parseimporttime,json,random,hashlibwin=tkinter.Tk()defpachong():try:u
Springboot2 thymeleaf 静态资源加版本号控制缓存更新 VIAE
最近写了一个前后端不分离的项目了，用的Springboot2thymeleaf用的js原生，没有用到webpack，所以不能在每次js变更以后打包自动给静态文件加上hash后缀关于静态资源缓存不更新的问题，用了以下几种解决方案方法一在静态资源引用的时候加上版本号，最开始我就是这么做的，因为当时确实没几个文件index.htmlbug:文件多了以后，这种方法就不太适合了方法二动态添加静态资源，加时间
本地内存和分布式缓存（面试） rylzdz 缓存 redis
本地缓存和分布式缓存本地缓存：缓存组件和应用在同一进程中。但各应用都需要维护单独的缓存，无法共享缓存。分布式缓存：缓存组件和应用分离，不在同一进程，多个应用可直接共享缓存。本地缓存的实现缓存一般是一种key-value的键值对数据结构与此同时，本地缓存由于需要被并发读写，需要保证线程安全。由于HashMap不是线程安全的，而ConcurrentHashMap是线程安全的，一般使用Concurren
【Hot100】LeetCode—763. 划分字母区间山脚ice #Hot100 leetcode 哈希算法
目录1-思路哈希表+双指针2-实现⭐763.划分字母区间——题解思路3-ACM实现原题链接：763.划分字母区间1-思路哈希表+双指针①找到元素最远的出现位置：哈希表②根据最远出现位置，判断区间的分界线：双指针实现1-定义一个哈希数组，判断最远出现的位置：int[]hash=newint[27]遍历字符串，记录最远出现位置2-分割点利用数组，收集结果intleft=0;intright=0;记录左
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS

Simhash算法原理和网页查重应用

Simhash算法原理和网页查重应用

你可能感兴趣的:(hash)