SimHash去重

今天，学习了网页去重的一些方法，算法当中SimHash算法，我尤为关注。下面我将详细介绍一下这个算法

首先，介绍一下SimHash:如果两个相似文档的语义指纹只相差几个位或更少，这样的语义指纹叫做SimHash

计算海明距离的两种方法：

1，按位与

2，两个长整形异或后，然后计算结果中1的个数

取得每个特征的64位hash值

public static int hamming(long l1, long l2) {
long lxor = l1 ^ l2;
return BitUtil.pop(lxor);
}

SimHash计算过程：

初始化长度为64位的向量，该向量的每个维度都是0

循环处理：取每个特征的64位hash值，如果这个hash值得第i位是1，则将向量的第i个数加上特征权重，反之，如果为0，则减去相应的权重

完成所有特征的处理，向量中某些数为正，某些数为负，正数对应的位为1，负数为0，得到最终64位的SimHash

在写入文件过程中，可以把SimHash值使用差分编码进行压缩后保存，下面是一个简单实现代码

View Code

 1 package com.test;
 2 
 3 import java.io.BufferedInputStream;
 4 import java.io.BufferedOutputStream;
 5 import java.io.DataInputStream;
 6 import java.io.FileInputStream;
 7 import java.io.FileNotFoundException;
 8 import java.io.FileOutputStream;
 9 import java.io.IOException;
10 
11 public class DetaCompress {
12 
13     public static byte[] longToBytes(long n) {
14         byte[] buf = new byte[8];// 新建一个byte数组
15         for (int i = buf.length - 1; i >= 0; i--) {
16             buf[i] = (byte) (n & 0x00000000000000ff);// 取低8位的值
17             n >>>= 8;// 右移8位
18         }
19         return buf;
20     }
21 
22     // 把一个long型的数据进行压缩
23     public static void writeVLong(long i, BufferedOutputStream dos)
24             throws IOException {
25         while ((i & ~0x7F) != 0) {
26             dos.write((byte) ((i & 0x7f) | 0x80)); // 写入低位字节
27             i >>>= 7; // 右移7位
28         }
29 
30         dos.write((byte) i);
31         // System.out.println((byte)i+"    写入低位字节");
32 
33     }
34 
35     // 把一个压缩后的long型的数据读取出来
36     static long readVLong(DataInputStream dis) throws IOException {
37         byte b = dis.readByte(); // 读入一个字节
38         int i = b & 0x7F; // 取低7位的值
39         // 每个高位的字节多乘个2的7次方，也就是128
40         for (int shift = 7; (b & 0x80) != 0; shift += 7) {
41             if (dis.available() != 0) {
42                 b = dis.readByte();
43                 i |= (b & 0x7F) << shift; // 当前字节表示的位乘2的shift次方
44             }
45         }
46         return i;// 返回最终结果i
47     }
48 
49     // 把long型数组simHashSet写入fileName指定的文件中去
50     static int write(long[] simHashSet, String fileName) {
51         int j = 0;
52         try {
53             BufferedOutputStream dos = new BufferedOutputStream(
54                     new FileOutputStream(fileName));
55             byte[] b = longToBytes(simHashSet[0]);// 数组的第一个数字一个转换成二进制
56             dos.write(b);// 把它写到文件中
57             for (int i = 1; i < simHashSet.length; i++) {
58                 long lo = simHashSet[i] - simHashSet[i - 1];// 用一个变量记录数组中后一个数减前一个数的差
59                 writeVLong(lo, dos);// 把这个差值写入文件
60             }
61             dos.close();
62             j = simHashSet.length;
63         } catch (FileNotFoundException e) {
64             e.printStackTrace();
65         } catch (IOException e) {
66             e.printStackTrace();
67         }
68         return j;
69     }
70 
71     // 从fileName指定的文件中把long型数组写出来
72     static long[] read(int len, String fileName) {
73         try {
74             DataInputStream dis = new DataInputStream(new BufferedInputStream(
75                     new FileInputStream(fileName)));
76             long[] simHashSet = new long[len];
77             simHashSet[0] = dis.readLong();// 从文件读取第一个long型数字放入数组
78             for (int i = 1; i < len; i++) {
79                 simHashSet[i] = readVLong(dis);// 读取文件剩下的元素
80                 simHashSet[i] = simHashSet[i] + simHashSet[i - 1];  // 将元素都变成数组后一个数和前一个数字的和
81             }
82             dis.close();
83             
84             return simHashSet;
85         } catch (FileNotFoundException e) {
86             e.printStackTrace();
87         } catch (IOException e) {
88             e.printStackTrace();
89         }
90         return null;
91     }
92 }

排重的总体思想是：

先把要检索的f 位指纹集合缩小，将集合f位划分几块，

精确匹配高d位，集合容量缩小变为f'=|s|/2^d'

然后在小集合中检索f-d'位的海明距离

下面是实现的例子：

View Code

 1 package com.lietu.simhash;  2 
 3 import java.io.BufferedReader;  4 import java.io.BufferedWriter;  5 import java.io.File;  6 import java.io.FileInputStream;  7 import java.io.FileNotFoundException;  8 import java.io.FileOutputStream;  9 import java.io.FileWriter;  10 import java.io.IOException;  11 import java.io.InputStream;  12 import java.io.InputStreamReader;  13 import java.io.OutputStream;  14 import java.io.OutputStreamWriter;  15 import java.io.UnsupportedEncodingException;  16 import java.util.ArrayList;  17 import java.util.Collections;  18 import java.util.Comparator;  19 import java.util.HashMap;  20 import java.util.HashSet;  21 import java.util.Iterator;  22 import java.util.StringTokenizer;  23 import java.util.Map.Entry;  24 
 25 /**
 26  * 64位分四块，最多找出有3位差别的simhash  27  *  28  * @author lg  29  *  30  */
 31 // TODO: 保存排序后的中间状态
 32 public class SimHashSet4 implements Iterable<SimHashData> {  33     ArrayList<SimHashData> t1 = new ArrayList<SimHashData>();  34     ArrayList<SimHashData> t2 = new ArrayList<SimHashData>();  35     ArrayList<SimHashData> t3 = new ArrayList<SimHashData>();  36     ArrayList<SimHashData> t4 = new ArrayList<SimHashData>();  37 
 38     public ArrayList<SimHashData> getT1(){  39         return t1;  40  }  41     static Comparator<SimHashData> comp = new Comparator<SimHashData>() {  42         public int compare(SimHashData o1, SimHashData o2) {  43             if (o1.q == o2.q)  44                 return 0;  45             return (isLessThanUnsigned(o1.q, o2.q)) ? 1 : -1;  46  }  47     }; // 比较无符号64位
 48     static Comparator<Long> compHigh = new Comparator<Long>() {  49         public int compare(Long o1, Long o2) {  50             o1 |= 0xFFFFFFFFFFFFL;  51             o2 |= 0xFFFFFFFFFFFFL;  52             // System.out.println(Long.toBinaryString(o1));  53             // System.out.println(Long.toBinaryString(o2));  54             // System.out.println((o1 == o2));
 55             if (o1.equals(o2))  56                 return 0;  57             return (isLessThanUnsigned(o1, o2)) ? 1 : -1;  58  }  59     }; // 比较无符号64位中的高16位
 60 
 61     public void load(String fileName) {  62         String line = null;  63 
 64         try {  65             InputStream is = new FileInputStream(new File(fileName));  66 
 67             BufferedReader br = new BufferedReader(new InputStreamReader(is));  68 
 69             while ((line = br.readLine()) != null) {  70  addSimHash(line.trim());  71  }  72  br.close();  73 
 74         } catch (FileNotFoundException e) {  75  e.printStackTrace();  76         } catch (UnsupportedEncodingException e) {  77  e.printStackTrace();  78         } catch (IOException e) {  79  e.printStackTrace();  80  }  81  }  82 
 83     public static boolean isLessThanUnsigned(long n1, long n2) {  84         return (n1 < n2) ^ ((n1 < 0) != (n2 < 0));  85  }  86 
 87     public void sort() {  88  t2.clear();  89  t3.clear();  90  t4.clear();  91         for (SimHashData simHash : t1)  92  {  93             long t = Long.rotateLeft(simHash.q, 16);  94             t2.add(new SimHashData(t, simHash.no));  95 
 96             t = Long.rotateLeft(t, 16);  97             t3.add(new SimHashData(t, simHash.no));  98 
 99             t = Long.rotateLeft(t, 16); 100             t4.add(new SimHashData(t, simHash.no)); 101  } 102 
103  Collections.sort(t1, comp); 104  Collections.sort(t2, comp); 105  Collections.sort(t3, comp); 106  Collections.sort(t4, comp); 107  } 108 
109     public boolean contains(SimHashData key) { 110         int low = 0; 111         int high = t1.size() - 1; 112 
113         while (low <= high) { 114             int mid = (low + high) >>> 1; 115             SimHashData midVal = t1.get(mid); 116             int cmp = comp.compare(midVal, key); 117 
118             if (cmp < 0) 119                 low = mid + 1; 120             else if (cmp > 0) 121                 high = mid - 1; 122             else
123                 return true; // key found
124  } 125         return false; // key not found
126  } 127 
128     /**
129  * probe exact match 130  * 131  * @param t 132  * @return
133      */
134     public Span probe(ArrayList<SimHashData> t, long key) { 135         // System.out.println("t:"+t.size());
136         int low = 0; 137         int high = t.size() - 1; 138 
139         while (low <= high) { 140             int mid = (low + high) >>> 1; 141             Long midVal = t.get(mid).q; 142             int cmp = compHigh.compare(midVal, key); 143 
144             if (cmp < 0) 145                 low = mid + 1; 146             else if (cmp > 0) 147                 high = mid - 1; 148             else { 149                 // key found
150                 int matchStart = mid; 151                 int matchEnd = mid; 152                 while (matchStart > 0) { 153                     midVal = t.get(matchStart - 1).q; 154                     if (compHigh.compare(midVal, key) == 0) { 155                         --matchStart; 156                     } else { 157                         break; 158  } 159  } 160 
161                 while (matchEnd < (t.size() - 1)) { 162                     midVal = t.get(matchEnd + 1).q; 163                     if (compHigh.compare(midVal, key) == 0) { 164                         ++matchEnd; 165                     } else { 166                         break; 167  } 168  } 169                 return new Span(matchStart, matchEnd); 170  } 171  } 172         return null; // key not found
173  } 174 
175     /**
176  * get most 3 bit difference. 177  * 178  * @param fingerPrint 179  * @param k 180  * @return
181      */
182     public HashSet<SimHashData> getSimSet(long fingerPrint, int k) { 183 
184         HashSet<SimHashData> retAll = new HashSet<SimHashData>(); 185         Span s1 = probe(t1, fingerPrint); 186         if (s1 != null) { 187             // System.out.println("s1:"+s1);
188             ArrayList<SimHashData> ret1 = getSim(t1, s1, fingerPrint, k); 189  retAll.addAll(ret1); 190  } 191         long q2 = Long.rotateLeft(fingerPrint, 16); 192         Span s2 = probe(t2, q2); 193         if (s2 != null) { 194             // System.out.println("s2:"+s2);
195             ArrayList<SimHashData> ret2 = getSim(t2, s2, q2, k); 196             // rotateRight(ret2, 16);
197  retAll.addAll(ret2); 198  } 199 
200         long q3 = Long.rotateLeft(q2, 16); 201         Span s3 = probe(t3, q3); 202         if (s3 != null) { 203             // System.out.println("s3:"+s3);
204             ArrayList<SimHashData> ret3 = getSim(t3, s3, q3, k); 205             // rotateRight(ret3, 32);
206  retAll.addAll(ret3); 207  } 208 
209         long q4 = Long.rotateLeft(q3, 16); 210         Span s4 = probe(t4, q4); 211         if (s4 != null) { 212         // System.out.println("s4:" + s4);
213             ArrayList<SimHashData> ret4 = getSim(t4, s4, q4, k); 214             // rotateRight(ret4, 48);
215  retAll.addAll(ret4); 216  } 217         // System.out.println("o:"+Long.toBinaryString(fingerPrint));
218         return retAll; 219  } 220 
221     /**
222  * 从Span找出部分相等的，取出最多差k位的 223  * 224  * @param t 225  * @param s 226  * @param fingerPrint 227  * @param k 228  * @return
229      */
230     public ArrayList<SimHashData> getSim(ArrayList<SimHashData> t, Span s, 231             long fingerPrint, int k) { 232         ArrayList<SimHashData> result = new ArrayList<SimHashData>(); 233 
234         for (int i = s.getStart(); i <= s.getEnd(); ++i) { 235             SimHashData data = t.get(i); 236             long q = data.q; 237             if (BitUtil.diffIn(fingerPrint, q, k)) { 238  result.add(data); 239  } 240  } 241 
242         return result; 243  } 244 
245     public void addSimHash(String line) { 246         StringTokenizer st = new StringTokenizer(line, ":"); 247         String key = st.nextToken(); 248         long t = BitUtil.decodeLong(key); 249         long no = Long.parseLong(st.nextToken()); 250         // Long.parseLong(key,2); 251         // System.out.println(t);
252         t1.add(new SimHashData(t, no)); 253  } 254     
255     public void addSimHash(SimHashData key) { 256  t1.add(key); 257  } 258 
259     public void addInc(String key) { 260         long t = BitUtil.decodeLong(key); 261         // Long.parseLong(key,2); 262         // System.out.println(t);
263         SimHashData element = new SimHashData(t); 264         int insertionPoint = findInsertionPoint(t1, element); 265  t1.add(insertionPoint, element); 266 
267         long q2 = Long.rotateLeft(t, 16); 268         element = new SimHashData(q2); 269         insertionPoint = findInsertionPoint(t2, element); 270  t2.add(insertionPoint, element); 271 
272         long q3 = Long.rotateLeft(q2, 16); 273         element = new SimHashData(q3); 274         insertionPoint = findInsertionPoint(t3, element); 275  t3.add(insertionPoint, element); 276 
277         long q4 = Long.rotateLeft(q3, 16); 278         element = new SimHashData(q4); 279         insertionPoint = findInsertionPoint(t4, element); 280  t4.add(insertionPoint, element); 281  } 282 
283     /**
284  * Find the insertion point for the argument in a sorted list. 285  * 286  * @param element 287  * find this object's insertion point in the sorted list 288  * @return the index of the insertion point 289      */
290     int findInsertionPoint(ArrayList<SimHashData> list, SimHashData element) { 291         // Find the new element's insertion point.
292         int insertionPoint = Collections.binarySearch(list, element, comp); 293         if (insertionPoint < 0) { 294             insertionPoint = -(insertionPoint + 1); 295  } 296         return insertionPoint; 297  } 298 
299     public Iterator<SimHashData> iterator() { 300         return t1.iterator(); 301  } 302 
303     public void save(String fileName) { 304  BufferedWriter writer; 305         try { 306             writer = new BufferedWriter(new FileWriter(fileName)); 307             for (SimHashData simhash : t1) { 308                 //String str=BitUtil.encodeLong(simhash.q).substring(8);
309                 String str=BitUtil.encodeLong(simhash.q); 310  writer.write(str); 311 // writer.write(simhash.q+"");
312                 writer.write(":"); 313  writer.write(String.valueOf(simhash.no)); 314                 writer.write("\r\n"); 315  } 316  writer.flush(); 317  writer.close(); 318         } catch (Exception e) { 319  e.printStackTrace(); 320  } 321  } 322 
323     public void save(String fileName, String[] newStr) { 324  BufferedWriter writer; 325         try { 326             OutputStream out = new FileOutputStream(fileName, true); 327             OutputStreamWriter outWriter = new OutputStreamWriter(out); 328             writer = new BufferedWriter(outWriter); 329             for (int i = 0; i < newStr.length; i++) { 330                 if (newStr[i] != null) { 331  writer.append(newStr[i]); 332                     writer.append("\r\n"); 333                     if (i % 10000 == 0) 334                         System.out.println(i + ":" + newStr[i]); 335                 } else { 336                     break; 337  } 338  } 339  writer.flush(); 340  writer.close(); 341             System.out.println("结束!"); 342         } catch (Exception e) { 343  e.printStackTrace(); 344  } 345  } 346 
347     // 将数据读成SimHashData对象型集合
348     public ArrayList<SimHashData> readData(String path) { 349         ArrayList<SimHashData> list = new ArrayList<SimHashData>(); 350 
351         try { 352             InputStream input = new FileInputStream(new File(path)); 353             BufferedReader br = new BufferedReader(new InputStreamReader(input)); 354             String line = ""; 355             while ((line = br.readLine()) != null) { 356                 StringTokenizer st = new StringTokenizer(line, ":"); 357                 long key = BitUtil.decodeLong(st.nextToken()); 358                 long no = Long.parseLong(st.nextToken()); 359                 list.add(new SimHashData(key, no)); 360  } 361  br.close(); 362         } catch (FileNotFoundException e) { 363  e.printStackTrace(); 364         } catch (IOException e) { 365  e.printStackTrace(); 366  } 367         return list; 368  } 369 
370 
371 
372 }

介绍一篇论文：Google Detecting NearDuplicates For Web Crawling 论文介绍了把SimHash用于爬虫抓取过程的网页去重。

最后，说一下分布式文档排重：利用分布式系统框架如hadoop等，使用MapReduce进行文档排重，提高了效率和节省了时间，这已经成为了常用的大数据量的排重方式

以上，是我对SimHash的一些总结，请大家指教！大家共勉

Java全栈开发学习路线：从基础到实战，掌握前后端与数据库，成为全栈软件工程师软件职业规划 java java
1.Java基础Java语法：变量、数据类型、运算符、控制流程（if、switch、循环等）面向对象编程（OOP）：类与对象、继承、多态、封装、抽象类、接口异常处理：try-catch-finally、自定义异常集合框架：List、Set、Map、ArrayList、LinkedList、HashMap等泛型：泛型类、泛型方法、泛型接口IO流：文件读写、字节流、字符流多线程：线程创建、同步、锁、线
HashMap 中的 key 值类型百里自来卷 java
在Java中，HashMap的key一般建议使用String而不是自定义对象，主要有以下几个原因：1.String是不可变对象（Immutable）String在Java中是不可变的，一旦创建就不会改变其哈希值(hashCode)。HashMap依赖key的hashCode()计算存储位置，如果key是可变对象，修改key后，它的hashCode()可能会改变，导致HashMap无法正确查找该ke
【算法学习day10】 m0_46150269 算法学习
力扣202.快乐数链接:link思路这道题可能会遇到无限循环的情况，如何跳出循环是关键，我们可以用哈希表快速查询是否重复出现之前遇到的结果来结束循环。另外对数字的拆解也是解这道题的关键，下面来看题解吧。解：classSolution{publicbooleanisHappy(intn){Setset1=newHashSet0){inttemp=n%10;sum+=temp*temp;n/=10;}
Java常用集合与映射的线程安全问题深度解析扣得A艾 java 安全开发语言
Java常用集合与映射的线程安全问题深度解析一、线程安全基础认知在并发编程环境下，当多个线程同时操作同一集合对象时，若未采取同步措施，可能导致以下典型问题：数据竞争：多个线程同时修改数据导致结果不可预测状态不一致：部分线程看到集合的中间状态内存可见性：线程本地缓存与主内存数据不同步死循环风险：特定操作引发无限循环（如JDK7的HashMap扩容）二、典型非线程安全集合问题分析1.ArrayList
Java常用集合与映射的线程安全问题深度解析 jiajia651304 java 安全开发语言
Java常用集合与映射的线程安全问题深度解析一、线程安全基础认知在并发编程环境下，当多个线程同时操作同一集合对象时，若未采取同步措施，可能导致以下典型问题：数据竞争：多个线程同时修改数据导致结果不可预测状态不一致：部分线程看到集合的中间状态内存可见性：线程本地缓存与主内存数据不同步死循环风险：特定操作引发无限循环（如JDK7的HashMap扩容）二、典型非线程安全集合问题分析1.ArrayList
AtCoder Beginner Contest 393(A-D) Pt.ll Atcoder Beginner Contest 算法 c++数据结构
AtCoderBeginnerContest393A-PoisonousOysterCodeB-A..B..CCodeC-MakeitSimpleCodeD-SwaptoGatherCode后记A-PoisonousOyster题目本题很简单，因为Takahashi吃了1和2，而Aoki吃了1和3，所以他们都为fine时，4号就有问题；同理，可以判断那个有问题。Code#include#defin
30、map 和 unordered_map的区别和实现机制【高频】桃酥403 桃酥的学习笔记（C++篇）哈希算法算法
底层结构map底层是红黑树结构，而unordered_map底层是哈希结构;有序性但是红黑树其实是一种二叉搜索树，插入删除时会自动排序hash因为是把数据映射到数组上的，而且存在哈希冲突，所以不能保证有序存储所以有序存储使用map（红黑树的中序遍历，就能把储存的数据从小到大把数据按序展现出来）查找为了查找，红黑树需要依次比较关键码，时间复杂度为logn，还要加上平衡节点旋转的时间虽然说哈希表的内存
C# HashTable、HashSet、Dictionary 有诗亦有远方 C#Hash
哈希一、HashTable1.什么是哈希表2.哈希表的Key&Value（1）添加数据（2）“键值对”均是object类型（3）必须有Key键，且Key键不能重复。（4）乱序读取数据3.基本操作二、HashSet1.特点2.HashSet常用扩展方法3.HashSet与Linq操作三、Dictionary四、HashTable和Dictionary的区别一、HashTable哈希表(HashTab
C# -Dictionary、HashTable、List、HashSet区别 ※※冰馨※※ c#开发语言
在.Net模仿java的过程中，抛弃了HashMap，所以我们今天分析下Dictionary、HashTable、HashSet区别。处理碰撞，即碰撞到同一个Bucket槽上：Hashtable和Dictionary从数据结构上来说都属于Hashtable（哈希表），都是对关键字（键值）进行散列操作，将关键字散列到Hashtable的某一个槽位中去，不同的是处理碰撞的方法。散列函数有可能将不同的关
Redis五种用途 egekm_sefg 面试学习路线阿里巴巴 redis 数据库缓存
简介Redis是一个高性能的key-value数据库。Redis与其他key-value缓存产品有以下三个特点：-Redis支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载进行使用。-Redis不仅仅支持简单的key-value类型的数据，同时还提供list，set，zset，hash等数据结构的存储。-Redis支持数据的备份，即master-slave模式的数据备份。五
YashanDB SWAP 表空间管理数据库
数据库操作（例如orderby，hashjoin，统计信息收集等）首先会通过数据库虚拟内存（通过VM_BUFFER_SIZE参数控制）缓存计算的中间结果，但如果虚拟内存不足时，需要通过将虚拟内存交换到SWAP表空间来释放内存，必要时再将内存从SWAP表空间换入。SWAP表空间是非持久化表空间，只用于数据库虚拟内存的换入换出，因此持久化对象（例如表、索引等）不能创建在SWAP表空间。SWAP表空间空
搞定leetcode面试经典150题之哈希算法醒了就刷牙 LeetCode刷题哈希算法 leetcode 面试算法
系列博客目录搞定leetcode面试经典150题之哈希算法搞定leetcode面试经典150题之双指针搞定leetcode面试经典150题之滑动窗口文章目录系列博客目录理论知识1.哈希函数（HashFunction）2.哈希表（HashTable）通过HashMap实现3.哈希算法的应用4.哈希算法的时间复杂度编程理论1.HashSet的工作原理2.HashMap(哈希表)的工作原理3.哈希表中的
# 本质剖析为什么要使用HashSet 撒乎乎不撒深入浅出聊点底层高效学习 java 数据结构
#本质剖析为什么要使用HashSet单列集合-HashSet特点一：去重与遍历支持数据去重，可以使用迭代器或foreach遍历数据。两种遍历方式的比较迭代器遍历通过调用实现了Iterable接口的Iteratoriterator();方法,从而获取迭代器对象，逐一访问元素。优点：支持在遍历过程中安全地删除元素，避免并发修改异常。适用场景：对集合进行删除操作时推荐使用。示例代码：Iteratorit
redis在SpringBoot中的使用小野喵喵。 redis spring boot 数据库
以下部分内容由AI生成，再添加自己的理解，仅供参考与了解记录一、redis简单介绍Redis是一个开源的高性能键值对数据库，支持多种数据结构，如字符串（String）、哈希（Hash）、列表（List）、集合（Set）和有序集合（SortedSet）等。核心原理1.单线程模型redis使用单线程处理命令（核心逻辑），避免了多线程竞争问题。通过非阻塞I/O多路复用监听多个客户端连接，高效处理请求。所
Nginx负载均衡策略有恒则成服务器架构/运维分布式高可用架构 nginx 负载均衡 ip_hash url_hash
文章目录一、Nginx五种均衡策略1.1轮询（默认）1.2指定权重1.3IP绑定ip_hash1.4fair（第三方）1.5url_hash（第三方）二、单Nginx配置多应用2.1配置tomcat单应用2.2配置tomcat多应用,hostname主机配置方式2.3/etc/hosts配置2.4配置php的httpd.conf三、DNS的负载均衡与反向代理负载均衡机制的基本原理nginx可以根据
【面试题系列】Redis 常见面试题&答案颜淡慕潇面试题系列 redis 数据库缓存
一、基础概念1.Redis有哪些数据结构？各自的应用场景是什么？答案：Redis支持以下数据结构：String：最基础类型，存储字符串、数字、二进制数据。场景：缓存用户信息、计数器、分布式锁。Hash：键值对集合，类似Java的HashMap。场景：存储对象（如用户属性）。List：双向链表，支持左右插入和弹出。场景：消息队列（LPUSH+RPOP）、微博时间线。Set：无序唯一集合，支持交集、并
Vue3开发 vue-router的使用 CV菜鸟# 前端开发 vue.js javascript 前端
1、vue-router简介官方介绍：VueRouter是Vue.js(opensnewwindow)官方的路由管理器。它和Vue.js的核心深度集成，让构建单页面应用变得易如反掌。包含的功能有：嵌套的路由/视图表模块化的、基于组件的路由配置路由参数、查询、通配符基于Vue.js过渡系统的视图过渡效果细粒度的导航控制带有自动激活的CSSclass的链接HTML5历史模式或hash模式，在IE9中自
数据结构与算法——哈希表，数组加强哈希表，双链表加强哈希表 Book_熬夜！数据结构与算法散列表哈希算法数据结构 javascript 算法
文章目录哈希表1.数组实现hash表2.双链表实现hash表哈希表key是唯一的，value可以重复哈希表和我们常说的Map（键值映射）不是同一个东西。【Map】是一个Java接口，仅声明了若干个方法，并没有给出方法的具体实现；HashMap这种数据结构根据自身特点实现了这些操作。可以说hashmap的get、put、remove等方法复杂度为O(1)，但是map接口的复杂度不一定，需要看他底层数
Java 集合框架：数据管理的强大工具进一步有进一步的欢喜 java
Java集合框架：数据管理的强大工具目录Java集合框架：数据管理的强大工具引言一、Set集合1.定义与特点2.常用实现类-HashSet创建方式常用方法遍历方式二、Map集合1.定义与特点2.常用实现类-HashMap创建方式常用方法遍历方式三、List集合1.定义与特点2.常用实现类-ArrayList创建方式常用方法遍历方式四、Set、Map和List的对比相同点不同点引言Java集合框架提
2025最全 Java 面试八股文（持续更新）关注我学java java 面试开发语言
Java面试Java面试随着时间的改变而改变。在过去的日子里，当你知道String和StringBuilder的区别就能让你直接进入第二轮面试，但是现在问题变得越来越高级，面试官问的问题也更深入。在我初入职场的时候，类似于Vector与Array的区别、HashMap与Hashtable的区别是最流行的问题，只需要记住它们，就能在面试中获得更好的机会，但这种情形已经不复存在。如今，你将会被问到许多
【八股学习】HashMap源码总结 illus10n_CHOU 八股学习 java 算法
初始化构造方法可见，HashMap有四种构造方法：其中1、3、4可以归为一类：使用默认的或者指定的初始化容量和负载因子，如果使用默认容量16，则会在第一次插入时在resize中自行计算threshold。如果自行指定参数则直接赋值（通过tableSizeFor方法扩容到与initialCapacity最接近的2的幂次方大小）threshold，然后进行扩容判断。//默认构造函数。publicHas
成功安装mayavi包（python=3.10） joyyyyy天天开心 python 开发语言
mayavi作为一个热门3d绘图工具，在很多项目里都会使用到。但是由于依赖包的版本问题以及Python的版本问题，经常安装不成功。我自己也是安装了好多次mayavi，每次都有问题，要么是安装中报错，要么安装没问题，运行程序就报错：TypeError:unhashabletype:'PolyData'。importnumpyasnpfrommayaviimportmlab#生成随机数据X,Y,Z,v
32- 两数之和 II - 输入有序数组谢道韫689 每日一刷算法数据结构
给你一个下标从1开始的整数数组numbers，该数组已按非递减顺序排列，请你从数组中找出满足相加之和等于目标数target的两个数。如果设这两个数分别是numbers[index1]和numbers[index2]，则1();for(leti=0;i
vue-route shadouqi vue2 vue.js 前端 javascript
官方文档声明式导航比起写死的会好一些，理由如下：无论是HTML5history模式还是hash模式，它的表现行为一致，所以，当你要切换路由模式，或者在IE9降级使用hash模式，无须作任何变动。在HTML5history模式下，router-link会守卫点击事件，让浏览器不再重新加载页面。当你在HTML5history模式下使用base选项之后，所有的to属性都不需要写(基路径)了。编程式导航r
Java面试 kevindanglu 面试 java 面试
目录web开发基础说一下你熟悉的设计原则和设计模式说说你对红黑树的理解Java基础抽象类和接口的区别hashcode()值相同，equals就一定为true为什么重写equals()，就要重写hashcode()?shorts=1；s=s+1；(程序1)和shorts=1；s+=1；(程序2)是否都能正常运行说出下面程序的运行结果，及原因Error和Exception有什么区别NoClassDef
Solidity基础 -- 哈希算法第十六年盛夏. 智能合约区块链应用搭建区块链智能合约
一、引言在当今数字化时代，数据的安全性、完整性和高效处理变得至关重要。哈希算法作为一种强大的数学工具，在计算机科学、密码学、区块链等众多领域发挥着关键作用。它为数据的存储、传输和验证提供了一种可靠的方式，极大地推动了信息技术的发展。二、哈希算法基础介绍（一）定义哈希算法（HashAlgorithm），也称为散列算法，是一种将任意长度的输入数据（也称为消息）通过特定的数学函数转换为固定长度输出的过程
为什么重写equals时必须重写hashCode？从不吃红薯 Java 开发语言 java 后端
一，基础概念：理解对象相等的两种维度在Java面向对象编程中，对象的相等性比较有两个关键的方案：1.1equals方法：内容相等的裁判官publicbooleanequals(Objectobj){return(this==obj)}默认实现：比较对象内存地址（==运算符）重写目的：实现基于对象内容（业务逻辑）的相等性判断1.2hashCode方法：散列世界的身份证publicnativeinth
并发编程源码解析（八）Semphore源码解析黄小墨(￣∇￣) 并发编程源码解析 java 开发语言
一、前瞻并发编程源码解析（一）ReentrantLock源码解析（超详细）-CSDN博客并发编程源码解析（二）ReentrantReadWriteLock源码解析之一写锁-CSDN博客并发编程源码解析（三）ReentrantReadWriteLock源码解析之一写锁-CSDN博客并发编程源码解析（四）ConcurrentHashMap源码解析之一基础概念介绍以及散列算法讲解-CSDN博客并发编程源
java中过滤器实现拦截非法访问 Java--成长之路 filter 过滤器 spring
packagecom.hs.filter;importjava.io.IOException;importjava.io.PrintWriter;importjava.util.HashMap;importjava.util.List;importjava.util.Map;importjavax.servlet.Filter;importjavax.servlet.FilterChain;imp
第二章密码学基础与应用备考要点及真题分布鹿鸣天涯信息安全工程师
第二章密码学基础与应用1.密码学基本概念2.分组密码3.序列密码4.Hash函数5.公钥密码体制6.数字签名7.认证8.密钥管理
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不

SimHash去重

你可能感兴趣的:(hash)