五山小新新

simhash Java和Python版本的实现

绍下这个算法主要原理，为了便于理解尽量不使用数学公式，分为这几步：

1、分词，把需要判断文本分词形成这个文章的特征单词。最后形成去掉噪音词的单词序列并为每个词加上权重，我们假设权重分为5个级别（1~5）。比如：“ 美国“51区”雇员称内部有9架飞碟，曾看见灰色外星人 ” ==> 分词后为 “ 美国（4） 51区（5）雇员（3）称（1）内部（2）有（1） 9架（3）飞碟（5）曾（1）看见（3）灰色（4）外星人（5）”，括号里是代表单词在整个句子里重要程度，数字越大越重要。
2、hash，通过hash算法把每个词变成hash值，比如“美国”通过hash算法计算为 100101,“51区”通过hash算法计算为 101011。这样我们的字符串就变成了一串串数字，还记得文章开头说过的吗，要把文章变为数字计算才能提高相似度计算性能，现在是降维过程进行时。
3、加权，通过 2步骤的hash生成结果，需要按照单词的权重形成加权数字串，比如“美国”的hash值为“100101”，通过加权计算为“4 -4 -4 4 -4 4”；“51区”的hash值为“101011”，通过加权计算为 “ 5 -5 5 -5 5 5”。
4、合并，把上面各个单词算出来的序列值累加，变成只有一个序列串。比如 “美国”的 “4 -4 -4 4 -4 4”，“51区”的 “ 5 -5 5 -5 5 5”，把每一位进行累加， “4+5 -4+-5 -4+5 4+-5 -4+5 4+5” ==》 “9 -9 1 -1 1 9”。这里作为示例只算了两个单词的，真实计算需要把所有单词的序列串累加。
5、降维，把4步算出来的 “9 -9 1 -1 1 9” 变成 0 1 串，形成我们最终的simhash签名。如果每一位大于0 记为 1，小于0 记为 0。最后算出结果为：“1 0 1 0 1 1”。

整个过程图为：

大家可能会有疑问，经过这么多步骤搞这么麻烦，不就是为了得到个 0 1 字符串吗？我直接把这个文本作为字符串输入，用hash函数生成 0 1 值更简单。其实不是这样的，传统hash函数解决的是生成唯一值，比如 md5、hashmap等。md5是用于生成唯一签名串，只要稍微多加一个字符md5的两个数字看起来相差甚远；hashmap也是用于键值对查找，便于快速插入和查找的数据结构。不过我们主要解决的是文本相似度计算，要比较的是两个文章是否相识，当然我们降维生成了hashcode也是用于这个目的。看到这里估计大家就明白了，我们使用的simhash就算把文章中的字符串变成 01 串也还是可以用于计算相似度的，而传统的hashcode却不行。我们可以来做个测试，两个相差只有一个字符的文本串，“你妈妈喊你回家吃饭哦，回家罗回家罗” 和 “你妈妈叫你回家吃饭啦，回家罗回家罗”。

通过simhash计算结果为：

1000010010101101111111100000101011010001001111100001001011001011

1000010010101101011111100000101011010001001111100001101010001011

通过 hashcode计算为：

1111111111111111111111111111111110001000001100110100111011011110

1010010001111111110010110011101

大家可以看得出来，相似的文本只有部分 01 串变化了，而普通的hashcode却不能做到，这个就是局部敏感哈希的魅力。目前Broder提出的shingling算法和Charikar的simhash算法应该算是业界公认比较好的算法。在simhash的发明人Charikar的论文中并没有给出具体的simhash算法和证明，“量子图灵”得出的证明simhash是由随机超平面hash算法演变而来的。

simhash是google用来处理海量文本去重的算法。 google出品，你懂的。 simhash最牛逼的一点就是将一个文档，最后转换成一个64位的字节，暂且称之为特征字，然后判断重复只需要判断他们的特征字的距离是不是

原理

simhash值的生成图解如下：

大概花三分钟看懂这个图就差不多怎么实现这个simhash算法了。特别简单。谷歌出品嘛，简单实用。

算法过程大概如下：

将Doc进行关键词抽取(其中包括分词和计算权重)，抽取出n个(关键词，权重)对，即图中的(feature, weight)们。记为 feature_weight_pairs = [fw1, fw2 ... fwn]，其中 fwn = (feature_n, weight_n)。
hash_weight_pairs = [ (hash(feature), weight) for feature, weight in feature_weight_pairs ] 生成图中的(hash,weight)们, 此时假设hash生成的位数bits_count = 6（如图）;
然后对 hash_weight_pairs 进行位的纵向累加，如果该位是1，则+weight,如果是0，则-weight，最后生成bits_count个数字，如图所示是[13, 108, -22, -5, -32, 55], 这里产生的值和hash函数所用的算法相关。
[13,108,-22,-5,-32,55] -> 110001这个就很简单啦，正1负0。

到此，如何从一个doc到一个simhash值的过程已经讲明白了。但是还有一个重要的部分没讲，

simhash值的海明距离计算

二进制串A 和二进制串B 的海明距离就是 A xor B 后二进制中1的个数。

举例如下：

A = 100111;
B = 101010;
hamming_distance(A, B) = count_1(A xor B) = count_1(001101) = 3;

当我们算出所有doc的simhash值之后，需要计算doc A和doc B之间是否相似的条件是：

A和B的海明距离是否小于等于n，这个n值根据经验一般取值为3,

simhash本质上是局部敏感性的hash，和md5之类的不一样。正因为它的局部敏感性，所以我们可以使用海明距离来衡量simhash值的相似度。

高效计算二进制序列中1的个数

/* src/Simhasher.hpp */
bool isEqual(uint64_t lhs, uint64_t rhs, unsigned short n = 3)
{
    unsigned short cnt = 0;
    lhs ^= rhs;
    while(lhs && cnt <= n)
    {
        lhs &= lhs - 1;
        cnt++;
    }
    if(cnt <= n)
    {
        return true;
    }
    return false;
}

由上式这个函数来计算的话，时间复杂度是 O(n); 这里的n默认取值为3。由此可见还是蛮高效的。

对比其他算法

百度的去重算法

百度的去重算法最简单，就是直接找出此文章的最长的n句话，做一遍hash签名。n一般取3。工程实现巨简单，据说准确率和召回率都能到达80%以上。

shingle算法

shingle原理略复杂，不细说。 shingle算法我认为过于学院派，对于工程实现不够友好，速度太慢，基本上无法处理海量数据。

参考

Similarity estimation techniques from rounding algorithms
simhash与Google的网页去重
海量数据相似度计算之simhash和海明距离

Python的代码实现如下：

      Python Code  
   

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74

#!/usr/bin/python
# coding=utf-8
class simhash:

     #构造函数
     def __init__(self, tokens= '', hashbits= 128):
        self.hashbits = hashbits
        self. hash = self.simhash(tokens);

     #toString函数
     def __str__(self):
         return str(self. hash)

     #生成simhash值
     def simhash(self, tokens):
        v = [ 0] * self.hashbits
         for t in [self._string_hash(x) for x in tokens]: #t为token的普通hash值
             for i in range(self.hashbits):
                bitmask = 1 << i
                 if t & bitmask :
                    v[i] += 1 #查看当前bit位是否为1,是的话将该位+1
                 else:
                    v[i] -= 1 #否则的话,该位-1
        fingerprint = 0
         for i in range(self.hashbits):
             if v[i] >= 0:
                fingerprint += 1 << i
         return fingerprint #整个文档的fingerprint为最终各个位>=0的和

     #求海明距离
     def hamming_distance(self, other):
        x = (self. hash ^ other. hash) & (( 1 << self.hashbits) - 1)
        tot = 0;
         while x :
            tot += 1
            x &= x - 1
         return tot

     #求相似度
     def similarity (self, other):
        a = float(self. hash)
        b = float(other. hash)
         if a > b : return b / a
         else: return a / b

     #针对source生成hash值   (一个可变长度版本的Python的内置散列)
     def _string_hash(self, source):
         if source == "":
             return 0
         else:
            x = ord(source[ 0]) << 7
            m = 1000003
            mask = 2 ** self.hashbits - 1
             for c in source:
                x = ((x * m) ^ ord(c)) & mask
            x ^= len(source)
             if x == - 1:
                x = - 2
             return x


if __name__ == '__main__':
    s = 'This is a test string for testing'
    hash1 = simhash(s. split())

    s = 'This is a test string for testing also'
    hash2 = simhash(s. split())

    s = 'nai nai ge xiong cao'
    hash3 = simhash(s. split())

     print(hash1.hamming_distance(hash2) , "   " , hash1.similarity(hash2))
     print(hash1.hamming_distance(hash3) , "   " , hash1.similarity(hash3))

Java的代码如下如下：

      Java Code  
   

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105

import java.math.BigInteger;
import java.util.StringTokenizer;
public class SimHash
{
     private String tokens;
     private BigInteger strSimHash;
     private int hashbits = 128;
     public SimHash( String tokens)
    {
         this.tokens = tokens;
         this.strSimHash = this.simHash();
    }
     public SimHash( String tokens, int hashbits)
    {
         this.tokens = tokens;
         this.hashbits = hashbits;
         this.strSimHash = this.simHash();
    }
     public BigInteger simHash()
    {
         int[] v = new int[ this.hashbits];
        StringTokenizer stringTokens = new StringTokenizer( this.tokens);
         while (stringTokens.hasMoreTokens())
        {
             String temp = stringTokens.nextToken();
            BigInteger t = this.hash(temp);
             for ( int i = 0; i < this.hashbits; i++)
            {
                BigInteger bitmask = new BigInteger( "1").shiftLeft(i);
                 if (t.and(bitmask).signum() != 0)
                {
                    v[i] += 1;
                }
                 else
                {
                    v[i] -= 1;
                }
            }
        }
        BigInteger fingerprint = new BigInteger( "0");
         for ( int i = 0; i < this.hashbits; i++)
        {
             if (v[i] >= 0)
            {
                fingerprint = fingerprint.add( new BigInteger( "1").shiftLeft(i));
            }
        }
         return fingerprint;
    }
     private BigInteger hash( String source)
    {
         if (source == null || source.length() == 0)
        {
             return new BigInteger( "0");
        }
         else
        {
             char[] sourceArray = source.toCharArray();
            BigInteger x = BigInteger.valueOf((( long) sourceArray[ 0]) << 7);
            BigInteger m = new BigInteger( "1000003");
            BigInteger mask = new BigInteger( "2").pow( this.hashbits).subtract(
                 new BigInteger( "1"));
             for ( char item : sourceArray)
            {
                BigInteger temp = BigInteger.valueOf(( long) item);
                x = x.multiply(m).xor(temp).and(mask);
            }
            x = x.xor( new BigInteger( String.valueOf(source.length())));
             if (x.equals( new BigInteger( "-1")))
            {
                x = new BigInteger( "-2");
            }
             return x;
        }
    }
     public int hammingDistance(SimHash other)
    {
        BigInteger m = new BigInteger( "1").shiftLeft( this.hashbits).subtract(
             new BigInteger( "1"));
        BigInteger x = this.strSimHash.xor(other.strSimHash).and(m);
         int tot = 0;
         while (x.signum() != 0)
        {
            tot += 1;
            x = x.and(x.subtract( new BigInteger( "1")));
        }
         return tot;
    }
     public static void main( String[] args)
    {
         String s = "This is a test string for testing";
        SimHash hash1 = new SimHash(s, 128);
        System.out.println(hash1.strSimHash + "  " + hash1.strSimHash.bitLength());
        s = "This is a test string for testing also";
        SimHash hash2 = new SimHash(s, 128);
        System.out.println(hash2.strSimHash + "  " + hash2.strSimHash.bitCount());
        s = "This is a test string for testing als";
        SimHash hash3 = new SimHash(s, 128);
        System.out.println(hash3.strSimHash + "  " + hash3.strSimHash.bitCount());
        System.out.println( "============================");
        System.out.println(hash1.hammingDistance(hash2));
        System.out.println(hash1.hammingDistance(hash3));
    }
}

python的计算能力确实很强，float可以表示任意长度的数字，而对应java、c++只能用其他办法来实现了，比如java的BigIneteger,对应的位操作也只能利用类方法。。。汗。。。
另外说明，位运算只适合整数哦。。。因为浮点的存储方案决定不能位运算，如果非要位运算，就需要Float.floatToIntBits，运算完，再通过Float.intBitsToFloat转化回去。(java默认的float,double的hashcode其实就是对应的floatToIntBits的int值)

C++的一个大数类如下：C++竟然没有标准的大数类，蛋疼。

https://github.com/CertiVox/MIRACL

C++基础匿名对象，友元和常成员(const) 没有百宝袋的哆啦A梦 c++java jvm
目录学习内容：1.匿名对象2.友元2.1友元的引入2.2友元函数2.3友元类2.4友元的总结3.常成员（const）3.1常成员的引入3.2常成员函数3.3常对象3.4mutable关键字3.5常函数3.6关于C/C++中const的使用(面试题)学习内容：1.匿名对象1>所谓匿名对象，就是没有名字的对象，生命周期只在当前语句内，所以可以理解成时一个将亡值2>定义格式：直接调用类的构造函数3>使用
MySQL 8.0 特性的高频面试题及核心知识点 dblens 数据库管理和开发工具 mysql mysql 数据库面试题
1.索引原理与MySQL8.0新特性答案：自适应哈希索引：MySQL8.0自动在频繁查询的索引上构建哈希索引，加速等值查询（如WHEREid=1）。全文索引优化：支持布尔模式（MATCH()AGAINST()）和自然语言模式，且索引更新更高效。InnoDB页压缩：支持ZSTD压缩算法，减少存储空间和I/O开销。虚拟列索引：可对虚拟列（ComputedColumns）创建索引，减少存储冗余。2.事务
深入解析：C# 中 `Task.Delay` 与 `Thread.Sleep` 的对比与实战墨夶 C#学习资料1 c#开发语言
嘿，小伙伴们！今天我们要一起深入探讨C#中的Task.Delay和Thread.Sleep。想象一下，你正在开发一个需要处理异步操作的应用程序，如何有效地管理线程和延迟执行任务呢？别急，让我们通过这篇文章来详细解析Task.Delay和Thread.Sleep的区别，并涵盖以下内容：基本概念Thread.Sleep的用法Task.Delay的用法对比分析实战示例注意事项与最佳实践常见面试题及答案正
python面试题详解 __wishing__ python
十道经典面试题（python）1.一行代码实现累加1-100之和print(sum(range(1,101)))输出结果：5050分析：利用sum函数进行累加。range控制序列。2.一行代码实现列表去重#声明需要去重的列表list1=[1,1,2,2,3,3,4,4]list1=list(set(list1))</
2025美团最新面试题—Java程序减少GC的设计程序员共鸣 java jvm 开发语言
1.对象复用与池化线程局部变量：通过ThreadLocal缓存线程私有对象，避免竞争。可变对象：优先使用可修改对象（如StringBuilder代替String拼接）。2.减少对象创建避免隐式装箱：使用基本类型（int而非Integer）。优化循环：避免在循环内创建临时对象。静态不可变对象：将常量声明为staticfinal（如配置参数）。3.数据结构优化预分配容量：初始化集合时指定合理大小（如A
Webpack常见面试题总结 xiangzhihong8 React Native 前端 webpack 前端 javascript
一、谈谈你对Webpack的理解1.1背景Webpack的目标是实现前端项目的模块化，从而更高效地管理和维护项目中的每一个资源。在早期的前端项目中，我们通过文件划分的形式来实现模块化，也就是将每个功能及其相关状态数据各自单独放到不同的JS文件中。约定每个文件是一个独立的模块，然后再将这些js文件引入到页面，一个script标签对应一个模块，然后再调用模块化的成员。比如：但这种模块化开发的弊端也十分
初级面试题：数据类型面试题大揭秘佩奇的技术笔记 Java面试小册 java 开发语言
一、引言在Java开发的面试中，数据类型相关的问题经常出现。面试官通过这些问题考察候选人对Java基础的理解程度以及在实际开发中对数据类型的运用能力。本文将深入剖析常见的数据类型面试题，帮助读者全面掌握这些知识点。二、基本数据类型与引用数据类型面试题：int和Integer的区别是什么？答案：int是基本数据类型，占用4个字节内存，直接存储数值；Integer是int对应的引用数据类型，即包装类，
2025React岗位前端面试题180道及其答案解析,看完稳了,万字长文,持续更新.... 祈澈菇凉前端
1.什么是React？它的主要特点是什么？答案解析：React是一个用于构建用户界面的JavaScript库，主要用于构建单页应用。其主要特点包括：组件化：React应用由多个可重用的组件组成，便于管理和维护。虚拟DOM：React使用虚拟DOM提高性能，通过最小化实际DOM操作来优化渲染过程。单向数据流：数据在组件之间以单向流动的方式传递，简化了数据管理和调试。声明式编程：React允许开发者以
MySQL 面试题你曾经是少年 mysql 数据库
1.数据库基础问题：请解释数据库（DB）、数据库管理系统（DBMS）、SQL三者的区别。参考答案：DB：存储数据的结构化仓库DBMS：管理数据库的软件（如MySQL、Oracle）SQL：操作关系型数据库的标准化语言2.SQL分类问题：SQL分为哪几类？分别写出对应的关键字（至少3个）。参考答案：DDL：CREATE/DROP/ALTERDML：INSERT/UPDATE/DELETEDQL：SE
java八股之redis面试题 MinusZXX 八股文-redis java redis 开发语言面试
目录1、redis是单线程还是多线程2、Redis为什么那么快3、Redis底层数据是如何用跳表来存储的4、RedisKey过期了为什么内存没释放（附删除策略）5、Redis没设置key的过期时间，为什么被Redis主动删除了（淘汰策略）6、Redis主从、哨兵、集群架构优缺点比较7、Redis集群数据分片8、Redis主从切换导致缓存雪崩9、Redis持久化RDB、AOF和混合持久化AOF4.0
高级java每日一道面试题-2025年3月03日-微服务篇[Eureka篇]-Eureka自我保护机制是什么? java我跟你拼了 java每日一道面试题 java 微服务 eureka SpringCloud SpringBoot 自我保护机制出发条件
如果有遗漏,评论区告诉我进行补充面试官:Eureka自我保护机制是什么?我回答:在Java高级面试中，Eureka的自我保护机制（Self-PreservationMode）是一个非常重要且常被提及的话题。理解这一机制的工作原理及其应用场景对于构建高可用性的微服务架构至关重要。以下是结合提供的内容对Eureka自我保护机制的详细解析和综合概述：自我保护机制的概念Eureka的自我保护机制是一种容错
高级java每日一道面试题-2025年3月06日-微服务篇[Eureka篇]-Eureka Server和Eureka Client关系? java我跟你拼了 java每日一道面试题 java 微服务 eureka
如果有遗漏,评论区告诉我进行补充面试官:EurekaServer和EurekaClient关系?我回答:在微服务架构中，Eureka作为Netflix开源的服务发现组件，由EurekaServer（服务端）和EurekaClient（客户端）两大部分组成。这两者通过紧密协作实现服务的注册、发现与健康管理，是确保微服务间通信顺畅的关键。以下是对EurekaServer和EurekaClient关系的
施磊老师高级c++(一) Zhuai-行淮施磊老师cpp c++开发语言
对象被优化后,才是高效的c++编程文章目录对象被优化后,才是高效的c++编程1.对象使用背后调用了哪些方法2.函数调用过程中对象背后调用方法3.总结三条对象优化的规则4.CMyString的代码问题5.添加带右值引用参数的拷贝构造和赋值函数6.String类在vector上的应用--面试题7.move移动语义和forword类型完美转发move移动语义的作用代码:**问题:**解决办法:最终代码:
Hadoop相关面试题努力的搬砖人. java 面试 hadoop
以下是150道Hadoop面试题及其详细回答，涵盖了Hadoop的基础知识、HDFS、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面，每道题目都尽量详细且简单易懂：Hadoop基础概念类1.什么是Hadoop？Hadoop是一个由Apache基金会开发的开源分布式计算框架，主要用于处理和存储大规模数据集。它提供了高容错性和高扩展性的分布式存
NLP高频面试题（三）——普通RNN的梯度消失和梯度爆炸问题 Chaos_Wang_ NLP常见面试题自然语言处理 rnn 人工智能
普通RNN（循环神经网络）的梯度消失和梯度爆炸问题是指在训练深层或长序列的RNN模型时出现的两种典型问题：一、梯度消失（VanishingGradient）梯度消失是指在反向传播过程中，梯度逐层传播时变得越来越小，最终趋于接近0，导致模型前层的参数难以更新。原因：在反向传播时，每一层的梯度是通过链式法则计算得到的。因为链式求导中不断乘以一个较小的数值（小于1），随着层数或时间步的增加，梯度将指数级
数据分析 SQL 面试全攻略，看这篇就够了！程功学数据分析 sql 面试
数据分析SQL面试八股文（含答案）已经打包好，看文末领取在数据分析领域，SQL技能堪称基石，也是众多企业在招聘数据分析岗位时重点考察的内容。今天，就为大家深度剖析数据分析SQL面试的要点，助力大家顺利通关。一、常见面试题型大揭秘（一）简单查询这类题目通常要求考生从单表中检索数据。例如，给定一个“员工信息表”，包含员工编号、姓名、年龄、部门等字段，题目可能是“查询年龄大于30岁的员工姓名和部门”。解
Spring常见面试题风清扬，夏邑 Spring spring java 后端
1.Spring框架中的单例bean是线程安全的吗?不是线程安全的，当多用户同时请求一个服务时，容器会给每一个请求分配一个线程，这时多个线程会并发执行该请求对应的业务逻辑(成员方法)，如果该处理逻辑中有对该单列状态的修改(体现为该单例的成员属性)，则必须考虑线程同步问题。Spring框架并没有对单例bean进行任何多线程的封装处理。关于单例bean的线程安全和并发问题需要开发者自行去搞定。比如:我
Spring相关面试题 kevindanglu 面试 spring java spring boot
目录Spring中常用的注解有哪些SpringBoot中@RestController和@Controller注解有什么区别？Spring的注解@requestBody和@responseBody的区别说说@Bean和@componentscan的区别简单介绍一下springbootSpringBoot有哪些常用的Starter依赖？说说springboot的启动过程Sprintboot自动装配原
并发编程面试题四 2301_76231794 面试
1、ReentrantLock和synchronized的区别及使用的场景synchronized关键字（是悲观锁）：自动管理：synchronized是Java提供的一种内置锁机制，使用简单，不需要显式地获取和释放锁。可重入性：同一个线程可以多次获取同一个锁而不被阻塞。不可中断：一旦一个线程开始等待获取锁，它不能被其他线程中断。内存可见性：synchronized块或方法提供了内存可见性的保证，
高级java每日一道面试题-2025年3月06日-微服务篇[Eureka篇]-Eureka服务注册与发现是什么? java我跟你拼了 java每日一道面试题 java 微服务 eureka
如果有遗漏,评论区告诉我进行补充面试官:Eureka服务注册与发现是什么我回答:根据你提供的详细解析，结合之前的回答，我们可以更加全面地理解Eureka服务注册与发现机制，并补充一些关键点，特别是针对面试准备的内容。一、服务注册（ServiceRegistration）核心机制：当服务提供者启动时，它会通过EurekaClient向EurekaServer发送元数据。这些元数据包括但不限于IP地址
2024年机电工程师最新面试题及答案静水流深497 #全行业面试题库硬件工程
由于篇幅限制，以下是一些机电工程师可能会遇到的面试问题及其简要答案概述。###机电工程师面试题1.**什么是机电一体化？**2.**机电一体化系统有哪些关键组件？**3.**什么是伺服电机？**4.**伺服电机和步进电机有什么区别？**5.**什么是可编程逻辑控制器（PLC）？**6.**PLC在工业自动化中的作用是什么？**7.**什么是人机界面（HMI）？**8.**HMI在自动化系统中的作用
题解 | 牛客周赛 Round 49 DEF Java题解 han_xue_feng java
面试又黄了反正不是什么喜欢的工作[牛泪]面试又黄了反正不是什么喜欢的工作2024秋招数据开发第一波面试题露出#字节##滴滴##大数据##面经##秋招#引流字节阿里巴巴腾讯百度美团美团后端暑期实习体验——实习的一天早上：8点半出门坐地铁，9点下地铁到惠新西街南口地铁站，出地铁站坐班车（这一点还是不错的），9点30深圳阿里实习day1领工牌mac，认工位mentor，配环境看文档，七点就润了。看各个文
Android第三次面试（Java基础）每次的天空面试职场和发展 java android
面试题一：在Android里，Array和ArrayList区别？定义与大小：数组声明时要指定大小，之后固定；ArrayList动态，无需提前定大小。性能：二者访问元素快，时间复杂度O(1)；数组插入删除繁琐，ArrayList尾部添加快，其他位置操作慢。数据类型：数组能存基本类型和对象，ArrayList只能存对象，存基本类型需用包装类。方法功能：数组自身方法少，靠Arrays类；ArrayLi
NLP高频面试题（四）——BN和LN的区别与联系，为什么attention要用LN Chaos_Wang_ NLP常见面试题自然语言处理人工智能
在深度学习模型中，Normalization是一种极为重要的技巧，BatchNormalization（BN）和LayerNormalization（LN）是其中最为常用的两种方法。然而，二者在实际应用中有着明显的区别与联系，尤其在Transformer的Attention机制中，LN有着独特的优势。一、BN与LN的核心区别与联系1.BatchNormalization(BN)BN的思想源于一个叫
鸿蒙30道高频面试题总结 zero_godv harmonyos 面试华为
1.什么是弹性布局？Flex容器，弹性布局分为单行布局和多行布局，单行内：当子元素尺寸总和大于Flex容器尺寸是，子元素会自动挤压。多行内：用wrap属性控制自动换行2.绝对定位和相对定位的区别？绝对定位：position，相对父组件左上角进行偏移，不占位置相对定位：offset，相对自身左上角进行便宜，占位置3.什么是层叠布局？Stack：实现位置的固定定位与层叠，后一个子元素覆盖前一个子元素通
MySQL相关面试题努力的搬砖人. mysql java 面试后端
以下是150道MySQL相关面试题：一、SQL和基本操作1.SQL的执行顺序是什么？SQL查询的执行顺序大致如下：1.FROM：指定数据来源表。2.WHERE：对表中的行进行筛选。3.JOIN：将多个表连接起来。4.GROUPBY：对数据进行分组。5.HAVING：对分组后的数据进行筛选。6.SELECT：选择需要的列。7.ORDERBY：对结果进行排序。8.LIMIT：限制返回的行数。2.如何优
Nginx面试题努力的搬砖人. java 后端 nginx
以下是150道Nginx面试题及其详细回答，涵盖了Nginx的基础知识、配置与优化、负载均衡、安全与性能、高级特性等多个方面，每道题目都尽量详细且简单易懂：Nginx基础概念类1.什么是Nginx？Nginx是一个高性能的HTTP和反向代理服务器，同时也是一个IMAP/POP3/SMTP代理服务器。它以其事件驱动的方式处理请求，能够处理大量的并发连接，适用于高并发场景。例如，当有大量用户同时访问一
JavaScript 高频面试题好运连连女士 JavaScript javascript
文章目录JavaScript手写防抖和节流CommonJS和ES6模块的区别this指向问题，如何修改this指向引申1:模拟bind引申2：为什么多次绑定，只指向第一次绑定的obj对象?有没有解决办法？引申3:一般函数和箭头函数的区别数据类型有哪些引申1:如何判断数据类型new操作的原理引申1:什么是闭包？引申2:内存泄露和内存溢出引申3:作用域和作用域链？JS实现数组扁平化深拷贝与浅拷贝的区别
MySQL 5.7 vs MySQL 8.0 高频面试题解析 dblens 数据库管理和开发工具 mysql 数据库
一、基础概念与核心差异1.默认字符集的变化问：MySQL5.7和8.0的默认字符集有何不同？为什么要修改？答：MySQL5.7默认字符集为latin1，可能导致中文乱码。MySQL8.0默认改为utf8mb4（支持4字节编码，如表情符号），且默认排序规则为utf8mb4_0900_ai_ci。意义：彻底解决字符编码问题，兼容国际化需求。2.用户认证方式的演进问：从5.7到8.0，用户密码认证方式有
JavaScript相关面试题努力的搬砖人. javascript
以下是150道JavaScript相关面试题及详细答案：JavaScript基础1.JavaScript是什么？JavaScript是一种直译式脚本语言，主要用于网页开发，也可用于服务器端开发（如Node.js）。它是一种动态类型、弱类型、基于原型的语言，支持函数式编程和面向对象编程。2.JavaScript的基本数据类型有哪些？包括Undefined、Null、Boolean、Number、St
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，