MurmurHash Tips(qbit)

简介

  • MurmurHash 是一种非加密型哈希函数(Non-cryptographic hash function),适用于一般的哈希检索操作。与其它流行的哈希函数相比,对于规律性较强的 key,MurmurHash 的随机分布特征表现更良好。
  • 常见的 MD5SHA1 是加密型哈希函数(Cryptographic hash function

Hash 算法评价

杨保华《区块链·原理、设计与应用》第5章密码学与安全技术中讲到,一个优秀的 Hash 算法将能实现如下功能:

  • 正向快速

    给定明文和 Hash 算法,在有限时间和有限资源内能计算得到 Hash 值
  • 逆向困难

    给定(若干) Hash 值,在有限时间内很难(基本不可能)逆推出明文;
  • 输入敏感

    原始输入信息发生任何改变,新产生的 Hash 值都应该出现很大不同;
  • 冲突避免

    很难找到两段内容不同的明文,使得它们的 Hash 值一致(发生碰撞)。
    冲突避免有时候又称为“抗碰撞性”,分为“弱抗碰撞性”和“强抗碰撞性”。
    如果给定明文前提下,无法找到与之碰撞的其他明文,则算法具有“弱抗碰撞性”;
    如果无法找到任意两个发生 Hash 碰撞的明文,则称算法具有“强抗碰撞性”。

家族成员

MurmurHash1, MurmurHash2, MurmurHash3

64bit long

Python3(mmh3

# signed
>>> mmh3.hash64('CN305183362S')
(-1993453447204570204, -4896406162740467071)
# unsigned
>>> mmh3.hash64('CN305183362S', signed=False)
(16453290626504981412, 13550337910969084545)
>>> mmh3.hash('CN305183362S')
2088819274

Java(guava

import com.google.common.hash.Hashing;
import com.google.common.primitives.UnsignedLong;
import static com.google.common.base.Charsets.UTF_8;
public class Main {
    public static void main(String[] args) {
        long signed = Hashing.murmur3_128().hashString("CN305183362S", UTF_8).asLong();
        UnsignedLong unsigned = UnsignedLong.fromLongBits(signed);
        System.out.println(signed);     // -1993453447204570204
        System.out.println(unsigned);   // 16453290626504981412
        int hash32 = Hashing.murmur3_32().hashString("CN305183362S", UTF_8).asInt();
        System.out.println(hash32);     // 2088819274
    }
}

生成 [0, 2^63-1]的 hash 值

  • 已知 long 的数据范围

    [-2^63, 2^63-1]
    即
    [-9223372036854775808, 9223372036854775807]
  • 已知 unsigned_long 的数据范围

    [0, 2^64-1]
    即
    [0, 18446744073709551615]
  • Python 示例代码

    # 创建一个63位全为1的掩码
    >>> mask = (1 << 63) - 1
    >>> mask
    9223372036854775807
    # 去掉 64 位整数的最高位
    >>> 18446744073709551615 & mask
    9223372036854775807

Python3

  • 获取 63 位正整数的 Hash 值

    def getHashU63(key: str) -> int:
      # (1 << 63) - 1 = 9223372036854775807
      return mmh3.hash64(key)[0] & 9223372036854775807 
    getHashU63('CN305183362S')        # 7229918589650205604

Java(guava

  • 获取 63 位正整数的 Hash 值

    import com.google.common.hash.Hashing;
    import static com.google.common.base.Charsets.UTF_8;
    public class Main {
      static long getHashU63(String key) {
        // # (1 << 63) - 1 = 9223372036854775807
        return Hashing.murmur3_128().hashString(key, UTF_8).asLong() & 9223372036854775807L;
      }
      public static void main(String[] args) {
          System.out.println(getHashU63("CN305183362S"));     // 7229918589650205604
      }
    }

计算 mmh3 十六进制字符串

Python3

>>> import binascii
>>> import mmh3
>>> binascii.b2a_hex(mmh3.hash_bytes('CN305183362S')).decode('utf8')
'a4fb17cba6d455e4812ad28989780cbc'    # 32个字符,128 bit
>>> hex(mmh3.hash128('CN305183362S'))
'0xbc0c788989d22a81e455d4a6cb17fba4'

Java

  • 借用 BigInteger

    import java.math.BigInteger;
    import org.apache.commons.codec.digest.MurmurHash3;
    import org.apache.commons.lang.ArrayUtils;
    public class AppTester {
      public static void main(String[] args) {
          final byte[] origin = "CN305183362S".getBytes();
          long[] vec = MurmurHash3.hash128(origin, 0, origin.length, 0);
          // 将 long 转换为 BigInteger
          BigInteger bigInteger0 = BigInteger.valueOf(vec[0]);
          BigInteger bigInteger1 = BigInteger.valueOf(vec[1]);
          // 将 BigInteger 转换为 byte[]
          byte[] array0 = bigInteger0.toByteArray();
          byte[] array1 = bigInteger1.toByteArray();
          // 反转 byte[](大小端转换)
          ArrayUtils.reverse(array0);
          ArrayUtils.reverse(array1);
          // 将 byte[] 转换为无符号整数,并转为十六进制字符串
          String part0 = (new BigInteger(1, array0)).toString(16);
          String part1 = (new BigInteger(1, array1)).toString(16);
          System.out.println(part0 + part1); // a4fb17cba6d455e4812ad28989780cbc
      }
    }
  • 借用 ByteBuffer(好文推荐:Java 中 byte、byte 数组和 int、long 之间的转换

    import java.nio.ByteBuffer;
    import org.apache.commons.codec.digest.MurmurHash3;
    import org.apache.commons.lang.ArrayUtils;
    public class AppTester {
      public static void main(String[] args) {
          final byte[] origin = "CN305183362S".getBytes();
          long[] vec = MurmurHash3.hash128(origin, 0, origin.length, 0);
          ByteBuffer buf0 = ByteBuffer.allocate(8); 
          ByteBuffer buf1 = ByteBuffer.allocate(8);         
          buf0.putLong(0, vec[0]);
          buf1.putLong(0, vec[1]);        
          byte[] array0 = buf0.putLong(0, vec[0]).array();
          byte[] array1 = buf1.putLong(0, vec[1]).array();        
          ArrayUtils.reverse(array0);    // 反转 byte[](大小端转换)
          ArrayUtils.reverse(array1);    // 反转 byte[](大小端转换)
          buf0.put(array0, 0, array0.length).flip();
          buf1.put(array1, 0, array1.length).flip();        
          String part0 = String.format("%x", buf0.getLong());
          String part1 = String.format("%x", buf1.getLong());
          System.out.println(part0 + part1);    // a4fb17cba6d455e4812ad28989780cbc
      }
    }
  • 浅显易懂版,不用处理字节

    import org.apache.commons.codec.digest.MurmurHash3;
    public class AppTester {
      public static void main(String[] args) {
          final byte[] origin = "CN305183362S".getBytes();
          long[] vec = MurmurHash3.hash128(origin, 0, origin.length, 0);
          String part0 = String.format("%x", vec[0]);
          String part1 = String.format("%x", vec[1]);
          String line = "";
          // 反转前半段(大小端转换)
          for (int i = 0; i < 8; ++i) {
              line += part0.substring(14 - 2 * i, 16 - 2 * i);
          }
          // 反转后半段(大小端转换)
          for (int i = 0; i < 8; ++i) {
              line += part1.substring(14 - 2 * i, 16 - 2 * i);
          }
          System.out.println(line);    // a4fb17cba6d455e4812ad28989780cbc
      }
    }
  • google guava (推荐)

    import com.google.common.hash.Hashing;
    import static com.google.common.base.Charsets.UTF_8;
    public class Main {
      public static void main(String[] args) {
          String mmh3 = Hashing.murmur3_128().hashString("CN305183362S", UTF_8).toString();
          System.out.println(mmh3);   // a4fb17cba6d455e4812ad28989780cbc
      }
    }

Node.js

  • MurmurHash3js
  • 在线测试: http://murmurhash.shorelabs.com/

    var murmurHash3 = require("murmurhash3js");
    let line = murmurHash3.x64.hash128("CN305183362S");
    console.log(line);        // e455d4a6cb17fba4bc0c788989d22a81
    let newLine = "";
    // 反转前半段(大小端转换)
    for (let i = 0; i < 8; ++i) {
      newLine += line.slice(14-2*i, 16-2*i);
    }
    // 反转后半段(大小端转换)
    for (let i = 0; i < 8; ++i) {
      newLine += line.slice(30-2*i, 32-2*i);
    }
    console.log(newLine);    // a4fb17cba6d455e4812ad28989780cbc
本文出处 qbit snap

你可能感兴趣的:(pythonjavahash)