java hashCode与数据防重

java hashCode与数据防重

最近需要和第三方做数据对接,需要做幂等,重传数据直接取上一次的处理结果,不重复处理。原本打算将接收到的数据求hash, 通过hash来判断数据是否处理。原本不打算通过摘要算法来处理,因为自己验证了下对象(String, Integer, Long)生成hash,性能很好。

测试数据:
普通PC机,100k的字符串,5w次hashcode运算,平均耗时0.19ms左右,i5-6300HQ的CPU。CPU已达100%,仅供大概参考。

百度了一下,不同对象hashcode可能会重复。可以看参考资料或结尾部分摘录于Effective Java的话。
hashCode不通,只能考虑摘要算法了。
查看网上其他童鞋给的md5性能测试结果,感觉效率很高,和hash的效率相当,打算采用md5算法

以下内容摘录于Effective Java
在程序执行期间,只要equals方法的比较操作用到的信息没有被修改,那么对这同一个对象调用多次,hashCode方法必须始终如一地返回同一个整数。
如果两个对象根据equals方法比较是相等的,那么调用两个对象的hashCode方法必须返回相同的整数结果。
如果两个对象根据equals方法比较是不等的,则hashCode方法不一定得返回不同的整数

基于上面的介绍,亦可以考虑hash+摘要一起来做防重。先通过hash做一层识别,如果存在一致的,在计算摘要信息。
优点:java中hashCode比md5的产生的摘要要短。java hashcode是int类型,32位,而md5的摘要是128位


参考资料
[1]: hashCode重复相关 http://www.jb51.net/article/119885.htm
[2]: hashCode重复相关 https://blog.csdn.net/hl_java/article/details/71511815
[3]:md5性能测试 https://blog.csdn.net/sctq8888/article/details/7993575

你可能感兴趣的:(道(方法,理论))