顺序结构以及平衡树中,元素关键码与其存储位置之间没有对应的关系,因此在查找一个元素时,必须要经过关键码的多次比较。顺序查找时间复杂度为O(N),平衡树中为树的高度,即O( logN),搜索的效率取决于搜索过程中
元素的比较次数。
理想的搜索方法:可以不经过任何比较,一次直接从表中得到要搜索的元素。 如果构造一种存储结构,通过某种函数(hashFunc)使元素的存储位置与它的关键码之间能够建立一一映射的关系,那么在查找时通过该函数可以很快找到该元素。
当向该结构中
该方式即为哈希(散列)方法,哈希方法中使用的转换函数称为哈希(散列)函数,构造出来的结构称为哈希表(HashTable)(或者称散列表)
例如:数据集合{1,7,6,4,5,9};
哈希函数设置为:hash(key) = key % capacity; capacity为存储元素底层空间总的大小。
用该方法进行搜索不必进行多次关键码的比较,因此搜索的速度比较快
对于两个数据元素的关键字 和 (i != j),有 != ,但有:Hash( ) == Hash( ),即:不同关键字通过相同哈希哈数计算出相同的哈希地址,该种现象称为哈希冲突或哈希碰撞。把具有不同关键码而具有相同哈希地址的数据元素称为“同义词”。
首先,我们需要明确一点,由于我们哈希表底层数组的容量往往是小于实际要存储的关键字的数量的,这就导致一个问题,冲突的发生是必然的,但我们能做的应该是尽量的降低冲突率。
引起哈希冲突的一个原因可能是:哈希函数设计不够合理。 哈希函数设计原则:
常见哈希函数
数字分析法通常适合处理关键字位数比较大的情况,如果事先知道关键字的分布且关键字的若干位分布较均匀的情况
哈希函数设计的越精妙,产生哈希冲突的可能性就越低,但是无法避免哈希冲突
所以当冲突率达到一个无法忍受的程度时,我们需要通过降低负载因子来变相的降低冲突率。
已知哈希表中已有的关键字个数是不可变的,那我们能调整的就只有哈希表中的数组的大小。
解决哈希冲突两种常见的方法是:闭散列和开散列
闭散列:也叫开放定址法,当发生哈希冲突时,如果哈希表未被装满,说明在哈希表中必然还有空位置,那么可以把key存放到冲突位置中的“下一个” 空位置中去。
寻找下一个空位置的方法 :
线性探测:从发生冲突的位置开始,依次向后探测,直到寻找到下一个空位置为止。
研究表明:当表的长度为质数且表装载因子a不超过0.5时,新的表项一定能够插入,而且任何一个位置都不会被探查两次。因此只要表中有一半的空位置,就不会存在表满的问题。在搜索时可以不考虑表装满的情况,但在插入时必须确保表的装载因子a不超过0.5,如果超出必须考虑增容。
因此:比散列最大的缺陷就是空间利用率比较低,这也是哈希的缺陷。
开散列法又叫链地址法(开链法),首先对关键码集合用散列函数计算散列地址,具有相同地址的关键码归于同一子集合,每一个子集合称为一个桶,各个桶中的元素通过一个单链表链接起来,各链表的头结点存储在哈希表中。
哈希桶其实可以看作将大集合的搜索问题转化为小集合的搜索问题了,那如果冲突严重,就意味着小集合的搜索性能其实也时不佳的,这个时候我们就可以将这个所谓的小集合搜索问题继续进行转化,例如:
public class HashBuck {
static class Node{
public int key;
public int val;
public Node next;
public Node(int key,int val){
this.key=key;
this.val=val;
}
}
public Node[] array;
public int usedSize;
public static final double DEFAULT_LOAD_FACTOR=0.75;
public HashBuck(){
this.array=new Node[10];
}
/**
* put函数
* @param key
* @param val
*/
public void put(int key,int val){
//1.找到key所在的位置
int index=key%this.array.length;
//2.遍历这个下标的链表,看是不是有相同的key 有 更新val值
Node cur=array[index];
while (cur!=null){
if (cur.key==key){
cur.val=val;//更新val的值
return;
}
cur=cur.next;
}
//3.没有这个key的话,采用头插法插入
Node node=new Node(key,val);
node.next=array[index];
array[index]=node;
this.usedSize++;
//4.插入元素成功后,检查当前散列表的负载因子
if (loadFactor()>=DEFAULT_LOAD_FACTOR){
}
}
private void resize(){
Node[] newArray=new Node[array.length*2];
//扩容之后所有的元素需要重新哈希
for (int i = 0; i < array.length; i++) {
Node cur=array[i];
while (cur!=null){
int index=cur.key%newArray.length;//获取新的下标
//重新哈希:就是把cur这个节点,以头插/尾插的形式 插入到新的数组对应下标的链表当中
Node curNext=cur.next;
cur.next=newArray[index];//先绑定后面
newArray[index]=cur;//再绑定前面
cur=curNext;
}
}
array=newArray;
}
private double loadFactor(){
return 1.0*usedSize/array.length;
}
/**
* get函数
* 根据key获取val的值
* @param key
* @return
*/
public int get(int key){
//1.找到key所在的位置
int index=key%this.array.length;
//2.获取val
Node cur=array[index];
while (cur!=null){
if (cur.key==key){
return cur.val;
}
cur=cur.next;
}
return -1;
}
}
虽然哈希表一直在和冲突做斗争,但在实际使用过程中,我们认为哈希表的冲突率是不高的,冲突个数是可控的,也就是每个桶中的链表的长度是一个常数,所以,通常意义下,我们认为哈希表的插入/删除/查找时间复杂度是
O(1) 。
代码举列如下:
import java.util.HashMap;
import java.util.Objects;
/**
* Created with IntelliJ IDEA.
* User: 12629
* Date: 2022/2/22
* Time: 21:32
* Description:
*/
class Person { //自定义person类
public String ID;
public Person(String ID) {
this.ID = ID;
}
@Override // 重写equals方法
public boolean equals(Object o) {
if (this == o) return true;
if (o == null || getClass() != o.getClass()) return false;
Person person = (Person) o;
return Objects.equals(ID, person.ID);
}
@Override //重写hashcode方法
public int hashCode() {
return Objects.hash(ID);
}
@Override
public String toString() {
return "Person{" +
"ID='" + ID + '\'' +
'}';
}
}
public class HashBuck2<K,V> {
static class Node<K,V> {
public K key;
public V val;
public Node<K,V> next;
public Node(K key,V val) {
this.val = val;
this.key = key;
}
}
public Node<K,V>[] array = (Node<K,V>[])new Node[10];
public int usedSize;
public void put(K key,V val) {
int hash = key.hashCode();//转换为一个整数
int index = hash % array.length;
Node<K,V> cur = array[index];
while (cur != null) {
if(cur.key.equals(key)) {
cur.val = val;//更新val值
return;
}
cur = cur.next;
}
Node<K,V> node = new Node<>(key, val);
node.next = array[index];
array[index] = node;
this.usedSize++;
}
public V get(K key) {
int hash = key.hashCode();//转换为一个整数
int index = hash % array.length;
Node<K,V> cur = array[index];
while (cur != null) {
if(cur.key.equals(key)) {
//更新val值
return cur.val;
}
cur = cur.next;
}
return null;
}
public static void main(String[] args) {
//我们认为 身份证ID一样的两个人是同一个人
//通过对hashcode和equals方法的重写 可以实现这一逻辑
//重写hashcode之后,字符串类型的ID相同的话生成的整数就是相同的
//实现了ID一样的两个人是同一人这一逻辑
Person person1 = new Person("123");
Person person2 = new Person("123");
HashBuck2<Person,String> hashBuck2 = new HashBuck2<>();
hashBuck2.put(person1,"love");
System.out.println(hashBuck2.get(person2));
}
}
因为person1和person2是同一个人
所以get person2的val其实就是放入person1的love