iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > JAVA >【Java 数据结构】HashMap和HashSet
  • 663
分享到

【Java 数据结构】HashMap和HashSet

数据结构javaHashMapHashSet 2023-10-11 10:10:56 663人浏览 安东尼
摘要

目录 1、认识 HashMap 和 HashSet 2、哈希表 2.1 什么是哈希表 2.2 哈希冲突 2.2.1 概念 2.2.2 设计合理哈希函数 - 避免冲突 2.2.3 调节负载因子 - 避免冲突 2.2.4 Java中解决哈希


目录

1、认识 HashMap 和 HashSet

2、哈希表

2.1 什么是哈希表

2.2 哈希冲突

2.2.1 概念

2.2.2 设计合理哈希函数 - 避免冲突

2.2.3 调节负载因子 - 避免冲突

2.2.4 Java中解决哈希冲突 - 开散列/哈希桶

3、HashMap 的部分源码解读

3.1 HashMap 的构造方法

3.2 HashMap 是如何插入元素的?

3.3 哈希表下的链表,何时会树化?

4、相关面试题

4.1 链表转换成红黑树如何比较?

4.2 hashCode 和 equals 的区别

4.3 以下代码分配的内存是多少?

5、性能分析


1、认识 HashMap 和 HashSet


在上期中,学习到 TreeMap 和 TreeSet,因为他们实现了 SortedMap 和 SortedSet 接口(本质是 实现了 NavigableMap 和 NavigableSet),表示你创建的 TreeMap 或 TreeSet,必须是可排序的,也就是里面的元素是可比较的。

HashSet 的底层也是 HashMap,跟上期 TreeSet 大同小异,感兴趣可以去看看源码

本期的 HashMap 和 HashSet 并没有继承上述所说的俩个接口,也即表示 HashMap 和 HashSet 中的 key 可以不重写 compareTo 方法,由此也能得出,HashMap 与 HashSet 不关于 key 有序!

因为 Set 的底层就是 Map,那么这里我们就来验证下 TreeSet 关于 key 有序,而 HashSet 不关于 key 有序。

public class Test {    public static void main(String[] args) {        Set treeSet = new TreeSet<>();        Set hashSet = new HashSet<>();;        treeSet.add("0012");        treeSet.add("0083");        treeSet.add("0032");        treeSet.add("0057");        System.out.print("TreeSet: ");        for (String s : treeSet) {            System.out.print(s + " ");        }        hashSet.add("0012");        hashSet.add("0083");        hashSet.add("0032");        hashSet.add("0057");        System.out.print("\nHashSet: ");        for (String s : hashSet) {            System.out.print(s + " ");        }    }}

打印结果:

为什么 HashMap 和 HashSet 不关于 key 有序呢?随着往文章后续学习,你就会明白。


2、哈希表

2.1 什么是哈希表

之前的学习中,如果我们要查找一个元素,肯定是要经过比较的,那有没有一种办法,可以不用经过比较,直接就能拿到呢?

如果我们能构造一种存储结构,通过一种函数 (hashFunc) 使元素的存储位置与函数得出的关键码之间能够建立一一映射的关系,那么在查找某个元素的时候,就能通过这个函数来很快的找到该元素所在的位置。

这种函数就叫做哈希(散列)函数,上述所说构造出来的结构,叫做哈希表或者称为散列表。

插入元素的时候:根据元素的关键码,Person中关键码可能是 age,这个具体情况具体分析,上述例子只是在插入整型的时候,通过关键码通过哈希函数得到的 index 就是要插入的位置。

搜索元素的时候:对元素的关键码,通过哈希函数得出的 index 位置,与该位置的关键码比较,若俩个关键码相同,则搜索成功。

采取上面的方法,确实能避免多次关键码的比较,搜索的效率也提高的,但是问题来了,拿上述图的情况来举例子的话,我接着还要插入一个元素 15,该怎么办呢?

2.2 哈希冲突

2.2.1 概念

接着上面的例子来说,如果要插入 15,使用哈希函数出来的 index = 5,但是此时的 5,下标的位置已经有元素存在了,这种情况我们就称为哈希冲突!

简单来说,不同的关键字通过相同的哈希函数计算出相同的哈希地址(前面我们称为 index),这种现象就被称为哈希冲突哈希碰撞! 

2.2.2 设计合理哈希函数 - 避免冲突

如果哈希函数设计的不够合理,是可能会引起哈希冲突的。

哈希函数的定义域,必须包括所需存储的全部关键码,哈希函数计算出来的地址,应能均匀的分布在整个空间中,哈希函数不能设计太过于复杂。(工作中一般用不着我们亲自设计)

常见的哈希函数:

直接定制法:取关键字的某个线性函数作为哈希地址:hash = A * key + B, 这样比较简单,但是需要事先知道关键字的分布情况,适合于查找比较小且连续的情况。

除留余数法:设哈希表中允许的地址数为 m,取一个不大于 m 的数,但接近或等于 m 的质数 p 作为除数,即哈希函数:hash = key % p,(p <= m)。

还有其他的方法感兴趣可以查阅下相关资料,这两个只是比较常见的方法了,当然,就算哈希函数设计的再优秀,只是产生哈希的冲突概率没那么高,但是仍然避免不了哈希冲突的问题,于是又有了一个降低冲突概率的办法,调节负载因子。

2.2.3 调节负载因子 - 避免冲突

负载因子 α = 哈希表中元素个数 / 哈希表的长度

哈希表的长度没有扩容是定长的,即 α 与 元素的个数是成正比的,当 α 越大,即代码哈希表中的元素个数越多,元素越多,发生哈希冲突的概率就增加了,因此 α 越小,哈希冲突的概率也就越小。所以我们应该严格控制负载因子的大小,在 Java 中,限制了负载因子最大为 0.75,当超过了这个值,就要进行扩容哈希表,重新哈希(重新将各个元素放在新的位置上)。

所以负载因子越大,冲突率越高,我们就需要降低负载因子来变相的降低冲突率,哈希表中元素个数不能改变,所以只能给哈希表扩容了。

2.2.4 Java中解决哈希冲突 - 开散列/哈希桶

上面讲述的都是避免冲突的方法,其实还往往不够,不管怎么避免,还是会有冲突的可能性,那么通常我们解决哈希冲突有两种办法,分别是 闭散列开散列 那么今天我们主要介绍 Java 中的开散列是如何解决的,感兴趣可以下来自己了解下闭散列。

开散列又叫链地址法,或开链法,其实简单来说就是一个数组加链表的结构。如图:

如上图我们可得出,通过哈希函数得出的地址相同的关键码放在一起,这样的每个子集合称为桶,接着桶中的元素用链表的结构组织起来,,每个链表的头节点存放在哈希表中。


3、HashMap 的部分源码解读

3.1 HashMap 的构造方法

public HashMap() {    this.loadFactor = DEFAULT_LOAD_FACTOR; // all other fields defaulted}public HashMap(Map m) {    this.loadFactor = DEFAULT_LOAD_FACTOR;    putMapEntries(m, false);}public HashMap(int initialCapacity) {    this(initialCapacity, DEFAULT_LOAD_FACTOR);}public HashMap(int initialCapacity, float loadFactor) {    if (initialCapacity < 0)        throw new IllegalArgumentException("Illegal initial capacity: " +                initialCapacity);    if (initialCapacity > MAXIMUM_CAPACITY)        initialCapacity = MAXIMUM_CAPACITY;    if (loadFactor <= 0 || Float.isNaN(loadFactor))        throw new IllegalArgumentException("Illegal load factor: " +                loadFactor);    this.loadFactor = loadFactor;    this.threshold = tableSizeFor(initialCapacity);}

这几个构造方法相信都不难理解,第一个无参构造方法,默认负载因子是 0.75,第二个构造方法是你可以传一个 Map 进去,构造出一个新的 Map,负载因子仍然是默认的 0.75, 第三个构造方法就是指定开辟的容量了(并不是你想象那样简单哦,面试题讲解),这个很简单,第四个构造方法指定容量并且自定义负载因子。

在 HashMap 中,实例化对象的时候并不会默认开辟空间(指定空间除外)。

3.2 HashMap 是如何插入元素的?

前面对 HashMap 的讲解,已经大概了解了一点,但是 HashMap 底层的哈希函数是如何设定的呢?而且 Map 中不能有重复值的情况,是利用什么来判断这两个值是相同的值呢?

这里我们通过查看 put 方法的源码,来带大家一层层揭开这个面纱:

public V put(K key, V value) {    return putVal(hash(key), key, value, false, true);}

进入到 put 方法,随之调用了 putVal 方法,而第一个参数就是我们哈希函数的实现了,我们转到hash() 方法中:

static final int hash(Object key) {    int h;    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);}

通过哈希函数,能看出,首先调用 key 的hashCode 方法,接着无符号右移 16 位,即将 key 的高16位 与 低 16位 异或得到的 hash 值,通过这个也就在说明,我们如果是自定义类型的话,比如 Person,那么一定要重写 hashCode 方法,不然则是调用 Object 里的 hashCode 方法了。

接着我们再往下看,putVal 方法里面的逻辑,这里代码比较长,我们分段演示:

这里就是判断哈希表是否为有元素,如果表为 null 或者 哈希表的长度为 0,就会初始化数组(node类型的数组),即调用 resize() 方法。初始哈希表的长度是 16,临界阈值为 16 * 0.75 = 12,也就是数组元素达到 12个即会扩容。往后走代码:

这里作用是通过 hash 值得到索引 i,也就是数组的下标,判断这个位置是否有元素了,如果没有则直接 new 一个节点放到该处。反之走 else 就表示该数组下标已经有元素了。

如果得到的 i 索引处有元素,则需要判断当前下标元素的 hash 值是否与我们要插入的元素 hash 值相同,如果相同,接着判断 下标元素的 key 与我们要插入元素的 key一样,或者通过 equals 方法比较是一样了,则表示是同一个元素,则不用插入了,e 保存这个已经存在的元素。到这里也能发现,这其实就是 Map 底层不能有重复 key 的原因了。

那如果他们不相同的情况下,就会判断该下标 i 的位置值是不是红黑树的节点(到了一定条件哈希桶中的元素会采用红黑树来组织数据),如果是,则采用红黑树的方式进行插入元素,这里我们就不往里面看了。

最后都不满足的情况,也就是元素不相同,并且不是红黑树结构,则走后面的 else,首先这个 else 里面是个死循环,要想退出,必须满足两个条件,① 找到了可以插入的地方,② 在哈希桶中发现了相同的元素。

比较该数组索引 i 下标的下一个节点,如果为 null,则直接插入该节点,如果链表长度大于8,则可能需要树化,也就是转换成红黑树,如果找到了相同的 key,则不用插入直接跳出循环。

上面的 else 走完后,如果存在添加相同的元素的时候,e 则不为 null,只需要将待添加元素的 value 值赋值给原本存在元素的 value 值即可,也就是更新一下元素的 value 值。afterNodeAccess 方法不用管,是使用 LinkedHashMap 实现的一个操作,这里并没有使用。

最后部分:

这里有效元素个数自增,如果超过了数组长度,则重新判断是否扩容(两倍扩容)。 afterNodeInsertion 也不用管,LinkedHashMap中的,这里也没有实际用途。

总结:HashMap 的 put 方法,是根据 key 的 hashCode 来计算 hash 值的,即我们要在自定义类型中重写 HashCode 方法,再者,是根据 equals 来判断 key 是否相同,也表示着我们同时需要去重写 equals 方法。

3.3 哈希表下的链表,何时会树化?

在上述讲解 put 方法的时候,发现插入元素的时候,数组索引位置的链表不止一个元素的时候会判断是否要转换成红黑树,那么具体要达到什么条件才能转换成红黑树呢?我们直接看上述的 treeifyBin 方法即可。

树化的前提是,链表的长度大于等于 8,就会树化,因为是从 binCount 是从 0 开始的,所以 TREEIFY_THRESHOLD - 1。那么链表的长度大于等于 8,一定会从链表变成红黑树吗?我们往后看:

第一个 if 当哈希表为空,或者表(数组)的长度小于64,只进行扩容即可,不会转换成树,当哈希表的长度大于 64,才有可能转换成红黑树。

所以我们最终得出,HashMap 中哈希表下的链表,当链表长度大于等于 8,并且哈希表的长度大于等于 64 则会将此链表转换成红黑树。 


4、相关面试题

4.1 链表转换成红黑树如何比较?

前面我们学过 TreeMap TreeSet 底层就是红黑树,里面的元素必须是可比较的,那哈希表下的链表转换成红黑树之后,没有重写 compareTo 怎么办呢?这里会按照 key 的哈希值来进行比较,所以就算转换成红黑树后,也不会关于 key 有序,再者可能只是哈希表其中一个索引位置下的结构是红黑树,其他的仍然可能是链表。

4.2 hashCode 和 equals 的区别

hashCode 是虚拟出对象的地址,底层是 native 封装的,即 C/C++实现的,而 equals 则是比较两个对象是否相同。

当我们重写 hashCode 的时候,是调用 Objects 里面的 hash 方法:

@Overridepublic int hashCode() {    return Objects.hash(name, age);}

举个例子,person1 和 person2 两个对象的 hashCode 完全不一样,但通过 hash 函数得到的 hash 值是相同的!而 hashCode 也是通过 hash 出来的,即对象的 hashCode 可以称为 hash 值,所以得出,两个对象的 hashCode 相同,但是这两个对象不一定相同。

对于 persong1.equals(person2) 的值为 true 的情况,则代表这两个对象里面的值都是一样的,所以 equals 为 ture,两个一模一样的对象,最终的 hash 值肯定也是一样的,并且 HashMap 也是调用 key 中的 equals() 方式来进行判断是否有重复的 key 值。

@Overridepublic boolean equals(Object o) {    if (this == o) return true;    if (o == null || getClass() != o.getClass()) return false;    Person person = (Person) o;    return age == person.age &&            Objects.equals(name, person.name);}

总结:

两个对象的 HashCode 相同,不代表这两个对象完全相同。

两个对象的 equals 的结果为 true,则代表这两个对象完全相同。

4.3 以下代码分配的内存是多少?

public static void main(String[] args) {    Map map = new HashMap<>(25);}

如果你天真的回答是 25 个数组元素大小,那就错了,我们点进去构造方法,发现是调用另一个构造方法,在接着点进去,看到最后一行代码即 tableSizeFor 方法:

这里就没必要慢慢算了,实际就是给你找到一个离 cap 最近的 2 的 n 次方数,取值范围得大于等于 cap,例如上述 25 则实际开辟的就是 1  2  4  8  16  32  64....,那么上述代码实际开辟的大小就是 32 个数组空间大小。


5、性能分析

虽然哈希表一直在和冲突做斗争,但在实际使用过程中,我们认为哈希表的冲突率是不高的,冲突个数是可控的, 也就是每个桶中的链表的长度是一个常数,所以,通常意义下,我们认为哈希表的插入/删除/查找时间复杂度是 O(1) 。 


下期预告:【Java 数据结构】模拟实现HashMap 

来源地址:https://blog.csdn.net/m0_61784621/article/details/128437356

--结束END--

本文标题: 【Java 数据结构】HashMap和HashSet

本文链接: https://www.lsjlt.com/news/428208.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 【Java 数据结构】HashMap和HashSet
    目录 1、认识 HashMap 和 HashSet 2、哈希表 2.1 什么是哈希表 2.2 哈希冲突 2.2.1 概念 2.2.2 设计合理哈希函数 - 避免冲突 2.2.3 调节负载因子 - 避免冲突 2.2.4 Java中解决哈希...
    99+
    2023-10-11
    数据结构 java HashMap HashSet
  • Java数据结构之HashMap和HashSet
    目录1、认识 HashMap 和 HashSet2、哈希表2.1 什么是哈希表2.2 哈希冲突2.2.1 概念2.2.2 设计合理哈希函数 - 避免冲突2.2.3 调节负载因子 - ...
    99+
    2023-03-24
    Java HashMap 的构造方法 设计哈希函数
  • Java数据结构之HashMap和HashSet源码分析
    本篇内容介绍了“Java数据结构之HashMap和HashSet源码分析”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!1、认识 HashMa...
    99+
    2023-07-05
  • Java数据结构之HashMap源码深入分析
    目录基本结构get方法put方法HashMap的容量为什么总是2的n次幂HashMap是Java集合框架中常用的一种数据结构,它是一种基于哈希表实现的映射表.在JDK1.8版本中,H...
    99+
    2023-05-17
    Java HashMap原理 Java HashMap Java HashMap源码
  • java中hashmap的底层数据结构与实现原理
    目录Hash结构HashMap实现原理为何HashMap的数组长度一定是2的次幂?重写equals方法需同时重写hashCode方法总结Hash结构 HashMap根据名称可知,其实...
    99+
    2024-04-02
  • Java数据结构
    java数据结构有: 1、数组                                2、列表  (List) 3、集合(Set)                   4、栈 (Stack)                     ...
    99+
    2023-09-02
    数据结构 java 开发语言
  • Java中HashSet和HashMap的区别_动力节点Java学院整理
    什么是HashSet?HashSet实现了Set接口,它不允许集合中有重复的值,当我们提到HashSet时,第一件事情就是在将对象存储在HashSet之前,要先确保对象重写equals()和hashCode()方法,这样才能比较对象的值是否...
    99+
    2023-05-31
    java hashset hashmap
  • JDK 1.8中HashMap数据结构的示例分析
    这篇文章给大家分享的是有关JDK 1.8中HashMap数据结构的示例分析的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。概述JDK 1.8对HashMap361天恒平台制作,进行了比较大的优化,底层实现由之前的“...
    99+
    2023-06-04
  • 【Java 数据结构】树和二叉树
    篮球哥温馨提示:编程的同时不要忘记锻炼哦! 一棵倒立过来的树.  目录 1、什么是树? 1.1 简单认识树  1.2 树的概念  1.3 树的表示形式 2、二叉树 2.1 二叉树的概念 2.2 特殊的二叉树...
    99+
    2023-09-17
    算法 数据结构
  • C语言实现通用数据结构之通用集合(HashSet)
    这是在通用链表的基础上实现的集合,关于链表的实现参见:C语言实现通用数据结构之通用链表 注意集合中只存储了指针,没有储存实际的数据。 对于新的数据类型来说,需要自定义HashCode...
    99+
    2024-04-02
  • Java数据结构知识总结
    本篇内容主要讲解“Java数据结构知识总结”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Java数据结构知识总结”吧!目录逻辑结构和物理结构顺序结构,链式结构,栈,队列,二叉树二叉树普通二叉树:...
    99+
    2023-06-20
  • 【Java 数据结构】TreeMap和TreeSet的介绍
    目录 1、认识 TreeMap 和 TreeSet 2、TreeMap 的主要成员变量 3、TreeMap 的主要构造方法 4、TreeMap 和 TreeSet 的元素必须可比较 5、TreeMap 和 TreeSet 关于 key...
    99+
    2023-09-04
    数据结构 TreeMap TreeSet
  • 【Java 数据结构】Map和Set的介绍
    目录 1、Map 和 Set 的概念 2、模型 3、Map 的学习 3.1 关于 Map.Entry 3.2 Map 的常用方法 4、Set 的常用方法  5、 Map 和 Set 的注意点 1、Map 和 Set 的概念 Java...
    99+
    2023-09-11
    数据结构
  • Java数据结构01——栈
    一、栈         1、栈的性质                 栈(stack)是限定仅在表尾进行插入或者删除的线性表。对于栈来说,表尾端称为栈顶(top),表头端称为栈低(bottom)。不含元素的空表称为空栈。因为栈限定在表尾进行...
    99+
    2023-09-20
    数据结构 java 开发语言
  • 数据结构——链表(java)
    文章目录 链表1. 基本介绍1.1 定义1.2 链表分类3.不带头非循环单链表CURD4.不带头非循环双向链表CURD 链表 1. 基本介绍 1.1 定义 链表是一种物理存储结构...
    99+
    2023-10-02
    数据结构 链表 java
  • Java数据结构学习之栈和队列
    目录一、栈1.1 概述1.1.1 线性表的概念1.1.2 栈的概念1.1.3 栈的应用二、队列2.1 队列的概念2.2 队列的实现2.3 队列的应用一、栈 1.1 概述 Java为什...
    99+
    2024-04-02
  • java数据结构有哪些
    java中的数据结构有:1.ArrayList,链表;2.LinkedList,线性表;3.HashMap,提供了key-value键值对数据存储机制;4.HashSet,不允许存在重复元素;java中的数据结构有以下几种ArrayList...
    99+
    2024-04-02
  • 疯狂数据结构-栈-Java
    概念 基本概念解读 当谈到 "栈" 时,它是一种遵循后进先出(Last In, First Out,LIFO)原则的有序集合。这意味着最后入栈的元素首先被弹出,而最早入栈的元素最后被弹出。在栈中,只能对最上面的元素进行操作,其他元素都不可见...
    99+
    2023-08-16
    数据结构 java 开发语言
  • java数据结构ArrayList详解
    目录简介成员变量构造函数无参构造函数构造一个初始容量大小为initialCapacity的ArrayList使用指定Collection来构造ArrayList的构造函数主要操作方法...
    99+
    2024-04-02
  • 什么是Java数据结构
    这篇文章主要讲解了“什么是Java数据结构”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“什么是Java数据结构”吧! 应用场景-背包问题背包问题:有一个背包,容量为4磅,现有如下物...
    99+
    2023-06-15
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作