位置：文档库 > Java > HashMap 的底层实现原理是怎样的？（基于JDK 8）

HashMap 的底层实现原理是怎样的？（基于JDK 8）

珠落玉盘上传于 2021-03-29 15:22

《HashMap 的底层实现原理是怎样的？（基于JDK 8）》

HashMap 是 Java 集合框架中最重要的数据结构之一，它基于哈希表实现，提供了高效的键值对存储与检索能力。在 JDK 8 中，HashMap 的实现经历了重大优化，解决了早期版本中存在的哈希冲突性能问题，并引入了红黑树结构以提升极端情况下的查询效率。本文将从数据结构、哈希算法、扩容机制、线程安全性等维度，深入剖析 HashMap 在 JDK 8 中的底层实现原理。

一、HashMap 的核心数据结构

JDK 8 中的 HashMap 采用“数组 + 链表 + 红黑树”的复合结构。其顶层是一个 Node 类型的数组（称为哈希表或桶数组），每个数组元素称为一个桶（bucket）。当发生哈希冲突时，同一索引位置的多个键值对会以链表形式存储；若链表长度超过阈值（TREEIFY_THRESHOLD = 8），则转换为红黑树结构。

Node 是 HashMap 的基本单元，其定义如下：

```java
static class Node implements Map.Entry {
    final int hash;    // 键的哈希值
    final K key;       // 键对象
    V value;           // 值对象
    Node next;    // 链表中的下一个节点
}
```

这种设计的优势在于：

1. 数组提供 O(1) 时间复杂度的随机访问能力

2. 链表处理少量哈希冲突时保持简单性

3. 红黑树在冲突严重时将查询复杂度从 O(n) 降至 O(log n)

二、哈希函数与索引计算

HashMap 的核心在于将键对象均匀分布到数组中，这依赖于高效的哈希函数。JDK 8 的哈希计算分为两步：

1. 调用键对象的 hashCode() 方法获取初始哈希值

2. 通过扰动函数增强低位随机性

扰动函数的实现如下：

```java
static final int hash(Object key) {
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}
```

该函数将哈希值的高16位与低16位进行异或运算，目的是让高位信息参与索引计算，减少哈希冲突。例如，对于容量为16的数组，索引计算方式为：

```java
(n - 1) & hash  // n为数组长度
```

这种位运算比取模运算更高效，且当数组长度为2的幂次方时，能保证索引均匀分布。

三、put 操作流程解析

当调用 put(K key, V value) 方法时，HashMap 执行以下步骤：

1. 哈希计算：通过 hash(key) 方法计算键的哈希值

2. 索引定位：根据哈希值和数组长度确定桶位置

3. 空桶处理：若目标位置为 null，直接创建新节点插入

4. 键存在处理：若发现相同 key 的节点，更新其 value 并返回旧值

5. 链表遍历：若 key 不存在且存在链表，遍历链表查找

6. 树化检查：若链表长度超过阈值（8），转换为红黑树

7. 扩容判断：若节点数超过容量*负载因子（默认0.75），触发扩容

关键代码片段：

```java
final V putVal(int hash, K key, V value, boolean onlyIfAbsent, boolean evict) {
    Node[] tab; Node p; int n, i;
    // 延迟初始化数组
    if ((tab = table) == null || (n = tab.length) == 0)
        n = (tab = resize()).length;
    // 计算索引位置
    if ((p = tab[i = (n - 1) & hash]) == null)
        tab[i] = newNode(hash, key, value, null);
    else {
        // 处理键存在或链表/树遍历
        // ...
    }
    ++modCount;
    if (++size > threshold)
        resize();
    return null;
}
```

四、get 操作与查询优化

get(Object key) 方法的执行流程：

1. 计算键的哈希值并定位桶位置

2. 若桶为空，返回 null

3. 遍历链表或红黑树查找匹配节点

4. 找到则返回值，否则返回 null

对于红黑树结构，HashMap 使用 TreeNode 类（继承自 Node）实现，其查找效率为 O(log n)。JDK 8 通过以下方式优化查询性能：

1. 树化阈值：链表长度 ≥ 8 时转为红黑树

2. 退化阈值：树节点数 ≤ 6 时转回链表（避免频繁树链转换）

3. 平衡性维护：红黑树保证最坏情况下查询时间

五、扩容机制与再哈希

当 HashMap 中的元素数量超过容量*负载因子时，会触发扩容（resize）。JDK 8 的扩容过程包含以下关键步骤：

1. 创建新数组：长度为原数组的2倍

2. 重新计算哈希：对于每个非空桶，重新计算节点在新数组中的位置

3. 分裂处理：根据哈希值的高位决定节点留在原索引或移动到新索引（oldCap）

扩容的核心优化在于“高位参与计算”策略。对于节点 n，其在新数组中的位置可能为：

• 原索引：hash & oldCap == 0

• 原索引 + oldCap：hash & oldCap != 0

这种设计使得扩容时无需重新计算所有节点的哈希值，只需检查哈希值的高位即可确定新位置，将扩容时间复杂度从 O(n) 优化至接近 O(n)。

六、线程安全性问题

HashMap 是非线程安全的，在多线程环境下可能引发以下问题：

1. 死循环：扩容时多个线程同时操作链表可能导致环形链表

2. 数据丢失：两个线程同时插入导致后写入覆盖前写入

3. 大小不准确：modCount 计数器竞争导致 size 错误

解决方案包括：

1. 使用 Collections.synchronizedMap 包装

2. 改用 ConcurrentHashMap（JDK 8 实现基于分段锁+CAS）

3. 外部同步控制（如 synchronized 块）

七、JDK 8 优化点总结

相比 JDK 7，JDK 8 的 HashMap 实现有以下显著改进：

1. 引入红黑树处理高频冲突，避免长链表性能退化

2. 优化哈希函数，增加扰动减少碰撞

3. 扩容时高位参与计算，提升再哈希效率

4. 延迟初始化数组，节约内存开销

5. 分离链表与树的阈值参数（TREEIFY_THRESHOLD/UNTREEIFY_THRESHOLD）

八、性能分析与调优建议

HashMap 的性能受以下因素影响：

1. 初始容量：过大浪费内存，过小频繁扩容

2. 负载因子：默认0.75是时间与空间的平衡点

3. 哈希函数质量：键对象需重写 hashCode() 和 equals()

4. 冲突频率：数据分布特性影响链表/树转换频率

调优建议：

• 预估数据量，设置合适初始容量（如 new HashMap(256)）

• 避免使用可变对象作为键

• 在高并发场景优先使用 ConcurrentHashMap

九、源码级扩容过程详解

以容量从16扩容到32为例，分析 resize() 方法的核心逻辑：

```java
final Node[] resize() {
    Node[] oldTab = table;
    int oldCap = (oldTab == null) ? 0 : oldTab.length;
    int newCap, newThr = 0;
    // 计算新容量和阈值
    if (oldCap > 0) {
        if (oldCap >= MAXIMUM_CAPACITY) {
            threshold = Integer.MAX_VALUE;
            return oldTab;
        }
        else if ((newCap = oldCap = DEFAULT_INITIAL_CAPACITY)
            newThr = oldThr [] newTab = (Node[])new Node[newCap];
    table = newTab;
    // 迁移节点
    if (oldTab != null) {
        for (int j = 0; j  e;
            if ((e = oldTab[j]) != null) {
                oldTab[j] = null;
                if (e.next == null)
                    newTab[e.hash & (newCap - 1)] = e;
                else if (e instanceof TreeNode)
                    ((TreeNode)e).split(this, newTab, j, oldCap);
                else { // 链表优化重排
                    Node loHead = null, loTail = null;
                    Node hiHead = null, hiTail = null;
                    Node next;
                    do {
                        next = e.next;
                        if ((e.hash & oldCap) == 0) {
                            if (loTail == null)
                                loHead = e;
                            else
                                loTail.next = e;
                            loTail = e;
                        }
                        else {
                            if (hiTail == null)
                                hiHead = e;
                            else
                                hiTail.next = e;
                            hiTail = e;
                        }
                    } while ((e = next) != null);
                    if (loTail != null) {
                        loTail.next = null;
                        newTab[j] = loHead;
                    }
                    if (hiTail != null) {
                        hiTail.next = null;
                        newTab[j + oldCap] = hiHead;
                    }
                }
            }
        }
    }
    return newTab;
}
```

关键优化点在于链表节点的分组迁移：通过判断 hash & oldCap 是否为0，将原链表拆分为两个子链表，分别放入新数组的原始位置和原始位置+oldCap 处。这种策略使得每个节点的迁移操作都是常数时间。

十、常见问题解答

Q1：为什么选择8作为树化阈值？

A：泊松分布概率统计显示，当链表长度达到8时，发生下一个冲突的概率已经极低（约0.00000006），此时树化能带来显著性能提升。

Q2：为什么树退化阈值是6而不是8？

A：避免在阈值附近频繁发生树链转换，6是一个经验值，能在空间和时间成本间取得平衡。

Q3：HashMap 的初始容量为什么是2的幂次方？

A：保证 (n-1)&hash 等价于取模运算，且位运算效率远高于除法；同时便于扩容时的高位计算。

关键词

JDK 8、HashMap、哈希表、红黑树、链表、扰动函数、扩容机制、线程安全、负载因子、树化阈值

简介

本文详细解析了JDK 8中HashMap的底层实现原理，涵盖数据结构、哈希计算、put/get操作流程、扩容机制、线程安全性等核心内容，重点分析了数组+链表+红黑树的复合结构、扰动函数优化、扩容时的节点迁移策略等关键实现细节，并提供了性能调优建议和常见问题解答。

《HashMap 的底层实现原理是怎样的？（基于JDK 8）.doc》

将本文的Word文档下载到电脑，方便收藏和打印

推荐度：

点击下载文档

立即下载