From 5a2a03416fd7696b5d289010c617e3e4016cefee Mon Sep 17 00:00:00 2001 From: krahets Date: Wed, 14 Jun 2023 03:58:39 +0800 Subject: [PATCH] Update the section of hash collision. --- docs/chapter_hashing/hash_collision.md | 21 ++++++++++----------- mkdocs.yml | 2 +- 2 files changed, 11 insertions(+), 12 deletions(-) diff --git a/docs/chapter_hashing/hash_collision.md b/docs/chapter_hashing/hash_collision.md index e4546a293..6963b113e 100644 --- a/docs/chapter_hashing/hash_collision.md +++ b/docs/chapter_hashing/hash_collision.md @@ -1,12 +1,11 @@ # 哈希冲突 -在理想情况下,哈希函数应为每个输入生成唯一的输出,实现 key 和 value 的一一对应。然而实际上,向哈希函数输入不同的 key 却产生相同输出的情况是存在的,这种现象被称为「哈希冲突 Hash Collision」。哈希冲突可能导致查询结果错误,从而严重影响哈希表的可用性。 +在理想情况下,哈希函数为每个输入生成唯一的输出,实现 key 和数组索引的一一对应。但实际上,**哈希函数的输入空间通常远大于输出空间**,因此多个输入产生相同输出的情况是不可避免的。例如,输入空间为全体整数,输出空间为数组容量大小,则必然有多个整数映射至同一数组索引。 -那么,为何会出现哈希冲突呢?从本质上看,由于哈希函数的输入空间通常远大于输出空间,因此多个输入产生相同输出的情况是不可避免的。例如,若输入空间为全体整数,而输出空间为固定大小的数组,则必然有多个整数映射至同一数组索引。 +这种多个输入对应同一输出索引的现象被称为「哈希冲突 Hash Collision」。哈希冲突会导致查询结果错误,严重影响哈希表的可用性。哈希冲突的解决方法主要有两种: -为了减轻哈希冲突,一方面,**可以通过扩大哈希表容量来降低冲突概率**。极端情况下,当输入空间和输出空间大小相等时,哈希表等同于数组,每个 key 都对应唯一的数组索引,可谓“大力出奇迹”。 - -另一方面,**可以考虑优化哈希表的表示以缓解哈希冲突**,常用方法包括「链式地址 Separate Chaining」和「开放寻址 Open Addressing」。 +- **扩大哈希表容量**:哈希表容量越大,键值对聚集的概率就越低。极端情况下,当输入空间和输出空间大小相等时,哈希表等同于数组,每个 key 都对应唯一的数组索引。 +- **优化哈希表结构**:常用方法包括链式地址和开放寻址。 ## 哈希表扩容 @@ -14,11 +13,11 @@ 因此,**当哈希表内的冲突总体较为严重时,编程语言通常通过扩容哈希表来缓解冲突**。类似于数组扩容,哈希表扩容需将所有键值对从原哈希表迁移至新哈希表,开销较大。 -编程语言通常使用「负载因子 Load Factor」来衡量哈希冲突的严重程度,**定义为哈希表中元素数量除以桶数量**,常作为哈希表扩容的触发条件。在 Java 中,当负载因子超过 $ 0.75$ 时,系统会将 HashMap 容量扩展为原先的 $2$ 倍。 +编程语言通常使用「负载因子 Load Factor」来衡量哈希冲突的严重程度,**定义为哈希表中元素数量除以桶数量**,常作为哈希表扩容的触发条件。在 Java 中,当负载因子超过 $0.75$ 时,系统会将 HashMap 容量扩展为原先的 $2$ 倍。 ## 链式地址 -在原始哈希表中,每个桶仅能存储一个键值对。**链式地址将单个元素转换为链表,将键值对作为链表节点,将所有发生冲突的键值对都存储在同一链表中**。 +在原始哈希表中,每个桶仅能存储一个键值对。「链式地址 Separate Chaining」将单个元素转换为链表,将键值对作为链表节点,将所有发生冲突的键值对都存储在同一链表中。 ![链式地址哈希表](hash_collision.assets/hash_collision_chaining.png) @@ -132,7 +131,7 @@ ## 开放寻址 -开放寻址法不引入额外的数据结构,而是通过“多次探测”来解决哈希冲突,**探测方式主要包括线性探测、平方探测、多次哈希**。 +「开放寻址 Open Addressing」不引入额外的数据结构,而是通过“多次探测”来解决哈希冲突,探测方式主要包括线性探测、平方探测、多次哈希。 ### 线性探测 @@ -253,8 +252,8 @@ !!! note "编程语言的选择" - Java 采用「链式地址」。自 JDK 1.8 以来,当 HashMap 内数组长度达到 64 且链表长度达到 8 时,链表会被转换为红黑树以提升查找性能。 + Java 采用链式地址。自 JDK 1.8 以来,当 HashMap 内数组长度达到 64 且链表长度达到 8 时,链表会被转换为红黑树以提升查找性能。 - Python 采用「开放寻址」。字典 dict 使用伪随机数进行探测。 + Python 采用开放寻址。字典 dict 使用伪随机数进行探测。 - Golang 采用「链式地址」。Go 规定每个桶最多存储 8 个键值对,超出容量则连接一个溢出桶;当溢出桶过多时,会执行一次特殊的等量扩容操作,以确保性能。 + Golang 采用链式地址。Go 规定每个桶最多存储 8 个键值对,超出容量则连接一个溢出桶;当溢出桶过多时,会执行一次特殊的等量扩容操作,以确保性能。 diff --git a/mkdocs.yml b/mkdocs.yml index 02ef8eb31..c2932cf36 100644 --- a/mkdocs.yml +++ b/mkdocs.yml @@ -162,7 +162,7 @@ nav: - 6.     散列表: - chapter_hashing/index.md - 6.1.   哈希表: chapter_hashing/hash_map.md - - 6.2.   哈希冲突: chapter_hashing/hash_collision.md + - 6.2.   哈希冲突(New): chapter_hashing/hash_collision.md - 6.3.   小结: chapter_hashing/summary.md - 7.     树: - chapter_tree/index.md