Update heap.

2 years ago · 3abcefae99
parent 5ab3513b5a
commit 3abcefae99
24 changed files with 112 additions and 61 deletions
--- a/codes/java/chapter_hashing/array_hash_map.java
+++ b/codes/java/chapter_hashing/array_hash_map.java
@ -5,6 +5,7 @@
 */

 package chapter_hashing;
+
 import java.util.*;

 /* 键值对 int->String */
--- a/codes/java/chapter_hashing/hash_map.java
+++ b/codes/java/chapter_hashing/hash_map.java
@ -5,6 +5,7 @@
 */

 package chapter_hashing;
+
 import java.util.*;
 import include.*;

--- a/codes/java/chapter_heap/heap.java
+++ b/codes/java/chapter_heap/heap.java
@ -13,13 +13,13 @@ import java.util.*;
 public class heap {
    public static void testPush(Queue<Integer> heap, int val) {
        heap.add(val); // 元素入堆
-        System.out.format("\n添加元素 %d 后\n", val);
+        System.out.format("\n元素 %d 入堆后\n", val);
        PrintUtil.printHeap(heap);
    }

    public static void testPoll(Queue<Integer> heap) {
        int val = heap.poll(); // 堆顶元素出堆
-        System.out.format("\n出堆元素为 %d\n", val);
+        System.out.format("\n堆顶元素 %d 出堆后\n", val);
        PrintUtil.printHeap(heap);
    }

@ -46,6 +46,9 @@ public class heap {
        /* 堆顶元素出堆 */
        testPoll(maxHeap);
        testPoll(maxHeap);
+        testPoll(maxHeap);
+        testPoll(maxHeap);
+        testPoll(maxHeap);

        /* 获取堆大小 */
        int size = maxHeap.size();
@ -58,7 +61,7 @@ public class heap {
        /* 输入列表并建堆 */
        // 时间复杂度为 O(n) ，而非 O(nlogn)
        minHeap = new PriorityQueue<>(Arrays.asList(1, 3, 2, 5, 4));
-        System.out.println("\n输入 [1, 3, 2, 5, 4] ，建立小顶堆");
+        System.out.println("\n输入列表并建立小顶堆后");
        PrintUtil.printHeap(minHeap);
    }
 }
--- a/codes/java/chapter_heap/my_heap.java
+++ b/codes/java/chapter_heap/my_heap.java
@ -146,26 +146,25 @@ public class my_heap {
    }

    public static void main(String[] args) {
-        /* 初始化堆 */
-        // 初始化大顶堆
-        MaxHeap maxHeap = new MaxHeap();
-
-        System.out.println("\n以下测试样例为大顶堆");
-
-        /* 元素入堆 */
-        testPush(maxHeap, 1);
-        testPush(maxHeap, 3);
-        testPush(maxHeap, 2);
-        testPush(maxHeap, 5);
-        testPush(maxHeap, 4);
+        /* 初始化大顶堆 */
+        MaxHeap maxHeap = new MaxHeap(Arrays.asList(9, 8, 6, 6, 7, 5, 2, 1, 4, 3, 6, 2));
+        System.out.println("\n输入列表并建堆后");
+        maxHeap.print();

        /* 获取堆顶元素 */
        int peek = maxHeap.peek();
        System.out.format("\n堆顶元素为 %d\n", peek);

+        /* 元素入堆 */
+        int val = 7;
+        maxHeap.push(val);
+        System.out.format("\n元素 %d 入堆后\n", val);
+        maxHeap.print();
+
        /* 堆顶元素出堆 */
-        testPoll(maxHeap);
-        testPoll(maxHeap);
+        peek = maxHeap.poll();
+        System.out.format("\n堆顶元素 %d 出堆后\n", peek);
+        maxHeap.print();

        /* 获取堆大小 */
        int size = maxHeap.size();
@ -174,10 +173,5 @@ public class my_heap {
        /* 判断堆是否为空 */
        boolean isEmpty = maxHeap.isEmpty();
        System.out.format("\n堆是否为空 %b\n", isEmpty);
-
-        /* 将输入列表堆化 */
-        maxHeap = new MaxHeap(Arrays.asList(1, 3, 2, 5, 4));
-        System.out.println("\n输入 [1, 3, 2, 5, 4] ，建立大顶堆");
-        maxHeap.print();
    }
 }
--- a/docs/chapter_heap/heap.assets/heap_poll_step1.png
+++ b/docs/chapter_heap/heap.assets/heap_poll_step1.png
--- a/docs/chapter_heap/heap.assets/heap_poll_step10.png
+++ b/docs/chapter_heap/heap.assets/heap_poll_step10.png
--- a/docs/chapter_heap/heap.assets/heap_poll_step2.png
+++ b/docs/chapter_heap/heap.assets/heap_poll_step2.png
--- a/docs/chapter_heap/heap.assets/heap_poll_step3.png
+++ b/docs/chapter_heap/heap.assets/heap_poll_step3.png
--- a/docs/chapter_heap/heap.assets/heap_poll_step4.png
+++ b/docs/chapter_heap/heap.assets/heap_poll_step4.png
--- a/docs/chapter_heap/heap.assets/heap_poll_step5.png
+++ b/docs/chapter_heap/heap.assets/heap_poll_step5.png
--- a/docs/chapter_heap/heap.assets/heap_poll_step6.png
+++ b/docs/chapter_heap/heap.assets/heap_poll_step6.png
--- a/docs/chapter_heap/heap.assets/heap_poll_step7.png
+++ b/docs/chapter_heap/heap.assets/heap_poll_step7.png
--- a/docs/chapter_heap/heap.assets/heap_poll_step8.png
+++ b/docs/chapter_heap/heap.assets/heap_poll_step8.png
--- a/docs/chapter_heap/heap.assets/heap_poll_step9.png
+++ b/docs/chapter_heap/heap.assets/heap_poll_step9.png
--- a/docs/chapter_heap/heap.assets/heap_push_step1.png
+++ b/docs/chapter_heap/heap.assets/heap_push_step1.png
--- a/docs/chapter_heap/heap.assets/heap_push_step2.png
+++ b/docs/chapter_heap/heap.assets/heap_push_step2.png
--- a/docs/chapter_heap/heap.assets/heap_push_step3.png
+++ b/docs/chapter_heap/heap.assets/heap_push_step3.png
--- a/docs/chapter_heap/heap.assets/heap_push_step4.png
+++ b/docs/chapter_heap/heap.assets/heap_push_step4.png
--- a/docs/chapter_heap/heap.assets/heap_push_step5.png
+++ b/docs/chapter_heap/heap.assets/heap_push_step5.png
--- a/docs/chapter_heap/heap.assets/heap_push_step6.png
+++ b/docs/chapter_heap/heap.assets/heap_push_step6.png
--- a/docs/chapter_heap/heap.assets/heapify_count.png
+++ b/docs/chapter_heap/heap.assets/heapify_count.png
--- a/docs/chapter_heap/heap.assets/min_heap_and_max_heap.png
+++ b/docs/chapter_heap/heap.assets/min_heap_and_max_heap.png
--- a/docs/chapter_heap/heap.assets/representation_of_heap.png
+++ b/docs/chapter_heap/heap.assets/representation_of_heap.png
--- a/docs/chapter_heap/heap.md
+++ b/docs/chapter_heap/heap.md
@ -9,15 +9,13 @@ comments: true
 - 「大顶堆 Max Heap」，任意结点的值 $\geq$ 其子结点的值；
 - 「小顶堆 Min Heap」，任意结点的值 $\leq$ 其子结点的值；

-由于堆是完全二叉树，因此最底层结点靠左填充，其它层结点皆被填满。
+![min_heap_and_max_heap](heap.assets/min_heap_and_max_heap.png)

-对于大顶堆（小顶堆），其根结点的值最大（最小）。根结点被称为「堆顶」。
+## 堆术语与性质

-（图）
-
-!!! tip
-
-    大顶堆和小顶堆的定义、性质、操作本质上是相同的，区别只是大、小顶堆分别在求最大、最小值。若无特别说明，本文将使用大顶堆来举例。
+- 由于堆是完全二叉树，因此最底层结点靠左填充，其它层结点皆被填满。
+- 二叉树中的根结点对应「堆顶」，底层最靠右结点对应「堆底」。
+- 对于大顶堆 / 小顶堆，其堆顶元素（即根结点）的值最大 / 最小。

 ## 堆常用操作

@ -43,6 +41,10 @@ comments: true

 我们可以直接使用编程语言提供的堆类（或优先队列类）。

+!!! tip
+
+    类似于排序中“从小到大排列”和“从大到小排列”，“大顶堆”和“小顶堆”可仅通过修改 Comparator 来互相转换。
+
 === "Java"

    ```java title="heap.java"
@ -60,10 +62,15 @@ comments: true
    maxHeap.add(4);
    
    /* 获取堆顶元素 */
-    int peek = maxHeap.peek();
+    int peek = maxHeap.peek(); // 5
    
    /* 堆顶元素出堆 */
-    int val = heap.poll();
+    // 出堆元素会形成一个从大到小的序列
+    peek = heap.poll();  // 5
+    peek = heap.poll();  // 4
+    peek = heap.poll();  // 3
+    peek = heap.poll();  // 2
+    peek = heap.poll();  // 1
    
    /* 获取堆大小 */
    int size = maxHeap.size();
@ -77,19 +84,19 @@ comments: true

 ## 堆的实现

-!!! tip
-
-    下文使用「大顶堆」来举例，将所有 $>$ ($<$) 替换为 $<$ ($>$) 即可实现「小顶堆」。
+下文实现的是「大顶堆」，若想转换为「小顶堆」，将所有大小逻辑判断取逆（例如将 $\geq$ 替换为 $\leq$ ）即可，有兴趣的同学可自行实现。

 ### 堆的存储与表示

-在二叉树章节我们学过，「完全二叉树」非常适合使用「数组」来表示，而堆恰好是一颗完全二叉树，因而我们一般使用「数组」来存储「堆」。
+在二叉树章节我们学过，「完全二叉树」非常适合使用「数组」来表示，而堆恰好是一颗完全二叉树，**因而我们采用「数组」来存储「堆」**。

 **二叉树指针**。使用数组表示二叉树时，元素代表结点值，索引代表结点在二叉树中的位置，**而结点指针通过索引映射公式来实现**。

-具体地，给定索引 $i$ ，那么其左子结点索引为 $2i + 1$ 、右子结点索引为 $2i + 2$ 、父结点索引为 $(i - 1) / 2$ （向下整除）。当索引越界时，代表空结点或结点不存在。我们将以上映射公式封装成函数，以便后续使用。
+具体地，给定索引 $i$ ，那么其左子结点索引为 $2i + 1$ 、右子结点索引为 $2i + 2$ 、父结点索引为 $(i - 1) / 2$ （向下整除）。当索引越界时，代表空结点或结点不存在。
+
+![representation_of_heap](heap.assets/representation_of_heap.png)

-（图）
+我们将索引映射公式封装成函数，以便后续使用。

 === "Java"

@ -133,13 +140,29 @@ comments: true

 ### 元素入堆

-给定元素 `val` ，我们先将其添加到堆的末尾。由于 `val` 可能大于堆中其它元素，此时堆的成立条件可能已经被破坏，**因此需要修复从插入结点到根结点这条路径上的各个结点**，该操作被称为「堆化 Heapify」。
+给定元素 `val` ，我们先将其添加到堆底。添加后，由于 `val` 可能大于堆中其它元素，此时堆的成立条件可能已经被破坏，**因此需要修复从插入结点到根结点这条路径上的各个结点**，该操作被称为「堆化 Heapify」。

 考虑从入堆结点开始，**从底至顶执行堆化**。具体地，比较插入结点与其父结点的值，若插入结点更大则将它们交换；并循环以上操作，从底至顶地修复堆中的各个结点；直至越过根结点时结束，或当遇到无需交换的结点时提前结束。

-设结点总数为 $n$ ，则树的高度为 $O(\log n)$ ，易得堆化操作的循环轮数最多为 $O(\log n)$ ，**因而元素入堆操作的时间复杂度为 $O(\log n)$** 。
+=== "Step 1"
+    ![heap_push_step1](heap.assets/heap_push_step1.png)
+
+=== "Step 2"
+    ![heap_push_step2](heap.assets/heap_push_step2.png)
+
+=== "Step 3"
+    ![heap_push_step3](heap.assets/heap_push_step3.png)
+
+=== "Step 4"
+    ![heap_push_step4](heap.assets/heap_push_step4.png)
+
+=== "Step 5"
+    ![heap_push_step5](heap.assets/heap_push_step5.png)

-（图）
+=== "Step 6"
+    ![heap_push_step6](heap.assets/heap_push_step6.png)
+
+设结点总数为 $n$ ，则树的高度为 $O(\log n)$ ，易得堆化操作的循环轮数最多为 $O(\log n)$ ，**因而元素入堆操作的时间复杂度为 $O(\log n)$** 。

 === "Java"

@ -172,13 +195,43 @@ comments: true

 堆顶元素是二叉树根结点，即列表首元素，如果我们直接将首元素从列表中删除，则二叉树中所有结点都会随之发生移位（索引发生变化），这样后续使用堆化修复就很麻烦了。为了尽量减少元素索引变动，采取以下操作步骤：

-1. 交换列表首元素与尾元素（即交换根结点与最右叶结点）；
-2. 交换完成后，将尾元素从列表中删除（此时堆顶元素已被删除）；
-3. 从根结点开始，从顶至底堆化；
+1. 交换堆顶元素与堆底元素（即交换根结点与最右叶结点）；
+2. 交换完成后，将堆底从列表中删除（注意，因为已经交换，实际上删除的是原来的堆顶元素）；
+3. 从根结点开始，**从顶至底执行堆化**；

 顾名思义，**从顶至底堆化的操作方向与从底至顶堆化相反**，我们比较根结点的值与其两个子结点的值，将最大的子结点与根结点执行交换，并循环以上操作，直到越过叶结点时结束，或当遇到无需交换的结点时提前结束。

-（图）
+=== "Step 1"
+    ![heap_poll_step1](heap.assets/heap_poll_step1.png)
+
+=== "Step 2"
+    ![heap_poll_step2](heap.assets/heap_poll_step2.png)
+
+=== "Step 3"
+    ![heap_poll_step3](heap.assets/heap_poll_step3.png)
+
+=== "Step 4"
+    ![heap_poll_step4](heap.assets/heap_poll_step4.png)
+
+=== "Step 5"
+    ![heap_poll_step5](heap.assets/heap_poll_step5.png)
+
+=== "Step 6"
+    ![heap_poll_step6](heap.assets/heap_poll_step6.png)
+
+=== "Step 7"
+    ![heap_poll_step7](heap.assets/heap_poll_step7.png)
+
+=== "Step 8"
+    ![heap_poll_step8](heap.assets/heap_poll_step8.png)
+
+=== "Step 9"
+    ![heap_poll_step9](heap.assets/heap_poll_step9.png)
+
+=== "Step 10"
+    ![heap_poll_step10](heap.assets/heap_poll_step10.png)
+
+与元素入堆操作类似，**堆顶元素出堆操作的时间复杂度为 $O(\log n)$** 。

 === "Java"

@ -237,48 +290,47 @@ comments: true
    }
    ```

-!!! tip
-
-    完全二叉树中，设结点总数为 $n$ ，则叶结点数量为 $(n + 1) / 2$ ，其中 $/$ 为向下整除。
+那么，第二种建堆方法的时间复杂度时多少呢？我们来做一下简单推算。

-那么，第二种建堆方法的时间复杂度时多少呢？我们来做一下简单推算。排除叶结点后，需要堆化结点数量为 $(n - 1)/2$ ，即为 $O(n)$ ，而二叉树高度为 $O(\log n)$ ，因此可得时间复杂度为 $O(n \log n)$ 。
+- 完全二叉树中，设结点总数为 $n$ ，则叶结点数量为 $(n + 1) / 2$ ，其中 $/$ 为向下整除。因此在排除叶结点后，需要堆化结点数量为 $(n - 1)/2$ ，即为 $O(n)$ ；
+- 从顶至底堆化中，每个结点最多堆化至叶结点，因此最大迭代次数为二叉树高度 $O(\log n)$ ；

-然而，该估算结果仍不够准确，因为我们没有考虑到 **二叉树底层结点远多于顶层结点** 的特点。下面我们来换种方法推导。
+将上述两者相乘，可得时间复杂度为 $O(n \log n)$ 。然而，该估算结果仍不够准确，因为我们没有考虑到 **二叉树底层结点远多于顶层结点** 的性质。

-设二叉树（即堆）结点数量为 $n$ ，树高度为 $h$ 。如下图所示，我们将各层的“结点数量 $\times$ 子树高度”进行求和，即可得到准确的操作数量。
+下面我们来尝试展开计算。为了减小计算难度，我们假设树是一个「完美二叉树」，该假设不会影响计算结果的正确性。设二叉树（即堆）结点数量为 $n$ ，树高度为 $h$ 。上文提到，**结点堆化最大迭代次数等于该结点到叶结点的距离，而这正是“结点高度”**。因此，我们将各层的“结点数量 $\times$ 结点高度”求和，即可得到所有结点的堆化的迭代次数总和。

 $$
-S = 2^0h + 2^1(h-1) + 2^2(h-2) + \cdots + 2^{(h-1)}\times1
+T(h) = 2^0h + 2^1(h-1) + 2^2(h-2) + \cdots + 2^{(h-1)}\times1
 $$

-（图）
+![heapify_count](heap.assets/heapify_count.png)

-求解上式需要借助中学的数列知识，先对 $S$ 乘以 $2$ ，可得
+化简上式需要借助中学的数列知识，先对 $T(h)$ 乘以 $2$ ，易得

 $$
 \begin{aligned}
-S & = 2^0h + 2^1(h-1) + 2^2(h-2) + \cdots + 2^{h-1}\times1 \newline
-2S & = 2^1h + 2^2(h-1) + 2^3(h-2) + \cdots + 2^{h}\times1 \newline
+T(h) & = 2^0h + 2^1(h-1) + 2^2(h-2) + \cdots + 2^{h-1}\times1 \newline
+2 T(h) & = 2^1h + 2^2(h-1) + 2^3(h-2) + \cdots + 2^{h}\times1 \newline
 \end{aligned}
 $$

-令下式 $2S$ 与上式 $S$ 错位相减，易得
+**使用错位相减法**，令下式 $2 T(h)$ 减去上式 $T(h)$ ，可得

 $$
-2S - S = S = -2^0h + 2^1 + 2^2 + \cdots + 2^{h-1} + 2^h
+2T(h) - T(h) = T(h) = -2^0h + 2^1 + 2^2 + \cdots + 2^{h-1} + 2^h
 $$

-观察发现，$S$ 是一个等比数列，可直接借助公式求和。并且，对于高度为 $h$ 的完全二叉树，结点数量范围为 $n \in [2^h, 2^{h+1} - 1]$ ，复杂度为 $n = O(n) = O(2^h)$。
+观察上式，$T(h)$ 是一个等比数列，可直接使用求和公式，得到时间复杂度为

 $$
 \begin{aligned}
-S & = 2 \frac{1 - 2^h}{1 - 2} - h \newline
+T(h) & = 2 \frac{1 - 2^h}{1 - 2} - h \newline
 & = 2^{h+1} - h \newline
-& = O(2^h) = O(n)
+& = O(2^h)
 \end{aligned}
 $$

-以上推算表明，输入列表并建堆的时间复杂度为 $O(n)$ ，非常高效。
+进一步地，高度为 $h$ 的完美二叉树的结点数量为 $n = 2^{h+1} - 1$ ，易得复杂度为 $O(2^h) = O(n)$。以上推算表明，**输入列表并建堆的时间复杂度为 $O(n)$ ，非常高效**。

 ## 堆常见应用