Update heap

2 years ago · 5ab3513b5a
parent bbd915d706
commit 5ab3513b5a
2 changed files with 174 additions and 145 deletions
--- a/codes/java/chapter_heap/my_heap.java
+++ b/codes/java/chapter_heap/my_heap.java
@ -108,7 +108,7 @@ class MaxHeap {
    /* 从结点 i 开始，从顶至底堆化 */
    private void siftDown(int i) {
        while (true) {
-            // 判断结点 i, l, r 中值最大的结点，记为 ma ；
+            // 判断结点 i, l, r 中值最大的结点，记为 ma
            int l = left(i), r = right(i), ma = i;
            if (l < size() && maxHeap.get(l) > maxHeap.get(ma))
                ma = l;
--- a/docs/chapter_heap/heap.md
+++ b/docs/chapter_heap/heap.md
@ -1,21 +1,29 @@
 ---
 comments: true
 ---
 # 堆
-「堆 Heap」是一种特殊的树状数据结构，并且是一颗「完全二叉树」。堆主要分为两种：
+「堆 Heap」是一颗限定条件下的「完全二叉树」。根据成立条件，堆主要分为两种类型：
 - 「大顶堆 Max Heap」，任意结点的值 $\geq$ 其子结点的值；
 - 「小顶堆 Min Heap」，任意结点的值 $\leq$ 其子结点的值；
- 「大顶堆 Max Heap」，任意结点的值 $\geq$ 其子结点的值，因此根结点的值最大；
+由于堆是完全二叉树，因此最底层结点靠左填充，其它层结点皆被填满。
- 「小顶堆 Min Heap」，任意结点的值 $\leq$ 其子结点的值，因此根结点的值最小；
+
 对于大顶堆（小顶堆），其根结点的值最大（最小）。根结点被称为「堆顶」。
 （图）
-!!! tip ""
+!!! tip
-    大顶堆和小顶堆的定义、性质、操作本质上是相同的，区别只是大顶堆在求最大值，小顶堆在求最小值。
+    大顶堆和小顶堆的定义、性质、操作本质上是相同的，区别只是大、小顶堆分别在求最大、最小值。若无特别说明，本文将使用大顶堆来举例。
 ## 堆常用操作
 值得说明的是，多数编程语言提供的是「优先队列 Priority Queue」，其是一种抽象数据结构，**定义为具有出队优先级的队列**。
-而恰好，堆的定义与优先队列的操作逻辑完全吻合，大顶堆就是一个元素从大到小出队的优先队列。从使用角度看，我们可以将「优先队列」和「堆」理解为等价的数据结构。因此，本文与代码对两者不做特别区分，统一使用「堆」来命名。
+而恰好，**堆的定义与优先队列的操作逻辑完全吻合**，大顶堆就是一个元素从大到小出队的优先队列。从使用角度看，我们可以将「优先队列」和「堆」理解为等价的数据结构。因此，本文与代码对两者不做特别区分，统一使用「堆」来命名。
 堆的常用操作见下表（方法命名以 Java 为例）。
@ -35,36 +43,37 @@
 我们可以直接使用编程语言提供的堆类（或优先队列类）。
-```java
+=== "Java"
-/* 初始化堆 */
+
-// 初始化小顶堆
+    ```java title="heap.java"
-Queue<Integer> minHeap = new PriorityQueue<>();
+    /* 初始化堆 */
-// 初始化大顶堆（使用 lambda 表达式修改 Comparator 即可）
+    // 初始化小顶堆
-Queue<Integer> maxHeap = new PriorityQueue<>((a, b) -> { return b - a; });
+    Queue<Integer> minHeap = new PriorityQueue<>();
-
+    // 初始化大顶堆（使用 lambda 表达式修改 Comparator 即可）
-/* 元素入堆 */
+    Queue<Integer> maxHeap = new PriorityQueue<>((a, b) -> { return b - a; });
-maxHeap.add(1);
+    
-maxHeap.add(3);
+    /* 元素入堆 */
-maxHeap.add(2);
+    maxHeap.add(1);
-maxHeap.add(5);
+    maxHeap.add(3);
-maxHeap.add(4);
+    maxHeap.add(2);
-
+    maxHeap.add(5);
-/* 获取堆顶元素 */
+    maxHeap.add(4);
-int peek = maxHeap.peek();
+    
-
+    /* 获取堆顶元素 */
-/* 堆顶元素出堆 */
+    int peek = maxHeap.peek();
-int val = heap.poll();
+    
-
+    /* 堆顶元素出堆 */
-/* 获取堆大小 */
+    int val = heap.poll();
-int size = maxHeap.size();
+    
-
+    /* 获取堆大小 */
-/* 判断堆是否为空 */
+    int size = maxHeap.size();
-boolean isEmpty = maxHeap.isEmpty();
+    
-
+    /* 判断堆是否为空 */
-/* 输入列表并建堆 */
+    boolean isEmpty = maxHeap.isEmpty();
-// 时间复杂度为 O(n) ，而非 O(nlogn)
+    
-minHeap = new PriorityQueue<>(Arrays.asList(1, 3, 2, 5, 4));
+    /* 输入列表并建堆 */
-```
+    minHeap = new PriorityQueue<>(Arrays.asList(1, 3, 2, 5, 4));
    ```
 ## 堆的实现
@ -76,151 +85,165 @@ minHeap = new PriorityQueue<>(Arrays.asList(1, 3, 2, 5, 4));
 在二叉树章节我们学过，「完全二叉树」非常适合使用「数组」来表示，而堆恰好是一颗完全二叉树，因而我们一般使用「数组」来存储「堆」。
-**二叉树指针**。使用数组表示二叉树时，数组元素都代表结点值，索引代表结点在二叉树中的位置，**结点指针通过索引映射公式来实现**。具体地，给定索引 $i$ ，那么其左子结点索引为 $2i + 1$ 、右子结点索引为 $2i + 2$ 、父结点索引为 $(i - 1) / 2$ （向下整除）。当索引越界时，代表空结点或结点不存在。我们将以上映射公式封装成函数，以便使用。
+**二叉树指针**。使用数组表示二叉树时，元素代表结点值，索引代表结点在二叉树中的位置，**而结点指针通过索引映射公式来实现**。
 （图）
 ```java
 // 使用列表而非数组，这样无需考虑扩容问题
 List<Integer> maxHeap;
-/* 构造函数，建立空堆 */
+具体地，给定索引 $i$ ，那么其左子结点索引为 $2i + 1$ 、右子结点索引为 $2i + 2$ 、父结点索引为 $(i - 1) / 2$ （向下整除）。当索引越界时，代表空结点或结点不存在。我们将以上映射公式封装成函数，以便后续使用。
 public MaxHeap() {
    maxHeap = new ArrayList<>();
 }
-/* 获取左子结点索引 */
+（图）
 int left(int i) {
    return 2 * i + 1;
 }
-/* 获取右子结点索引 */
+=== "Java"
 int right(int i) {
    return 2 * i + 2;
 }
-/* 获取父结点索引 */
+    ```java title="my_heap.java"
-int parent(int i) {
+    // 使用列表而非数组，这样无需考虑扩容问题
-    return (i - 1) / 2; // 向下整除
+    List<Integer> maxHeap;
-}
+    
-```
+    /* 构造函数，建立空堆 */
    public MaxHeap() {
        maxHeap = new ArrayList<>();
    }
    /* 获取左子结点索引 */
    int left(int i) {
        return 2 * i + 1;
    }
    /* 获取右子结点索引 */
    int right(int i) {
        return 2 * i + 2;
    }
    /* 获取父结点索引 */
    int parent(int i) {
        return (i - 1) / 2; // 向下整除
    }
    ```
 ### 访问堆顶元素
 堆顶元素是二叉树的根结点，即列表首元素。
-```java
+=== "Java"
-/* 访问堆顶元素 */
+
-public int peek() {
+    ```java title="my_heap.java"
-    return maxHeap.get(0);
+    /* 访问堆顶元素 */
-}
+    public int peek() {
-```
+        return maxHeap.get(0);
    }
    ```
 ### 元素入堆
-给定元素 `val` ，我们先将其添加到堆的末尾。由于 `val` 可能大于其它元素，此时堆的性质可能被破坏了，我们需要修复从插入结点到根结点这条路径上的各个结点，该操作被称为「堆化 Heapify」。
+给定元素 `val` ，我们先将其添加到堆的末尾。由于 `val` 可能大于堆中其它元素，此时堆的成立条件可能已经被破坏，**因此需要修复从插入结点到根结点这条路径上的各个结点**，该操作被称为「堆化 Heapify」。
 考虑从入堆结点开始，**从底至顶执行堆化**。具体地，比较插入结点与其父结点的值，若插入结点更大则将它们交换；并循环以上操作，从底至顶地修复堆中的各个结点；直至越过根结点时结束，或当遇到无需交换的结点时提前结束。
-设堆长度为 $n$ ，**元素入堆操作的时间复杂度为 $O(\log n)$** 。这是因为树的高度为 $O(\log n)$ ，因此堆化操作的循环轮数最多为 $O(\log n)$ 。
+设结点总数为 $n$ ，则树的高度为 $O(\log n)$ ，易得堆化操作的循环轮数最多为 $O(\log n)$ ，**因而元素入堆操作的时间复杂度为 $O(\log n)$** 。
 （图）
-```java
+=== "Java"
-/* 元素入堆 */
+
-void push(int val) {
+    ```java title="my_heap.java"
-    // 添加结点
+    /* 元素入堆 */
-    maxHeap.add(val);
+    void push(int val) {
-    // 从底至顶堆化
+        // 添加结点
-    siftUp(size() - 1);
+        maxHeap.add(val);
-}
+        // 从底至顶堆化
-
+        siftUp(size() - 1);
-/* 从结点 i 开始，从底至顶堆化 */
+    }
-void siftUp(int i) {
+    
-    while (true) {
+    /* 从结点 i 开始，从底至顶堆化 */
-        // 获取结点 i 的父结点
+    void siftUp(int i) {
-        int p = parent(i);
+        while (true) {
-        // 若“越过根结点”或“结点无需修复”，则结束堆化
+            // 获取结点 i 的父结点
-        if (p < 0 || maxHeap.get(i) <= maxHeap.get(p))
+            int p = parent(i);
-            break;
+            // 若“越过根结点”或“结点无需修复”，则结束堆化
-        // 交换两结点
+            if (p < 0 || maxHeap.get(i) <= maxHeap.get(p))
-        swap(i, p);
+                break;
-        // 循环向上堆化
+            // 交换两结点
-        i = p;
+            swap(i, p);
            // 循环向上堆化
            i = p;
        }
    }
-}
+    ```
 ```
 ### 堆顶元素出堆
-堆顶元素是二叉树根结点，即列表首元素，如果我们直接将首元素从列表中删除，则二叉树中所有结点都产生移位，这样后续使用堆化修复就很麻烦了。为了尽量减少二叉树结点变动，采取以下操作步骤：
+堆顶元素是二叉树根结点，即列表首元素，如果我们直接将首元素从列表中删除，则二叉树中所有结点都会随之发生移位（索引发生变化），这样后续使用堆化修复就很麻烦了。为了尽量减少元素索引变动，采取以下操作步骤：
 1. 交换列表首元素与尾元素（即交换根结点与最右叶结点）；
-2. 将尾元素从列表中删除（此时堆顶元素已被删除）；
+2. 交换完成后，将尾元素从列表中删除（此时堆顶元素已被删除）；
 3. 从根结点开始，从顶至底堆化；
 顾名思义，**从顶至底堆化的操作方向与从底至顶堆化相反**，我们比较根结点的值与其两个子结点的值，将最大的子结点与根结点执行交换，并循环以上操作，直到越过叶结点时结束，或当遇到无需交换的结点时提前结束。
 （图）
-```java
+=== "Java"
-/* 元素出堆 */
+
-int poll() {
+    ```java title="my_heap.java"
-    // 判空处理
+    /* 元素出堆 */
-    if (isEmpty())
+    int poll() {
-        throw new EmptyStackException();
+        // 判空处理
-    // 交换根结点与最右叶结点（即交换首元素与尾元素）
+        if (isEmpty())
-    swap(0, size() - 1);
+            throw new EmptyStackException();
-    // 删除结点
+        // 交换根结点与最右叶结点（即交换首元素与尾元素）
-    int val = maxHeap.remove(size() - 1);
+        swap(0, size() - 1);
-    // 从顶至底堆化
+        // 删除结点
-    siftDown(0);
+        int val = maxHeap.remove(size() - 1);
-    // 返回堆顶元素
+        // 从顶至底堆化
-    return val;
+        siftDown(0);
-}
+        // 返回堆顶元素
-
+        return val;
 /* 从结点 i 开始，从顶至底堆化 */
 void siftDown(int i) {
    while (true) {
        // 判断结点 i, l, r 中值最大的结点，记为 ma ；
        int l = left(i), r = right(i), ma = i;
        if (l < size() && maxHeap.get(l) > maxHeap.get(ma))
            ma = l;
        if (r < size() && maxHeap.get(r) > maxHeap.get(ma))
            ma = r;
        // 若“结点 i 最大”或“越过叶结点”，则结束堆化
        if (ma == i) break;
        // 交换两结点
        swap(i, ma);
        // 循环向下堆化
        i = ma;
    }
-}
+    
-```
+    /* 从结点 i 开始，从顶至底堆化 */
    void siftDown(int i) {
        while (true) {
            // 判断结点 i, l, r 中值最大的结点，记为 ma
            int l = left(i), r = right(i), ma = i;
            if (l < size() && maxHeap.get(l) > maxHeap.get(ma))
                ma = l;
            if (r < size() && maxHeap.get(r) > maxHeap.get(ma))
                ma = r;
            // 若“结点 i 最大”或“越过叶结点”，则结束堆化
            if (ma == i) break;
            // 交换两结点
            swap(i, ma);
            // 循环向下堆化
            i = ma;
        }
    }
    ```
 ### 输入数据并建堆 *
-给定一个列表，我们也可以将其建堆。最直接地，可以通过调用「元素入堆」方法，将列表元素依次入堆。元素入堆的时间复杂度为 $O(n)$ ，而平均长度为 $\frac{n}{2}$ ，因此该方法的总体时间复杂度为 $O(n \log n)$ 。
+如果我们想要直接输入一个列表并将其建堆，那么该怎么做呢？最直接地，考虑使用「元素入堆」方法，将列表元素依次入堆。元素入堆的时间复杂度为 $O(n)$ ，而平均长度为 $\frac{n}{2}$ ，因此该方法的总体时间复杂度为 $O(n \log n)$ 。
 然而，存在一种更加优雅的建堆方法。设结点数量为 $n$ ，我们先将列表所有元素原封不动添加进堆，**然后迭代地对各个结点执行「从顶至底堆化」**。当然，**无需对叶结点执行堆化**，因为其没有子结点。
-然而，存在一种更加优雅的建堆方法。设结点数量为 $n$ ，我们先将列表所有元素原封不动添加进堆，**然后迭代地对各个结点执行「从顶至底堆化」**。当然，**无需对叶结点执行堆化，**因为其没有子结点。
+=== "Java"
-```java
+    ```java title="my_heap.java"
-/* 构造函数，根据输入列表建堆 */
+    /* 构造函数，根据输入列表建堆 */
-public MaxHeap(List<Integer> nums) {
+    public MaxHeap(List<Integer> nums) {
-    // 将列表元素原封不动添加进堆
+        // 将列表元素原封不动添加进堆
-    maxHeap = new ArrayList<>(nums);
+        maxHeap = new ArrayList<>(nums);
-    // 堆化除叶结点以外的其他所有结点
+        // 堆化除叶结点以外的其他所有结点
-    for (int i = parent(size() - 1); i >= 0; i--) {
+        for (int i = parent(size() - 1); i >= 0; i--) {
-        siftDown(i);
+            siftDown(i);
        }
    }
-}
+    ```
 ```
 !!! tip
-    完全二叉树的叶结点数量为 $(n + 1) / 2$ ，其中 $/$ 为向下整除。
+    完全二叉树中，设结点总数为 $n$ ，则叶结点数量为 $(n + 1) / 2$ ，其中 $/$ 为向下整除。
-那么，第二种建堆方法的时间复杂度时多少呢？我们来做一下简单推算。叶结点和需要堆化结点的数量各占约一半，即为 $O(n)$ ，二叉树高度为 $O(\log n)$ ，可得时间复杂度为 $O(n \log n)$ 。该估算结果仍不够准确，因为我们没有考虑到二叉树“底层结点远多于顶层结点”的性质。
+那么，第二种建堆方法的时间复杂度时多少呢？我们来做一下简单推算。排除叶结点后，需要堆化结点数量为 $(n - 1)/2$ ，即为 $O(n)$ ，而二叉树高度为 $O(\log n)$ ，因此可得时间复杂度为 $O(n \log n)$ 。
 然而，该估算结果仍不够准确，因为我们没有考虑到 **二叉树底层结点远多于顶层结点** 的特点。下面我们来换种方法推导。
 设二叉树（即堆）结点数量为 $n$ ，树高度为 $h$ 。如下图所示，我们将各层的“结点数量 $\times$ 子树高度”进行求和，即可得到准确的操作数量。
@ -231,24 +254,30 @@ $$
 （图）
 求解上式需要借助中学的数列知识，先对 $S$ 乘以 $2$ ，可得
 $$
 \begin{aligned}
-S & = 2^0h + 2^1(h-1) + 2^2(h-2) + \cdots + 2^{h-1}\times1 \\
+S & = 2^0h + 2^1(h-1) + 2^2(h-2) + \cdots + 2^{h-1}\times1 \newline
-2S & = 2^1h + 2^2(h-1) + 2^3(h-2) + \cdots + 2^{h}\times1 \\
+2S & = 2^1h + 2^2(h-1) + 2^3(h-2) + \cdots + 2^{h}\times1 \newline
 \end{aligned}
 $$
 令下式 $2S$ 与上式 $S$ 错位相减，易得
 $$
 2S - S = S = -2^0h + 2^1 + 2^2 + \cdots + 2^{h-1} + 2^h
 $$
 观察发现，$S$ 是一个等比数列，可直接借助公式求和。并且，对于高度为 $h$ 的完全二叉树，结点数量范围为 $n \in [2^h, 2^{h+1} - 1]$ ，复杂度为 $n = O(n) = O(2^h)$。
 $$
 \begin{aligned}
-S & = 2 \frac{1 - 2^h}{1 - 2} - h \\
+S & = 2 \frac{1 - 2^h}{1 - 2} - h \newline
-& = 2^{h+1} - h \\
+& = 2^{h+1} - h \newline
 & = O(2^h) = O(n)
 \end{aligned}
 $$
 以上推算表明，输入列表并建堆的时间复杂度为 $O(n)$ ，非常高效。
 ## 堆常见应用