Polish the sections of binary search.

2 years ago · 081b76d620
parent 24d90931e3
commit 081b76d620
5 changed files with 34 additions and 35 deletions
--- a/docs/chapter_searching/binary_search.md
+++ b/docs/chapter_searching/binary_search.md
@ -2,25 +2,21 @@
 「二分查找 Binary Search」是一种基于分治思想的高效搜索算法。它利用数据的有序性，每轮减少一半搜索范围，直至找到目标元素或搜索区间为空为止。
 我们先来求解一个简单的二分查找问题。
 !!! question
-    给定一个长度为 $n$ 的有序数组 `nums` ，元素按从小到大的顺序排列。请查找并返回元素 `target` 在该数组中的索引。若数组中不包含该元素，则返回 $-1$ 。数组中不包含重复元素。
+    给定一个长度为 $n$ 的数组 `nums` ，元素按从小到大的顺序排列，数组不包含重复元素。请查找并返回元素 `target` 在该数组中的索引。若数组不包含该元素，则返回 $-1$ 。
-该数组的索引范围可以使用区间 $[0, n - 1]$ 来表示。其中，**中括号表示“闭区间”，即包含边界值本身**。在该表示下，区间 $[i, j]$ 在 $i = j$ 时仍包含一个元素，在 $i > j$ 时为空区间。
+对于上述问题，我们先初始化指针 $i = 0$ 和 $j = n - 1$ ，分别指向数组首元素和尾元素，代表搜索区间 $[0, n - 1]$ 。其中，中括号表示“闭区间”，即包含边界值本身。
-接下来，我们基于上述区间定义实现二分查找。先初始化指针 $i = 0$ 和 $j = n - 1$ ，分别指向数组首元素和尾元素。之后循环执行以下两个步骤:
+接下来，循环执行以下两个步骤：
 1. 计算中点索引 $m = \lfloor {(i + j) / 2} \rfloor$ ，其中 $\lfloor \space \rfloor$ 表示向下取整操作。
-2. 根据 `nums[m]` 和 `target` 缩小搜索区间，分为三种情况：
+2. 判断 `nums[m]` 和 `target` 的大小关系，分为三种情况：
    1. 当 `nums[m] < target` 时，说明 `target` 在区间 $[m + 1, j]$ 中，因此执行 $i = m + 1$ ；
    2. 当 `nums[m] > target` 时，说明 `target` 在区间 $[i, m - 1]$ 中，因此执行 $j = m - 1$ ；
-    3. 当 `nums[m] = target` 时，说明找到目标元素，直接返回索引 $m$ 即可；
+    3. 当 `nums[m] = target` 时，说明找到 `target` ，因此返回索引 $m$ ；
 **若数组不包含目标元素，搜索区间最终会缩小为空**，即达到 $i > j$ 。此时，终止循环并返回 $-1$ 即可。
-如下图所示，为了更清晰地表示区间，我们以折线图的形式表示数组。
+若数组不包含目标元素，搜索区间最终会缩小为空。此时返回 $-1$ 。
 === "<0>"
    ![二分查找步骤](binary_search.assets/binary_search_step0.png)
@ -46,7 +42,7 @@
 === "<7>"
    ![binary_search_step7](binary_search.assets/binary_search_step7.png)
-值得注意的是，**当数组长度 $n$ 很大时，加法 $i + j$ 的结果可能会超出 `int` 类型的取值范围**。为了避免大数越界，我们通常采用公式 $m = \lfloor {i + (j - i) / 2} \rfloor$ 来计算中点。
+值得注意的是，由于 $i$ 和 $j$ 都是 `int` 类型，**因此 $i + j$ 可能会超出 `int` 类型的取值范围**。为了避免大数越界，我们通常采用公式 $m = \lfloor {i + (j - i) / 2} \rfloor$ 来计算中点。
 === "Java"
@ -188,11 +184,11 @@
 二分查找在时间和空间方面都有较好的性能：
- **二分查找的时间效率高**。在大数据量下，对数阶的时间复杂度具有显著优势。例如，当数据大小 $n = 2^{20}$ 时，线性查找需要 $2^{20} = 1048576$ 轮循环，而二分查找仅需 $\log_2 2^{20} = 20$ 轮循环。
+- 二分查找的时间效率高。在大数据量下，对数阶的时间复杂度具有显著优势。例如，当数据大小 $n = 2^{20}$ 时，线性查找需要 $2^{20} = 1048576$ 轮循环，而二分查找仅需 $\log_2 2^{20} = 20$ 轮循环。
- **二分查找无需额外空间**。相较于需要借助额外空间的搜索算法（例如哈希查找），二分查找更加节省空间。
+- 二分查找无需额外空间。相较于需要借助额外空间的搜索算法（例如哈希查找），二分查找更加节省空间。
 然而，二分查找并非适用于所有情况，原因如下：
- **二分查找仅适用于有序数据**。若输入数据无序，为了使用二分查找而专门进行排序，得不偿失。因为排序算法的时间复杂度通常为 $O(n \log n)$ ，比线性查找和二分查找都更高。对于频繁插入元素的场景，为保持数组有序性，需要将元素插入到特定位置，时间复杂度为 $O(n)$ ，也是非常昂贵的。
+- 二分查找仅适用于有序数据。若输入数据无序，为了使用二分查找而专门进行排序，得不偿失。因为排序算法的时间复杂度通常为 $O(n \log n)$ ，比线性查找和二分查找都更高。对于频繁插入元素的场景，为保持数组有序性，需要将元素插入到特定位置，时间复杂度为 $O(n)$ ，也是非常昂贵的。
- **二分查找仅适用于数组**。二分查找需要跳跃式（非连续地）访问元素，而在链表中执行跳跃式访问的效率较低，因此不适合应用在链表或基于链表实现的数据结构。
+- 二分查找仅适用于数组。二分查找需要跳跃式（非连续地）访问元素，而在链表中执行跳跃式访问的效率较低，因此不适合应用在链表或基于链表实现的数据结构。
- **小数据量下，线性查找性能更佳**。在线性查找中，每轮只需要 1 次判断操作；而在二分查找中，需要 1 次加法、1 次除法、1 ~ 3 次判断操作、1 次加法（减法），共 4 ~ 6 个单元操作；因此，当数据量 $n$ 较小时，线性查找反而比二分查找更快。
+- 小数据量下，线性查找性能更佳。在线性查找中，每轮只需要 1 次判断操作；而在二分查找中，需要 1 次加法、1 次除法、1 ~ 3 次判断操作、1 次加法（减法），共 4 ~ 6 个单元操作；因此，当数据量 $n$ 较小时，线性查找反而比二分查找更快。
--- a/docs/chapter_searching/binary_search_edge.assets/binary_search_left_edge_naive.png
+++ b/docs/chapter_searching/binary_search_edge.assets/binary_search_left_edge_naive.png
--- a/docs/chapter_searching/binary_search_edge.assets/binary_search_left_edge_step1.png
+++ b/docs/chapter_searching/binary_search_edge.assets/binary_search_left_edge_step1.png
--- a/docs/chapter_searching/binary_search_edge.assets/binary_search_left_right_edge.png
+++ b/docs/chapter_searching/binary_search_edge.assets/binary_search_left_right_edge.png
--- a/docs/chapter_searching/binary_search_edge.md
+++ b/docs/chapter_searching/binary_search_edge.md
@ -2,28 +2,32 @@
 上一节规定目标元素在数组中是唯一的。如果目标元素在数组中多次出现，上节介绍的方法只能保证返回其中一个目标元素的索引，**而无法确定该索引的左边和右边还有多少目标元素**。
-为了查找最左一个 `target` ，我们可以先进行二分查找，找到任意一个目标元素，**再加一个向左遍历的线性查找**，找到最左的 `target` 返回即可。然而，由于加入了线性查找，这个方法的时间复杂度可能会劣化至 $O(n)$ 。
+!!! question
-![线性查找最左元素](binary_search_edge.assets/binary_search_left_edge_naive.png)
+    给定一个长度为 $n$ 的有序数组 `nums` ，数组可能包含重复元素。请查找并返回元素 `target` 在数组中首次出现的索引。若数组中不包含该元素，则返回 $-1$ 。
-## 查找最左一个元素
+## 简单方法
-!!! question
+为了查找数组中最左边的 `target` ，我们可以分为两步：
 1. 进行二分查找，定位到任意一个 `target` 的索引，记为 $k$ ；
 2. 以索引 $k$ 为起始点，向左进行线性遍历，找到最左边的 `target` 返回即可。
 ![线性查找最左边的元素](binary_search_edge.assets/binary_search_left_edge_naive.png)
-    给定一个长度为 $n$ 的有序数组 `nums` 。请查找并返回元素 `target` 在该数组中首次出现的索引。若数组中不包含该元素，则返回 $-1$ 。数组可能包含重复元素。
+这个方法虽然有效，但由于包含线性查找，**其时间复杂度可能会劣化至 $O(n)$** 。
-实际上，我们可以仅通过二分查找解决以上问题。方法的整体框架不变，先计算中点索引 `m` ，再判断 `target` 和 `nums[m]` 大小关系：
+## 二分方法
- 当 `nums[m] < target` 或 `nums[m] > target` 时，说明还没有找到 `target` ，因此采取与上节代码相同的缩小区间操作。
+实际上，我们可以仅通过二分查找解决以上问题。整体算法流程不变，先计算中点索引 $m$ ，再判断 `target` 和 `nums[m]` 大小关系：
 - 当 `nums[m] == target` 时，说明找到了一个目标元素，此时应该如何缩小区间？
-对于该情况，**我们可以将查找目标想象为 `leftarget`**，其中 `leftarget` 表示从右到左首个小于 `target` 的元素。具体来说：
+- 当 `nums[m] < target` 或 `nums[m] > target` 时，说明还没有找到 `target` ，因此采取与上节代码相同的缩小区间操作，**从而使指针 $i$ 和 $j$ 向 `target` 靠近**。
 - 当 `nums[m] == target` 时，说明“小于 `target` 的元素”在区间 $[i, m - 1]$ 中，因此采用 $j = m - 1$ 来缩小区间，**从而使指针 $j$ 向小于 `target` 的元素靠近**。
- 当 `nums[m] == target` 时，说明 `leftarget` 在区间 `[i, m - 1]` 中，因此采用 `j = m - 1` 来缩小区间，**从而使指针 `j` 向 `leftarget` 收缩靠近**。
+二分查找完成后，**$i$ 指向最左边的 `target` ，$j$ 指向首个小于 `target` 的元素**，因此返回索引 $i$ 即可。
 - 二分查找完成后，`i` 指向最左一个 `target` ，`j` 指向 `leftarget` ，因此最终返回索引 `i` 即可。
 === "<1>"
-    ![二分查找最左元素的步骤](binary_search_edge.assets/binary_search_left_edge_step1.png)
+    ![二分查找最左边元素的步骤](binary_search_edge.assets/binary_search_left_edge_step1.png)
 === "<2>"
    ![binary_search_left_edge_step2](binary_search_edge.assets/binary_search_left_edge_step2.png)
@ -46,7 +50,7 @@
 === "<8>"
    ![binary_search_left_edge_step8](binary_search_edge.assets/binary_search_left_edge_step8.png)
-注意，数组可能不包含目标元素 `target` 。因此在函数返回前，我们需要先判断 `nums[i]` 与 `target` 是否相等。另外，当 `target` 大于数组中的所有元素时，索引 `i` 会越界，因此也需要额外判断。
+注意，数组可能不包含目标元素 `target` 。因此在函数返回前，我们需要先判断 `nums[i]` 与 `target` 是否相等，以及索引 $i$ 是否越界。
 === "Java"
@ -108,12 +112,11 @@
    [class]{}-[func]{binarySearchLeftEdge}
    ```
-## 查找最右一个元素
+## 查找右边界
-类似地，我们也可以二分查找最右一个元素。设首个大于 `target` 的元素为 `rightarget` 。
+类似地，我们也可以二分查找最右边的 `target` 。当 `nums[m] == target` 时，说明大于 `target` 的元素在区间 $[m + 1, j]$ 中，因此执行 `i = m + 1` ，**使得指针 $i$ 向大于 `target` 的元素靠近**。
- 当 `nums[m] == target` 时，说明 `rightarget` 在区间 `[m + 1, j]` 中，因此执行 `i = m + 1` 将搜索区间向右收缩。
+完成二分后，**$i$ 指向首个大于 `target` 的元素，$j$ 指向最右边的 `target`** ，因此返回索引 $j$ 即可。
 - 完成二分后，`i` 指向 `rightarget` ，`j` 指向最右一个 `target` ，因此最终返回索引 `j` 即可。
 === "Java"
@ -175,9 +178,9 @@
    [class]{}-[func]{binarySearchRightEdge}
    ```
-观察下图，搜索最右元素时指针 `j` 起到了搜索最左元素时指针 `i` 的作用，反之亦然。本质上看，**搜索最左元素和最右元素的实现是镜像对称的**。
+观察下图，搜索最右边元素时指针 $j$ 的作用与搜索最左边元素时指针 $i$ 的作用一致，反之亦然。也就是说，**搜索最左边元素和最右边元素的实现是镜像对称的**。
-![二分查找最左元素和最右元素](binary_search_edge.assets/binary_search_left_right_edge.png)
+![查找最左边和最右边元素的对称性](binary_search_edge.assets/binary_search_left_right_edge.png)
 !!! tip