diff --git a/chapter_binary_search/binary_search.md b/chapter_binary_search/binary_search.md index e2899cbdf..723aac510 100755 --- a/chapter_binary_search/binary_search.md +++ b/chapter_binary_search/binary_search.md @@ -4,7 +4,7 @@ comments: true # 6.1. 二分查找 -「二分查找 Binary Search」是一种基于分治思想的高效搜索算法。它利用数据的有序性,每轮减少一半搜索范围,实现定位目标元素。 +「二分查找 Binary Search」是一种基于分治思想的高效搜索算法。它利用数据的有序性,每轮减少一半搜索范围,直至找到目标元素或搜索区间为空为止。 我们先来求解一个简单的二分查找问题。 @@ -22,7 +22,7 @@ comments: true **若数组不包含目标元素,搜索区间最终会缩小为空**,即达到 $i > j$ 。此时,终止循环并返回 $-1$ 即可。 -为了更清晰地表示区间,我们在下图中以折线图的形式表示数组。 +如下图所示,为了更清晰地表示区间,我们以折线图的形式表示数组。 === "<0>" ![二分查找步骤](binary_search.assets/binary_search_step0.png) @@ -50,8 +50,6 @@ comments: true 值得注意的是,**当数组长度 $n$ 很大时,加法 $i + j$ 的结果可能会超出 `int` 类型的取值范围**。为了避免大数越界,我们通常采用公式 $m = \lfloor {i + (j - i) / 2} \rfloor$ 来计算中点。 -有趣的是,理论上 Python 的数字可以无限大(取决于内存大小),因此无需考虑大数越界问题。 - === "Java" ```java title="binary_search.java" @@ -105,6 +103,7 @@ comments: true i, j = 0, len(nums) - 1 # 循环,当搜索区间为空时跳出(当 i > j 时为空) while i <= j: + # 理论上 Python 的数字可以无限大(取决于内存大小),无需考虑大数越界问题 m = (i + j) // 2 # 计算中点索引 m if nums[m] < target: i = m + 1 # 此情况说明 target 在区间 [m+1, j] 中 @@ -533,12 +532,12 @@ comments: true ## 6.1.2. 优点与局限性 -二分查找效率很高,主要体现在: +二分查找在时间和空间方面都有较好的性能: -- **二分查找的时间复杂度较低**。对数阶在大数据量情况下具有显著优势。例如,当数据大小 $n = 2^{20}$ 时,线性查找需要 $2^{20} = 1048576$ 轮循环,而二分查找仅需 $\log_2 2^{20} = 20$ 轮循环。 -- **二分查找无需额外空间**。与哈希查找相比,二分查找更加节省空间。 +- **二分查找的时间效率高**。在大数据量下,对数阶的时间复杂度具有显著优势。例如,当数据大小 $n = 2^{20}$ 时,线性查找需要 $2^{20} = 1048576$ 轮循环,而二分查找仅需 $\log_2 2^{20} = 20$ 轮循环。 +- **二分查找无需额外空间**。相较于需要借助额外空间的搜索算法(例如哈希查找),二分查找更加节省空间。 -然而,并非所有情况下都可使用二分查找,原因如下: +然而,二分查找并非适用于所有情况,原因如下: - **二分查找仅适用于有序数据**。若输入数据无序,为了使用二分查找而专门进行排序,得不偿失。因为排序算法的时间复杂度通常为 $O(n \log n)$ ,比线性查找和二分查找都更高。对于频繁插入元素的场景,为保持数组有序性,需要将元素插入到特定位置,时间复杂度为 $O(n)$ ,也是非常昂贵的。 - **二分查找仅适用于数组**。二分查找需要跳跃式(非连续地)访问元素,而在链表中执行跳跃式访问的效率较低,因此不适合应用在链表或基于链表实现的数据结构。 diff --git a/chapter_binary_search/binary_search_edge.md b/chapter_binary_search/binary_search_edge.md new file mode 100644 index 000000000..3a1f53d3e --- /dev/null +++ b/chapter_binary_search/binary_search_edge.md @@ -0,0 +1,278 @@ +--- +comments: true +--- + +# 6.2. 二分查找边界 + +上一节规定目标元素在数组中是唯一的。如果目标元素在数组中多次出现,上节介绍的方法只能保证返回其中一个目标元素的索引,**而无法确定该索引的左边和右边还有多少目标元素**。 + +为了查找最左一个 `target` ,我们可以先进行二分查找,找到任意一个目标元素,**再加一个向左遍历的线性查找**,找到最左的 `target` 返回即可。然而,由于加入了线性查找,这个方法的时间复杂度可能会劣化至 $O(n)$ 。 + +![线性查找最左元素](binary_search_edge.assets/binary_search_left_edge_naive.png) + +
Fig. 线性查找最左元素
+ +## 6.2.1. 查找最左一个元素 + +!!! question "查找并返回元素 `target` 在有序数组 `nums` 中首次出现的索引。若数组中不包含该元素,则返回 $-1$ 。数组可能包含重复元素。" + +实际上,我们可以仅通过二分查找解决以上问题。方法的整体框架不变,先计算中点索引 `m` ,再判断 `target` 和 `nums[m]` 大小关系: + +- 当 `nums[m] < target` 或 `nums[m] > target` 时,说明还没有找到 `target` ,因此采取与上节代码相同的缩小区间操作。 +- 当 `nums[m] == target` 时,说明找到了一个目标元素,此时应该如何缩小区间? + +对于该情况,**我们可以将查找目标想象为 `leftarget`**,其中 `leftarget` 表示从右到左首个小于 `target` 的元素。具体来说: + +- 当 `nums[m] == target` 时,说明 `leftarget` 在区间 `[i, m - 1]` 中,因此采用 `j = m - 1` 来缩小区间,**从而使指针 `j` 向 `leftarget` 收缩靠近**。 +- 二分查找完成后,`i` 指向最左一个 `target` ,`j` 指向 `leftarget` ,因此最终返回索引 `i` 即可。 + +=== "<1>" + ![二分查找最左元素的步骤](binary_search_edge.assets/binary_search_left_edge_step1.png) + +=== "<2>" + ![binary_search_left_edge_step2](binary_search_edge.assets/binary_search_left_edge_step2.png) + +=== "<3>" + ![binary_search_left_edge_step3](binary_search_edge.assets/binary_search_left_edge_step3.png) + +=== "<4>" + ![binary_search_left_edge_step4](binary_search_edge.assets/binary_search_left_edge_step4.png) + +=== "<5>" + ![binary_search_left_edge_step5](binary_search_edge.assets/binary_search_left_edge_step5.png) + +=== "<6>" + ![binary_search_left_edge_step6](binary_search_edge.assets/binary_search_left_edge_step6.png) + +=== "<7>" + ![binary_search_left_edge_step7](binary_search_edge.assets/binary_search_left_edge_step7.png) + +=== "<8>" + ![binary_search_left_edge_step8](binary_search_edge.assets/binary_search_left_edge_step8.png) + +注意,数组可能不包含目标元素 `target` 。因此在函数返回前,我们需要先判断 `nums[i]` 与 `target` 是否相等。另外,当 `target` 大于数组中的所有元素时,索引 `i` 会越界,因此也需要额外判断。 + +=== "Java" + + ```java title="binary_search_edge.java" + /* 二分查找最左一个元素 */ + int binarySearchLeftEdge(int[] nums, int target) { + int i = 0, j = nums.length - 1; // 初始化双闭区间 [0, n-1] + while (i <= j) { + int m = i + (j - i) / 2; // 计算中点索引 m + if (nums[m] < target) + i = m + 1; // target 在区间 [m+1, j] 中 + else if (nums[m] > target) + j = m - 1; // target 在区间 [i, m-1] 中 + else + j = m - 1; // 首个小于 target 的元素在区间 [i, m-1] 中 + } + if (i == nums.length || nums[i] != target) + return -1; // 未找到目标元素,返回 -1 + return i; + } + ``` + +=== "C++" + + ```cpp title="binary_search_edge.cpp" + /* 二分查找最左一个元素 */ + int binarySearchLeftEdge(vectorFig. 二分查找最左元素和最右元素
+ +!!! tip + + 以上代码采取的都是“双闭区间”写法。有兴趣的读者可以自行实现“左闭右开”写法。