插入排序
基本思想
插入排序的直观理解就是:整理扑克牌。当我们玩扑克牌时,常常把7放到6和9之间。插入排序的基本思想就是把待排序的记录按其大小逐个插入到已经排好序的有序序列中,知道所有的记录插入完为止,得到一个新的有序序列。
直接插入排序
直接插入排序InsertSort() 代码实现:
void InsertSort(int* a, int n)
{
for (int i = 0; i < n - 1; i++)
{
int end = i;
int tmp = a[end + 1];
while (end >= 0)
{
if (tmp < a[end])
{
a[end + 1] = a[end];
end--;
}
else
{
break;
}
}
a[end + 1] = tmp;
}
}
直接插入排序的时间复杂度为O(N2),空间复杂度为O(1),是一种稳定的排序算法。
希尔排序
DL.Shell针对直接插入排序进行改进,得到希尔排序,又称缩小增量排序。希尔排序算法的基本思想是:先选定一个整数gap ,把待排序文件中所有记录分成gap 个组,所有距离为gap 的记录分在同一组内,并对每一组内的记录进行排序。然后,取gap = gap / 2 (这只是一种方法),重复上述分组和排序的工作。当到达gap = 1 时,所有记录在统一组内排好序。
- 当
gap > 1 时都是预排序,,目的是让数组更加接近有序,这样排序算法的效率更高。当gap == 1 的时候,数组已经接近有序了。 - 由于
gap 的取值方法不固定,希尔排序的时间复杂度很难计算。
在Knuth所著的《计算机程序设计技巧》第三卷中,利用大量的实验统计资料得出,当n很大时,关键码平均比较次数和对象平均易懂次数大约在n1.25 到1.6n1.25的范围内,这是在利用直接插入排序作为子序列排序方法的情况下得到的。
所以我们暂时认为希尔排序的时间复杂度为O(n1.3)。 3. 希尔排序没有办法保证排序的稳定性,是不稳定的。
希尔排序的代码:
void ShellSort(int* a, int n)
{
int gap = n;
while (gap > 1)
{
gap = gap / 3 + 1;
for (int i = 0; i < n - gap; ++i)
{
int end = i;
int tmp = a[end + gap];
while (end >= 0)
{
if (tmp < a[end])
{
a[end + gap] = a[end];
end -= gap;
}
else
{
break;
}
}
a[end + gap] = tmp;
}
}
}
代码中标注了一些需要注意??的点。
选择排序
基本思想
每一次从待排序的数据中找出最小(或最大)的一个元素放到序列起始(或末尾)的位置,直到全部待排序的数据排完。
直接选择排序
在元素集合array[i]–array[n-1]中选择关键码最大(小)的数据元素。若它不是这组元素中的最后一个(第一个)元素,则将它与这组元素中的最后一个(第一个)元素交换。在剩余的array[i]–array[n-2](array[i+1]–array[n-1])集合中,重复上述步骤,直到集合剩余1个元素。
直接选择排序代码:
void SelectSort(int* a, int n)
{
assert(a);
int begin = 0, end = n - 1;
while (begin < end)
{
int mini = begin, maxi = begin;
for (int i = begin + 1; i <= end; i++)
{
if (a[i] < a[mini])
{
mini = i;
}
if (a[i] > a[maxi])
{
maxi = i;
}
}
Swap(&a[mini], &a[begin]);
if (begin == maxi)
{
maxi = mini;
}
Swap(&a[maxi], &a[end]);
begin++;
end--;
}
}
直接选择排序很好理解,每次找出待排序数据的最大值和最小值,但是时间复杂度为O(N2) 效率很低很低,实际基本不适用。另外,算法的空间复杂度为O(1),是不稳定的。
堆排序
堆排序是选择排序的一种,其使用堆序来选数,效率就高了很多。堆排序的时间复杂度为O(N*logN),空间复杂度为O(1),是一种不稳定的排序。
堆排序详细见我的另一篇博客:堆的应用:堆排序和TOP-K问题
交换排序
基本思想
交换的意思是根据序列中两个记录键值的比较结果来对换这两个记录在序列中的位置,交换排序的特点是:将键值较大的记录向序列的尾部移动,键值较小的记录向序列的前部移动。
冒泡排序
冒泡排序非常好理解,把数组中的每一个数字想象成一个“泡泡🫧”,慢慢浮向浮。
冒泡排序的代码:
void BubbleSort(int* a, int n)
{
assert(a);
for (int j = 0; j < n - 1; j++)
{
int exchange = 0;
for (int i = 1; i < n - j; i++)
{
if (a[i - 1] > a[i])
{
Swap(&a[i - 1], &a[i]);
exchange = 1;
}
}
if (exchange == 0)
{
break;
}
}
}
我在排序中设置了exchange 参数,当不发生“冒泡”过程时,即数组已经就是有序的,这样我们就没有必要继续外层循环了,这样提升了代码的效率。
冒泡排序的时间复杂度为O(N2),空间复杂度为O(1),是一种稳定排序算法。
快速排序
快速排序是Hoare于1962年提出的一种二叉树结构的交换排序方法,其基本思想为:任取待排序元素序列中的某元素作为基准值,按照该排序码将待排序集合分割成两子序列,左子序列中所有元素均小于基准值,右子序列中所有元素均大于基准值,然后最左右子序列重复该过程,直到所有元素都排列在相应位置上为止。
快速排序的递归实现与二叉树前序遍历规则非常相似。单趟循环写完后,利用分治思想:左区间有序右区间有序。递归的部分后面呈现。将区间按照基准值划分为左右两半部分的常见方法有以下3种:
hoare版本
我们先写单趟排序:选出一个key (一般是最左边或者最右边)。在单趟排序完成后要求左边的值比key 小,右边的值比key 大。
hoare版本代码:
int PartSort1(int* a, int begin, int end)
{
int left = begin, right = end;
int keyi = left;
while (left < right)
{
while (left < right && a[right] >= a[keyi])
{
right--;
}
while (left < right && a[left] <= a[keyi])
{
left++;
}
Swap(&a[left], &a[right]);
}
Swap(&a[left], &a[keyi]);
keyi = left;
return keyi;
}
这里有一个问题:为什么建议取最左边的值做为key 时让right 先走?(反之右边做key左边先走)
答案:要保证相遇位置的值比key要小或者就是key的位置(极端情况)
- right先走,r停下来,left去遇到r(相遇位置就是r停下来的位置,r停的位置就是比key要小的位置)
- r先走,r没有找到比key要小的值,r直接与l相遇。相遇位置是l上一轮停下来的位置,要么是key的位置要么比key要小。
挖坑法
left 和right 相遇的位置一定是坑位,本质上没有堆hoare版本做巨大更新。
外坑法代码:
int PartSort2(int* a, int begin, int end)
{
int key = a[begin];
int piti = begin;
while (begin < end)
{
while (begin < end && a[end] >= key)
{
end--;
}
a[piti] =a[end];
piti = end;
while (begin < end && a[begin] <= key)
{
begin++;
}
a[piti] = a[begin];
piti = begin;
}
a[piti] = key;
return piti;
}
前后指针法
初始时,prev 指针指向序列的开头,cur 指针指向prev 指针的后一个位置。然后判断cur 指针指向的数据数据是否小于key (cur 指针就是在“找小”),若小于,则prev 指针指向后一位,并则cur 指向的内容于prev 指向的内容交换,然后cur++ 。
前后指针法的代码:
int PartSort3(int* a, int begin, int end)
{
int keyi = begin;
int prev = begin;
int cur = prev + 1;
while (cur <= end)
{
if (a[cur] < a[keyi])
{
prev++;
Swap(&a[prev], &a[cur]);
}
cur++;
}
Swap(&a[keyi], &a[prev]);
keyi = prev;
return keyi;
}
快速排序的优化
三数取中算法
在key 取值得当的时候,每次都能均匀划分序列,时间复杂度为O(N*logN)。在数据有序或接近有序时,是快速排序最差的情况,因为所有数都划分到一个序列中去了,时间复杂度为O(N2)。如果此时数据量较大,不仅效率低下,还有可能出现栈溢出。
为了优化快序排序,需要一个较好的key 值。我们只需要在序列首、中、尾三个数据中,选择一个排在中间的数据作为基准值key 。假设待排序的的序列时高度有序的,那么列首和列尾极大可能出现最值,此时取排在中间的值,也能保证最坏情况下left 和right 只需要走到中间位置,不需要吧整个序列遍历一遍。
三数取中函数GetMidIndex() 代码
int GetMidIndex(int* a, int begin, int end)
{
int mid = (begin + end) / 2;
if (a[begin] < a[mid])
{
if (a[mid] < a[end])
{
return mid;
}
else if (a[begin] < a[end])
{
return end;
}
else
{
return begin;
}
}
else
{
if (a[mid] > a[end])
{
return mid;
}
else if (a[begin] < a[end])
{
return begin;
}
else
{
return end;
}
}
}
小区间优化算法
当递归深度为h时,总调用次数为:2^h - 1次。而最后一层递归几乎就占一半的调用次数。如果把最后3-4层减去,可以减少80%以上的递归调用。所以可以当区间小于10时,不再用递归的方法排序小区间,而是采用插入排序。
快速排序递归
优化完成的快速排序递归代码为:
void QuickSort(int* a, int begin, int end)
{
if (begin >= end)
{
return;
}
if (end - begin > 10)
{
int keyi = PartSort1(a, begin, end);
QuickSort(a, begin, keyi - 1);
QuickSort(a, keyi + 1, end);
}
else
{
InsertSort(a + begin, end - begin + 1);
}
}
快速排序非递归
在极端场景下,如果递归深度太深,可能出现栈溢出的情况。可以用数据结构栈模拟递归过程。数据结构栈的内容,请参考我的博客《数据结构——栈》。用栈储存排序中各个区间。
代码如下:
void QuickSortNonR(int* a, int begin, int end)
{
Stack st;
StackInit(&st);
StackPush(&st, end);
StackPush(&st, begin);
while (!StackEmpty(&st))
{
int left = StackTop(&st);
StackPop(&st);
int right = StackTop(&st);
StackPop(&st);
int keyi = PartSort3(a, left, right);
if (keyi + 1 < right)
{
StackPush(&st, right);
StackPush(&st, keyi + 1);
}
if (left < keyi - 1)
{
StackPush(&st, keyi - 1);
StackPush(&st, left);
}
}
StackDestroy(&st);
}
当栈里没有数据要处理了(栈为空时),while 循环结束。
快速排序整体的综合性能和使用场景都较好,时间复杂度为O(N*logN),空间复杂度为O(logN)(可有说法是O(1),真正消耗空间是递归调用,每次递归都要保持一些数据),但是它不稳定。
归并排序
基本思想
归并排序(MERGE-SORT)是建立在归并操作上的一种有效的排序算法,该算法是采用分治法的一个非常典型的应用。将已有序的子序列合并,得到完全有序的序列;即先使每个子序列有序,再使子序列段间有序。若将两个有序表合并成一个有序表,称为二路归并。 归并排序核心步骤:
归并排序的递归
归并排序的递归代码:
void _MergeSort(int* a, int begin, int end, int* tmp)
{
if (begin >= end)
{
return;
}
int mid = (begin + end) / 2;
_MergeSort(a, begin, mid, tmp);
_MergeSort(a, mid + 1, end, tmp);
int begin1 = begin, begin2 = mid + 1;
int end1 = mid, end2 = end;
int i = begin1;
while (begin1 <= end1 && begin2 <= end2)
{
if (a[begin1] < a[begin2])
{
tmp[i++] = a[begin1++];
}
else
{
tmp[i++] = a[begin2++];
}
}
while (begin1 <= end1)
{
tmp[i++] = a[begin1++];
}
while (begin2 <= end2)
{
tmp[i++] = a[begin2++];
}
memcpy(a + begin, tmp + begin, sizeof(int) * (end - begin + 1));
}
void MergeSort(int* a, int n)
{
int* tmp = (int*)malloc(sizeof(int) * n);
if (tmp == NULL)
{
printf("malloc fail\n");
exit(-1);
}
_MergeSort(a, 0, n - 1, tmp);
free(tmp);
tmp = NULL;
}
归并排序的效率很有优势,非常接近二分(几乎是完全二分),时间复杂度为O(N)。但是归并排序一定要额外的数组,所以空间复杂度为O(N)
归并排序的非递归
改变gap = 1 , 2, 4 …
边界问题
注意??困难的是 控制边界。并不是序列长度为奇数才会出现问题,不是2的次方倍都会出现问题。因为end2边界是直接计算出来的:end2 = i + 2*gap -1 。只有begin1不可能越界,剩下的都有可能越界。因为begin1 = i 。
如果end1都越界了,不归并都可以。方法一:为继续归并。由于tmp数组最后要整个拷贝会原数组,所以要正常递归,否则可能出现随机值。方法二:如果不是整体拷贝,归一部分拷贝一部分则可以最后不归并,即遇到越界情况就不归并了。
方法一:
void MergeSortNonR1(int* a, int n)
{
int* tmp = (int*)malloc(sizeof(int) * n);
if (tmp == NULL)
{
printf("malloc fail\n");
exit(-1);
}
int gap = 1;
while (gap < n)
{
for (int i = 0; i < n; i += 2 * gap)
{
int begin1 = i, end1 = i + gap - 1;
int begin2 = i + gap, end2 = i + 2 * gap - 1;
if (end1 >= n)
{
end1 = n - 1;
begin2 = n;
end2 = n - 1;
}
else if (begin2 >= n)
{
begin2 = n;
end2 = n - 1;
}
else if (end2 >= n)
{
end2 = n - 1;
}
int j = begin1;
while (begin1 <= end1 && begin2 <= end2)
{
if (a[begin1] < a[begin2])
{
tmp[j++] = a[begin1++];
}
else
{
tmp[j++] = a[begin2++];
}
}
while (begin1 <= end1)
{
tmp[j++] = a[begin1++];
}
while (begin2 <= end2)
{
tmp[j++] = a[begin2++];
}
}
memcpy(a, tmp, sizeof(int) * n);
gap *= 2;
}
free(tmp);
tmp = NULL;
}
方法二:
void MergeSortNonR2(int* a, int n)
{
int* tmp = (int*)malloc(sizeof(int) * n);
if (tmp == NULL)
{
printf("malloc fail\n");
exit(-1);
}
int gap = 1;
while (gap < n)
{
for (int i = 0; i < n; i += 2 * gap)
{
int begin1 = i, end1 = i + gap - 1;
int begin2 = i + gap, end2 = i + 2 * gap - 1;
if (end1 >= n || begin2 >= n)
{
break;
}
else if (end2 >= n)
{
end2 = n - 1;
}
int len = end2 - begin1 + 1;
int j = begin1;
while (begin1 <= end1 && begin2 <= end2)
{
if (a[begin1] < a[begin2])
{
tmp[j++] = a[begin1++];
}
else
{
tmp[j++] = a[begin2++];
}
}
while (begin1 <= end1)
{
tmp[j++] = a[begin1++];
}
while (begin2 <= end2)
{
tmp[j++] = a[begin2++];
}
memcpy(a + i, tmp + i, sizeof(int) * len);
}
gap *= 2;
}
free(tmp);
tmp = NULL;
}
注意??最后是m而不是2*gap
计数排序
计数排序属于非比较排序。其不是通过比较大小的方式来排序,适用于整数(但是浮点数字符串就不行了),非常小众,适用于特殊情况。
计数排序的思想有借鉴意义,是对哈希直接定值法的变形应用。操作步骤为:
- 统计每个数据出现的次数
- 排序(按出现次数写回原数组)
计数排序的代码:
void CountSort(int* a, int n)
{
int max = a[0], min = a[0];
for (int i = 1; i < n; i++)
{
if (a[i] > max)
{
max = a[i];
}
if (a[i] < min)
{
min = a[i];
}
}
int range = max - min + 1;
int* count = (int*)malloc(sizeof(int) * range);
assert(count);
memset(count, 0, sizeof(int) * range);
for (int i = 0; i < n; i++)
{
count[a[i] - min]++;
}
int j = 0;
for (int i = 0; i < range; i++)
{
while (count[i]--)
{
a[j++] = i + min;
}
}
}
计数排序在数据范围集中时,效率较高,但是适用范围及场景有限。时间复杂度为O(Max(N,Range))。空间复杂度为O(Range),是一种稳定的排序算法。
排序总结
|