日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

學(xué)無先后,達(dá)者為師

網(wǎng)站首頁 編程語言 正文

C語言堆結(jié)構(gòu)處理TopK問題詳解_C 語言

作者:配的上了嗎 ? 更新時(shí)間: 2022-08-17 編程語言

問題

在一百萬個(gè)數(shù)據(jù)中,求出最大的k個(gè)數(shù)字,怎么效率高。

1. 將一百萬個(gè)數(shù)據(jù)排序,承接上一篇的堆排序,時(shí)間復(fù)雜度為O(N * LogN)。但是顯然這并不是最優(yōu)解。

2. 一百萬個(gè)數(shù)據(jù)放入一個(gè)數(shù)組中,將其視為一個(gè)完全二叉樹,并用向下調(diào)整算法將其調(diào)整為一個(gè)大堆/小堆,然后Top/Popk次,即可求出前K個(gè)最大/最小的數(shù)字,時(shí)間復(fù)雜度為:O(N + K*LogN)

3. 用正確的堆處理TopK算法: 先假設(shè)求最大的K個(gè)數(shù)字,則建立大小為K的小根堆,然后在一百萬-k個(gè)數(shù)據(jù)中,逐個(gè)遍歷,若某個(gè)數(shù)據(jù)比小根堆的堆頂元素大,則替換掉堆頂元素,然后向下調(diào)整,使得這個(gè)堆重新變回一個(gè)小根堆。 時(shí)間復(fù)雜度為:O(K + (N-k)*LogK)

其實(shí)相較于2,3并沒有時(shí)間上的很大提升,但是3在空間復(fù)雜度上有了巨大提升,2的空間為O(N),3為O(K)。 折中思考,3方法是求數(shù)據(jù)量較大的數(shù)據(jù)集合中前K個(gè)最大值/最小值的最佳方法

分析

求K個(gè)最大值,建小堆,是因?yàn)椋舯闅v途中遇到了那K個(gè)數(shù)中的某一個(gè),他一定比堆頂元素大,然后替換進(jìn)去之后,向下調(diào)整,可以使得這個(gè)數(shù)字置于這個(gè)小根堆的底部。從而達(dá)到目的。

代碼實(shí)現(xiàn)

void AdjustUp(int* a, int child)
{
	int parent = (child - 1) / 2;
	while (child > 0)
	{
		if (a[child] > a[parent])
		{
			swap(a[parent], a[child]);
			child = parent;
			parent = (child - 1) / 2;
		}
		else
		{
			break;
		}
	}
}
void AdjustDown(int* a,int size, int parent) // size 是總大小,parent是從哪里開始向下調(diào)整 
{
	int child = parent * 2 + 1;
	while (child < size)
	{
		if (child + 1 < size && a[child + 1] > a[child])
			child++;
		if (a[child] > a[parent])
		{
			swap(a[child], a[parent]);
			parent = child;
			child = parent * 2 + 1;
		}
		else
		{
			break;
		}
	}
}
void Print_Heap_Topk(int* a, int n, int k)
{
	int* KMaxHeap = new int[k];   // 最大堆存最小的K個(gè)數(shù)
	for (int i = 0; i < k; ++i)
	{
		KMaxHeap[i] = a[i];
	}
	for (int i = (k - 1 - 1) / 2; i >= 0; --i)
	{
		AdjustDown(KMaxHeap, k, i);
	}
	for (int i = k; i < n; ++i)
	{
		if (a[i] < KMaxHeap[0])
			KMaxHeap[0] = a[i];
		AdjustDown(KMaxHeap, k, 0);
	}
	for (int i = 0; i < k; ++i)
	{
		cout << KMaxHeap[i] << " ";
	}
	cout << endl;
}
void test_topk()
{
	int n = 10000;
	int* a = new int[n];
	srand(time(0));
	for (int i = 0; i < n; ++i)
		a[i] = rand() % 1000000;
	a[5] = 1000000 + 1;
	a[1231] = 1000000 + 2;
	a[531] = 1000000 + 3;
	a[5121] = 1000000 + 4;
	a[120] = 1000000 + 5;
	a[99] = 1000000 + 6;
	a[0] = 1000000 + 7;
	a[76] = 1000000 + 8;
	a[423] = 1000000 + 9;
	a[3144] = 1000000 + 10;
	a[333] = -100;
	a[999] = -200;
	a[777] = -500;
	a[888] = -800;
	a[111] = -1000;
	a[798] = -1;
	a[1111] = -250;
	a[2222] = -350;
	a[3333] = -450;
	a[4444] = -550;
	Print_Heap_Topk(a, n, 10);
}
int main()
{
	test_topk();
	return 0;
}

原文鏈接:https://blog.csdn.net/i777777777777777/article/details/125034312

欄目分類
最近更新