成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據結構與算法:桶排序—如何根據年齡給100萬用戶數據排序

開發 前端
如何確定桶的 區間范圍,有很多種不同的方式。我們這里創建的桶數量等于原始數列的元素數量,除最后一個桶只包含數列最大值外, 前面各個桶的區間按照比例來確定。

一、定義

桶排序是一種線性時間的排序算法。

桶排序需要創建若干個桶來協助排序。

每一個桶(bucket)代表一個區間范圍,里面可以承載一個或多個元素。

桶排序的第1步,就是創建這些桶,并確定每一個桶的區間范圍具體需要建立多少個桶,

如何確定桶的 區間范圍,有很多種不同的方式。

我們這里創建的桶數量等于原始數列的元素數量,除最后一個桶只包含數列最大值外, 前面各個桶的區間按照比例來確定。

區間跨度 = (最大值-最小值)/ (桶的數量 - 1)

二、思路

假設有一個非整數數列如下: 4.5,0.84,3.25,2.18,0.5

第2步,遍歷原始數列,把元素對號入座放入各個桶中。

第3步,對每個桶內部的元素分別進行排序(顯然,只有第1個桶需要排序)

第4步,遍歷所有的桶,輸出所有元素: 0.5,0.84,2.18,3.25,4.5

三、代碼實現

import java.util.ArrayList;
import java.util.Arrays;
import java.util.Collections;
import java.util.LinkedList;
public class BucketSort {
public static double[] bucketSort(double[] array) {
double max = 0;
double min = 0;
//獲得最大值和最小值之間的差
for (int i = 0; i < array.length; i++) {
if (array[i] > max) {
max = array[i];
}
if (array[i] < min) {
min = array[i];
}
}
double d = max - min;
//桶初始化
int bucketNum = array.length;
ArrayList<LinkedList<Double>> bucketList =
new ArrayList<LinkedList<Double>>(bucketNum);
for (int i = 0; i < bucketNum; i++) {
bucketList.add(new LinkedList<Double>());
}
//將每個元素放入桶中
for (int i = 0; i < array.length; i++) {

int num = (int) ((array[i] - min) * (bucketNum - 1) / d);
bucketList.get(num).add(array[i]);
}
//對每個桶內部進行排序
for (int i = 0; i < bucketList.size(); i++) {
Collections.sort(bucketList.get(i));
}
//輸出全部元素
double[] sortedArray = new double[array.length];
int index = 0;
for (LinkedList<Double> list : bucketList) {
for (double element : list) {
sortedArray[index] = element;
index++;
}
}
return sortedArray;
}

public static void main(String[] args) {
double[] array = {4.12, 6.421, 0.0023, 3.0, 2.123, 8.122, 4.12, 10.09};
double[] sortedArray = bucketSort(array);
System.out.println(Arrays.toString(sortedArray));
}
}

四、復雜度

時間復雜度:O(n)

空間復雜度:O(n)

穩定性:穩定

五、適用場景

桶排序對要排序數據的要求是非常苛刻的。

首先,要排序的數據需要很容易就能劃分成m個桶,并且,桶與桶之間有著天然的大小順序。這樣每個桶內的數據都排序完之后,桶與桶之間的數據不需要再進行排序。

其次,數據在各個桶之間的分布是比較均勻的。如果數據經過桶的劃分之后,有些桶里的數據非常多,有些非常少,很不平均,那桶內數據排序的時間復雜度就不是常量級了。在極端情況下,如果數據都被劃分到一個桶里,那就退化為O(nlogn)的排序算法了。

桶排序比較適合用在外部排序中。所謂的外部排序就是數據存儲在外部磁盤中,數據量比較大,內存有限,無法將數據全部加載到內存中。

六、案例

1、需求

我們有10GB的訂單數據,我們希望按訂單金額(假設金額都是正整數)進行排序,但是我們的內存有限,只有幾百MB,沒辦法一次性把10GB的數據都加載到內存中。這個時候該怎么辦呢?

2、桶排序解決方案

我們可以先掃描一遍文件,看訂單金額所處的數據范圍。假設經過掃描之后我們得到,訂單金額最小是1元,最大是10萬元。我們將所有訂單根據金額劃分到100個桶里,第一個桶我們存儲金額在1元到1000元之內的訂單,第二桶存儲金額在1001元到2000元之內的訂單,以此類推。每一個桶對應一個文件,并且按照金額范圍的大小順序編號命名(00,01,02...99)。

理想的情況下,如果訂單金額在1到10萬之間均勻分布,那訂單會被均勻劃分到100個文件中,每個小文件中存儲大約100MB的訂單數據,我們就可以將這100個小文件依次放到內存中,用快排來排序。等所有文件都排好序之后,我們只需要按照文件編號,從小到大依次讀取每個小文件中的訂單數據,并將其寫入到一個文件中,那這個文件中存儲的就是按照金額從小到大排序的訂單數據了。

不過,你可能也發現了,訂單按照金額在1元到10萬元之間并不一定是均勻分布的 ,所以10GB訂單數據是無法均勻地被劃分到100個文件中的。有可能某個金額區間的數據特別多,劃分之后對應的文件就會很大,沒法一次性讀入內存。這又該怎么辦呢?

針對這些劃分之后還是比較大的文件,我們可以繼續劃分,比如,訂單金額在1元到1000元之間的比較多,我們就將這個區間繼續劃分為10個小區間,1元到100元,101元到200元,201元到300元....901元到1000元。如果劃分之后,101元到200元之間的訂單還是太多,無法一次性讀入內存,那就繼續再劃分,直到所有的文件都能讀入內存為止。?

責任編輯:武曉燕 來源: 今日頭條
相關推薦

2021-04-02 11:09:35

MobiKwik 移動支付數據泄露

2013-07-21 16:51:23

2021-06-17 12:51:07

數據泄漏漏洞網絡攻擊

2013-07-22 10:27:06

Ubuntu論壇數據黑客

2023-03-07 08:02:07

數據結構算法數列

2023-03-10 08:07:39

數據結構算法計數排序

2023-03-02 08:15:13

2021-11-09 15:47:05

Robinhood攻擊數據泄露

2019-05-17 10:10:30

優衣庫黑客數據泄漏

2023-04-27 09:13:20

排序算法數據結構

2023-03-06 08:10:52

數據結構算法數據

2023-03-13 10:08:31

數據結構算法

2022-02-16 09:15:23

數據泄露網絡安全

2023-03-23 18:31:31

2024-10-10 14:59:49

2020-08-24 13:55:58

數據安全

2014-05-14 09:53:11

2024-07-17 23:36:11

2024-11-12 15:50:59

2017-03-22 19:18:15

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品久久久久久久久久免费看 | 国产精品爱久久久久久久 | 久久99国产精一区二区三区 | 日本电影免费完整观看 | 亚洲精品高清视频在线观看 | 91免费视频观看 | 久久久久久高潮国产精品视 | 欧美大片在线观看 | 琪琪午夜伦伦电影福利片 | 一区二区三区免费 | 在线播放中文字幕 | 久久国产视频网站 | 久久午夜精品福利一区二区 | 国产欧美精品一区二区色综合朱莉 | 亚洲免费婷婷 | 国产成人网 | 在线观看中文字幕 | 成年人免费网站 | 久久久蜜桃一区二区人 | 麻豆一区 | 天天天天操| 九九热精品视频 | 国产精品18久久久久久久 | 国产高清视频在线 | 精品美女在线观看视频在线观看 | 日韩精品免费视频 | 欧美八区| 欧美精品久久 | 日韩2020狼一二三 | 成人欧美一区二区三区黑人孕妇 | 香蕉久久a毛片 | 国产一区二区三区在线 | 成人欧美一区二区三区1314 | 日韩三级免费网站 | 成年人免费在线视频 | 老头搡老女人毛片视频在线看 | 黄色片网站在线观看 | 国产真实精品久久二三区 | 中文字幕日韩欧美一区二区三区 | 久久国产电影 | 91在线精品一区二区 |