成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一篇帶給你索引技術之位圖

開發 前端
位圖算法,是指使用一個bit位來表示數據狀態。通常應用于海量數據去重、海量數據計算及判斷海量數據中是否存在某個數據的場景中。

要點

  • 位圖基本算法及其應用場景。
  • 位圖算法的優化實現。

概述

位圖算法,是指使用一個bit位來表示數據狀態。通常應用于海量數據去重、海量數據計算及判斷海量數據中是否存在某個數據的場景中。

以海量數據中是否存在某個數據的應用場景為例,假設用16個bit位,分別表示數字0-15。bit位的值,表示該數字是否存在,0表示不存在,1表示存在。如上圖所示,在該數據集合中,存在的元素有1、2、6、10、11和13。

可以發現,在數據比較稠密的情況下,位圖算法能夠節約存儲空間,如圖中,使用2個字節便可以表示16個數字,同時可以在O(1)的時間復雜度下,判斷是否存在某個數字,大大提高了計算速度。

但是,在數據稀疏時,存儲空間會存在一定程度的浪費。由于位圖算法中,位圖空間的大小是一定的,并不會根據存儲數據量的大小而改變。因此,當位圖空間中存儲的數據量很小時,大量地位圖空間是空閑的,存在大量的浪費。

算法實現

位圖算法在主流開發語言中,都有對應的實現。基本操作主要有寫入、查詢、刪除、交集、并集等。下面通過一個示例來了解一下,位圖算法的實現。

位圖結構定義例子使用char類型數組來存儲位圖信息(通常的實現中,會使用長整型數組),一個char類型有8個bit位。定義結構如下:

// 為了簡化問題,LEN必須定義為CHAR_SIZE的倍數
#define LEN 16
#define CHAR_SIZE 8
typedef char BitSet[LEN/CHAR_SIZE];

寫入在某個bit位寫入數據時,首先通過整除,計算出該bit位在數組的哪個下標,然后,用取余計算出char元素中的哪個bit上。最后通過或運算將對應位設置為1。

// 置bit位
void set(BitSet& bits, int pos) {
// 查找對應數組下標
int unit = pos / CHAR_SIZE;
// 查找在字節中的bit位
int p = pos % CHAR_SIZE;
// 通過與運算實現對應bit位置1
bits[unit] = bits[unit] | (0x1 << p);

查詢同寫入操作,先計算出bit位置,查找到對應的bit位,然后返回該位置的數值。

// 查詢bit位
int get(BitSet& bits, int pos) {
// 查找對應數組下標
int unit = pos / CHAR_SIZE;
// 查找在字節中的bit位
int p = pos % CHAR_SIZE;
// 通過與運算實現對應bit位置1
return (bits[unit] & (0x1 << p)) > 0 ? 1 : 0;
}

刪除首先查找到對應的位置,然后通過與運算將該位置清空。

// 清空bit位
void clear(BitSet& bits, int pos) {
// 查找對應數組下標
int unit = pos / CHAR_SIZE;
// 查找在字節中的bit位
int p = pos % CHAR_SIZE;
// 通過與運算實現對應bit位置1
bits[unit] = bits[unit] & (~(0x1 << p));
}

交集對數組逐個元素進行或運算。

// 求位圖b1和b2的并集
void unionn(const BitSet& b1, const BitSet& b2, BitSet& res) {
for (auto i = 0; i < (LEN/CHAR_SIZE); ++i) {
res[i] = b1[i] | b2[i];
}
}

并集對數組逐元素進行與運算。

// 求位圖b1和b2的交集
void inter(const BitSet& b1, const BitSet& b2, BitSet& res) {
for (auto i = 0; i < (LEN/CHAR_SIZE); ++i) {
res[i] = b1[i] & b2[i];
}
}

在生產實現時,可能會進行一些優化:

  • 使用CPU指令優化,如SSE等,一次能進行128位的運算,可以提高計算速度。
  • 某些業務場景下,一個數據狀態可能有大于2個,可以使用多個bit位來表示一個數據狀態。

擴展

為了解決位圖稀疏時,位圖低效率的問題,工業界,有多種位圖壓縮算法,其中,最經典的是RoaringBitmap。

RoaringBitmap的核心思想是,將整數進行分桶,高16位的值作為其桶的索引,每個桶對應一個容器。如下圖所示:

roaring bitmap

容器的結構有三種類型:有序數組、未壓縮位圖、和行程長度編碼。

  • 有序數組:當低16位中,元素個數小于4096時,采用有序數組的結構進行存儲。在查找元素時,使用二分查找方法。取值4096的原因是,存儲4096個16位的整數,所占用的存儲空間:
  • 未壓縮位圖:未壓縮位圖的存儲結果就是本文所描述的位圖存儲結構,使用一個固定的連續內存塊實現。
  • 行程長度編碼(run-length encoding):行程長度編碼是一種無損數據壓縮技術,其原理是,將連續出現的數據存儲為起始值和計算兩部分。比如,數據列表[1,2,3,4,5,6]存儲為[1,5],表示以1開始,后面連續遞增5個數值。在很多實現中,行程長度編碼容器,需要手動調用,才能轉換為該容器。

在進行插入和刪除操作之后,需要根據元素個數進行容器轉換。插入元素時,若元素個數達到4096,則需要轉換為未壓縮位圖進行存儲。刪除元素時,若元素個數小于4096時,則需要轉換為有序數組存儲。

參考

  • Better bitmap performance with Roaring bitmaps。
  • Consistently faster and smaller compressed bitmaps with Roaring。
  • https://github.com/RoaringBitmap/CRoaring.git。
責任編輯:姜華 來源: 今日頭條
相關推薦

2021-03-18 08:53:44

MySQL數據庫索引

2022-03-03 09:05:17

索引MySQL數據查詢

2022-03-01 13:55:27

TektonKubernetes集群

2021-07-12 06:11:14

SkyWalking 儀表板UI篇

2022-02-25 15:50:05

OpenHarmonToggle組件鴻蒙

2021-04-23 08:59:35

ClickHouse集群搭建數據庫

2021-07-08 07:30:13

Webpack 前端Tree shakin

2021-04-14 07:55:45

Swift 協議Protocol

2023-03-13 09:31:04

2021-05-08 08:36:40

ObjectString前端

2021-10-28 08:51:53

GPIO軟件框架 Linux

2021-06-21 14:36:46

Vite 前端工程化工具

2021-01-28 08:55:48

Elasticsear數據庫數據存儲

2023-03-29 07:45:58

VS編輯區編程工具

2021-04-14 14:16:58

HttpHttp協議網絡協議

2021-04-08 11:00:56

CountDownLaJava進階開發

2021-07-21 09:48:20

etcd-wal模塊解析數據庫

2022-03-22 09:09:17

HookReact前端

2024-06-13 08:34:48

2022-04-29 14:38:49

class文件結構分析
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区二区三区国产好 | 欧美日韩精品影院 | 成人福利网| 国产精品黄 | 日韩在线免费视频 | 亚洲第一区久久 | 成人深夜福利 | 欧美精品a∨在线观看不卡 国产精品久久国产精品 | 亚洲二区视频 | 成人妇女免费播放久久久 | 国产精品久久久久久中文字 | 久久久久久综合 | 国产免费观看视频 | 久久一区二区三区四区 | 涩涩视频在线观看免费 | 欧美一级免费看 | 午夜久久久久 | 日韩av在线不卡 | 国产伦精品一区二区三区四区视频 | 欧美日韩福利 | 亚洲国产精品视频 | 成人片免费看 | www.久| 精品国产一区二区三区久久久四川 | 中文字幕亚洲欧美 | 国产精品一区二区欧美黑人喷潮水 | 高清一区二区 | 特级特黄特色的免费大片 | 亚洲视频免费在线看 | 一区二区视屏 | 天天躁日日躁狠狠躁2018小说 | 99免费视频 | 波多野结衣亚洲 | 一区二区在线不卡 | 色姑娘av| 久久久噜噜噜久久中文字幕色伊伊 | 免费v片在线观看 | 久久99精品国产自在现线小黄鸭 | 中文字幕中文字幕 | 国产精品成人久久久久a级 久久蜜桃av一区二区天堂 | a视频在线 |