成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據計數原理1+0=1這你都不會算(六)

企業動態
基數估計,故名思議,估計,意思就是使用概率論的思想,用更低空間更低時間的成本,以一個很低很低的誤差率來估計數據的基數。

照例甩一波鏈接。

大數據計數原理1+0=1這你都不會算(一)

大數據計數原理1+0=1這你都不會算(二)

大數據計數原理1+0=1這你都不會算(三)

大數據計數原理1+0=1這你都不會算(四)

大數據計數原理1+0=1這你都不會算(五)

今天開始進入一個全新的領域,嗯,叫基數估計。

什么叫基數估計呢?

基數是指一個一大堆值集合中,不同的值的個數。

我們之前講的,都是精確的統計,有一說一有二說二,直接去重統計就可以了。

基數估計,故名思議,估計,意思就是使用概率論的思想,用更低空間更低時間的成本,以一個很低很低的誤差率來估計數據的基數。

能不能說說人話呢?

好好好,你長得好看說什么都對。

加入一個集合長這樣

{大蕉,小蕉,小蕉,大大蕉,小蕉}

統計思想會這樣說。

啊大蕉,嗯,1個。

小蕉,沒出現過,嗯,2個。

小蕉,出現過了,嗯,2個。

大大蕉,沒出現過,嗯,3個。

小蕉,出現過了,嗯,3個。

概率論思想會這樣說。

我夜觀天象,掐指一算,公子是個喜脈。

呸呸呸。掐值一算,有99%的概率是3個。

但是又有小伙伴開始說了,我特么把手都快掐出血了,也不知道你吖是怎么估算的。

年輕人不要太著急嘛。

我們今天幾乎所有算法的啟蒙。Linear Counting(LC)

來自于1900年一個叫 KY · Whang 的大濕的一篇名叫《A linear-time probabilistic counting algorithm for database applications》的論文。

This algorithm has O(q) time complexity, where q is the number of values including duplicates, and produces an estimation with an arbitrary accuracy prespecified by the user using only a small amount of space. Traditionally, accurate counts of unique values were obtained by sorting, which has O(q log q) time complexity. Our technique, called linear counting, is based on hashing.

意思就是,啊傳統的精確統計至少要O(q log q)這么死鬼多時間,我們只需要O(q) ,你不覺得很厲害嗎?然后我們是用 Hash 實現的,嗯,可牛逼了。

怎么做的呢?

我們先創建一個長度為m的數組,每一個bit都設置為0,然后搞個Hash算法把這些值的位置所對應的0改為1。

比如字符串 “小蕉寫得這么給力你不點個贊嗎”,經過 Hash 算法1、Hash 算法2、Hash 算法3,生成了數字,1、11、21。

這時候又來了一個字符串 “小蕉寫得這么給力你不點個贊”,經過 Hash 算法1、Hash 算..

你等等等等等,這不是BitMap嗎?你特么在說啥。

年輕人不要太著急嘛。

我急!這輩子就現在!最!急!

好好好我來了我來了。上面這個數組比BitMap所需要的數組小很多很多很多。然后我們假設最終有u個位置還是0。我們給出一個極大似然估計,估計一下n的估計(下面這個是極大似然估計)就長這樣。

好了我要睡覺了,拜拜。

至于詳細的數學推導及誤差分析推導,且聽下回分...

【本文為51CTO專欄作者“大蕉”的原創稿件,轉載請通過作者微信公眾號“一名叫大蕉的程序員”獲取授權】

戳這里,看該作者更多好文

責任編輯:武曉燕 來源: 51CTO專欄
相關推薦

2017-09-12 14:58:27

大數據計數原理

2017-09-19 15:09:50

大數據計數原理

2017-09-30 08:05:41

大數據計數原理

2017-09-26 15:51:29

大數據計數原理

2017-10-25 16:03:08

大數據計數原理

2017-10-27 15:23:56

大數據計數原理

2017-09-15 17:49:25

大數據計數原理

2022-03-27 22:07:35

元宇宙虛擬人IBM

2015-03-16 11:33:16

程序員代碼bug

2021-07-07 06:54:37

網頁Selenium瀏覽器

2017-02-08 19:49:03

內存SSDDRAM

2023-05-16 07:15:11

架構模型對象

2019-12-26 09:56:34

Java多線程內部鎖

2021-04-20 09:55:37

Linux 開源操作系統

2020-09-27 06:50:56

Java互聯網注解

2014-12-11 10:01:09

程序員

2010-10-26 11:05:27

霍金

2016-09-13 22:46:41

大數據

2019-07-09 13:19:02

微軟瀏覽器Windows

2019-12-17 15:10:21

Python字符串代碼
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 免费黄色片视频 | 97伦理电影网 | 日韩电影免费在线观看中文字幕 | 97成人免费 | 亚洲成人一区二区三区 | 免费黄色成人 | 亚洲欧洲中文日韩 | 色综合一区二区三区 | 嫩草视频入口 | 精品一区二区不卡 | 爱草视频 | 黄色一级网 | 亚洲精品视频在线 | 91久久| 国产成人啪免费观看软件 | 午夜影院在线观看免费 | 国产精品一区二区久久久久 | 国产精品久久久 | 精品视频在线一区 | 国产一区二区三区四区五区加勒比 | 中文字幕av在线 | 日本久久久一区二区三区 | 久久中文视频 | 99精品一区二区三区 | 狠狠色狠狠色综合系列 | 久久精品福利 | 成人性视频在线播放 | 日韩国产欧美在线观看 | 国产精品免费一区二区三区四区 | 国产日韩欧美一区二区在线播放 | 免费在线视频一区二区 | 国产一区91精品张津瑜 | 激情欧美一区二区三区 | 中文字幕动漫成人 | 激情福利视频 | 日本电影韩国电影免费观看 | 国产综合网站 | 最新中文字幕在线 | 91色在线视频 | 亚洲欧美精品一区 | 亚洲免费观看 |