当前位置: 首页 > news >正文

好用的网站/google广告

好用的网站,google广告,成都抖音推广公司,wordpress 写php代码HyperLogLog概率统计 由于使用了概率统计,我们必须首先谈谈收益。我们都喜欢丰厚的回报。 先来看一下比较高级的 bitmap。 bitmap 通过位数据存储特定数据的数据结构。每个位的位置可以独立地包含信息,位数据的最小存储单元,因此可以节省很…

HyperLogLog概率统计

在这里插入图片描述
由于使用了概率统计,我们必须首先谈谈收益。我们都喜欢丰厚的回报。

先来看一下比较高级的 bitmap。

bitmap 通过位数据存储特定数据的数据结构。每个位的位置可以独立地包含信息,位数据的最小存储单元,因此可以节省很多空间,并且整个位数据也可以加载到内存计算中。

比如:
在这里插入图片描述
在这里插入图片描述

每一位使用0或1表示是否包含它。

多个统计结果可以轻松合并,只需要对多个结果进行XOR,也可以大大减少存储空间。

即使这样,内存使用率仍然很高,有些我们必须计算10亿条数据。1000000000/8/1024/1024 ≈ 120 M ,如果有1,000个对象,则最多需要 120 000 M money(内存)。

接下来我们看一下 HyperLogLog

由于它是通过简单的抛硬币实验指导的,因此我们首先来看一下抛硬币的过程。

第一次抛硬币,抛了1次,就出现正面。

k1\mathop {k}_{1}k1=1,n=1
第一次伯努利过程。

第二次抛硬币,抛了3次,就出现正面。

k2\mathop {k}_{2}k2=3,n=2
第二次伯努利过程。

第三次抛硬币,抛了6次,就出现正面。

k3\mathop {k}_{3}k3=6,n=3
第三次伯努利过程。

第n次抛硬币,抛了12次,就出现正面。

kn\mathop {k}_{n}kn=12
第n次伯努利过程。
我们可以估计 n=2^12

可以发现此时的误差很大,下面让我们减少误差。

以下是摘自 HyperLogLog: the analysis of a near-optimal
cardinality estimation algorithm
的公式

在这里插入图片描述

基本步骤:

  1. 获取值。
  2. 将获取的值转为hash值。
  3. 把hash值转为二进制数。
  4. 创建m个桶,并初始化桶的值。
  5. 二进制数末尾取s位作为索引值.
  6. 剩余数从低位到高位寻找第一个1出现位置j。
  7. 在j桶的位置放入转化为十进制s位的索引值(如果比原有的值小,则保留原有的最大值)。
  8. 取每个桶的调和平均值。
  9. 求出基数值。

假设我们有一个值:14,262,337

转化为hash值为:3,838,145,797

转化为二进制数为:1110 0100 1100 0101 0111 0101 0000 0101(是不是和抛硬币正反面差不多)

创建64个桶并初始化:m=64

在这里插入图片描述

将后6位作为索引值:000101(十进制:5)

在这里插入图片描述
在剩余数从低位到高位找出第一个1出现的位置。

在这里插入图片描述
在第5个桶放入3。

如果此时第5个桶内已经包含6,3<6,则第5个桶内的值不做改变,依旧为6.

在这里插入图片描述
取调和平均值:将所有数值取倒数并求其算术平均数后,再将此算术平均数取倒数而得,其结果等于数值的个数除以数值倒数的总和。

比如:x1\mathop {x}_{1}x1=3; x2\mathop {x}_{2}x2=6; n=2;

则:

在这里插入图片描述

在这里插入图片描述

求基数值:

在这里插入图片描述

其中:

在这里插入图片描述

我们使用了64个桶,所以我们这里使用 0.709.

在这里插入图片描述
带入公式,偏差依旧很大。我们需要对数据进行微调。

摘自HyperLogLog: the analysis of a near-optimal cardinality estimation algorithm

在这里插入图片描述

将 E 值进行调整,情况分成三种:

  • 小范围
  • 中等范围
  • 大范围

当 E ≤\le 5m/2:

使用:

在这里插入图片描述

中等范围:

值不变

大范围:

在这里插入图片描述

http://www.jmfq.cn/news/5064499.html

相关文章:

  • 怎么在百度上做自己的网站/生活中的网络营销有哪些
  • 江苏网页设计公司/搜索引擎优化分析报告
  • 域名备案查询网站备案信息/网络项目资源网
  • 沈阳做网站有名公司/优帮云排名自动扣费
  • 安卓优化神器/优化大师客服电话
  • 网页客服系统源码/济南网站优化公司哪家好
  • 网站做视频监控方案/seo竞价推广
  • 网页网站开发平台/链接交换公司
  • 网站恢复正常/手机百度2020最新版
  • 什么是优化型网站/爱站网关键词挖掘工具站长工具
  • 静态展示网站多少钱/小程序开发模板
  • vb2010做网站/抖音seo公司
  • 公司做网站需要准备什么条件/域名怎么查
  • 上海 企业 网站建设/备案域名交易平台
  • 橙子建站发来的验证码安全吗/搜索到的相关信息
  • 网站建设公司发展前景/seo服务公司招聘
  • 上海企业微信网站制作/关键词优化话术
  • 网站建设的主要缺陷/网店代运营十大排名
  • 企业每年向工商网站做申报/seo常用工具包括
  • 漳州网站建设优化推广/查找网站
  • wordpress自定义文章/吉林网络seo
  • 做纸巾定制的网站/营销推广ppt
  • 久久建设集团有限公司/seo怎么做关键词排名
  • 医院网站建设 招标/电商网站开发需要多少钱
  • 建设网站去哪里找/域名检测工具
  • 网站怎么谈设计/杭州哪家seo公司好
  • 网站做cpa赚钱/搜索引擎推广培训
  • 超市如何建立网站/seo研究中心晴天
  • 九江 网站建设公司/seo外链
  • 公司网站高端/如何发布自己的网站