大数定律与抽样陷阱

　　前面一篇文章——难以解释的数据异常——发出来之后，朋友推荐我去读《黑天鹅》，刚刚翻完这本书，发现书中的很多观点和细节的表述都能给人启发，尤其是“叙述谬论”和“过度解释”这个两点能对难以解释的数据异常这篇文章中描述的内容给出另一个侧面的解释。从作者塔勒布的后记和书中表述的观点来看，读过这本书的人可能很容易走入两种认识的极端：

　　1、既然一些未知的黑天鹅事件可能对我们造成极大的影响，那我们就应该去努力预测这些未知事件，以便做好充分的准备来应对这些事件。但作者在书中明确说了黑天鹅事件的不可预测性；
　　2、既然我们无法预测未知，并且未知事件可能对我们的生活造成翻天覆地的影响，我们只能不去做任何的预测和准备，等待命运的审判。但书的副标题是“如何应对不可预知的未来”，所以作者塔勒布并不认为我们什么都做不了，至少能够认识到黑天鹅的存在，打破传统思维的局限性，谨慎地预防，黑天鹅是未知的未知，我们需要为已知的世界和已知的未知做好准备。

　　《黑天鹅》中多次提到大数定律可能会愚弄我们，作为数理统计和概率论中两个经典的理论（中心极限定理和大数定律）之一，为什么遇到黑天鹅事件时就会失效？或者说大数定律在遇到任何的小概率事件时都有可能“失效”，需要谨慎地认识，以防掉入应用中的陷阱。

大数定律

　　大数定律（Law of Large Numbers），指在随机试验中，每次出现的结果不同，但是大量重复试验出现的结果的平均值却几乎总是接近于某个确定的值。典型的例子就是抛硬币的伯努利试验，当抛硬币的次数足够多的时候，正反面出现的概率都接近于1/2。

　　常用的大数定律有伯努利大数定律和辛钦大数定律。其中伯努利大数定律指在n次独立试验中，事件A发生的频率为p，当n足够大时，p无限接近事件A真实的发生概率，即频率的稳定性；辛钦大数定律指若n个独立同分布的随机变量存在数学期望，则当n越大时，其算法平均数越接近于这些随机变量的真实数学期望值，即均值的稳定性。

　　大数定律为统计推断提供了充分的理论依据，我们可以通过抽样的方法用样本统计量的特征去估计总体的特征，而不需要去研究整个总体。当样本的数量越大时，其对总体的估计就越接近总体的真实特征。但在面对小概率事件时，大数定律对总体的估计会显得无能为力，很多时候结论是失效的。

小概率事件

　　假设我们进行重复10000次的伯努利试验，事件A、B、C发生的次数均满足二项分布X~B(n, p)，n代表试验次数，p代表事件发生的概率。其中事件A发生的概率为10%、事件B发生的概率为1%、事件C发生的概率为0.1%。我们知道，满足二项分布的随机变量的均值是np，方差为np(1-p)，于是就可以用变异系数CV（具体内容参见衡量数据的离散程度这篇文章）来衡量这3个事件发生次数的变异性或者波动情况，可以得到如下的结果：

事件	试验次数	发生概率	均值	方差	变异系数
A	10000	10%	1000	900	3.00%
B	10000	1%	100	99	9.95%
C	10000	0.1%	10	9.99	31.60%

　　从上表中可以看出，当试验的次数保持恒定时，事件发生的概率越低，则事件发生的次数会存在越大的波动性或者波动幅度，如果我们继续降低事件发生概率，比如事件D发生概率为0.01%，也就是10000次试验中发生的期望次数是1次，那么事件D的CV就高达99.99%，完全无法预判其是否发生。所以在相同的条件下，小概率事件一定比普遍发生的事件存在更大的变数，概率越小波动的幅度就越大。

抽样误差

　　随着网站数据量的不断增大，数据的处理和统计需要更高的成本，于是有些分析就会借助抽样的方法来处理数据，Google Analytics的免费版当数据量达到上限时就会采用抽样的方式显示结果报表。其实很多时候我们都在使用抽样的方法分析数据，我们可能会用最近7天的数据来评估近段时间的流量变化、转化情况等，但7天并不能完全代表近段时间，其实做的也是一种抽样。下面来看看现实的网站数据分析的例子：

　　转化率（Conversion Rate）是网站分析中非常重要的一个指标，很多公司会把转化率当做运营产品部门的KPI，但对于很多网站而言，转化率并不大，一般不会超过10%（根据网站业务特征的差异和对目标转化的定义不同，转化率在不同网站间没有一个恒定的标准，也不具备可比性），如果网站的内容质量不高或者用户体验不好，转化率也很可能低于1%。这个时候如果用抽样的方法来预估网站整体的转化情况，就很容易掉入抽样误差的陷阱。

　　网站的转化情况其实是一个二项分布，即转化或未转化，满足X~(n, p)。根据中心极限定理，二项分布的极限是正态分布，一般认为当np和n(1-p)同时大于10时，二项分布近似地满足X~N(np, np(1-p))的正态分布，即均值为np，方差为np(1-p)。将二项分布除以n之后可以得到均值，即概率p的分布，当n大于30时，近似服从N(p, p(1-p)/n)的正态分布，即均值为p，方差为p(1-p)/n，当n无限大时，样本概率p与总体概率就不存在误差，也就是满足大数定律。假如我们从网站每天几百万次的访问中抽样1万次访问来预估整体的转化率，当样本的转化率（即概率p）分别为10%、1%、0.1%时，预估的总体转化率的变异系数同上表，分别为3.00%、9.95%、31.60%（可以用均值为p，标准差为sqrt(p(1-p)/n)进行验证），所以样本转化率越低，使用样本转化率去预估总体转化率就会越不准确。

　　既然过小的转化率在抽样中可能导致预估的结果存在巨大的误差，那么如何合理地选择样本数量来控制这个误差？上面已经提到，当二项分布的np和n(1-p)同时大于10时，可以认为近似满足正态分布，在正态分布下面，就可以计算在一定置信水平下的置信区间（详细计算方法见参数估计与置信区间中的区间估计），而要让抽样的误差控制在可接受的范围内，可以增加抽样的样本数来提升样本对总体估计的可信度。

　　假设我们将置信水平设定在90%（一般认为95%的置信水平是满足统计学意义的，但互联网的数据影响因素较多，普遍波动较大，不需要科研实验那么高的精确度，所以90%的置信水平足够了），即Z_α/2取到1.65，我们对转化率的控制一般要求较高，假设在90%的置信水平下，样本的置信区间必须控制在样本转化率的±10%，可以看下在这种条件下各种转化率水平所需的抽样样本数必须满足怎么样的条件：

转化率	10%的转化率	σ需要满足	n需要满足
10%	0.01	<0.00606	>2451
5%	0.005	<0.00303	>5174
1%	0.001	<0.000606	>26958
0.1%	0.0001	<0.0000606	>272032

　　上表的样本数条件可以作为我们抽样时的参考，具体的应用可以根据概率的大小和对置信水平、置信区间的需要进行计算得到。

　　最后再回到黑天鹅，通过上面对小概率事件和抽样误差的解释，其实已经很明显了。黑天鹅是极小概率事件，可能几十年几百年才遇到一次，而大数定律是一个理想化的状态，也就是n值趋近于无穷，我们很难在人生短短数十年经历很多小概率事件，或者我们的知识阅历的储备无法包含这么多的异常，很多事情在几十年的“抽样样本”中是不存在的；同时因为时代在快速地变化，当前可能发生的事件可能仅限于当前这个环境，我们无法通过历史去预见未来。于是我们完全没法知道黑天鹅事件发生的可能性，甚至不知道它的存在，即黑天鹅事件是未知的，也是无法预测的。

　　春节前的最后一篇文章了，提前祝大家春节快乐，一起期待下一年的精彩！