前面的一篇文章介绍了可以用来评估KPI的数据上下文——质量控制图,通常我们会用KPI来衡量一些内容的质量、流量的质量,以及访问的质量等,我们经常根据KPI指标直接排序,并认为排在前几名的就是优质的内容,但其实这种方式并不是对所有的KPI都有效。举个最简单的例子:转化率Conversion Rate是很多网站的KPI指标,一般我们会让为Conversion Rate越高则渠道质量越好,或者内容质量越高,但有一种情况,如果网站内容普遍的转化率为10%,但有一个内容的访问次数一共2次,其中有一次实现了成功的转化,那该内容的转化率就是50%,是不是很“高”?是不是真的有这么高?
所以我们在分析关键指标的变化趋势,控制KPI的质量的时候,还需要注意一个问题,那就是如何运用KPI进行有效的评价。
其实Google Analytics已经给了我们答案,在前段时间推出了Weighted Sort(赋权排序)的功能,Avinash Kaushik先生在先前的博文——End of Dumb Tables in Web Analytics Tools! Hello: Weighted Sort对这个功能做过介绍,因为近段时间需要用到这个功能,但我的数据并不在GA上,所以我必须自己设计一套给关键指标赋权的体系,以发现到底这些KPI值可以达到多少预期,这里来分享下我的应用实例。
KPI期望值公式
还是以转化率Conversion Rate为例,电子商务中每个商品的转化率应该是:购买该商品成功的数量/该商品被浏览的次数,所以从统计学的角度来看,当商品的浏览次数(不妨叫做基数,数学上的集合元素个数或者统计学上的样本总数)这个基数越大时,转化率CR的置信度也就越高,同样是10%的转化率,浏览次数为1000的商品显然要比浏览次数只有100的商品在转化率这个数值上的可信度要高,统计学上称为“大数定理”。
根据上面的结论,我们需要根据每个商品转化率的真实值(Actual Value),权衡它的可信度,进而计算得到该商品转化率的期望值(Excepted Value),而这里的可信度就是真实值可以获得的权重,比如60%,那么还有个问题,既然是加权和,另外的40%的权重应该由什么来中和呢?参考GA中Weighted Sort的计算公式,用的是均值,也就是所有转化率的平均,非常不错的idea,于是我们可以得到以下公式了:
期望值(Excepted Value)=权重(Weight)×真实值(Actual Value)+(1-权重)×均值(Average Value)
我们看看哪些数据我们现在就可以拿到,权重显然还不行,真实值应该已经统计得到了,均值?既然有了所有的真实值,那么均值就是一个取平均的简单计算了。好的,那下面就说说我是如何来确定这个权重的。
权重的确定
先看看权重需要符合哪些原则,应该表现为怎样的一个特征。显然,权重的取值范围应该在[0,1],也就是0到100%之间;另外,权重跟基数应该是正相关的,也就是基数越大,权重应该越大。如果你看过我之前的文章——数据的标准化,是不是已经想到了什么?是的,里面有几个公式可以直接用,简单地说,就是将基数进行归一化处理。
KPI的基数一般都是自然数,比如转化率的浏览次数、Bounce Rate的访问数,人均消费的用户数等,所以反正切函数atan不适用,min-max和log函数都适用,可以用散点图简单看一下分别用这两种方法归一化之后权重和基数的变化关系:
Min-max
Min-max是直线的正相关,也就是权重和基数同比例地变化,变化速度一直。
Log函数
Log函数是对数曲线的正相关,也就是权重的变化速度要比基数来得快。
根据这两个方法的特征,我选择了log函数作为权重的计算函数,因为它更符合基数和可信度之间的关系。
应用实例
既然KPI期望值的计算公式,及公式所有需要的数据都已经可以得到了,那么我们就来看看,KPI的基数是如何影响KPI的期望值的:
即基数越大,期望值越接近真实值,反之,则越接近平均值。算法和公式确定之后,我们就可以将其应用到实际的案例当中去了,这里以网站的转化率CR为例,看看这个KPI期望值的算法是不是有效的。
渠道 | 进入访问数 | 转化访问数 | 真实转化率 | 权重 | 期望转化率 |
渠道1 | 1534 | 118 | 7.69% | 79.81% | 7.51% |
渠道2 | 9817 | 641 | 6.53% | 100.00% | 6.53% |
渠道3 | 682 | 43 | 6.30% | 70.99% | 6.45% |
渠道4 | 136 | 11 | 8.09% | 53.45% | 7.49% |
渠道5 | 795 | 69 | 8.68% | 72.65% | 8.17% |
总计 | 12964 | 882 | 6.80% |
表格中的例子是用转化率评价每个渠道流量的质量,比对加权前后的转化率情况,可以看到渠道4由于进入的访问数(基数)较小,所以预期的转化并没有真实值反映的那么好,甚至要差于渠道1;而渠道1因为基数较大,其真实转化率基本能够反映现实情况,渠道2因为基数最大,所以期望值就是实际值。
你也不妨试着用上述的方法转化下你的KPI,发掘一下KPI背后到底隐藏着哪些真相,也许你会发现转化后的结果更加可信,更加能让数据需求方所接受了,那么这个转变就成功了。不要忘了在评论中发表下尝试后的感想,分享下你的使用经历。
非常适合的一个主题。
试着去学习这样的知识。
想咨询下博主,文中的权重是如何设定的?
谢谢
@jimmyshile: 用的是Log函数标准化的方法,具体参考这篇文章——数据的标准化;其实就是以基数的最大值为底的基数的对数,Excel里面的LOG(x,max)。
多个不同的权重指标进行KPI期望值,就不行了啊
@eagle: 对,这个只是针对单个影响因素的,如果影响因素有多个,可以使用主成分分析或者因子分析来确定每个影响因子的权重。
好好努力学习当中!
很有参考意义的文章。。在渠道评估中的确需要考虑进基数的大小
@joegh: @eagle 能否具体说明想多因素影响的情况,当然能举个例子就更好了~~ 谢谢~
期望值(Excepted Value)=权重(Weight)×真实值(Actual Value)+(1-权重)×均值(Average Value)
这里用均值合适吗,均值受异常值影响比较严重,电子商务数据分析中,一般都避免使用均值来衡量,这里博主使用均值是基于什么来考虑的呢?
@xiaoqin: 均值确实会受到异常值的影响,但也要看具体的数据环境,出现异常值很多时候是受脏数据的影响,所以在进行分析前数据的清理是必需的;另外往往我们在基于样本的统计里面需要排除异常值,但这里介绍的是基于总体的KPI,基数足够大的情况下异常值的影响可以忽略;同时类似网站转化率这种指标一般保持稳定的趋势,这个看下网站的每日报表就知道了。
所以基于这些前提这里使用均值应该没有问题,当然如果要剔除异常值的影响也可以使用中位数或者众数这些统计量。
另外电子商务里面有个非常关键的指标——客单价,就是每个顾客或者每个订单的销售额均值,所以在电子商务数据分析里面并不是避免使用均值,如果在保证数据的质量,指标的定义合理的前提下,往往均值的使用对于分析而言是十分有效的。
Pingback 引用通告: 行走在互联网路上——UE之旅 » T检验和卡方检验
Pingback 引用通告: 不得不考虑的时间因素 | 起信
Pingback 引用通告: 时间因素对于数据分析的影响 — SEM KNOWLEDGE BASE|搜索营销智库
很好的文章,受益匪浅。另外想请问一个问题。在如文中的案例中,每个不同渠道分别计算出期望值之后。如何看待这个期望值?或者说如何利用期望值来做决策?
例如,我要选择一个广告投放渠道的时候,是不是应该选择期望值较高的那些渠道(只看期望值)?
@joshua: 你好,其实这里的期望值原先的应用主要是当细分项很多时,可以根据期望值进行排序选择前几的。但如果实际观察数据时可以结合基数来看,因为即使期望值用了一定的算法消去了基数带来的置信度过低的影响,但当基数过小时,期望值趋向均值还是基于所有的值最终都会偏向均值靠近的假设,这个假设对有些数据不一定成立,所以结合基数来看,基数越小,这个数据之后可能出现的波动就会越大。
Pingback 引用通告: 网站关键指标背后的秘密 | 钛媒体网
@joegh: 不太懂。这样只是对数据进行了标准化,如何定的权重呢?
@jenny: 这里的权重根据基数的大小来确定,因此对基数进行标准化之后就可以转化为权重,同时用(1-权重)对均值进行赋权。