标签归档:Bounce-Rate

崩失率

合并和比较度量

——数据的上下文4

Combined-and-Comparative-Metrics  往往我们在做分析的时候需要结合各类基本的指标进行二次计算合并得到一个可以用于进行综合评价或比较的度量,这个过程中就需要涉及到一些指标的合并技巧,和比较基准的设定。其实之前“数据上下文”的系列文章中也一再强调了我们需要为指标设定合理的参考系来评价指标的趋势或表现的好坏,之前提供了一系列的方法,但这篇文章里面要介绍的方法应该是最简单方便的,同时不失实用性,得益于《用户体验度量》这本书中的介绍,所以这篇文章更像是一篇读书笔记,内容基本整理总结自《用户体验度量》第8章——合并和比较度量,当然不再局限于用户体验层面,结合了网站分析层面的思考。

  这里我根据合并和比较类型的不同将内容分成:简单合并度量目标比较百分比评分度量均值比较标准化度量组间比较与专家绩效的比较

简单合并度量目标比较

  这是一个最简洁有效的KPI评价模式。首先说下简单合并,举个例子,电子商务网站每天产生很多订单,这些订单由许许多多的网站访问带来,一旦某个访问产生了订单,我们就说这个访问产生了转化,所以最基础的统计指标没有转化率,只有网站的访问量和订单数,转化率是由“订单数/访问数”计算得到的。那么为什么要计算转化率,用订单量来评价网站绩效不是也可以吗?很简单,因为订单量会受到网站访问量的影响,而很多时候网站的访问量无法控制,所以我们不能说100次访问产生的10个订单一定比150次访问产生的15个订单要差,如果用着两个指标的合并度量——转化率来评价,显然更科学,因为都是10%,两者的绩效是相当的。

  因为合并度量,如转化率、人均消费等指标一般较为稳定,波动幅度不会太大,我们一般会将这些指标作为网站的KPI,同时我们会为每个KPI设定一个预期的目标,比如我们设定网站的转化率目标是10%,那么我们来看看网站一个月内的目标达成比例有多高:

simple-combined-metric-goal

  我们可以看到在5月份的31天时间里,有26天的转化率等于或者超过了目标值,从而目标的达成率就是83.87%(26/31),还算是一个不错的成绩。也许你的团队正在抱怨KPI太过苛刻,毕竟数据会受诸多因素的影响,要保证每天10%以上确实有难度,如果真能完全做到,那就是目标的设定过低,目标永远应该临界于可以达成和不能达成之间才是合理的,所以这里使用目标达成率来评估可能会更加合理。

百分比评分度量均值比较

  但是有的时候我们没法为每个指标设定目标,毕竟目标更多的是为了控制网站的整体绩效或者KPI,对于一些基于细分的度量,我们需要使用另外的合并和比较方法,所以就有了基于百分比的评分。

  同样很简单,百分比评分就是将指标的值都转化成百分比的形式,相当于该指标在100分制的条件下的得分有多少。如何将指标转化成为百分比的数值,一个很简单的方法就是所有的指标处于总体的最大值,这个方法对于所有大于0且分布不是特别离散的指标都是有效的。比如我们评价网站商品的质量,权衡商品的浏览量和转化率这2个指标,我们知道转化率本身就是一个百分比,但显然也是需要进行转化的,所以我们将每个商品的浏览量和转化率分别除以总体浏览量最大值和总体转化率最大值得到相应的百分比评分:

  浏览量 转化率 浏览量评分 转化率评分 评分均值
商品A 563 7% 100 78 88.9
商品B 121 9% 21 100 60.7
商品C 87 8% 15 89 52.2
商品D 367 5% 65 56 60.4

  上面的均值基于简单平均的计算,同样我们可以对各指标引入权重进行加权平均,比如我们分别给浏览量评分和转化率评分分别赋予40%和60%的权重:

  浏览量 转化率 浏览量评分 转化率评分 加权评分均值
商品A 563 7% 100 78 86.7
商品B 121 9% 21 100 68.6
商品C 87 8% 15 89 59.5
商品D 367 5% 65 56 59.4

  这样我们就可以根据最终的评分均值寻找那些高质量的商品进行推荐了。

标准化度量组间比较

  又是标准化,是不是有点看腻了,但确实它在指标合并的领域扮演着极其重要的角色,同样推荐阅读——数据的标准化这篇文章。

  方法这里不再详细介绍,还是举个例子,另外值得注意的一点就是对“逆指标”的处理,逆指标指的是那些表现的值刚好与绩效相反的指标,即值越大绩效越差,值越小绩效越好,网站分析中典型的逆指标就是Bounce Rate。因为标准化后的指标符合均值是0标准差是1的正态分布,所以对逆指标的处理只需要对标准化后的数据乘-1就可以了,也非常简单。这里以网站Landing Page优化为例,来看看如何有效地评价3个Landing Page的优化方案哪个才是最优的:

  Bounce Rate 转化率CR BR标准化 CR标准化 标准化均值
方案A 45% 8% -0.651 0.873 0.762
方案B 46% 5% -0.501 -1.091 -0.295
方案C 57% 7% 1.151 0.218 -0.467

  同样使用了求均值的方法,将各指标标准化后取均值进行比较(注意这里取均值时对BR标准化的结果乘了-1),我们就可以轻而易举的看出A方案的效果是最优的,这也是一种“目标决策”的最简单应用。这里需要注意的是指标标准化后的数值的分布是不定的,不像上面的百分比一定是在[0,100]之间,所以标准化后的数值本身不具有实际意义,只有将它放入比较环境中才有分析的价值,所以指标标准化的方法只适用于组间的比较。

与专家绩效的比较

  如果你能够得到一个对该领域的专业知识和技能非常熟悉的专家团队的支持,那么对网站的评价会容易许多,因为专家对网站的使用和评分就可以作为网站的最优标准。

  其实一般情况下我们认为专家的绩效是一个理想化的状态,比如专家能够在最短时间内通过最少的操作完成预期的任务,所以我们可以将专家组的数据作为网站可以达到的优化目标,而目前数据与专家数据的差异就是目前网站存在的优化空间,这样的分析让我们能足够明确自身在哪些模块距离最优的水平最远,同时优化的空间最大,我们完全可以从这些方面入手来实现最快最大的提升。

  除了介绍以上的度量合并比较的方法外,书中还介绍了使用柱状折线组合图和雷达图来展现多指标的比较环境,因为这些在之前的文章中都有提及,这里不再介绍了。

  其实上面介绍的都是最简单实用的指标比较处理的方法,这些方法无论在哪类公司或者哪些指标上都能够进行套用,甚至基于这些最基本的取百分比、取平均、目标比较等方法可以举一反三扩展出更加灵活有效的分析方法。这时候就需要动用你的智慧,为你的数据选择最合适的方法了。

网站分析的基本度量

metrics-of-web-analytics  我们在使用各种网站分析工具的时候,会看到很多不同的度量指标,可能不同的工具会有不同的命名和定义,这里列举一些常见的度量,简单说明一下它们是如何计算得到的。

  下面的度量都是来源于网站点击流数据,但根据点击流数据获取方式的不同(来源于网站原始日志文件或通过beacons和JavaScript的方式获取的网站日志,如同样免费的AWStats和Google Analytics)得到的度量也会有差异,某些度量只有通过特定的方式才能获得。关于网站日志的介绍,请参考这篇文章——WEB日志格式

Hits

  来源于网站原始日志,即用户浏览网站时发起的请求数,包括页面请求,也包括图片、CSS、Flash等,所以一般打开一个页面会发送多个请求,根据网页设计的差异Hits会是PV(Page Views,下面会有介绍)的N倍,比如我的博客的AWStats统计中Hits数一般是PV的3-5倍。

Page Views

  即PV,页面浏览数,页面被打开(请求)的次数,是网站分析中最常见的度量。注意Ajax架构或Flash下同一URL下可以浏览多个页面,进行多个操作,这些都无法在PV中体现。还需要注意Unique Page的定义,当一个页面被刷新多次时,其实用户浏览的始终是同一页面,所以这时的Unique Page Views还是1。

Visits

  访问量,也是常见度量之一,用于衡量用户的一次访问(从打开进入网站到离开网站,其中可能浏览了多个页面(PV))的数量,也就是网站Session的个数(关于Session,可以参考我的这篇文章——Session和Cookie的辨析)。

Unique Visitors

  UV,被用于标识访问网站的唯一用户数,关于如何识别用户,请参考这篇文章——网站用户的识别。注意一个Unique Visitors可能会有多个Visits。

Time on Page

  页面停留时间,即用户从打开页面到离开页面的时间间隔,这个度量一般只有当用户在你的网站中点击了下一个页面时才会有记录,否则是0,所以所有Visits的最后一个页面的Time on Page一般都为0,具体参见WEB日志的作用和缺陷中关于停留时间的说明。所以我们在计算页面平均停留时间(Avg. on Page)的时候一般会过滤Time on Page=0的记录。

Time on site

  即每个Visits的停留时间,一个Session的开始到结束。跟Time on Page同样需要注意其计算中存在的误差,取平均的时候注意过滤长度为1的session。

Bandwidth

  这个度量也一般只能从原始日志中获取,Bandwidth是AWStats中的命名,统计网站的流量,需要将所有请求的传输字节数相加得到结果。一般用于衡量网站的流量情况,服务器IO负荷,及某些限制了月流量最大值的虚拟主机流量使用情况。

Bounce Rate and Conversion Rate

  关于Bounce Rate ,有一句很形象的描述——“I came, I puked, I left.” 即进入你的网站,什么事都没干就直接离开了。关于Bounce Rate的注意点,请参考这篇文章——关于Bounce Rate定义的疑问

  如果一个访问没有Bounce,那么我们就可以跟踪其访问足迹统计Conversion Rate,即从上一步进入的访问率(Current Visits/ Previous Visits)。转化率对于某些网站的关键流程的优化可以起到重要作用,比如电子商务网站的购买流程等。

Entrances and Exit Rate

  Entrances一般用户衡量网站首页或Landing Page的进入情况,指First Page of Visits。Exit Rate可以作为每个页面的基本度量,衡量从该页面离开的比率,即该页面是整个Visits的最后一个页面。

Sources and Search Key Phrase

  来源于referrers的统计,Sources即网站的来源(搜索引擎、广告或其它),用于广告投放效果分析、SEM等。

  Search Key Phrase是基于来源是搜索引擎referrer的解析,统计来源的搜索关键词,Avinash Kaushik建议我们使用Key Phrase而非KeyWords。有助于SEO和发现用户需求。

Engagement

  参与度对于不同网站来说定义不一,可以是电子商务网站的购买、反馈行为,也可以是论坛的发帖、跟帖行为,还有视频网站的观看视频、游戏网站的线上游戏等。每个访问的参与度可以用Engagement Rate = Engagement Index / visits来计算,即参与度 = 参与标识/访问量。

Destinations

  即点击站外链接,一般通过JS代码来监控站外链接的点击,对于一些广告、宣传、推荐等点击情况跟踪比较有用,可以衡量网站对资源推广的能力和价值。

  上面列举的都是网站分析中一些比较基本的指标和度量,我们在网站分析过程中可以基于这些度量通过求和、比例、平均等方式获得更多我们希望得到的数据,进而为我们的分析结果提供更充分的依据。

关于Bounce Rate定义的疑问

bounce  Bounce Rate是网站分析中一个比较有意思的度量,也是Avinash Kaushik个人比较喜欢的一个度量,目前网上对它的讨论也比较多。目前用的比较多的是“跳出率”这个翻译,个人比较喜欢Sidney的翻译——崩失率,音译和意译兼备。原本一直以为Bounce Rate的定义就是只浏览了单个页面的访问量占总访问量比率,无论是Google Analytics的“Single PV Visits/Total Visits”还是Omniture的“Single Page Visits/Total Visits”,计算的方法都较为类似。但最近在翻Avinash Kaushik的《Web Analytics》时,发现Avinash Kaushik对Bounce Rate的定义推荐使用Time on Site,即访问的停留时间小于10秒或5秒的访问量所占的比例,不知道是不是因为这本书出版已经有点时间了的关系,不知道《Web Analytics 2.0》中对Bounce Rate的定义是怎么样的。

  但是无论用Visits的页面数还是Time on site来定义Bounce Rate,其实都存在陷阱,都会引起Bounce Rate过高。

Bounce Rate中的陷阱

  先来说说为什么Avinash Kaushik推荐使用Time on Site,据《Web Analytics》中Bounce Rate相关内容章节中的介绍,Avinash Kaushik是根据实践的经验得出用户在网站的停留时间小于10秒时,一般无法完成一次有效的交互(Engagement)。当然根据网站类型的不同,Bounce的Time on Site的可以在5-10秒这个区间里面选择一个合适的值。

  之所以使用停留时间,而不用浏览的页面数,是因为用单页面的访问来定义Bounce是不准确的。就像基于Wordpress的博客,可能很多用户只需要访问首页就可以浏览最新发布的文章,也就是说虽然只访问了一个页面但达到了期望的目的——浏览该博客最近发布的文章,基于RSS的订阅也是这种情况,那么我们就不能认为这类访问是Bounce的。再举个更直观的例子,Twitter上包括查看最近tweets或发布tweet,其实都是在同一URL——twitter.com下完成的,如果单纯使用单页面访问来定义Bounce Rate,估计Twitter.com的Bounce Rate会达到98%以上,这样就无法真正体现Bounce Rate指标的意义了。

  既然用Page或PV=1来衡量Bounce存在以上的弊端,那么为什么这么多的网站分析工具还是使用这一标准呢?首先我们必须清楚Avinash Kaushik推荐使用Time on Site是基于一定的前提的,即网站的停留时间可以进行准确的测量,而现在停留时间的普遍计算方法是存在缺陷的,可以参考我之前的文章——WEB日志的作用和缺陷中对停留时间缺陷的说明。当然也有一些特殊的方法是可以获得用户离开网站的时间点的,如用户点击链接时的页面重定向,关闭浏览器时弹出隐藏窗口等,这些技术因为其实现方式在某些程度上会影响用户的使用,或让用户感觉不适,被认为是不雅的手段,所以一般不建议使用。

pitfall

  所以一般我们是很难得到用户真正离开网站的时间点的,当前一些流行的分析工具也是如此,这就会导致Time on Site无法得到准确的测量,那结果就是所有单页面的Visits的Time on Site都是0,而那些0<Time on Site<10s的Visits其实只是那些从进入页面到离开页面停留时间小于10秒的访问,而不是真正的访问停留时间就一定小于10秒(我们无法知道他在最后一个页面的停留时间)。这种情况下的Time on Site将会把我们引入一个更深的陷阱,所以目前的大部分分析工具基于其本身获取数据的能力选择“单个页面的访问量占总访问量比率”作为Bounce Rate也是可以理解的,或者更像是一个无奈之举。

  所以,对于Bounce Rate其实可以保持谨慎的乐观,也许你的网站并没有分析数据上显示的这么糟。那么Bounce Rate这个有趣的度量有没有更加有效的定义方法呢?我目前还没有找到,欢迎大家回复讨论。