标签归档:细分

多维交叉分析

cross-analysis  我们在进行数据分析的时候,大部分时间都在使用趋势分析、比较分析、细分分析这三类方法,但其实还有一个方法我们也会经常使用——交叉分析,尤其是在排查数据异常的问题时,交叉分析就能展现其强大的威力。另外要跟大家说声抱歉的是博客的更新频率可能没有那么频繁了,但是尽量每个月至少能发布一篇,希望文章的质量有所保证,还是欢迎大家留言讨论,能够发起一些有趣的话题,一起拓展在网站数据分析方面的思路。

什么是交叉分析? 

  交叉分析是指对数据在不同维度进行交叉展现,进行多角度结合分析的方法,弥补了独立维度进行分析没法发现的一些问题。

  交叉分析以多维模型和数据立方为基础,也可以认为是一种特殊的细分方式,但跟细分的概念有点差异,如果有兴趣可以先阅读下之前的文章——数据立方体与OLAP。细分的方法更多的是基于同一维度的纵深展开,也就是OLAP中的钻取(Drill-down),比如从月汇总的数据细分来看每天的数据,就是在时间维度上的细分,或者从省份的数据细分查看省份中各城市的数据,是基于地域维的下钻。交叉分析不再局限于一个维度,就像数据立方体与OLAP文章中的立方体,是基于不同维度的交叉,时间维、地域维和产品维交叉在一起分析每个小立方的数据表现,可以通过OLAP的切片(Slice)和切块(Dice)操作查看例如上海市在3月份的电子产品的销售情况,这会帮助我们发现很多在单个维度中无法发现的问题。所以,交叉分析是基于不同维度横向地组合交叉,而不是细分在同一维度的纵向展开。

交叉分析的展现形式

  交叉分析涉及多维度的组合,虽然图表和表格都可以进行展现,但因为图表所能表达的数据有限,且比较不容易把多个维度的交叉关系展现出来,在交叉分析中不太常用,通常以表格为主。我们平常在看的表格通常被叫做二维表,一般第一列放置一个维度,如日期,表头罗列各类指标(其实所有指标也可以被认为是一种特殊的维度——指标维),这样行列的两个维就组成了最常见的二维表。二维表可以进行扩展,进而展现更加丰富的维度:

pivot-table-layout

  如上图就是典型的基于表格的多维度交叉分析的布局,在行列中分层次放置多个维度,如果我们只显示一个指标,那么这里的指标维就没有显示的必要了。其实Excel的数据透视表(Pivot Table)就是交叉分析的利器,我在数据的报表和报告这篇文章中提到过数据透视表,这里还是基于那篇文章截图的原始数据,如果我们将各维度按照上面的布局形式进行展现的话,会是怎么样的效果: 

excel-pivot-table

  看起来还不错,显示的信息非常丰富,左边包含了以天为单位时间维和产品维,可以使用展开按钮进行汇总和展开,就像是细分的操作;上面的表头部分分两层罗列了地域维和指标维,Excel的透视表提供了丰富的设置,默认展现基于各个维度的汇总数据,让我们可以从“总-分”的角度观察数据,这对数据分析非常有用。假如我们使用上面的透视表进行交叉分析发现数据是否存在异常?

  使用从总体到细节的分析方法,首先可以从查看每天销售额和转化率的汇总数据开始,折叠产品维之后观察最右侧的指标汇总列就可以看到每日汇总数据;如果某一天的销售额或转化率出现了大幅的下滑,我们就可以结合各种维度寻找问题的原因,就是基于各种维度的细节数据,展开产品维观察当天的哪类产品销售出现了问题,然后结合地域维的交叉数据,可以定位哪类商品在哪个省份的销售出现了问题,这样就有效地将问题定位到了细节的层面,能够更好地发现问题,进而解决问题。所以交叉分析其实正是体现了分析“分而析之”的本意。

  上面的方法一般是比较常用的基于问题的分析方法,但我们很少可以一次就定位到问题,往往我们会根据推测多次查询数据库或查看Dashboard上的各类报表来定位问题。而结合透视表的交叉分析,我们使用一张报表就快速地定位了问题所在,从总体到细节,逻辑非常清晰,问题的定位也非常准确和到位,所以合理地利用交叉分析可以帮助我们更加高效地排查问题。

交叉分析的基础

  这里不得不再说一下交叉分析基于的底层基础数据模型,因为如果没有设计好底层的数据模型,上层的交叉分析是很难实现的,或者多维的交叉受到限制而使分析存在局限性。

  从技术层面来看,交叉分析基于多维模型,数据的维度越丰富,所能实现的交叉也越丰富和灵活,通过各种交叉分析能够更加有效地发现问题;但相应的,如果要尽可能地丰富各维度的交叉分析,对基层模型的要求也就越高。所以如何设计好数据的底层模型非常关键,还是引用数据立方体与OLAP文中的那个数据立方看个简单的例子:

data-cube

  如果一张网站分析的报表只包含以月度为单位的日期维和相应的指标,那么数据的存储就是每个月一条记录,但显然这种高度聚合的数据不利于分析,我们需要构建如上图的数据立方体来获取更加细节的数据。用数据立方来拓展数据细节有两种方向,一类是纵深拓展,也就是基于一个维度的细分,比如将一个月细分到每一天,那么一条记录将会被拓展成30条;还有一种是横向的拓展,就是多个维度的交叉,就像上面立方中添加了产品维和地域维。这样存储的数据就从原本单一的时间维度扩展成了时间、产品和地域三个维度,也就是三维立方体所能展现的形式,当然维度可以继续扩展,四个五个直到N个,理论上都是可行的,这里只要以三个维度进行举例就可以。对于数据存储而言,横向的拓展与纵深拓展的影响是一样的,记录数都是以倍乘的方式增长,假设这里产品维是产品大类,有20个产品大类,再加上32个省份或直辖市,那么经过纵深和横向拓展之后,原先每月的1条记录就变成了:

1 × 30 × 20 × 32  =  19200

  而我们在构建多维模型的时候很多维度中包含的数据量绝对不像上面例举的那么小,想象一下网站的商品或者页面的数量可能是成百上千甚至成千上万的,那么一旦以倍乘的形式扩展之后,数据量就会一下子剧增。虽然丰富的多维立方能够给分析带来便利,但也同时给数据的存储和查询带来的压力。

  所以,更加丰富和灵活的分析需求的实现基于更加复杂的多维模型或者数据立方,同时会带来更大的系统开销。Google Analytics很好地权衡了灵活的数据分析与复杂数据模型之间的关系,这也是Google Analytics强大功能的基本保障,GA的高级细分(Advanced Segments)和自定义Dashboard是其他同类免费网站分析工具所无法比拟的,这也正是为什么我们将GA划分到网站数据分析工具,而其他的大部分只能算作网站数据统计工具的原因。而GA正是基于其构建的强大的底层数据模型和高效的数据计算和响应能力,使很多分析功能可以得到扩展,其中很多就涉及交叉分析,这里截图了其中的两个功能,Secondary DimensionPivot

GA-secondary-dimension

  Google Analytics新版本增加了很多令人心动的功能,Secondary dimension的功能从老版本得到了延续,上图在Content模块的Page报表中选择了流量来源作为第二维度,这样我们就可以查看每个页面的流量是从何而来,每个流量来源在该页面的数据表现,同时可能还可以发现一些有趣的现象,比如某些页面的流量基本都是一个来源带来的,比如我的博客的某些文章基本都是通过搜索引擎进来的,而另外一些文章基本通过直接流量带来。

GA-pivot

  在GA的各类报表中可以在右上角选择展现的形式,最后的一种就是Pivot,Pivot的形式对表格的表头进行了扩展,可以分层次放置另外的维度,如上图还是使用了页面与流量来源的交叉,将Source维度放到了指标的上方。同时GA支持在两个维度的基础上最多选择两个度量Metric,我这里选择了Pageviews和Bounce Rate,来衡量每个页面中各类流量来源所带来的“量”和“质”,同样对于分析非常有价值。

  多维的交叉分析我们在日常中潜移默化地经常会用到,交叉分析对于问题的排查和定位额外有效,所以我们需要想办法用更好的形式去展现数据,以便于更有利于进行交叉分析,其实这里介绍的透视表的方式是最常用的,也是比较好用的,但这类方式太少,不知道大家有没有其他更加有效的交叉分析展现方式。

基于用户细分的比较分析

Pizza  从网站的用户层面,我们根据用户访问的行为特征将用户细分成各种类型,因为用户行为各异,行为统计指标各异,分析的角度各异,所以如果要对用户做细分,可以从很多角度根据各种规则实现各种不同的分类,看到过有些数据分析报告做了各种用户的细分,各种用户行为的分析,再结合其他各种维度,看上去内容绝对足够丰富,但很难理解这些分析结果到底是为了说明什么问题,也许作为一个咨询报告反映当前整体的趋势和用户特征确实合适,但如果真的要让数据分析的结果能够引导我们去做些什么,还是要在做用户细分前确定分析的目的,明确业务层面的需求。

  既然要做基于用户细分的比较分析,自然是为了明确某些用户分类群体的行为特征与其他用户群体的差异。这里主要从指导内容层面的调整为导向,通过比较各用户细分群体对内容需求的差异,优化内容运营,将优质的内容或者符合用户偏好的内容推荐给相应的用户。

  既然是基于用户细分,首先明确用户的细分规则,这里举例3类细分:流失用户与留存用户、新用户与老用户、单次购买用户和二次购买用户,基于这3类细分,对每个分类的用户购买商品进行比较分析,明确哪些商品更加符合用户的预期。

流失用户和留存用户比较

  当然,要区分流失用户和留存用户,首先必须对用户流失有一个明确的定义,关于流失用户的定义可以参考博客之前的文章——网站的活跃用户与流失用户。有了定义我们就可以做统计和细分了,还是以电子商务网站为例,电商网站的内容就是商品,我们基于每个商品计算购买这些商品的用户中购买后造成流失的用户比例,如下:

away-remain-comparison

  这里的指标定义应该比较明确,每个商品的流失用户比例应该是购买该商品后流失的用户数在所有购买该商品的用户中的占比,但只知道每个商品的流失用户比例无法评价这个商品是否对用户保留有促进作用,或者在一定程度上造成了用户的流失,只有通过与总体水平的比较才能得出相应的结论。所以这里需要重点解释的是“与总体比较”这个数值是怎么计算的到的,这里的百分比不是直接相减的结果,而是一个差异的幅度体现,这里假设总体用户流失率为56%,那么以A商品为例,与总体比较的结果是:( 58.13% – 56% ) / 56% = 3.80% ,使用同样的计算方法也可以得到其他商品与总体比较的差异幅度。最后就是展示,在Excel里面通过“条件格式”里面的数据条功能可以直接展现出图中的效果,非常方便。

  很明显,上面图中的分析结果对运营调整有直接的指导性,目的是促进用户保留,所以我们要做的就是将有利于用户留存的商品(F商品的用户流失率明显要比总体低得多,说明F产品更有利于用户保留)推荐给用户,而将那些可能导致用户流失的商品(C商品)进行优化或者下架。

新用户和老用户比较

  同样,使用上面的方法可以区分不同用户群的购买偏向。新老用户的细分是最常见的用户细分方法,我们可以使用类似的方法来看看新老用户对商品的不同喜好:

new-return-comparison

  从上图中你看出了什么?购买D商品的用户中新用户的比例明显偏低,也许新用户根本就不喜欢这个商品,而B商品和F商品显然更加符合新用户的口味。如果你的网站可以进行新老用户区分的定向推广,那么上面这个分析结果将让你受益良多。

  当然,这个数据呈现的特征可能跟商品的推广渠道有一定的关系,比如上图的D商品比较多的是使用老用户比较集中的推广渠道(比如EDM),那么自然购买用户中老用户的比例会偏高;或者把某些商品放在新用户比较集中的Landing Page中展示,那么购买该商品的新用户比例也显然会偏高。所以,在做诸如此类的分析时需要注意根据推广渠道的差异,具体问题具体分析,不能一概而论。

单次购买用户和二次购买用户比较

  使用同样的方法也可以促成用户的多次购买。对于电子商务网站而言,用户的首次购物体验非常重要,这将会直接影响用户是不是会产生再次或者之后的多次购买,或者是否能够成为网站的忠诚客户。如果你的网站注重用户关系管理,那么你可以尝试下使用下面的分析方法:

once-repeat-comparison

  需要注意的是这里的基础用户群设定在了每个商品的首次购买用户(不是所有),我们要分析的是所有将该商品作为首次购买商品的情况下,用户是否还会发起之后的再次甚至多次购买行为,从而评价商品对于首次购买体验的影响好坏。从上表可以看出,B商品和F商品在促成二次购买的表现不佳,很有可能商品的使用或质量问题影响了用户的满意度,阻碍了用户再次购买的脚步。根据分析结果,我们尤其需要对那些二次购买率比总体水平低非常多的商品进行重点关注,同时也需要根据商品的特征进行分析,有些商品确实比较容易促成二次购买,因为可能存在交叉销售和向上营销的情况。

  其实本来想把这篇文章拆分成多篇整成一个系列专题,因为从实现层面而言,每一块的用户细分的分析都需要独立完成,而且大部分要从底层的数据计算得到,如果你从Google Analytics上面从寻找类似的数据,其实唯一可以找到的就只有新访问比例,而且在内容模块里面细分到每个页面的指标也未包含% New Visits(在流量来源、地域细分里面有该度量),当然你可以自定义报告来查看网站每个页面的新访问比例,比较的基准还是网站总体的新访问比例,GA的展现方式选择里面直接提供了与总体比较的视图“Comparison”,下图是我做的自定义报表:

GA-page-newvisits

  GA上面的展现的效果跟用Excel 2010上面定制条件格式后的效果很像(2010可以展现正负值在坐标轴左右侧区分的红绿数据条,2007貌似还未实现此功能),这种基于基准的比较展现非常直观使用,其实在其它的分析中同样可以用到。那么你从我的博客的各内容新用户比例比较分析中看出了什么?访问数排在前几名的文章中很明显的趋势就是概念性方法论的文章新用户比例高于均值(当然主要靠搜索引擎的帮忙),而观点性和分析性的文章的新用户比例低于均值(老用户更偏向于实践和应用 ;)  ),所以如果我的博客可以动态向新用户和老用户展现不同的内容,那么这个分析将十分具有价值,也许你的网站可以尝试下。

  最后还是回到一开始的问题,需要总结的是:细分是用于比较的,比较是为了反映差异进而做出调整优化的,所以细分的目的最终还是指导运营决策,这个才是数据分析的价值体现。

值得关注的用户指标

focus-metrics  最近最常被问到的就是一些用户的统计指标,无论是决策层还是产品部门,所以这篇文章重点说下用户指标的一些内容。

  假设你想用尽量简洁有效的数据了解一个网站或产品的用户情况,你会问哪几个用户数据?其实一个聪明的提问者永远不会问网站的累计用户数有多少,甚至不会问网站的UV是多少,因为这些指标都不能从真正意义上去反映网站的价值和发展状况。

  举个简单的例子——网秦,累计用户数应该不下千万,但这个数字真的能够体现网秦所具备的价值吗?按照网秦的这种运营推广模式,真正的活跃用户有多少,所占比例如何?3·15之后,流失用户又有多少,这个流失率是不是足以让网秦先前辛辛苦苦培养起来的用户基础毁于一旦?所以网秦的发展前景又如何?其实我们可以使用一些更有说服力的用户指标来反映这些情况。

用户的细分方式

  我不建议把用户细分成许许多多的类型,目前为止见过的用户细分的类别也不在少数,罗列出来应该有一大串:当前用户、新老用户、活跃用户、流失用户、留存用户、回访用户、误闯用户、休眠用户、常驻用户、忠诚用户……其实很多的定义或含义是相近的,在分析层面也扮演着类似的指标角色。所以不建议将用户这样混乱无章地分成N个类别,用户的细分关键在于以合理的体系将用户细分成几个类别,并且每个类别都能发挥其在用户分析上的功效,不存在累赘和混淆

  所以这里想介绍下我认为比较合理的用户细分方式。我将用户分成以下几类:当前使用用户新用户活跃用户流失用户回访用户,下面来简单的解释下。

  当前使用用户:即我们平常所说的UV,也就是网站的登录或者使用用户数。用于体现网站的当前运营状况。

  新用户:首次访问或者刚刚注册的用户;那么那些不是首次来访的用户就是老用户,于是同时也获得了老用户的统计。用于分析网站的推广效果或者成长空间。

  活跃用户数:活跃用户的定义千差万别,一般定义有关键动作或者行为达到某个要求时的用户为活跃用户;每个网站应该根据自身的产品特定定义活跃用户。活跃用户用于分析网站真正掌握了多少有价值用户。

  流失用户网站的活跃用户与流失用户中已经做了定义和介绍,用于分析网站保留用户的能力。我们将那些未流失的用户叫做留存用户,可以通过总使用用户数减去流失用户数计算得到。

  回访用户:是指那些之前已经流失,但之后又重新访问你的网站的用户。用于分析网站对挽回流失用户的能力(常常会受到那些很久没有登录的网站给你发的邮件吧,让你回去看看,这些措施就是他们在挽留那些流失用户)。除非近期内执行了一些挽留流失用户的手段,正常情况下回访用户的比例应该是比较低的,否则就是你对流失用户的定义不够准确,应该适当延长定义流失的时间间隔。

  所以其实在我们获得某些用户统计指标之后,通过计算同时也获得了诸如老用户、留存用户这些指标。

值得关注的用户指标

  文章的开头已经提到过,如果你想了解一个网站或者一个产品的用户情况,请尽量抓住那些最为关键的用户指标。如果是我来问,我只会问3个指标:活跃用户数新用户比例用户流失率

  显而易见,活跃用户数直接反映了网站或者产品真正掌握着多少用户,这些用户并不是因为某些广告或者链接误点进来的,而是真正对这个网站或者产品感兴趣,有意向去使用或者持续关注的。活跃用户数越高,网站或者产品当前拥有的价值越高。但这里有一点需要格外注意,那就是活跃用户的定义,活跃用户跟新用户不一样,活跃用户可能催生各种形形色色的定义,之前的文章——用Engagement衡量用户活跃度对于如何定义用户活跃做过介绍,活跃用户的定义也类似,可以有各种方法。宽松的定义可以让活跃用户“变多”,比如只要访问页面数超过2页或者停留时间超过30秒;而严谨的定义可能会导致活跃用户“减少”,比如微博网站定义平均每天发送微博数量超过2条的才是活跃用户。所以,不同的定义影响着活跃用户的数量,当你问到活跃用户时,一定要了解对方是如何定义活跃用户的。我更偏向于严谨的定义,虽然这会让活跃用户“减少”,但严谨的定义让数据显得更加真实,可以说根据这个定义统计到的用户是那些真正在为网站创造价值的用户。

  新用户比例反映着网站或产品的推广能力,渠道的铺设和带来的效果。新用户比例不仅是评估市场部门绩效的一个关键指标,同时也是反映网站和产品发展状况的重要指标。

  但只看新用户比例是不够的,需要结合着用户流失率一起看。我见过流失率98%的网站,也见过流失率20%左右的产品,流失率会根据产品对用户黏性的不同而显得参差不齐。用户流失率反映了网站或者产品保留用户的能力,即新用户比例反映的是用户“进来”的情况,用户流失率反映的是用户“离开”的情况,结合这两个指标会有下面3类情况,代表了3种不同的产品发展阶段:

新用户比例大于用户流失率:产品处于发展成长阶段;

新用户比例与用户流失率持平:产品处于成熟稳定阶段;

新用户比例低于用户流失率:产品处于下滑衰退阶段。

  下面附上一张反映活跃用户数、新用户比例和用户流失率的图表,你能从这张图中看出些什么,假如你是这个网站的CEO,你接下来需要从哪个角度重点着手来改善网站的运营状况?

key-user-metrics

  这篇文章可能没有涉及任何的数据和分析,这里只想理清楚用户的细分和指标,当这套用户的细分和指标体系规范化了以后,能够让用户分析变得游刃有余。

用户需要什么数据?

what-do-they-want  这里首先需要说明的是标题中的“用户”指的是数据的用户,或者数据的需求方,这些用户往往不是网站或企业面向的外部用户,数据的消费者通常是公司内部各个部门和领域的人员。

  为什么会提出这个问题,其实我们经常会遇到这样的情况:公司的高层抱怨从报表里面看不到有用的东西,是不是可以对报表做下整理(于是下面就忙开了),但是该怎么整理或者他们到底需要的是什么数据(好吧,高层的需求一般是不会明说的,我们要试着自己去揣摩);同时各个部门也在不断地提各类数据需求,往往他们的需求就比较明确,有时可能会细得吓人,需要每个用户的每次关键操作(考验服务器的时间到了)。数据部门就是处在这样一个对数据的需求存在着如何多样化的环境里面,所以考验数据人员的时间到了,我们能满足所有的需求吗?

目标和KPI

  好了,首先来解答一下我们揣摩“圣意”后的结果,老板或者高层需要什么数据?其实很简单,他们只想知道公司的总体状况如何,所以我们只需要提供汇总的目标和KPI数据,不需要太多,2-3张报表,10个左右的指标足够展现出公司的全局了,但其实首先要做的是对公司的目标和KPI有一个明确的认识和定义。

  主要关注人员:决策层

  虽然目标和KPI的主要关注人群锁定在公司的决策层,但其实公司的每位员工都应该关心公司的目标实现情况及KPI指标的表现,因为目标和KPI是客观评价公司状况和效益的最有效途径。但往往各个部门关心目标的KPI的方式会有差异,于是数据需要去满足各个部门不同的关注目标的KPI的方式,就有了下面的细分。

细分与功能点

  公司的决策层可能会希望看到上面这些目标和KPIs的汇总数据,但如果我们给所有用户都提供这类汇总数据,那么可能其他用户就只能远远地望着这些数据,什么都做不了。所以我们需要给不同的用户不同类别不同层面的数据,因为我们要做的就是让每个数据消费者都能根据数据Take Actions,而其中很重要的一块就是数据的细分。

  我们可以从多个角度对网站分析的报表和指标进行细分,每个公司根据自己运营类型的差异选择适合自己的细分模块,当然这里说的最常见的几个细分模块:内容用户来源,也就是Google Analytics的分块方式。

内容细分

  主要关注人员:产品运营

  尽管互联网的形式在不断地多样化,但无论如何互联网还是主要以信息服务提供商的角色存在,归根到底还是内容,所以对于网站而言内容是它的核心竞争力所在,对于网站分析同样如此,所以首当其冲的就是内容的细分。之前有篇文章——网站页面度量与细分,对网站的内容的一些度量指标和几个细分方式作了介绍,无论以哪些指标或者以何种细分方式来评价内容,最终我们的目的都是区分优质和劣质的内容,掌控产品的运营状况,从而保持或者改进网站内容。

  内容细分的分析结果无疑可以给产品运营或者网站运营提供有价值的参考依据,明确了哪些是需要把握的核心内容,哪些内容需要改进。同时借助一些特殊的指标还可以指引细节上的改进,比如一个Pageviews很高但Avg. Time on Page较短、Exit Rate很高的页面显然在内容上没有足够的吸引力,但标题或简介信息足够吸引眼球,那么改进的方向就可以确定为提高内容的描述方式;如果你的网站提供电子商务服务,那么每个或每类产品细分的销售额(目标)及转化率(KPI)将让你能够更好地有针对性地进行产品和运营方式的选择。

different-data-requirement用户细分

  主要关注人员:用户体验、销售

  我们一般通过用户的使用环境(网络、设备、系统和客户端等)、人口统计学信息(性别、年龄、地域等)、用户行为类型(使用的趋势、忠诚度、创造的价值等)这几类数据和指标对用户进行细分。在现在“用户中心论”盛行的潮流下,是不是把用户放在内容后面有点不妥?网站的一切就是为了满足用户的需求,包括所有的内容的提供,但其实在数据分析上用户分析并没有内容分析来得普遍,特别是还要对用户进行细分,道理很简单,内容或者产品是可以自己把握的,而用户不行,所以尤其是基于用户行为分析的数据,说得很多但真正做好的或者应用于实践的其实并不多。

  但有一块必须要有用户分析数据的支持,那就是用户体验的设计和优化。对于用户体验设计而言,其目标是能够满足所有用户的使用习惯,所以比较和优化各类用户在不同的使用环境和使用习惯中的数据能够对用户体验的改善起到很大的作用;而如果你的网站产品需要进行销售,那么用户行为分析对于个性化的产品销售和推荐能够起到很好的效果,它刚好与用户体验的目标相反,这类细分分析主要是为了满足每类甚至每个用户需求上的偏好。

来源细分

  主要关注人员:市场推广

  其实对于网站分析人员而言,渠道来源的数据分析肯定不会陌生,许多网站都会重点分析这块的效果,包括SEO和SEM等都已经发展成为了非常专业的领域。网站分析工具里面一般都会区分直接进入、搜索引擎、外部网站及促销途径这几项来源,其实我们可以使用一些有效的途径将这些渠道分得更细,包括社会化媒介、合作网站、广告直邮等,通过这些来源细分去观察各渠道带来的流量的质量(在目标和KPI指标上的表现),我们就可以看清楚各推广渠道的优劣,从而为有效的推广行动提供参考。

  其实还有一块——线下渠道,我们往往会认为线下的电视、报纸等上面的促销或广告的效果很难用数据进行监控,但其实只要我们去寻求一些办法,这些也是可以实现的,比如离线通是监控线下电话营销渠道的很好的工具。通过对线下渠道的监控分析,是我们更了解线下推广的效果以及其对线上推广所带来的关联和影响,最终指导推广人员更有效地布置和实施整套完整的推广计划。

功能点分析

  主要关注人员:技术、用户体验

  如果你的网站不单是简单的几个页面,而是一个庞大复杂的系统,其中提供了丰富的功能和应用,那么我们还需要做一类分析,就是各功能点的分析。之前在“让用户更容易地找到需要的信息”专题中分析过几类网站中常见的功能:站内搜索导航设计内容推荐,这些功能点我们都可以使用特殊的方法获取数据、设置特殊的指标去分析他们的实现效果。

  技术和用户体验团队都需要关注这些功能的实现效果和优化空间,数据是评价这些功能最有效的途径,因为这些功能都影响着用户的体验和满意度,一个真正优秀的网站需要把握好每个功能的每个细节的实现。

分析模型

  上面提到的相关人员几乎涵盖了每个公司的各个领域,但其实还缺少一块重要的组成部分,就是我们自己——数据分析人员。其实对于数据分析人员来说,他们需要把握所有的数据,从全局的目标和KPI到各类细分指标,以及各类功能点的数据。但这些还远远不够,数据分析师必须发挥他们的所长,设计并构建起各类分析模型,这些模型不仅可以对公司的关键业务和运营状态做出客观的评价,起到总结的效果外,更可以发现一些潜在的商业需求点,为公司的发展提供可能的方向和决策依据,起到预测的作用。

  分析模型主要分为两类,一类是定量分析模型,这个在我的博客中已经介绍过一些,包括关键路径分析的漏斗模型、基于用户行为分析的用户评价模型,当然也包括数据挖掘领域的用户兴趣发现、内容模式匹配,以及基于其上的个性化推荐模型,这些都在一定程度上实现了预测的效果。

  另一类是定性分析模型,包括目标市场的调研、以用户为中心的研究以及竞争优势的分析。当然现在可能在用户调研和用户体验方面做得相对多些,通过网上问卷、可用性实验、实景访问调研,结合一些可视化的点击热图、鼠标移动监控等工具来评估用户在使用网站是的整体感受和满意度,这种更加接近用户的分析方法将逐步为网站和产品的优化带来许多新的思考。

自定义Dashboard

dashboard

  其实大部分的网站分析工具和BI报表工具中都会提供自定义Dashboard的功能,以便用户可以将自己关注的指标、报表和图表集成地显示在同一个Dashboard上面,方便日常的观察和分析。本来这是一个很Cool的功能,因为只要稍微用点心,可以把自己的“仪表盘”做得很漂亮,但现实中这个功能没有想象中实现得那么好,或者用户没有去自定义Dashboard的习惯(当然存在数据的组织和关联上的限制以及报表工具易用性方面的问题),但作为数据的提供方,我们在定制好公用的Dashboard的同时,有必要时还要帮助某些特定需求群体定制自定义的Dashboard。

  优秀的自定义Dashboard不仅能够合理地组织数据,同时更加可视化地展现数据,让数据的观察的分析不需要这么累,是的,也许用户会爱上这些数据。同时自定义的Dashboard其实还可以有效的控制数据权限,在Dashboard里面将合适的指标和报表开放给用户,从而屏蔽掉一些敏感的数据,数据的保密性对数据部门而言也是一块重要的工作。

  不知道读完整篇文章会不会觉得有点空,没有实质的内容或实践性的分析方法,但其实这篇文章花了我很长的时间进行总结和思考,梳理整个数据提供方案的可行的思路,希望能给出一个系统全面的数据组织和提供方案,用数据为线索贯穿企业的各个角落,真正能够建立起数据驱动(Data Driven)的企业文化,让数据不单只是单纯的展现这么简单,能够满足各类人员的不同需要,并最终依靠数据提高企业在各个领域执行的效率和效果。

网站的活跃用户与流失用户

wastage  网站用户管理的目标是发掘新用户,保留老用户。但仅仅吸引新用户还不错,还需要保持新用户的活跃度,使其能持久地为网站创造价值;而一旦用户的活跃度下降,很可能用户就会渐渐地远离网站,进而流失。所以基于此,我们可以对用户进行又一个细分——活跃用户和流失用户。

活跃用户与流失用户

  活跃用户,这里是相对于“流失用户”的一个概念,是指那些“存活”着的用户,用户会时不时地光顾下网站,同时为网站带来一些价值。同时,我们还需要知道到底有多少用户可能已经抛弃了我们的网站,不可能再为网站创造任何的价值,也就是所谓的流失用户。

  流失用户,是指那些曾经访问过网站或注册过的用户,但由于对网站渐渐失去兴趣后逐渐远离网站,进而彻底脱离网站的那批用户。当然,一个网站一定会存在流失用户,这是网站用户新老交替中不可避免的,但流失用户的比例和变化趋势能够说明网站保留用户的能力及发展趋势。

  举个简单的例子,我们经常可以看到某些数据分析报告中说:某某网站的注册用户数已经超过几百万,但其实这些数据并没有太大的意义,因为可能这几百万里面很多用户都已经不再登录该网站(流失用户),真正最近登录过或有过操作行为的用户(活跃用户)其实不到一万。所以对于一个网站而言,真正有意义的是活跃用户数而非总用户数,因为只有这些用户在为网站创造着价值。

  活跃用户用于衡量网站的运营现状,而流失用户则用于分析网站是否存在被淘汰的风险,以及网站是否有能力留住新用户。

活跃用户分析

  我的博客中之前的文章——用Engagement衡量用户活跃度中已经介绍了用户活跃度的衡量方法,并基于Engagement的定义计算网站的活跃访问量(Visits),同样可以用这类方法计算网站的活跃用户数(Unique Visitors)。同时可以计算不同时间区间的活跃用户数,比如每天、每周、每月……这里就不再详细介绍了,需要注意以下几个问题:

  1. 用户Engagement的定义,并以唯一用户为单位进行统计;
  2. 只要用户有任一一个Engagement的行为,就可以定义为活跃用户;
  3. 不要仅关注活跃用户数,试着分析活跃用户的变化趋势和所占比例。

流失用户分析

  流失用户的定义比较简单,就是一段时间内未访问或登录过网站的用户,一般流失用户都是对于那些需要注册、提供应用服务的网站而言的,比如微博、邮箱、电子商务类网站等。不同网站对于流失的定义可能各不相同,对于微博和邮箱这类用户几乎每天登录查看的网站而言,可能用户未登录超过1个月,我们就可以认为用户可能已经流失了;而对于电子商务而言,可能3个月未登录或者半年内没有任何购买行为的用户可以被认定是流失用户。下面的分析主要是基于网站的注册用户的,因为这类用户更容易识别,而且分析这类用户的流失情况对网站而言更有意义。

数据的获取

  流失用户是通过用户的最近一次登录距离当前的时间来鉴定的,所以要分析流失用户,需要知道每个用户的最后一次登录时间,而对于不同网站而言,这个时间间隔会各不相同,最长可能会有1年或者更久,所以在数据获取方面会有一定的难度。如果分析的是注册用户,那么一般网站都会在数据库中建相应的表来存放用户信息,所以建议在储存用户基础信息的同时记录用户的最近一次登录时间,这样就能够准确地计算用户最近一次登录距离当前的间隔时间,进而区分该用户是否流失。

流失用户变化趋势

  首先需要明确的是用户的流失可能并不是永久的,也许用户在一段时间内对网站确实没有任何需求,那么他会远离网站一段比较长的时间;或者流失用户也会因为网站的某次营销或者网站质量的改善而重新回来。网站总的流失用户数的计算比较简单,以超过1个月内登录即为流失为例,那么总流失用户数就是所有“当前时间点-用户最近一次时间点>1个月”的用户数量。但是单纯的总流失用户数量对于分析是没有意义的,因为大部分情况下这个数值是一直递增的,我们需要计算总流失用户数占总用户数的比例及新增流失用户数,观察它们的变化趋势,如下表:

日期 总用户数 流失用户数 新增流失用户数 用户流失率
2010年8月1日 325694 228451   70.14%
2010年8月2日 326127 228925 474 70.20%
2010年8月3日 326789 229507 582 70.23%
2010年8月4日 326297 230023 516 70.49%
2010年8月5日 326913 230618 595 70.54%
2010年8月6日 327514 231209 591 70.60%
2010年8月7日 328163 231672 463 70.60%
2010年8月8日 328517 232216 544 70.69%
…… …… …… …… ……

新用户流失率

  也许你的网站已经吸引了一批新的访客,并且他们成功注册成为了网站的用户,你有了一个好的开始,已经成功了一半,那么另一半呢?就是如何保留住这些新的用户,让他们持续地为网站带来价值,这就是分析新用户流失率的意义。

  我们可认为新用户注册后就完成首次登陆,那么简单地定义新用户流失,就是用户在注册后一段时间内都没有登录过网站,即

当前时间点 – 用户注册时间点 > 流失临界时间间隔

  比如我们定义用户的流失临界时间间隔为1个月,也就是在注册后的一个月内未登录的用户意味着已经流失,那么就可以计算每天的新用户流失数,即注册时间为1个月前的那一天,而从注册到当前没有登录过的用户数。这个用户数与1个月前的那一天的总注册用户数的比例就是新用户的流失率

当天的新用户流失数 / 当天的总注册用户数 = 新用户流失率

  计算出每天的新用户流失率,并观察它的变化趋势:

new-user-wastage-rate

  网站能否保留住新用户就在于是否能够不断地降低新用户的流失率。

  总结,这里主要介绍的是如何分析网站真正拥有的有价值的活跃用户的数量以及网站保留这些用户的能力,可以用流失用户的变化趋势来衡量网站用户的总体流失情况,用新用户流失率衡量网站保留住新用户的能力,而分析活跃用户数的比例和变化趋势分析能够衡量网站现有用户的质量和价值。

网站新老用户分析

New-Returning-Visitors  网站中新老用户的分析已经成为了网站分析中常见的一类用户细分的方法,也是网站分析中用户分析的一个重要组成。Google Analytics中对新老用户的命名分别为New Visitors和Returning Visitors,同时也为许多的分析指标提供了基于新老用户的细分。

  简单地说,新用户就是首次访问网站或者首次使用网站服务的用户;而老用户则是之前访问过网站或者使用过网站服务的用户。无论是新老用户都能为网站带来价值,这也是分析的意义所在。

分析新老用户的意义

  网站的老用户一般都是网站的忠诚用户,有相对较高的粘度,也是为网站带来价值的主要用户群体;而新用户则意味着网站业务的发展,是网站价值不断提升的前提。可以说,老用户是网站生存的基础,新用户是网站发展的动力,所以网站的发展战略往往是在基于保留老用户的基础上不断地提升新用户数。

  所以分析新老用户的意义就在于:通过分析老用户,来确定网站的基础是否稳固,是否存在被淘汰的危机;通过分析新用户,来衡量网站的发展是否顺利,是否有更大的扩展空间。一个着眼现在,一个放眼未来。

新老用户的辨别

  对于网站用户的识别,之前写过一篇相关的文章——网站用户的识别,里面主要是在基于点击流日志的基础上提供的4类识别用户的方法,可以作为参考。但对于新老用户的辨别可能根据网站自身的特定而有不同的定义方法。

  最常见的一种辨别新老用户的方式就是看该用户之前是否访问过网站,也就是以用户是否首次访问来区分,GA就是使用Cookie来定义新老用户的,即该Cookie之前出现过则该访客为老用户,否则为新用户。这个定义适用于所有网站,但有它不准确的地方,Cookie的删除、用户更换PC等都会造成数据上的偏差。

  另一种辨别方式相对准确,但一般只适用于注册登录型网站,即定义首次注册登录的用户为新用户,再次登录的用户为老用户,而不是使用首次访问来辨别。这种区分方式一般以用户ID或用户名来辨别,相对准确,但应用的范围有限。

新老用户分析

  网站的目标在于保持老用户,拓展新用户,那么对于网站数据分析上的表现,则是在保持老用户数量的稳定增长的前提下,提升新用户的所占比例

  对于大部分发展正常的网站而言,网站的老用户数应该是保持相对稳定的,并且会有持续的小幅上涨,可以看一下GA上我的博客每周老用户数的趋势变化:

returning-visitors-trend

  可以通过GA的Dashboard上的Advanced Segments选择Returning Visitors,并选择合适的时间区间和汇总粒度(日、周、月)显示趋势变化曲线。这条平滑的上升曲线说明网站的发展是趋于正常的。

  但并不是所有网站的老用户趋势都会如此的平滑,比如旅游网站,旅游业会明显地受到季节的影响呈现比较大的波动,所以这里要引入同比环比的概念进行分析。

同比指的是为了消除季节变动的影响,将本期的数据与去年同期的数据进行比较,比如今年2月的数据与去年2月数据的比较;

环比指的是将本期的数据与前期的数据进行比较,可以是日环比、月环比、周环比等,例如今年2月与今年1月的数据比较。

  同比和环比被大量地应用于基于时间序列的趋势分析中,对于网站而言,访问量、销售额、利润等网站关键指标同样可以引用同比和环比进行分析,对于分析这些指标的变化趋势,消除季节的影响等都是有积极的效果。下面是一张基于同比和环比的旅游类网站老用户数据模拟趋势分析图:

returning-visitors-tb-hb

  从图上可以看出由于季节的影响,老用户数的波动比较大,所以相应的环比增长的波动也很大,但同比增长的趋势却相对平滑,一直保持在10%左右的增长率上面,这就可以看出网站对保持老用户是有效的,网站的运营状况较为稳定。

  可能有人会问,为什么要用绝对数量,而不是用相对数量,比如老用户占总访问用户的比例来进行趋势分析?这里主要考虑到网站会不定期的进行主动地推广营销,或者由于某些事件或媒体传播的影响而产生的被动推广的效果,这个时候可能会吸引大量的新用户进入网站而导致老用户比例的急剧下滑,而老用户的绝对数据对于网站而言相对稳定,更具参考价值。

  新用户的绝对数量并没有老用户这么稳定,也不一定会保持增长的态势,而对于新用户的分析主要是为了衡量网站推广的效果,评估上述主动营销或被动事件带来的影响,所以不建议使用绝对数值,既然老用户相对稳定,那么就可以基于新用户比例的变化趋势来分析网站某段时间的推广效果。GA的Benchmarking中提供的也是New Visits所占比例与其他网站基准线的趋势比较:

new-visits-trend

  往往曲线中某个时间点的大幅上升或下降都意味着某个营销事件的影响,而当曲线持续下降时就意味着网站推广效果的不利,需要增大推广的力度。

  如果你有关于网站新老用户分析更好的见解,欢迎评论。

用户任务完成度分析

wow_tasks  欢迎来到艾泽拉斯大陆……如果你玩过魔兽世界,也许你在里面完成过无数个任务;当用户在访问网站时,其实他们也在试图完成某些特定的任务。

  也许大家都比较熟悉网站目标(Goal),因为很多网站分析工具都提供了基于目标的分析,网站目标更多地是从网站的角度去定义的,比如电子商务网站的目标就是促成有效的交易;而用户任务(Task)则是从用户的角度去定义的,用户会有自己的目标,比如用户上电子商务网站可能只是为了查询某些商品的信息,询价,或者只是单纯的逛逛。所以每个用户带着自己的任务访问网站,这些任务可能各不相同,这无疑给分析带来了一定的难度。

关于任务完成度的定义

  其实跟前面一篇文章——用Engagement衡量用户活跃度中的Engagement度量类似,用户任务也是一个非标准度量,而且根据网站的不同和用户访问目的的不同而显得千差万别。但用户任务完成度(Task Completion)与Engagement也存在着差异,Engagement定义的是用户的行为或动作,只要发生我们就认为用户参与了;而任务完成度定义的是结果,只有当用户的某个需求被实现时(如购买成功、获取到了相关信息、通过网站解决了某个问题……)才能认为用户完成了任务。

  用户的Engagement不会直接影响网站目标,那么用户的任务完成度是否会对网站目标有直接影响呢?如果说网站目标(Goals)是从网站的角度衡量网站的商业目的(Business Objectives)是否实现的话,那么任务完成度(Task Completion)则是从用户的角度衡量用户的期望(User Expectation)是否达到。所以只有当网站目标与用户的任务一致时,我们才能认为用户任务完成度会对网站目标产生直接影响,因为两者衡量的都是结果,所以这种直接的影响有些时候甚至是可以划等号的。

  既然用户访问网站的目的各不相同,每个人都带着各自的任务,那么我们如何获悉用户访问网站到底是来做什么的呢?

如何获取用户的任务信息

  用户任务是一个非标准度量,并且是由用户自己决定的,我们似乎无法从点击流日志的用户行为分析中辨认用户到底是以什么样目的访问网站,我们需要直接向用户寻求答案。

  前几天在Justin Cutroni的博客Analytics Talk看到了一个有意思的在线问卷调查,其实就是简单的2-3个问题,关于你为何来到这个网站,你完成了预期的任务吗,以及你对这次网站浏览的满意度如何,最后再加上一个可以自由填写的反馈,Justin Cutroni使用的是http://www.4qsurvey.com/这个网站提供的在线问卷服务,好像蓝鲸的博客也提供了在线问卷,他使用的是http://polldaddy.com/,还有一个提供反馈的功能http://www.kampyle.com/。其实这些都是收集用户信息的好办法,通过调查问卷(Survey)的方式让用户来告诉你答案。

  如果我们需要分析用户的任务完成度,可以设计一个简单的在线问卷,提供在线问卷调查的网站很多,国内的国外的、免费的收费的,其实操作都比较简单,但首先我们需要注意一下几个问题:

  1. 什么时候向用户提供调查问卷?如果是分析任务完成情况,那么很明显要在用户离开网站的时候;
  2. 以何种方式提供问卷?比较常见的是弹出窗口或跳转链接,但无论用什么方式建议都先礼貌地问下用户是否愿意填写问卷;
  3. 在用户完成问卷时不要忘记感谢用户的支持,或者让用户留下邮箱以告知他们调查分析的结果,这些都是他们应得的,当然也可以借机推广你的网站;
  4. 问卷的设计,这是个复杂的问题,完全可以写本书了,这里只是提供用户任务完成分析的问卷设计,我的建议是如果不是一次全面系统的网站分析问卷调查,那么尽量减少问卷中的问题数量,而且尽量要一开始就告诉用户问卷的长度及可能占用他们多少时间。其实如果只是分析用户任务完成度,3个问题就足够了:

task-completion-survey

分析用户的任务完成度

  基于从问卷调查中获得的数据,我们可以借用一些图表来分析用户的任务完成情况。

  首先,必须明确用户任务也是基于用户在网站上的一次访问(Visit)。一般用户一次访问只是为了完成一个任务,所以对于大部分网站而言,更偏向于衡量一次访问的任务是否完成而不是完成的百分比。所以这里的任务完成度(Task Completion) 的定义并不是每次访问用户完成任务的程度,而是所有的用户访问中完成任务的访问占所有访问的比重,即

任务完成度 = 完成任务的访问数 / 总访问数

  可以基于任务类型进行细分,以电子商务网站为例,假如问卷中的任务选项包括:

  • 购买商品
  • 查询商品信息
  • 售前售后咨询
  • 其它

  根据问卷采集的数据可以得到下图:

task-completion-segment

  基于任务类型的细分,可以分析每类任务的用户访问量所占比例(左侧饼图),以及每类任务的完成情况(右侧柱状图,总高度为每类任务的总访问量,,蓝色区块的高度为完成任务的访问数,可以看出每个任务类型中完成的访问数所占比重)。如果网站中进行的是长期的问卷调查,同样可以对每类任务的完成度进行趋势分析,如下图:

task-completion-trend

  趋势分析可以有效地掌握用户在网站中完成任务的变化情况,进而衡量网站在运营优化上面取得的成果。

  接下来该由你来做些什么了,你可以尝试用你的方法寻找更恰当的图表来展示和分析数据。

网站页面度量与细分

page-metrics-and-segment 我们在使用一些网站分析工具的时候会发现一般报表会被分成三大模块:用户访问内容浏览流量来源。每个分类都由各种分析度量组成了各类的展示报表,这里先介绍一下内容浏览模块(主要指的是网站的页面浏览)下的各种度量,以及基于这些度量我们可以实现哪些细分。

页面的基本度量

关于一些常见的网站分析度量的定义可以参考我之前的文章——网站分析的基本度量,下面罗列的是一些页面的度量:

页面浏览次数(Pageviews)

页面被打开或请求的次数。

唯一页面浏览次数(Unique Pageviews)

这个是Google Analytics上面使用的一个度量,主要是避免页面的重复加载和刷新导致Pageviews虚高的情况,所以在同一个Visit当中重复打开同一个页面,该页面的Unique Pageviews始终只被记为1次。

访问次数(Visits)

页面的被访问次数,如果按照独立页面来计算每个页面的Visits,其实结果与上面的Unique Pageviews是一致的,所以很多网站能分析工具里面没有Unique Pageviews,而直接用Visits来衡量页面的唯一浏览量。但需要注意的是Visits也常被用作整个网站或者某些内容分类汇总的度量,在这种情况下,网站的总Visits和总Unique Pageviews是不一致的,比如Visit A访问了a-b-a-c4个页面,而Visit B只访问了a-b,那么对于a页面而言,Pageviews是3,Unique Pageviews是2,Visits也是2,但对于这个网站而言,Unique Pageviews是5,而Visits只有2个。

唯一访问用户数(Unique Visitors)

这个应该容易理解,就是进入这个页面的不同IP或者Cookie的个数。

页面停留时间(Time on Page)

用户浏览一个页面时在该页面逗留的时间,在度量页面时,更多的是根据用户取平均值,即页面平均停留时间(Avg. Time on Page)=该页面被浏览的停留时间总和/该页面被浏览次数(GA里面排除了从该页面离开的Pageviews,即Exits)。

直接跳出访问数(Bounces)

也许你可以看到过很多关于这个定义的解释了,一般的网站分析工具,都会将从该页面进入网站并直接离开的访问称为Bounce。而这个度量更多的是以Bounce Rate的形式出现,即从该页面直接跳出的访问数/从该页面进入的访问数。

进入和离开次数(Entrances and Exits)

这个就顾名思义了,从该页面进入、离开的访问数,而一般会以Enter Rate和Exit Rate的形式出现,从该页面进入、离开的访问数/该页面的总访问数。

page-metrics

还有一些其它的页面度量,如新访问用户(New Visits)目标价值(Goal Value)等。

需要关注的页面度量

我们会注意到一般的网站分析工具的结果展现会有许多不同的报表,并且各类报表中又会有重复或不重复的各类度量,当然每张报表可能都会有其不同的展示角度并提供不同的数据分析的用途。但也许我们日常无法全面地关注所有度量,一般都会根据网站的特点着重的关注某些跟网站运营状态息息相关的度量。Google Analytics内容模块的几张报表上一般会展现:

Pageviews、Unique Pageviews、Avg. Time on Page、Bounce Rate、%Exit(离开百分比)及$Index(目标价值指数)

下面列出的是我个人认为对于评价网站页面比较重要的几个度量,或者说是个人比较喜欢和关注的几个度量:

1. 访问量(Visits)或者唯一页面浏览次数(Unique Pageviews)

上面已经对这两个度量进行了介绍,它们对于单个页面而言计算得到的数值是一样的,只会在计算汇总的时候存在差异。那么为什么选择访问量,而不是页面浏览数或者唯一用户数呢?我的理解是在同一个Visit中,如果用户多次浏览同一页面,那么很有可能使用户喜欢刷新或重载页面,或者用户习惯于倒退操作而重复穿梭于你的网站,所以这些重复浏览对于评价页面的优劣比较没有意义;而如果是不同的Visit,即使是同一用户浏览了同一页面,那么我们更多地可以理解为用户对于上次看到的内容意犹未尽,想再仔细研究个究竟,这种页面浏览对于评价一个页面是有效的,所以我更偏向于选择页面的访问量Visits。

2. 崩失率(Bounce Rate)

好吧,无论你怎么称呼它,都不得不承认它的魅力十足,网站有很多相关的文章,在我的博客之前也写过一篇——关于Bounce Rate定义的疑问

对于它的价值我是这样理解的,用户会直接跳出,无非3种情况:1.误闯;2.内容过于乏味;3.进入的页面也是网站的出口。所以在关注Bounce Rate的时候有必要进行特殊情况特殊分析,比如网站首页的Bounce相对比较高是可以理解的,因为作为网站最前端的大门,可能会有相当一部分用户误闯了进来;而网站的底层内容细节页面的Bounce Rate比较高有可能用户直接进入该页面,找到了需要的信息并离开了,也就是上面所说的第3种情况。而排除这两种特殊的访问,如果其他页面的Bounce Rate偏高,那么说明该页面有问题了。

3. 页面平均停留时间(Avg. Time on Page)

这个应该比较容易理解,用户需要获取你页面中的某些信息就会需要一定的浏览时间,当然根据页面提供的内容的长短和复杂度,平均停留时间也会存在一定的差异,但我们不需要关注这类情况,我们只需要揪出那些平均停留时间短到用户几乎无法对页面内容作出有效反应就已经离开了的那些页面,毫无疑问这些页面是有问题的。

页面细分

基于上面介绍的这些度量,我们可以选择任何的单个或者多个来对页面进行细分,我想到的有以下结果细分的方法:

基于Pageviews、Unique Pageviews、UniqueVisitors区分热门页面和冷门页面;

基于Avg. Time on Page区分有趣的内容和乏味的内容;

基于Bounce Rate及下一浏览页面的多样性来区分病态页面和枢纽页面;

基于Enter Rate和Exit Rate来识别网站的入口和出口页面;

……

当然,你还可以想到很多种其他细分的方法,只要细分的结果对你的网站而言是有价值的。这里举个简单的用多个度量组合进行细分的例子,选取的度量就是上面3个我认为值得关注的页面度量。既然涉及3个度量,大部分的平面坐标系的图表无法很好的展示,也许你也跟我一样想到了一类图表——气泡图,下面是一个简单展示:

page-segment-xlbubble

横坐标标识访问量,纵坐标标识Bounce Rate,气泡的半径r标识页面平均停留时间,我们可以将页面细分成4类,分别对应4个象限,其中:

第一象限:较高的访问量和Bounce Rate,所以页面比较热门但并不能吸引所有进入的用户,也许你的网站的首页或者Landing Page正是处于这一象限,你可能需要优化下SEO的关键词或者购买相关性更高的广告或者关键词,也可以优化下你的首页和Landing Page,让它们更具吸引力以留住用户;

第二象限:如果你的网站有很多页面处于这个象限,那么你的网站正处在一个糟糕的状况下,而往往这一象限内的气泡也会比较小;

第三象限:其实在这一象限的某些页面是可以通过提升曝光率来提升它们的访问量,因为从Bounce Rate来看它们并不缺少吸引力;当然,如果某些内容只针对特定人群,而其他人群对它们的兴趣不高,那么处于第三象限也是一个正常的状况;

第四象限:这些页面集中了你的网站的一些黄金内容,看看它们到底在哪些方面吸引了这么多的用户,让其他页面也学习一下它们。

也许你还能想到其它更加有趣的页面细分方法,欢迎与我分享交流。

优化网站信息架构

——让用户更容易地找到需要的信息1

Expo-China-Pavilion-steel-model  最近突然想写个专题类的文章,关于如何让用户更方便快捷地在网站上寻找到他们需要的信息,当然不能脱离博客的主题——网站数据分析,所以这里主要介绍的是如何通过网站分析来优化网站,实现用户对信息的快速获取,首先介绍的是网站的信息架构。

  关于信息架构,网站设计的同学才是专家,我在这里只是班门弄斧,根据大学里面阅读的信息架构类文献资料的一些残存的记忆,再加上这几天临时抱佛脚的简单温习,在这里表述一下我的一点拙见。

信息架构的定义

  根据维基百科的定义,信息架构Information Architecture,简称IA)是在信息环境中,影响系统组织、导览、及分类标签的组合结构。它是基于信息架构方法论,并运用计算机技术管理和组织信息的一个专门学科。信息架构并非一开始就应用于网站设计,其起源于情报科学,最初应该是用于图书馆等地方的信息组织和信息检索的。

  《用户体验的要素——以用户为中心的WEB设计》这本书中对信息架构的定义基于网站设计:信息架构着重于设计组织分类和导航的结构,从而让用户可以提高效率、有效地浏览网站的内容。

  具体的就不再多说的,可能各有各的理解,这里直接来看一个实例——Wordpress的信息架构模式:
Wordpress-IA

  当然,上面这个图只能展示一个大体的网站信息架构,中间的类目层也许不止一层,会有大类、子类、子子类……底层可以是文章也可能是页面或者一些其他的具体内容。而网站的内部关系也往往因为全局或局部导航、网站内链和内容关联等功能的存在而复杂的多,图上的箭头也会密集很多,但我们无需罗列所有内容间的关系,关键是在理清基本的结构。

信息架构的类型

  还是参考《用户体验的要素——以用户为中心的WEB设计》中对信息架构的几个分类:

层次结构(Hierarchical Structure)

  也叫树形结构,是最常见的网站信息架构模式,上面举例的Wordpress的信息架构就是典型的层次结构。树形结构中箭头的方向不一定是自上而下的,也可能是自下而上或者是双向的,而内容层之间也会因为一些关联链接的存在而存在同层次间的指向箭头。

矩阵结构(Matrix Structure)

  矩阵结构比较注重“维”的概念,即从多维的角度来检索信息,如时间、地域、内容分类等,典型的应用就是内容管理系统(CMS)网站或者电子商务类网站,比如你浏览豆瓣的电影时可以筛选:2010年—美国—科幻,也许这个时候《钢铁侠2》就呈现在你面前了。

线性结构(Sequential Structure)

  看到线性结构也许你马上会想到面包屑,它将网站中最重要的一个信息架构路线展现了出来,即使它无法为你提供你在网站上的平面坐标,但至少它显示了你现在正处于关键线路的哪个点上;当然,网站的一些关键路径一般也是按照线性结构涉及的,比如用户注册流程或电子商务网站的购买流程等。

网站分析与信息架构

  根据网站业务模式的不同,可以选择适合自己网站的信息架构的模式,无论是上面的哪种信息架构模式,只要设计和运用合理,用户便能够在你的网站上以最方便的形式、最快的速度找到他们需要的信息。

  但当我浏览某些网站时,有时真的会让我感觉到“找不到北”,结果就是直接关闭该页面,如果不希望让已经进入了你的网站的用户轻易地离开,网站信息架构的好坏将直接影响网站的用户体验。所以我们需要通过一些方法来检验网站的信息架构是否满足用户的信息检索的需求。

1.尝试整理出类似上面例子中的网站信息架构图

  这个是最简单最直观的方法,如果你的网站信息架构足够清晰,那么画出这样的图对你来说也绝非难事;而当网站的应用比较复杂、内容比较宽泛,那么可能要整理出网站的整体信息架构就会相对困难,但我相信一个设计优秀的网站只要稍加整理,大体的信息架构图还是画得出来的;而当你绞尽脑汁就是理不清你的网站的信息架构的头绪的时候,那么说明你的网站需要优化了。

2.通过网站分析的方法验证信息架构的合理性

  本文的副标题是“让用户更容易地找到需要的信息”,所以我们需要分析用户是否能够在你的网站上方便快捷地找到他们需要的信息,这里推荐一种方法——寻找网站中的迷失用户(Lost Visits)

  在一个合理的信息架构下,大多数的用户是不会在你的网站上迷路的;反之,混乱的信息架构会导致大量的用户迷失方向,就像是进入了一个巨大的迷宫。那么如何寻找这些迷失用户?我们可以先分析下这类用户的行为,最明显特征的就是:连续点击好几个页面,每个页面都只是初步浏览(因为没有找到他们需要的信息)就转到另外的页面或直接离开了。所以我们可以借助网站分析中的两个度量:

  浏览页面数(Depth of Visit):一次访问中用户总的浏览页面数;

  页面平均停留时间(Avg. Time on Page):一次浏览中用户在每个页面的平均停留时间,即该次访问总停留时间(Time on Site)/该次访问页面数(Depth of Visit)。

  我们可以用户细分的方法把那些浏览页面数较多,但页面平均停留时间较短的用户浏览看作是迷失用户,具体的数值可以根据网站自身的特点进行定义,比如我定义我的博客中浏览页面数大于等于4,而页面平均停留时间小于等于15秒的Visits为迷失用户的浏览行为,我们可以借助Google Analytics中的高级群组(Advanced Segment)来区分出这类用户,关于如何使用Google Analytics的高级群组功能,可以参考蓝鲸的文章——Google Analytics功能篇—高级群组,如下图:

Advanced-Segment-Lost-Visits

  当然,你可能会说这种用户区分的方法不准确,这类用户不一定就是迷失用户,也有可能他们确实找到并浏览了具体内容,但因为内容不够吸引人或者其他原因而马上离开了该页面。所以这里用高级群组划分出来的这类Visits的数量不能看作是迷失用户的一个绝对数值,我们只能认为里面的大部分Visits都是迷失用户,而不排除存在某些另类。所以更合理的方法是通过计算这类Visits占网站总Visits的比例情况来分析网站的信息架构到底是否合理,我们可以在Google Analytics上面选取网站的All Visits和Lost Visits进行比例和趋势的比较,如下图:

Comparison-All-and-Lost-Visits

Trend-All-and-Lost-Visits

  网站中迷失用户浏览的所占比例只需通过Lost Visits/All Visits就可以计算得到,但这个时候你还是无法根据这个计算结果来评判网站的信息架构到底是好是坏,因为还缺少一个基准线(Benchmark)或者说是评判标准。在Google Analytics上面的Visitors标签下,提供了“Sites of similar size”的基准比较(Benchmarking),你可以选择与你的网站相似类型的网站作为基准线进行数据比较,这的确是个很好的参考,因为通过比较能够更加明确你的网站在同类型网站中的优势和劣势,为网站优化指明方向。GA借助其强大的数据平台可以为我们提供基准线,但也许对于上面这个例子会显得无能为力,这个时候需要我们理性地自己去选择一个合适的基准线,比如我的博客目前类目和内容都还比较少,那么我可能会定义我的网站的迷失用户比例应该控制在1%以下;但如果对于一个应用和内容比较复杂的网站,那么基准线显然会需要定得更高一点。一旦某段时间的数据越过了基准线,就需要关注一下网站的信息架构是不是在趋于混乱了,是不是该进行一下整理和优化了。

  总之,一个好的信息架构能够帮助用户更容易地找到他们需要的信息,从而有效地提升网站的用户体验,所以,尝试着去优化下你的网站的信息架构。如果你有更好的方法能够有效地检验网站的信息架构的优劣,或者能够明确地分析得到网站信息架构的哪些细节上存在缺陷,希望能与我交流,我期待网站分析方法在优化网站信息架构方面的更多的应用。

网站用户的生命周期价值

customer-LTV  Avinash Kaushik的博客中最近更新的一篇文章——Calculate Customer Lifetime Value,里面非常详细地论述了什么是网站用户的生命周期价值(Lifetime Value,简称LTV),及为什么要使用LTV这个指标。其中主要阐述的是在SEM及网站推广的过程中不要仅关注于一次访问(Visit)中的转化率(Conversion Rates)和CPA(Cost Per Acquisition)这些指标,计算用户在网站的整个周期中创造的总价值将更具意义,用户生命周期价值对于衡量网站的推广策略非常具有参考价值。

什么是用户的生命周期价值

  生命周期是指一个主体从开始到结束的发展过程,所以网站用户的生命周期可以解释为用户从与网站建立关系开始到与网站彻底脱离关系的整个发展过程,而用户的生命周期价值就是在这个过程中用户为网站所带来的价值总和。

  用户的生命周期可以分为4各阶段,如下图:

customer-LTV-curve

  从用户的生命周期曲线可以看出用户在于网站建立关系期间一般会经历4个阶段,每个阶段都为网站带来不同的价值:

  考察期:用户会试探性的偶尔来访问下网站,这个时候用户创造的价值比较低;

  形成期:用户可能已经有点喜欢上你的网站了,他们会不定期的进入网站,并开始尝试做些交互,同时用户创造的价值飞速提升;

  稳定期:用户成为了网站的忠实Fans,他们经常会光顾网站,不仅自己使用网站提供的服务,同时可能还会帮助宣传网站,这个用户创造的价值到达最高峰并保持相对稳定;

  退化期:用户由于某些因素而开始与网站的关系产生裂痕,进而迅速破裂直到彻底离开,这个时期用户创造的价值迅速递减。

  需要注意的是,用户不一定在到达稳定期后与网站的关系才会衰退,在任何时期,只要有某些因素影响了用户的满意度,用户的生命周期就可能进入退化期,进而彻底脱离该网站。

如何测量用户的生命周期价值

  Avinash Kaushik在他的博客中例举的一些例子比较多的是从电子商务网站的角度,因为电子商务网站用户的生命周期价值更易于被衡量,可以直接计算用户从使用该网站开始在网站中的总消费金额、净利润等,基于这些指标通过细分用户的不同来源,可以计算不同推广策略的投资回报率(ROI),进而区分优劣。

  这种基于用户生命周期价值的网站来源评价同样也可以用于一般的网站,但是普通网站一般没有交易和销售数据,也可能不是以网站的收益作为网站的目标,那么就不能用用户的交易金额作为评价用户价值的指标。如何定义一般网站的用户生命周期价值可以参考之前的几篇有关用户分析的文章:我们还是可以采用网站用户忠诚度分析中取自Google Analytics中评价用户忠诚度的4个指标——用户访问频率、最近访问时间、平均停留时间、平均浏览页面数。这些指标是所有网站都可以测量得到的,同时提高用户的忠诚度是所有网站的共同目标,忠诚用户对网站的价值是不言而喻的,他们不仅可以为网站带来持续的价值,同时在网站线下的品牌和口碑推广上起着关键的作用。那么这4个指标如何汇总来计算得到用户的总价值指标呢?可以参考用户综合价值评分体系这篇文章,使用层次分析法(AHP)得到各指标的权重,并通过加权求和的方式计算得出用户的总价值,用该结果就可以作为衡量用户生命周期价值的评价指标。

基于用户生命周期价值的分析

  基于网站用户生命周期价值的计算结果,我们可以通过以下几个方面来对用户进行细分:

  用户的访问来源:可以对通过计算搜索引擎、外部链接、社会化网络、直接登录等方式首次访问你的网站的用户的平均生命周期价值来比较哪些来源为网站带来了最多的有价值用户:

LTV-source-analysis

  上图中柱状图表示从各来源进入我的博客的新用户数,折线图表示从各来源进来的用户的生命周期价值的平均(该来源带来的所有用户的生命周期价值总和/该来源带来的用户数,10分制)。从上图可以看出对于我的博客来说,搜索引擎带来了最多的用户(可能大部分网站都是类似的情况),而从带来的用户的生命周期价值平均值来看,外部链接是最有价值的,直接进入次之(可以用于评价网站线下推广所带来用户的价值),社会化网络再次之。所以我一般会把我看到的一些介绍网站数据分析相关的博客添加到我的外部链接表中,如果你也有网站分析相关的博客,或者认为我的博客还不错,也希望能把我的博客添加到你的外部链接表中。

  用户首次访问中浏览的内容:基于内容的细分,比如以我的博客的文章分类进行细分。可以选取用户的生命周期价值排在前100的访问用户首次访问我的博客中访问了哪些分类目录下的文章:

LTV-content-analysis

  上图柱状图表示首次访问我的博客浏览各分类文章的用户数,折线图表示生命周期价值排名前100的用户首次访问我的博客时浏览的各文章分类。这个结果就很明显了,“网站定量分析”这个内容分类为我带来了最多的新用户,同时也为我带来了最多的有价值用户,也是有价值用户转化率最高的分类目录,“个人观点分享”次之。

用户生命周期价值分析中需要注意的问题

  最后不得不说的就是这个分析中存在的一大技术难点——如何定义一个用户的首次访问。

  首先就是如何识别用户是首次访问,也就是该访问用户是新用户(New Visitor),大家估计已经注意到了在Google Analytics工具中的Visitors模块中有一项是根据New和Returning对用户进行细分,Google Analytics可以根据是否存在Cookie来进行细分,用户识别还有很多其他方法,可以参考我之前的文章——网站用户的识别,但不得不说无论何种方法对新用户的识别都存在一定的不准确性。

  另外就是如何获取用户首次访问的数据的问题。一般网站保存的统计数据有一定的期限,或者网站的数据统计起步较晚,未能统计到网站的历史数据,尤其对于已经发展了一定时间的网站或者数据量比较大的网站来说,这类统计就更显困难重重,也许这个时候网站的数据仓库就可以发挥它的价值了,数据仓库的数据集成性和保留历史数据并且不易变更的特性让其有能力可以完成诸如此类的复杂数据获取。

  今天是全国哀悼日,让我们为所有在地震中逝去的生命默哀,同时希望生还者能够尽快从伤痛中走出来,并坚强地活下去!green-ribbon