标签归档：比较分析

Google Website Optimizer报告解读

　　前段时间用博客的几个测试页面尝试了下使用Google Website Optimizer做A/B测试，经过这段时间收集了一些测试数据，感谢大家帮忙点击。其实之前一直想介绍Google的这个网站对比实验优化工具，完全免费而且操作简单，并且在不久的将来独立的Google Website Optimizer就会消失，这块功能会被整合到Google Analytics里面，相信很多GA的用户已经在Content模块中发现了新增的Experiments这个功能，这个就是从Google Website Optimizer衍生而来，功能和使用上面应该会有些调整和变化。

　　对于Google Website Optimizer的使用其实并没有那么复杂，使用实验的创建向导结合网页的提示和帮助，普通的用户创建自己的实验完全没有问题，只是网站的千差万别可能有很多的细节方面需要注意，或者需要想一些办法让实验过程和监控结果更加有效。所以这里不介绍GWO工具使用本身，我比较感兴趣的其实是实验输出的结果报表，里面涉及对结果的区间预估，测试方案胜出的概率，提升幅度等，这些指标都用统计学的方法计算得到，相比直接比较两组观察值，比较结果更加科学，更具说服力。

　　首先看下GWO输出的报告，这里用的是A/B测试，如果使用Multivariate Testing（MVT）报告会有细微的差异，但指标及统计逻辑应该是相同的：

　　我用GWO实现了一个最简单的A/B测试，一个原始版本和一个测试版本，输出的报告主要是比较实验过程中设定的转化率。上方的折线图显示的是原始版本和实验版本的转化率趋势，截至目前的转化情况显示在下方表格的最右侧（Conv./Visitors），从指标名称看，GWO衡量转化率用的是转化的用户数，应该使用Cookie来唯一识别用户（这里仅是在博客新建了几个简单测试页面，所以数据量较小，而转化率相比正常网站都明显偏高）。

　　所以，这里重点研究了下图中表格红框内的3个指标，看它们是如何计算得到的。

估算转化率

　　从图中红框1中可以看到Est. conv. rate，GWO报表对目前得到的转化率做了正负区间的预估，进而可以得到目前该版本转化率可能的置信区间（详见前一篇文章——参数估计与置信区间），这里用当前的转化率估计该版本的总体转化率p，进而可以计算得到总体标准差σ= sqrt(p(1-p)/n)，比如这里原始版本的总体标准差约为0.0540，而测试版本的标准差约为0.0647，根据Z_α/2×σ计算得到的上表中正负的7.6%和9.1%，所以我们就可以猜出GWO用的Z_α/2大概为1.4，这个数值我在测试期间接连验证过几次，基本非常稳定，根据Z值表，这个置信区间大概的置信度在84%，也不知道为什么GWO要选择这么个置信度。

　　红框1的上方我们可以看到GWO根据测试的效果将测试版本分成了三类，分别用绿色表示胜出的测试版本，黄色表示不确定的测试版本，红色表示落败的测试版本。Google仅给出了简单的说明，建议我们可以选择使用显示为绿色的版本，因为它们有很大的可能性（也只是可能）优于原始版本，而显示红色版本建议可以停止测试。具体到指标需要达到怎样的水平才会显示绿色或红色，我没有去验证，有使用经验的或者感兴趣的同学可以去观察下试试。

胜过原始版本的几率

　　之前在T检验和卡方检验这篇文章介绍过可以使用卡方检验的方法来比较二项分布数据间的概率是否存在显著差异，但卡方检验只能检验差异的显著性，没法直接说明某组样本的概率有多少的几率超过另外一个样本，所以在GWO的报告里面没有使用卡方检验，而使用了单尾Z检验。当样本数量超过30的时候，我们一般会使用Z检验来替代T检验比较两组独立或配对样本间的均值差异，因为这里只是为了证明一组样本概率明显超过另外一组样本的可能性，所以使用了单尾检验。计算Z统计量的公式如下：

Z-Test

　　根据表格的数据，原始方案和测试方案的转化率均值p分别为78.9%和78.0%，根据公式S²=p(1-p)分别计算两组样本的方差为0.1665和0.1716，而两组样本数n分别为57和41，进而计算得到Z=0.1068，查Z值表可得Z=0.10的概率为46.02%，Z=0.11的概率为45.62%，表中显示的Chance to Beat Orig.=45.9%，介于两者之间，使用的应该是类似的统计方法得到的值，偏差是因为中间精度处理引起的。

观察到的改进

　　图中红框3的Observed improvement，这个指标需要结合红框1的转化率置信区间来看，结合条形图可以比较清晰地得出结果，看下我用Excel画的展现估算转化率的类似条形图：

　　这里我用了两条辅助的虚线，如果第一个是原始版本，那么测试版本所有与原始版本转化率预估区间的差异都会用颜色展现，而观察到的改进就是着色区间的转化率差异。比如图中第二个条形的红色区间展现的相应值为-4.2%，而第三个应该是-1.6%+0.6%=-1.0%，即左侧的负值区间加上右侧的正值区间，第四个为2.9%。这样GWO报表中所有指标的计算都可以明确了

　　其实，大部分时候我们使用工具来完成分析或测试的过程，也不一定非要了解所有指标最底层的计算逻辑，我们只要知道这些指标的含义及作用，在分析具体问题时合理地使用这些指标就可以。而有些时候我们只能统计得到一些基础数据，所以如何使用这些基础数据得到一些有价值有说服力的分析结论就需要用到一些合适的统计学方法，这也是这篇文章去解读GWO输出报表的原因。

不得不考虑的时间因素

16 条回复

　　在网站数据分析中，时间是最常见也是最不可或缺的维度之一，大部分情况下用于限定指标统计的范围和粒度，同时时间因素也会对指标的一些统计规则和细节造成影响，而在某些数据分析中我们很容易忽略时间因素的影响，这些影响可能误导最终的结论。

　　发现这个问题是在一个数据提取的需求中，网站每天会发布很多新的内容，这些新的内容需要进行推荐，不然就会被埋没，所以很多网站都会有“最新推荐”之类的模块，而这个数据需求就是分析应该推荐哪些新内容？网站新发的内容质量参差不齐，而且数据积累较少，而推荐模块需要放置那些有潜力的新内容，以便潜力充分发掘后成长为热门内容，所以数据分析要做的就是去寻找那些有潜力的新发内容。如果是TOP10的推荐榜单，最简单的做法就是根据新内容的访问量或者转化率进行排序选前十，但其中有很多值得注意的地方，关于转化率需要注意的地方可以参考关键指标背后的秘密这篇文章，这里主要讨论如果以内容的访问量进行排序，如果选择近一周的汇总数据，我们需要注意什么？也许你已经想到了，之所以这里举例新内容，是因为新内容有一个发布时间（Publish Time），就像一个人的出生日期，而从发布时间到当前的时间间隔就是内容的持续时间，也可以认为是内容的生命期（Lifetime），就像一个人的年龄。内容的持续时间越长就获得越多的数据积累，相应获得高访问量的机会就越大，如果我们比较一周中在不同时间发布的内容在该周的总访问量，那些就会掉入错位比较的陷阱，或者叫“Mismatch”。

　　一个形象的比喻就是刚刚入伍的新兵跟久经沙场的老将的决斗，虽然新兵不是完全没有胜出的机会，也许那个新兵天生勇猛，或者有着一股初生牛犊不怕虎的冲劲，可以一举击败经验丰富的老将，但在大多数情况下这种可能性较小，这是一场不公平的决斗，而在数据分析中我们需要尽量去避免这类不公平的决斗（比较）。

内容和商品分析

　　其实日常中发生这类错误的情况可能很普遍，当我在博客新发文章几天后上Google Analytics去看数据，发现新文章页在相对较后面的位置，不是因为真的没人看，而是GA上默认展现近一个月的汇总数据，报表根据Pageviews排序的结果新内容无法在短时间内迅速冲到前几位。对于那些新发内容或者新上架产品频率不高的网站，运营人员可能比较清楚哪些是新内容，所以通过一些人为的辨认调节在分析的时候不易掉入陷阱，但对于每周有上百个新发内容的网站，这类错误的发生很可能埋没一些优质的新品。

　　我们需要找到一些办法去规避这个时间因素对分析结果的影响，通常我们在选择比较对象的时候需要控制所有的比较对象具备相同的持续时长，比如我们比较新内容的热门度，统一选择近一周的数据，对于较早发布的内容摒弃之前的数据，而近一周内刚发布的内容则舍弃不参与这次比较，等到有了完整的一周数据之后再加入比较。这样虽然可以确保比较在同一基准线上，但无疑延后了评估的结论，对于某些一上来就表现抢眼的内容无法及时发现，于是这里采用统计单位时间指标表现的方法，即根据内容的发布时间统计得到每个内容的持续时间（一般精确到天即可），然后将内容的总体访问量除以这个持续时间，就得到了单位时间的内容访问量，进而进行比较：

　　上表取的是5个新发布内容近10天的访问量数据，同时加入了内容自发布以来的持续天数，我们用总的访问量除以持续天数计算得到平均每天访问量，然后以总访问量和平均每天访问量分别进行降序排列，得到完全不一样的排名。如果按排序1，我们完全可能忽略D内容的强劲表现，而权衡时间因素之后的排序让我们能够更加准确的把握有潜力的新内容。

　　以上的方法同样适用于电子商务网站的商品分析，很多电商网站希望在新商品中挑选有足够潜力的商品进行重点营销，用于打造所谓的“爆款”，从而进一步促进订单量的增长提升销售额和利润。对有潜力新品的挑选一方面需要足够敏锐的嗅觉和眼光，另一方面就要借助数据分析，而这个时候不得不考虑上面提到的时间因素的影响，记住一个月内销售20件的商品不一定比销售50件的差，关键在于这些商品你是何时上架的，使用有效的方法进行评估才能找到真正有潜力有价值增长点的商品。

　　要知道任何的网站内容或产品都不是经久不衰的，都有它们自己的生命周期，所以明智的网站运营永远在不断寻找新的生长点，如果数据分析中欠缺考虑时间因素，那些有潜力的产品和内容很可能就会被“久经磨练”的产品内容长期压制，导致网站新陈代谢过于缓慢，进而落后于其他网站。

用户分析

　　在进行用户分析的时候，同样需要注意时间因素，如用户RFM分析、用户忠诚度价值评分、用户生命周期价值等，这些基于用户在一段时间内持续性行为分析的模型都易掉入时间的陷阱。我们没法奢求一个只注册了一周的新用户在近一个月的访问频率高于老用户，因为你只给了他7天的时间，而与他对决的是拥有充裕的30天时间的用户；同样你不应该去比较一个仅使用一个月的新用户与一个一直在持续使用的老用户在三个月或半年中的消费次数、消费金额等，因为他们不在同一起跑线上。但新用户拥有潜力，指不定他们就会成长为更加高价值的忠诚用户，所以在针对用户的营销中我们需要消除这个因素的影响，同样使用除以用户使用网站持续时间（从用户首次访问或者注册时间开始计算）的方法计算单位时间的指标表现，使用RFM模型看下考虑时间因素前后对用户评估的差异：

　　如上表所示，假如RFM模型选择了近100天的数据来对用户进行分析，这里同样加入“持续时间”这个统计量，即用户从注册到当前的天数，如果用户的注册时间在100天之前，那么用户在该统计周期中的持续时间就是100天（最大期限）。RFM的三个指标中的最近购买间隔（R）不受用户持续时间的影响，因此在考虑时间因素时不用做变换，而购买频率（F）和消费金额（M）都会受到持续时间的影响，需要除以持续时间，计算得到单位时间（这里是天）的数值，即表格中每位用户在“是否考虑时间因素”前后的指标变换。从变换前后的比较来看，用户1因为是持续使用的老用户，未考虑时间因素前在购买频率和消费金额上具有明显优势，但数据变换之后，用户2所表现的粘性和价值更高，即用户2虽然使用网站时间不长，但在单位时间的购买消费上优于用户1，我们通过雷达图进一步看下考虑时间因素前后的效果：

　　图中对数据进行标准化评分后，蓝线代表用户1，红线代表用户2，虚线表示未考虑时间因素，实现代表考虑了时间因素，可以看到用户2在考虑时间因素之后价值被明显放大，从图中可以得到用户2的预期价值优于用户1。如果我们不去考虑时间因素的影响，分析的结果就会产生明显的偏差，进而可能误导对用户的正确评估。

　　其实这里提及的时间因素还是一个遵循对比原则的问题，比较的对象之间必须具备可比性，不然比较的结果就没有任何的意义。

　　很久没有更新博客了，因为这段时间的变动没有时间去思考和整理一些新的内容。这篇文章中提及的分析中需要考虑到的时间因素其实在很多情况下都遇到过，尤其是对一个时间周期内汇总的统计指标做细分分析的时候需要格外注意各细分项存在的时间周期是否一致，希望对大家有所启发和帮助。

基于用户细分的比较分析

22 条回复

　　从网站的用户层面，我们根据用户访问的行为特征将用户细分成各种类型，因为用户行为各异，行为统计指标各异，分析的角度各异，所以如果要对用户做细分，可以从很多角度根据各种规则实现各种不同的分类，看到过有些数据分析报告做了各种用户的细分，各种用户行为的分析，再结合其他各种维度，看上去内容绝对足够丰富，但很难理解这些分析结果到底是为了说明什么问题，也许作为一个咨询报告反映当前整体的趋势和用户特征确实合适，但如果真的要让数据分析的结果能够引导我们去做些什么，还是要在做用户细分前确定分析的目的，明确业务层面的需求。

　　既然要做基于用户细分的比较分析，自然是为了明确某些用户分类群体的行为特征与其他用户群体的差异。这里主要从指导内容层面的调整为导向，通过比较各用户细分群体对内容需求的差异，优化内容运营，将优质的内容或者符合用户偏好的内容推荐给相应的用户。

　　既然是基于用户细分，首先明确用户的细分规则，这里举例3类细分：流失用户与留存用户、新用户与老用户、单次购买用户和二次购买用户，基于这3类细分，对每个分类的用户购买商品进行比较分析，明确哪些商品更加符合用户的预期。

流失用户和留存用户比较

　　当然，要区分流失用户和留存用户，首先必须对用户流失有一个明确的定义，关于流失用户的定义可以参考博客之前的文章——网站的活跃用户与流失用户。有了定义我们就可以做统计和细分了，还是以电子商务网站为例，电商网站的内容就是商品，我们基于每个商品计算购买这些商品的用户中购买后造成流失的用户比例，如下：

　　这里的指标定义应该比较明确，每个商品的流失用户比例应该是购买该商品后流失的用户数在所有购买该商品的用户中的占比，但只知道每个商品的流失用户比例无法评价这个商品是否对用户保留有促进作用，或者在一定程度上造成了用户的流失，只有通过与总体水平的比较才能得出相应的结论。所以这里需要重点解释的是“与总体比较”这个数值是怎么计算的到的，这里的百分比不是直接相减的结果，而是一个差异的幅度体现，这里假设总体用户流失率为56%，那么以A商品为例，与总体比较的结果是：( 58.13% – 56% ) / 56% = 3.80% ，使用同样的计算方法也可以得到其他商品与总体比较的差异幅度。最后就是展示，在Excel里面通过“条件格式”里面的数据条功能可以直接展现出图中的效果，非常方便。

　　很明显，上面图中的分析结果对运营调整有直接的指导性，目的是促进用户保留，所以我们要做的就是将有利于用户留存的商品（F商品的用户流失率明显要比总体低得多，说明F产品更有利于用户保留）推荐给用户，而将那些可能导致用户流失的商品（C商品）进行优化或者下架。

新用户和老用户比较

　　同样，使用上面的方法可以区分不同用户群的购买偏向。新老用户的细分是最常见的用户细分方法，我们可以使用类似的方法来看看新老用户对商品的不同喜好：

　　从上图中你看出了什么？购买D商品的用户中新用户的比例明显偏低，也许新用户根本就不喜欢这个商品，而B商品和F商品显然更加符合新用户的口味。如果你的网站可以进行新老用户区分的定向推广，那么上面这个分析结果将让你受益良多。

　　当然，这个数据呈现的特征可能跟商品的推广渠道有一定的关系，比如上图的D商品比较多的是使用老用户比较集中的推广渠道（比如EDM），那么自然购买用户中老用户的比例会偏高；或者把某些商品放在新用户比较集中的Landing Page中展示，那么购买该商品的新用户比例也显然会偏高。所以，在做诸如此类的分析时需要注意根据推广渠道的差异，具体问题具体分析，不能一概而论。

单次购买用户和二次购买用户比较

　　使用同样的方法也可以促成用户的多次购买。对于电子商务网站而言，用户的首次购物体验非常重要，这将会直接影响用户是不是会产生再次或者之后的多次购买，或者是否能够成为网站的忠诚客户。如果你的网站注重用户关系管理，那么你可以尝试下使用下面的分析方法：

　　需要注意的是这里的基础用户群设定在了每个商品的首次购买用户（不是所有），我们要分析的是所有将该商品作为首次购买商品的情况下，用户是否还会发起之后的再次甚至多次购买行为，从而评价商品对于首次购买体验的影响好坏。从上表可以看出，B商品和F商品在促成二次购买的表现不佳，很有可能商品的使用或质量问题影响了用户的满意度，阻碍了用户再次购买的脚步。根据分析结果，我们尤其需要对那些二次购买率比总体水平低非常多的商品进行重点关注，同时也需要根据商品的特征进行分析，有些商品确实比较容易促成二次购买，因为可能存在交叉销售和向上营销的情况。

　　其实本来想把这篇文章拆分成多篇整成一个系列专题，因为从实现层面而言，每一块的用户细分的分析都需要独立完成，而且大部分要从底层的数据计算得到，如果你从Google Analytics上面从寻找类似的数据，其实唯一可以找到的就只有新访问比例，而且在内容模块里面细分到每个页面的指标也未包含% New Visits（在流量来源、地域细分里面有该度量），当然你可以自定义报告来查看网站每个页面的新访问比例，比较的基准还是网站总体的新访问比例，GA的展现方式选择里面直接提供了与总体比较的视图“Comparison”，下图是我做的自定义报表：

　　GA上面的展现的效果跟用Excel 2010上面定制条件格式后的效果很像（2010可以展现正负值在坐标轴左右侧区分的红绿数据条，2007貌似还未实现此功能），这种基于基准的比较展现非常直观使用，其实在其它的分析中同样可以用到。那么你从我的博客的各内容新用户比例比较分析中看出了什么？访问数排在前几名的文章中很明显的趋势就是概念性方法论的文章新用户比例高于均值（当然主要靠搜索引擎的帮忙），而观点性和分析性的文章的新用户比例低于均值（老用户更偏向于实践和应用），所以如果我的博客可以动态向新用户和老用户展现不同的内容，那么这个分析将十分具有价值，也许你的网站可以尝试下。

　　最后还是回到一开始的问题，需要总结的是：细分是用于比较的，比较是为了反映差异进而做出调整优化的，所以细分的目的最终还是指导运营决策，这个才是数据分析的价值体现。

比较测试的设定和分析

24 条回复

——数据的上下文5

　　基于前一篇文章——T检验和卡方检验中提出的数据比较方法，其实我们在生物或者化学的实验中经常也会涉及比较，这篇文章就来具体介绍如何在现实的网站分析环境中使用这些方法，使用的前提和环境是怎样的。

　　其实我们在做数据分析的时候经常进行比较分析，但往往以观察分析法为主，“T检验和卡方检验”为我们的比较分析提供了很好的科学的定量分析方法，让比较的结果更有置信度和说服力。但在使用定量分析的比较方法前，还有很多因素需要考虑，当我们需要精确地分析比较的效果，我们一般都会做比较测试，而其中涉及测试环境的设定，数据的选择和获取等，以排除一些非相关因素的干扰，让比较的结果更加真实可信，所以下面就介绍下如何合理地进行比较测试。

比较测试的类型

　　比较测试或实验的类型有很多，但都跳不出抽样、重复、分组、比较这几个流程，所以从实验设计的角度，我们可以简单地把比较测试分为两类：基于时间序列的组内比较和基于对照实验的组间比较。

时间序列的组内比较

　　基于时间序列的组内比较一般在时间序列上的某个时间点引入实验变量或者施加实验刺激，并在实验刺激的前后进行重复测试，分别叫做“前测”和“后测”，对前测和后测分别进行抽样比较，从比较的结果反映实验刺激是否对结果有显著的影响。详细的流程见下图：

　　举个有趣的例子，如果公司的员工前4个月在正常的薪资待遇的水平上工作，体现出正常的工作效益和工作满意度；然后从第5月开始给员工进行加薪（施加实验刺激），再观察之后4个月员工的工作效益和工作满意度，将之前4个月的结果（前测）与后4个月的结果（后测）进行比较，分析员工的工作效益和工作满意度是否存在显著性差异，进而证明加薪这个实验刺激是否对提升员工的工作效益和满意度有显著性影响。这就是简单的时间序列比较测试的基本流程。

　　但基于时间序列的比较测试会受很多因素的干扰，比如上面的例子在实验过程中CPI的增长、公司业绩的下滑或者运营环境的恶化都可能导致实验结果的失效，或者验证的结果不可信，所以下面会具体说明需要排除的干扰因素。

对照实验的组间比较

　　基于时间序列的组内比较只是基于一组样本，只是样本在时间序列的某个点上受到了实验变量的刺激；而对照实验需要设定两组样本，也就是“实验组”和“控制组”，并对实验组施加实验刺激，控制组维持原状态不变，从而比较实验组和控制组是否存在显著差异来反映实验的刺激是否影响了结果。因为对照实验涉及两组样本，所以这里需要额外注意抽样的规范性，我们需要保证两组样本的特征具有相似性，可以进行比较。具体的实验设计见下图：

　　还是使用上面的例子，但在对照实验中设置对照组和实验组是必需的，比较不再是基于前测和后测。比如我们让部分员工维持当前的薪资待遇继续工作，而另外一部分的员工提升他们的薪资待遇，从而比较为提升待遇的员工和提升待遇的员工的工作效益和工作满意度的差异，如果差异显著就可以证明提升薪资待遇这个实验刺激对结果是有显著影响的。

　　对照实验因为参与比较的两组样本都是基于相同的时间序列轴，所以随着时间变化的影响因素对实验的比较结果的影响不再重要，因为两组样本同时受到了同样的影响，但因为是组间比较，所以两组样本如果存在差异性，那么对结果就会造成较大影响，比如上例中A组选择的是基层员工，B组选择中高层员工的话，比较的结果显然是缺乏科学性的。下面就具体介绍下比较测试中可能存在的影响因素有哪些？

前提与影响因素

　　首先看一下从用户体验的角度，如果我们进行可用性实验，需要考虑的影响因素有哪些：

外部噪声和干扰：外部干扰信息、临时的电话和呼唤等；
经验和熟练：因为可用性实验一般需要重复过程，所以随着实验的进程，用户渐渐熟悉对网站和工具的使用；
消耗：随着实验进程，用户可能失去耐心，或者精力无法集中；
主观预测：当进行重复实验时，用户容易用先前的测试结果来推测之后的测试，同样会影响实验结果的可信度。

　　以上是可用性实验中需要考虑的影响因素，有些只存在于实验环境中，如果衍生到WEB分析中，同样需要注意一些影响因素，而对于上面介绍的时间序列组内比较和对照实验组间比较，各自的影响因素又各不相同：

时间序列的组内比较

　　基于时间序列的组内比较可能存在的干扰因素相对较多，因为外部环境和内部环境都会随着时间发生变化，所以为了让基于时间序列的前测和后测两组数据具有可比性，我们必须规避以下几类因素的影响：

数据本身存在的自然增长或下降趋势；
规避节假日或者外部事件的影响；
规避特殊的营销推广其带来的影响；
规避内部其他可能影响测试结果的因素（实验刺激必须唯一）。

对照实验的组间比较

　　对照实验因为两组样本处在相同的环境和时间序列上，所以需要规避的影响因素比上面要少很多，但相较组内比较，组间比较需要额外考虑两组样本是否具有可比性：

两组样本特征相似，可比较（抽样规范性）；
实验组跟对照组之间只存在唯一的实验刺激导致的差异。

　　无论是基于时间序列的组内比较还是基于对照实验的组间比较，都要规避外部环境的重大变动，或者特殊的外部事件对网站造成的重大影响，或者服务器故障或数据统计异常造成的数据不完整或不准确，因为这些因素造成的影响已经可能导致用于比较的数据本身就存在巨大误差，或者不可信，都是无法规避和弥补的。

网站应用实例

　　网站环境下最常见的比较测试显然就是A/B Testing，AB测试为网站的改版和优化提供了对照实验的比较测试环境，具体的流程如下：

　　访问网站的用户被AB测试的系统自动分成了两组，一般情况下是按比例对半划分，当然很多情况下也会根据需要按其他合适的比例，如1:3，1:5等。这里的A方案和B方案一个是未做改动的原方案，另一个是改版后的新方案，如果一次需要测试多个改进方案的效果，那么就需要设定多个实验组，而控制组只要一个就行。

　　A/B Testing属于对照实验的组间比较的测试方法，所以同样需要符合对照实验的前提，规避对照实验可能存在的其他影响因素。因为A/B Testing遵循了简单随机抽样的方法，所以我们可以认为实验组和对照组之间的样本无明显的差异，具有可比性。同时，对照实验基于相同的内外部环境和相同的时间序列，所以诸如节假日、数据自然增长或下降、特殊推广期等的影响可以不用考虑，但某些特别重大的外部事件或者网站服务器故障导致的数据问题还是需要在比较测试之前进行排除。另外对照实验中必须控制每个实验组的实验刺激只能是1个，不然无法区分到底是哪个实验刺激对实验结果造成的影响。

　　在规避上述影响因素后，基于A/B Testing的数据比较可以使用我在上篇文章中介绍的“T检验和卡方检验”的方法直接进行显著性的检验，进而验证实验刺激对结果是否存在显著性影响，这里不再重复举例了。

　　A/B Testing有自己的优势，它比基于时间序列的比较的限制因素要少很多，但A/B Testing毕竟需要预先构建相应的自动分流系统，可能在某些特定的环境下或者对某些特殊的网站而言没有相应的环境可以进行AB测试，这个时候我们就不得不选择时间序列的比较测试。

　　基于时间序列的组内比较需要规避推广、节假日和外部营销事件的影响，这个可以通过选择合理的测试起止时间，选择合适的前测和后测样本进行规避，但如果网站本身数据存在明显的上涨或下降趋势，那么我们必须对数据进行必要的处理：

改版前		改版后
用户数	订单数	用户数	订单数
12395	576	13920	704
13237	641	14391	715
13450	732	15692	781
13872	693	16533	839
14673	770	15916	813

　　上表是某电子商务网站基于时间序列改版前后的比较测试，前测和后测各选取5天的数据进行比较，以“订单数”作为比较指标，为了说明改版能不能显著地提升每天订单的数据。如果我们不考虑数据本身的自然增长，直接比较改版前后日均订单数的差异：

　　改版前日均订单数682.4 < 改版后日均订单数770.4

　　显然改版后日均订单有显著提升，说明改版有效？那么我们将数据的自然增长考虑进去，我们可以将日均用户数的增长率作为整个网站数据的自然增长率：

　　(改版后日均用户数 – 改版前日均用户数) / 改版前日均用户数 = 13.05%

　　改版前日均订单数682.4 * 1.13 = 771.1 > 改版后日均订单数770.4

　　比较的结果发生了改变，改版前的日均订单数在乘上自然增长率后要比改版后的日均订单数高，但相差不多，从结果看应该是改版对订单数的提升无显著影响。显然后面考虑网站自然增长率后的比较结果更加科学，更加可信和具有说服力。这就是我们在基于时间序列的比较测试中需要考虑的一些问题。当然上面是基于简单的观察分析比较，如果需要更具统计学意义的定量比较，同样可以对数据进行自然增长处理后使用T检验或者卡方检验。

　　这篇文章可能写得有点长，本来想分两篇发布，但因为内容不太好分段，也怕影响内容的连贯性，所以最终都整合到了一篇，希望大家有耐心能够看完。当然期间的一些看法如果有问题，或者大家有自己的其他见解，都可以在下面评论留言，非常欢迎大家提出其他的看法。一边在看羽毛球世锦赛男单决赛一边更新了这篇博客，希望文中不要存在过多地错误或者错别字

T检验和卡方检验

32 条回复

　　好久没有更新博客了，今天更新一篇关于数据分析方法的文章，主要是基于统计学的假设检验的原理，无论是T检验还是卡方检验在现实的工作中都可以被用到，而且结合Excel非常容易上手，基于这类统计学上的显著性检验能够让数据更有说服力。还是保持一贯的原则，先上方法论再上应用实例，这篇文章主要介绍方法，之后会有另外一篇文章来专门介绍实际的应用案例。

关于假设检验

　　假设检验（Hypothesis Testing），或者叫做显著性检验（Significance Testing）是数理统计学中根据一定假设条件由样本推断总体的一种方法。其基本原理是先对总体的特征作出某种假设，然后通过抽样研究的统计推理，对此假设应该被拒绝还是接受作出推断。既然以假设为前提，那么在进行检验前需要提出相应的假设：

　　H0：原假设或零假设（null hypothesis），即需要去验证的假设；一般首先认定原假设是正确的，然后根据显著性水平选择是接受还是拒绝原假设。

　　H1：备择假设（alternative hypothesis），一般是原假设的否命题；当原假设被拒绝时，默认接受备择假设。

　　如原假设是假设总体均值μ＝μ₀，则备择假设为总体均值μ≠μ₀，检验的过程就是计算相应的统计量和显著性概率，来验证原假设应该被接受还是拒绝。

T检验

　　T检验（T Test）是最常见的一种假设检验类型，主要验证总体均值间是否存在显著性差异。T检验属于参数假设检验，所以它适用的范围是数值型的数据，在网站分析中可以是访问数、独立访客数、停留时间等，电子商务的订单数、销售额等。T检验还需要符合一个条件——总体符合正态分布。

　　这里不介绍t统计量是怎么计算的，基于t统计量的显著性概率是怎么查询的，其实这些计算工具都可以帮我们完成，如果有兴趣可以查阅统计类书籍，里面都会有相应的介绍。这里介绍的是用Excel的数据分析工具来实现T检验：

　　Excel默认并没有加载“数据分析”工具，所以需要我们自己添加加载项，通过文件—选项—加载项—勾选“分析工具库”来完成添加，之后就可以在“数据”标签的最右方找到数据分析这个按钮了，然后就可以开始做T检验了，这里以最常见的配对样本t检验为例，比较某个电子商务网站在改版前后订单数是否产生了显著性差异，以天为单位，抽样改版前后各10天的数据进行比较：

	改版前订单数	改版后订单数
1	1032	1187
2	1178	1245
3	1098	1379
4	1045	1094
5	976	1173
6	1101	1364
7	1276	1119
8	1215	1268
9	987	1303
10	1065	1274

　　首先建立假设：

H0：μ₁＝μ₂，改版前后每天订单数均值相等；
H1：μ₁≠μ₂，改版前后每天订单数均值不相等。

　　将数据输入Excel，使用Excel的数据分析工具，选择“t检验：平均值的成对二样本分析”，输出检验结果：

　　看到右侧显示的结果是不是有点晕了，看上去有点专业，其实也并不难，只要关注一个数值的大小——单尾的P值，这里是0.00565，如果需要验证在95%的置信水平下的显著性，那么0.00565显然小于0.05(1-95%)，拒绝零假设，认为改版前后的订单数存在显著性差异。简单说下为什么选择单尾显著性概率P，而不是双尾，对于大部分网站分析的应用环境，我们一般需要验证改动前后数值是否存在明显提升或下降，所以一般而言只会存在一类可能——或者提升或者下降，所以只要检验单侧的概率即可，就像上面例子中改版后的订单数均值1240.6大于改版前的1097.3，我们需要验证的就是这种“大于”是否是显著的，也就是做的是左侧单边检验，这种情况下只要关注单尾的显著性概率P即可。

卡方检验

　　卡方检验（chi-square test），也就是χ²检验，用来验证两个总体间某个比率之间是否存在显著性差异。卡方检验属于非参数假设检验，适用于布尔型或二项分布数据，基于两个概率间的比较，早期用于生产企业的产品合格率等，在网站分析中可以用于转化率、Bounce Rate等所有比率度量的比较分析，其实在之前的文章——Abandonment Rate的影响因素进行过相关的应用。这里同样不去介绍χ²是如何计算得到的，以及基于χ²统计量的显著性概率的查询等，这里直接以转化率为例来比较网站改版前后转化率是否发生了显著性差异，抽样改版前后各3天的网站分析数据——总访问数和转化的访问数，用“转化访问数/总访问数”计算得到转化率：

	改版前	改版后
总访问数	30567	33651
转化访问数	2976	3698
转化率	9.74%	10.99%

　　首先建立假设：

H0：r₁＝r₂，改版前后转化率相等；
H1：r₁≠r₂，改版前后转化率不相等。

　　其实这是一个最简单的四格卡方检验的例子，也无需使用SPSS（当然你足够熟悉SPSS也可以使用类似的统计分析工具），为了简化中间的计算步骤，我这里用Excel直接制作了一个简单的卡方检验的模板，只要在相应的单元格输入统计数据就能自动显示检验的结果：

点击下载：卡方检验示例

　　Excel中浅蓝色的单元格都支持输入，包括原用方案和测试方案的总访问数和转化访问数，另外置信度95%也是支持修改了，如果你需要99%的置信水平，只要修改这个单元格即可。

　　怎么看检验结果？其实非常简单，只要看那个红色的“存在”单元格的显示结果即可，上面的案例中两者的转化率“存在”显著性差异，如果不存在，则该单元格相应的就会显示“不存在”，有了这个模板对于A/B Testing等类似的数据比较也显得非常简单容易，或者说其实这个Excel模板就是为了A/B Testing而量身定制的。

　　好了，就到这里吧，其实这篇文章并不是想从专业的统计学的角度来介绍T检验和卡方检验，只是想让大家了解这两个方法的原理和适用条件，能够用最简单的方式去使用诸如此类的方法让数据更具说服力，请继续关注之后奉上的应用实例。

合并和比较度量

8 条回复

——数据的上下文4

　　往往我们在做分析的时候需要结合各类基本的指标进行二次计算合并得到一个可以用于进行综合评价或比较的度量，这个过程中就需要涉及到一些指标的合并技巧，和比较基准的设定。其实之前“数据上下文”的系列文章中也一再强调了我们需要为指标设定合理的参考系来评价指标的趋势或表现的好坏，之前提供了一系列的方法，但这篇文章里面要介绍的方法应该是最简单方便的，同时不失实用性，得益于《用户体验度量》这本书中的介绍，所以这篇文章更像是一篇读书笔记，内容基本整理总结自《用户体验度量》第8章——合并和比较度量，当然不再局限于用户体验层面，结合了网站分析层面的思考。

　　这里我根据合并和比较类型的不同将内容分成：简单合并度量目标比较、百分比评分度量均值比较、标准化度量组间比较和与专家绩效的比较。

简单合并度量目标比较

　　这是一个最简洁有效的KPI评价模式。首先说下简单合并，举个例子，电子商务网站每天产生很多订单，这些订单由许许多多的网站访问带来，一旦某个访问产生了订单，我们就说这个访问产生了转化，所以最基础的统计指标没有转化率，只有网站的访问量和订单数，转化率是由“订单数/访问数”计算得到的。那么为什么要计算转化率，用订单量来评价网站绩效不是也可以吗？很简单，因为订单量会受到网站访问量的影响，而很多时候网站的访问量无法控制，所以我们不能说100次访问产生的10个订单一定比150次访问产生的15个订单要差，如果用着两个指标的合并度量——转化率来评价，显然更科学，因为都是10%，两者的绩效是相当的。

　　因为合并度量，如转化率、人均消费等指标一般较为稳定，波动幅度不会太大，我们一般会将这些指标作为网站的KPI，同时我们会为每个KPI设定一个预期的目标，比如我们设定网站的转化率目标是10%，那么我们来看看网站一个月内的目标达成比例有多高：

　　我们可以看到在5月份的31天时间里，有26天的转化率等于或者超过了目标值，从而目标的达成率就是83.87%（26/31），还算是一个不错的成绩。也许你的团队正在抱怨KPI太过苛刻，毕竟数据会受诸多因素的影响，要保证每天10%以上确实有难度，如果真能完全做到，那就是目标的设定过低，目标永远应该临界于可以达成和不能达成之间才是合理的，所以这里使用目标达成率来评估可能会更加合理。

百分比评分度量均值比较

　　但是有的时候我们没法为每个指标设定目标，毕竟目标更多的是为了控制网站的整体绩效或者KPI，对于一些基于细分的度量，我们需要使用另外的合并和比较方法，所以就有了基于百分比的评分。

　　同样很简单，百分比评分就是将指标的值都转化成百分比的形式，相当于该指标在100分制的条件下的得分有多少。如何将指标转化成为百分比的数值，一个很简单的方法就是所有的指标处于总体的最大值，这个方法对于所有大于0且分布不是特别离散的指标都是有效的。比如我们评价网站商品的质量，权衡商品的浏览量和转化率这2个指标，我们知道转化率本身就是一个百分比，但显然也是需要进行转化的，所以我们将每个商品的浏览量和转化率分别除以总体浏览量最大值和总体转化率最大值得到相应的百分比评分：

	浏览量	转化率	浏览量评分	转化率评分	评分均值
商品A	563	7%	100	78	88.9
商品B	121	9%	21	100	60.7
商品C	87	8%	15	89	52.2
商品D	367	5%	65	56	60.4

　　上面的均值基于简单平均的计算，同样我们可以对各指标引入权重进行加权平均，比如我们分别给浏览量评分和转化率评分分别赋予40%和60%的权重：

	浏览量	转化率	浏览量评分	转化率评分	加权评分均值
商品A	563	7%	100	78	86.7
商品B	121	9%	21	100	68.6
商品C	87	8%	15	89	59.5
商品D	367	5%	65	56	59.4

　　这样我们就可以根据最终的评分均值寻找那些高质量的商品进行推荐了。

标准化度量组间比较

　　又是标准化，是不是有点看腻了，但确实它在指标合并的领域扮演着极其重要的角色，同样推荐阅读——数据的标准化这篇文章。

　　方法这里不再详细介绍，还是举个例子，另外值得注意的一点就是对“逆指标”的处理，逆指标指的是那些表现的值刚好与绩效相反的指标，即值越大绩效越差，值越小绩效越好，网站分析中典型的逆指标就是Bounce Rate。因为标准化后的指标符合均值是0标准差是1的正态分布，所以对逆指标的处理只需要对标准化后的数据乘-1就可以了，也非常简单。这里以网站Landing Page优化为例，来看看如何有效地评价3个Landing Page的优化方案哪个才是最优的：

	Bounce Rate	转化率CR	BR标准化	CR标准化	标准化均值
方案A	45%	8%	-0.651	0.873	0.762
方案B	46%	5%	-0.501	-1.091	-0.295
方案C	57%	7%	1.151	0.218	-0.467

　　同样使用了求均值的方法，将各指标标准化后取均值进行比较（注意这里取均值时对BR标准化的结果乘了-1），我们就可以轻而易举的看出A方案的效果是最优的，这也是一种“目标决策”的最简单应用。这里需要注意的是指标标准化后的数值的分布是不定的，不像上面的百分比一定是在[0,100]之间，所以标准化后的数值本身不具有实际意义，只有将它放入比较环境中才有分析的价值，所以指标标准化的方法只适用于组间的比较。

与专家绩效的比较

　　如果你能够得到一个对该领域的专业知识和技能非常熟悉的专家团队的支持，那么对网站的评价会容易许多，因为专家对网站的使用和评分就可以作为网站的最优标准。

　　其实一般情况下我们认为专家的绩效是一个理想化的状态，比如专家能够在最短时间内通过最少的操作完成预期的任务，所以我们可以将专家组的数据作为网站可以达到的优化目标，而目前数据与专家数据的差异就是目前网站存在的优化空间，这样的分析让我们能足够明确自身在哪些模块距离最优的水平最远，同时优化的空间最大，我们完全可以从这些方面入手来实现最快最大的提升。

　　除了介绍以上的度量合并比较的方法外，书中还介绍了使用柱状折线组合图和雷达图来展现多指标的比较环境，因为这些在之前的文章中都有提及，这里不再介绍了。

　　其实上面介绍的都是最简单实用的指标比较处理的方法，这些方法无论在哪类公司或者哪些指标上都能够进行套用，甚至基于这些最基本的取百分比、取平均、目标比较等方法可以举一反三扩展出更加灵活有效的分析方法。这时候就需要动用你的智慧，为你的数据选择最合适的方法了。

提升用户满意度

9 条回复

——让用户更容易地找到需要的信息5

　　在前一篇文章——用户任务完成度分析中我似乎遗漏了一个重要的问题：为什么要分析用户的任务完成度？其实每个网站分析的方案和模型都应该具备它的目的和意义，否者就失去了分析的价值。所以这篇文章就是为了回答这个问题，同时也作为“让用户更容易地找到需要的信息”专题的完结篇。

　　所以这里先提出一个假设：让用户更容易地找到需要的信息进而帮助用户完成预期的任务，能够有效地提升用户满意度。

用户满意度的影响因素

　　我们不妨先来看一下用户满意度是怎么定义的，根据美国顾客满意度指数模型（ACSI, American Customer Satisfaction Index）的描述，用户满意度是用户对产品或服务的预期与实际接受的产品或服务的感受间的差距，差距越小，满意度越高。对于以信息服务为主的网站而言，用户访问网站的预期就是找到自己需要的信息，完成既定的任务（寻找信息、购物、娱乐等），那么如何衡量用户实际接受到的网站服务的质量水平，进而推测它们之间存在的差距？对于用户对网站实际的感受，可以从以下3方面体现：

用户是否完成预期任务（网站是否及格）
完成任务过程中良好的体验（也许网站能打八九十分了）
感受创意或意外的收获（获得附加分的机会）

　　所以，保证用户完成预期的任务是网站质量的及格线，也可以看作是网站的生命线。那么任务完成度对于用户满意度是否有这么重要的影响呢？我们需要对以上的假设进行验证。

任务完成度与用户满意度

　　为了验证任务完成度是否对用户的满意度有显著的影响，我们在统计用户任务完成情况的同时，需要收集用户对网站的满意度，所以上篇文章问卷调查中对用户满意度的打分题中采集到的数据就有了用武之地。我们可以通过比较完成任务的用户与未完成任务的用户对满意度的打分是否存在显著性差异的方法来验证任务完成度对用户满意度的影响是否显著。

　　这里可以使用两组独立样本T检验的方法，把问卷调查中采集到的样本数据分为两组，一组是未完成任务的用户的满意度打分，另一组是完成任务用户的满意度打分，我们可以认为这两组数据都是近似的符合正态分布，进而比较这两组样本的总体均值是否存在显著差异。（或许你认为这个结果是显而易见的，这个验证完全是多此一举，那就当我是画蛇添足，无聊打发时间吧。）

　　首先提出零假设：

H₀： μ₁= μ₂

　　再将收集到的样本数据通过SPSS或Excel的数据分析功能进行双样本均值T检验，过程就不详细论述了，不然估计很多用户立马会离开网站甚至直接关闭浏览器了。

　　从SPSS的分析结果中可以看出，完成任务与未完成任务用户的满意度打分均值（上面一张表Mean值）可以看出，完成用户的满意度均值明显大于未完成用户。从下面那张表的95%置信区间的检验结果可以看到，F检验的显著性概率为0.847>0.05，所以我们可以认为完成任务用户与未完成任务用户的满意度打分的样本方差没有明显差异；而T检验的显著性（双尾）概率近似于0，小于0.05，因此拒绝零假设，即两个样本的总体均值存在显著差异，进而我们可以得出完成任务的用户满意度显著地高于未完成任务的用户满意度。

　　通过上面的分析，我们验证了文章一开始提出的假设，即用户的任务完成度对提升用户的整体满意度有显著的影响。那么如何通过提高用户的任务完成度来提升用户满意度呢？

如何提升用户满意度

　　提升用户满意度，我们可能需要做很多事情，从全局到细节，需要处处为用户的体验和感受着想。既然我们已经验证用户的任务完成度对用户满意度会产生显著影响，那么我们可以先从提升用户的任务完成度开始。这里可以参考我之前写的关于如何让用户更容易地找到需要的信息的4篇文章——优化网站信息架构，优化网站内部搜索，优化网站导航设计，优化相关内容推荐。

　　这些优化可以从普遍的层面上提高用户的任务完成度，但显然以上这些还是不够的，因为用户的知识构成存在着差异，用户遇到的问题也会各不相同，所以上篇文章的问卷中当用户未完成任务时填写的为什么没有完成任务的开放性问题就能发挥作用了，我们需要针对各类用户（甚至个别用户）遇到的不同问题分别提供有效的解决方案，这也是为什么很多网站都会设置FAQ甚至在线客服的原因。

　　所以我们首先要满足用户访问网站的最基本的期望——完成他们预期的任务，从该层面上提升用户满意度，下面是我画的一个简单的示意图，就作为文章的结尾吧：

Abandonment Rate的影响因素

17 条回复

　　前几天看到了Sidney写的一篇文章——电子商务(B2C)网站的Abandonment Rate，里面详细介绍的B2C网站中购物车及付款流程可能造成交易的中断，客户放弃购买该商品的情况，也就是Abandonment Rate。文章中提到了Abandonment Rate可能涉及的影响因素，及如何降低Abandonment Rate的一些方法，感觉对提高电子商务网站商品的销售转化率十分有效。其中谈到Abandonment Rate与商品的价格或商品的销售组合之间可能存在某种联系，为了求证这类联系是否存在，我们可以使用一些定量分析的方法对可能影响Abandonment Rate的某些因素进行了分析。

哪些因素影响了Abandonment Rate

　　一般B2C电子商务网站都会基于商品进行分类，如下图：

　　以卓越销售的商品为例，卓越销售商品以图书音像为主、电子日用品为辅，其下的产品分为图书音像、消费电子、日用消费品等类目，之下还有子类目的划分，最底层就是其销售的商品，如图书Web Analytics 2.0、某品牌的手表等，那么可以整理得到如下的商品列表：

商品类目1	商品类目2	商品类目3	……
商品1	商品3	商品4
商品2		商品5
……		……

　　根据上面的表格，我们可以通过横向对比和纵向对比的方法对Abandonment Rate影响因素进行分析。因为不同的商品类目可能在商品的品牌口碑、本质特征、展示方式、购物车流程等方面存在差异，通过横向比较商品类目的Abandonment Rate是否存在显著性差异，可以确定这么因素的影响情况；而同一类目中商品的纵向对比，可以在控制商品的品牌口碑、本质特征、商品展示方式、购物车流程相似的条件下，比较商品的关注度、价格、购买数量、促销等因素的影响情况。

不同商品类目间的横向比较

　　样本数据的选择：为了说明差异是有商品类目的不同说引起的，我们需要选择商品受关注程度、平均价格、销售情况、促销频率等较为相近的2个商品大类（如鼠标和帽子），以排除这些因素的影响。同时选取合适的时间跨度，你可以选择一个月、一个季度或者任意的时间区间来分析该时间段内样本数据特征。如：

categories-AR-compare

　　样本数据是关于某时间发生频数的统计，所以比较两组样本间的差异可以选择四格表卡方检验的方法，这里的检验结果χ²=16.84，显著性水平p<0.01, 差异有高度统计学意义，拒绝零假设，认为两组数据存在显著性差异。

同一类目中不同商品的纵向比较

　　样本数据的选择：同样我们需要选择关注度、价格、销售数量、促销频率等存在一定差异的相同类目下的商品（如不同品牌、价格和款式的手表）来进行比较分析。同样选取合适的数据时间段，如统计得到以下数据：

商品	关注度	价格	销售数量	促销比率	Abandonment Rate
1	3258	588	251	0.16	0.4487
2	1569	998	76	0.05	0.4711
3	2965	158	206	0.20	0.2639
4	236	2568	15	0	0.5714
5	985	1128	3	0	0.3843

　　我们可以通过excel的数据分析功能获取各列间的相关系数r，首先可以根据r值的正负确定是正相关还是负相关，然后比对以下的相关系数与相关程度的对照表，确定相关性的强弱：

\|r\|>0.95	\|r\|>=0.8	0.5<=\|r\|<0.8	0.3<=\|r\|<0.5	\|r\|<0.3
显著性相关	高度相关	中度相关	低度相关	不相关

　　那么根据结果可以得出以下结论：Abandonment Rate与价格高度正相关，与促销频率中度负相关，与关注度中度负相关，与销售数量低度负相关。

如何降低Abandonment Rate

　　既然已经知道有这些因素影响了B2C的Abandonment Rate，那么我们如何通过网站优化来降低Abandonment Rate呢？其实Sidney在他的文章中已经提到的许多解决的方法是十分有效的，下面根据以上影响因素分析的结果分各因素来简要阐述下我们可以做些什么？

商品类目间的差异

　　如果通过比较分析得出2个或多个商品类目间存在显著的差异，那么首先要确定这个差异是不是由于商品本质特征的不同会导致，因为商品的某些本质特征有时并不是能够人为控制的，诸如：

商品的品牌口碑：网购的用户可能会偏向品牌型产品；
规格的固定性：电子商品的规格确定性会高于衣物等日用品，所以鼠标的Abandonment Rate会低于帽子也不奇怪；
售后服务：一般商品的售后服务由厂商提供，那么这个因素一般是电子商务网站无法控制的。

　　由于以上原因造成的Abandonment Rate偏低的商品类目，网站方面可能就力不从心了，然而如果差异是由一下因素造成的，那么网站就得找找自己的原因的：

商品展示方式的差异：布局、图片、商品描述、一些有误导性的信息……这些也会造成Abandonment Rate的偏高；
购物车流程的差异化：用户可能在购买鞋子时因为需要填写尺码、颜色等信息而直接关闭浏览器离开了，但在购买图书是可能就不会出现这种情况；
用户购买体验：如果网站提供了用户的交流平台，那么客服人员对某类商品的不熟悉或不耐烦也会造成该商品的Abandonment Rate过高。

商品个体因素的影响

　　对于单个商品而言，关注度、价格、销售量、促销频率这些因素可能就决定了Abandonment Rate，但是麻烦来了，以上的这些因素可能很难做持续的改进，这时我们可以采取互补的方式，即通过提高某些有利因素来降低某些不利因素的影响。

　　比如我们发现A产品由于价格过高而造成与同类商品相比Abandonment Rate偏高，而分析证明促销对于降低该类商品的Abandonment Rate有显著的有效性，那么我们可以是增加A产品的促销频率；或者提高关注度对降低Abandonment Rate有效，那么可以把A产品放到网站更加显眼的位置……

　　当然，由于电子商务网站商业模式上的差异，对Abandonment Rate的影响因素可能各不相同，上面也只是举例说明了一部分因素。所以，最好根据自己网站的特点来选取可能的影响因素进行分析，方法可以借鉴上面的两种，如果你有更好地分析方法，欢迎跟我分享。