2011年12月8日 由 joegh
13 条评论 »

从网站的用户层面,我们根据用户访问的行为特征将用户细分成各种类型,因为用户行为各异,行为统计指标各异,分析的角度各异,所以如果要对用户做细分,可以从很多角度根据各种规则实现各种不同的分类,看到过有些数据分析报告做了各种用户的细分,各种用户行为的分析,再结合其他各种维度,看上去内容绝对足够丰富,但很难理解这些分析结果到底是为了说明什么问题,也许作为一个咨询报告反映当前整体的趋势和用......
» 阅读更多: 基于用户细分的比较分析
2011年10月30日 由 joegh
没有评论 »

其实就连自己都没有想过这个结果会来得如此突然,就像当初从杭州选择来北京一样,但当所有的一切都告诉你,你似乎不适合这里的时候,尽早做出决定对双方都有好处。
我还算是一个相对理性的人,不会盲目做决定,即便当时选择来掌阅的时候时间比较紧,但其实还是在考虑非常周全的情况下做的决定,对一些可能遇到的困难和因素做了准备,而且在入职后较长的时间内所有的一切都符合原先的预期发展。同样,这次选择离开也是考虑清楚后的决定,可能自......
» 阅读更多: 离开,寻找新的起点
2011年10月27日 由 joegh
14 条评论 »

如果做网站的内容运营,相关内容推荐可以帮助用户更快地寻找和发现感兴趣的信息,从而提升网站内容浏览的流畅性,进而提升网站的价值转化。相关内容推荐最常见的两块就是“关联推荐”和“相关内容推荐”,关联推荐就是我们常说的购物篮分析,即使用购买了某商品的用户同时购买了什么这个规则来发现商品间的潜在联系,之前有相关的文章介绍——向上营销、交叉营销与关联推荐;关联推荐是基于用户行为分析的推荐,而相关内容推荐是基于内容固......
» 阅读更多: 基于KNN的相关内容推荐
2011年10月7日 由 joegh
2 条评论 »

在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。
为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x2, x3, … xn),Y=(y1, y2, y3, … ......
» 阅读更多: 距离和相似度度量
2011年8月14日 由 joegh
19 条评论 »

——数据的上下文5
基于前一篇文章——T检验和卡方检验中提出的数据比较方法,其实我们在生物或者化学的实验中经常也会涉及比较,这篇文章就来具体介绍如何在现实的网站分析环境中使用这些方法,使用的前提和环境是怎样的。
其实我们在做数据分析的时候经常进行比较分析,但往往以观察分析法为主,“T检验和卡方检验”为我们的比较分析提供了很好的科学的定量分析方法,让比较的结果更有置信度和说服力。但在使用定量分......
» 阅读更多: 比较测试的设定和分析
2011年7月27日 由 joegh
14 条评论 »

好久没有更新博客了,今天更新一篇关于数据分析方法的文章,主要是基于统计学的假设检验的原理,无论是T检验还是卡方检验在现实的工作中都可以被用到,而且结合Excel非常容易上手,基于这类统计学上的显著性检验能够让数据更有说服力。还是保持一贯的原则,先上方法论再上应用实例,这篇文章主要介绍方法,之后会有另外一篇文章来专门介绍实际的应用案例。
关于假设检验
假设检验(Hypothesis Testing),或者叫做显著......
» 阅读更多: T检验和卡方检验
2011年6月28日 由 joegh
5 条评论 »

——数据的上下文4
往往我们在做分析的时候需要结合各类基本的指标进行二次计算合并得到一个可以用于进行综合评价或比较的度量,这个过程中就需要涉及到一些指标的合并技巧,和比较基准的设定。其实之前“数据上下文”的系列文章中也一再强调了我们需要为指标设定合理的参考系来评价指标的趋势或表现的好坏,之前提供了一系列的方法,但这篇文章里面要介绍的方法应该是最简单方便的,同时不失实用性,得益于《用户体验度量......
» 阅读更多: 合并和比较度量
2011年5月26日 由 joegh
1条评论 »

——数据的上下文3
接着之前数据上下文(Context)的话题继续探讨网站分析中可以设立的数据意境。数据上下文2中的网站质量控制图为网站的KPI指标给出了有效的监控体系,但质量控制图毕竟比较严谨,其实对于大部分互联网环境的指标而言,可能并不符合这么苛刻的条件,于是我们需要寻找另外的方法来监控和观察这些指标的变化趋势。
同样是基于时间序列的分析,前面的文章——时间序列的趋势分析中主要介绍了“同比”和“环比”的概念,......
» 阅读更多: 指标的移动平均
2011年5月10日 由 joegh
14 条评论 »

在博客之前的文章——优化网站信息架构我曾经提到过关于迷失用户(Lost Visits)的定义,以及如何使用Google Analytics的高级群组(Advanced Segment)去区分出这批用户。最近在看《用户体验度量(Measuring the User Experience)》,发现自己实在太嫩了,人家Smith早在1996年就对迷失度(Lostness)有了定义,同时给出了迷失度L的计算公式,这里借花献佛,分享给大家。
即,L = sqrt[ (N/S-1)2 + (R/N-1)2 ]
L:迷失度
N:访问......
» 阅读更多: 网站的迷失度度量
2011年4月14日 由 joegh
9 条评论 »

我们可以看到目前很多的网站都会有内容评分,无论是电子商务、信息分享还是内容下载。内容的评分主要分为两类,一类是用户对内容的评分,主要针对用户的使用感受,如电子商务网站的商品评分,内容分享网站的内容评分等,这个也是目前最普遍的评分模式,而内容的综合评分的计算也相对比较简单,大多是取所有用户评分的均值;另一种评分方式就是网站自身对内容的评分,主要针对用户的历史行为数据,如通过用户对内容的访问情......
» 阅读更多: 网站内容评分模型