标签归档：用户识别

网站新老用户分析

　　网站中新老用户的分析已经成为了网站分析中常见的一类用户细分的方法，也是网站分析中用户分析的一个重要组成。Google Analytics中对新老用户的命名分别为New Visitors和Returning Visitors，同时也为许多的分析指标提供了基于新老用户的细分。

　　简单地说，新用户就是首次访问网站或者首次使用网站服务的用户；而老用户则是之前访问过网站或者使用过网站服务的用户。无论是新老用户都能为网站带来价值，这也是分析的意义所在。

分析新老用户的意义

　　网站的老用户一般都是网站的忠诚用户，有相对较高的粘度，也是为网站带来价值的主要用户群体；而新用户则意味着网站业务的发展，是网站价值不断提升的前提。可以说，老用户是网站生存的基础，新用户是网站发展的动力，所以网站的发展战略往往是在基于保留老用户的基础上不断地提升新用户数。

　　所以分析新老用户的意义就在于：通过分析老用户，来确定网站的基础是否稳固，是否存在被淘汰的危机；通过分析新用户，来衡量网站的发展是否顺利，是否有更大的扩展空间。一个着眼现在，一个放眼未来。

新老用户的辨别

　　对于网站用户的识别，之前写过一篇相关的文章——网站用户的识别，里面主要是在基于点击流日志的基础上提供的4类识别用户的方法，可以作为参考。但对于新老用户的辨别可能根据网站自身的特定而有不同的定义方法。

　　最常见的一种辨别新老用户的方式就是看该用户之前是否访问过网站，也就是以用户是否首次访问来区分，GA就是使用Cookie来定义新老用户的，即该Cookie之前出现过则该访客为老用户，否则为新用户。这个定义适用于所有网站，但有它不准确的地方，Cookie的删除、用户更换PC等都会造成数据上的偏差。

　　另一种辨别方式相对准确，但一般只适用于注册登录型网站，即定义首次注册登录的用户为新用户，再次登录的用户为老用户，而不是使用首次访问来辨别。这种区分方式一般以用户ID或用户名来辨别，相对准确，但应用的范围有限。

新老用户分析

　　网站的目标在于保持老用户，拓展新用户，那么对于网站数据分析上的表现，则是在保持老用户数量的稳定增长的前提下，提升新用户的所占比例。

　　对于大部分发展正常的网站而言，网站的老用户数应该是保持相对稳定的，并且会有持续的小幅上涨，可以看一下GA上我的博客每周老用户数的趋势变化：

　　可以通过GA的Dashboard上的Advanced Segments选择Returning Visitors，并选择合适的时间区间和汇总粒度（日、周、月）显示趋势变化曲线。这条平滑的上升曲线说明网站的发展是趋于正常的。

　　但并不是所有网站的老用户趋势都会如此的平滑，比如旅游网站，旅游业会明显地受到季节的影响呈现比较大的波动，所以这里要引入同比和环比的概念进行分析。

同比指的是为了消除季节变动的影响，将本期的数据与去年同期的数据进行比较，比如今年2月的数据与去年2月数据的比较；

环比指的是将本期的数据与前期的数据进行比较，可以是日环比、月环比、周环比等，例如今年2月与今年1月的数据比较。

　　同比和环比被大量地应用于基于时间序列的趋势分析中，对于网站而言，访问量、销售额、利润等网站关键指标同样可以引用同比和环比进行分析，对于分析这些指标的变化趋势，消除季节的影响等都是有积极的效果。下面是一张基于同比和环比的旅游类网站老用户数据模拟趋势分析图：

　　从图上可以看出由于季节的影响，老用户数的波动比较大，所以相应的环比增长的波动也很大，但同比增长的趋势却相对平滑，一直保持在10%左右的增长率上面，这就可以看出网站对保持老用户是有效的，网站的运营状况较为稳定。

　　可能有人会问，为什么要用绝对数量，而不是用相对数量，比如老用户占总访问用户的比例来进行趋势分析？这里主要考虑到网站会不定期的进行主动地推广营销，或者由于某些事件或媒体传播的影响而产生的被动推广的效果，这个时候可能会吸引大量的新用户进入网站而导致老用户比例的急剧下滑，而老用户的绝对数据对于网站而言相对稳定，更具参考价值。

　　新用户的绝对数量并没有老用户这么稳定，也不一定会保持增长的态势，而对于新用户的分析主要是为了衡量网站推广的效果，评估上述主动营销或被动事件带来的影响，所以不建议使用绝对数值，既然老用户相对稳定，那么就可以基于新用户比例的变化趋势来分析网站某段时间的推广效果。GA的Benchmarking中提供的也是New Visits所占比例与其他网站基准线的趋势比较：

　　往往曲线中某个时间点的大幅上升或下降都意味着某个营销事件的影响，而当曲线持续下降时就意味着网站推广效果的不利，需要增大推广的力度。

　　如果你有关于网站新老用户分析更好的见解，欢迎评论。

网站分析的基本度量

21 条回复

　　我们在使用各种网站分析工具的时候，会看到很多不同的度量指标，可能不同的工具会有不同的命名和定义，这里列举一些常见的度量，简单说明一下它们是如何计算得到的。

　　下面的度量都是来源于网站点击流数据，但根据点击流数据获取方式的不同（来源于网站原始日志文件或通过beacons和JavaScript的方式获取的网站日志，如同样免费的AWStats和Google Analytics）得到的度量也会有差异，某些度量只有通过特定的方式才能获得。关于网站日志的介绍，请参考这篇文章——WEB日志格式。

Hits

　　来源于网站原始日志，即用户浏览网站时发起的请求数，包括页面请求，也包括图片、CSS、Flash等，所以一般打开一个页面会发送多个请求，根据网页设计的差异Hits会是PV（Page Views，下面会有介绍）的N倍，比如我的博客的AWStats统计中Hits数一般是PV的3-5倍。

Page Views

　　即PV，页面浏览数，页面被打开（请求）的次数，是网站分析中最常见的度量。注意Ajax架构或Flash下同一URL下可以浏览多个页面，进行多个操作，这些都无法在PV中体现。还需要注意Unique Page的定义，当一个页面被刷新多次时，其实用户浏览的始终是同一页面，所以这时的Unique Page Views还是1。

Visits

　　访问量，也是常见度量之一，用于衡量用户的一次访问（从打开进入网站到离开网站，其中可能浏览了多个页面（PV））的数量，也就是网站Session的个数（关于Session，可以参考我的这篇文章——Session和Cookie的辨析）。

Unique Visitors

　　UV，被用于标识访问网站的唯一用户数，关于如何识别用户，请参考这篇文章——网站用户的识别。注意一个Unique Visitors可能会有多个Visits。

Time on Page

　　页面停留时间，即用户从打开页面到离开页面的时间间隔，这个度量一般只有当用户在你的网站中点击了下一个页面时才会有记录，否则是0，所以所有Visits的最后一个页面的Time on Page一般都为0，具体参见WEB日志的作用和缺陷中关于停留时间的说明。所以我们在计算页面平均停留时间（Avg. on Page）的时候一般会过滤Time on Page=0的记录。

Time on site

　　即每个Visits的停留时间，一个Session的开始到结束。跟Time on Page同样需要注意其计算中存在的误差，取平均的时候注意过滤长度为1的session。

Bandwidth

　　这个度量也一般只能从原始日志中获取，Bandwidth是AWStats中的命名，统计网站的流量，需要将所有请求的传输字节数相加得到结果。一般用于衡量网站的流量情况，服务器IO负荷，及某些限制了月流量最大值的虚拟主机流量使用情况。

Bounce Rate and Conversion Rate

　　关于Bounce Rate ，有一句很形象的描述——“I came, I puked, I left.” 即进入你的网站，什么事都没干就直接离开了。关于Bounce Rate的注意点，请参考这篇文章——关于Bounce Rate定义的疑问。

　　如果一个访问没有Bounce，那么我们就可以跟踪其访问足迹统计Conversion Rate，即从上一步进入的访问率（Current Visits/ Previous Visits）。转化率对于某些网站的关键流程的优化可以起到重要作用，比如电子商务网站的购买流程等。

Entrances and Exit Rate

　　Entrances一般用户衡量网站首页或Landing Page的进入情况，指First Page of Visits。Exit Rate可以作为每个页面的基本度量，衡量从该页面离开的比率，即该页面是整个Visits的最后一个页面。

Sources and Search Key Phrase

　　来源于referrers的统计，Sources即网站的来源（搜索引擎、广告或其它），用于广告投放效果分析、SEM等。

　　Search Key Phrase是基于来源是搜索引擎referrer的解析，统计来源的搜索关键词，Avinash Kaushik建议我们使用Key Phrase而非KeyWords。有助于SEO和发现用户需求。

Engagement

　　参与度对于不同网站来说定义不一，可以是电子商务网站的购买、反馈行为，也可以是论坛的发帖、跟帖行为，还有视频网站的观看视频、游戏网站的线上游戏等。每个访问的参与度可以用Engagement Rate = Engagement Index / visits来计算，即参与度 = 参与标识/访问量。

Destinations

　　即点击站外链接，一般通过JS代码来监控站外链接的点击，对于一些广告、宣传、推荐等点击情况跟踪比较有用，可以衡量网站对资源推广的能力和价值。

　　上面列举的都是网站分析中一些比较基本的指标和度量，我们在网站分析过程中可以基于这些度量通过求和、比例、平均等方式获得更多我们希望得到的数据，进而为我们的分析结果提供更充分的依据。

网站用户的识别

49 条回复

　　用户分析是网站分析中一个重要的组成部分，在分析用户之前我们必须首先能够识别每个用户，分辨哪些是”New Customer”，哪些是”Repeat Customer”。这样不但能够更加清晰地了解到底有多少用户访问了你的网站，分辨他们是谁（用户ID、邮箱、性别年龄等）；同时也能够帮助你更好地跟踪你的用户，发现它们的行为特征、兴趣爱好及个性化的设置等，以便于更好地把握用户需求，提升用户体验。

　　通常当你的网站提供了注册服务，而用户注册并登陆过你的网站，那么用户可以更容易地被识别，因为网站一般都会保存注册用户的详细信息；但是你的网站并不需要注册，而用户的行为以浏览为主，这是用户识别就会显得较为困难，下面提供了几种常用的用户识别的方法：

识别用户的几种方法

　　当用户并未注册登录的情况下，识别用户的唯一途径就只剩下用户浏览行为的点击流数据，通常情况下它们会保存在WEB日志里面，关于WEB日志的详细说明可以参考我之前的文章——WEB日志格式。而WEB日志本身存在的缺陷可能导致用户识别的不准确性，关于WEB日志的缺陷可以参考之前的文章——WEB日志的作用和缺陷，所以我们在选择用户识别方法的过程中，在条件允许的情况下尽量选择更为准确的方法：

1、基于IP的用户识别

　　IP地址是最容易获取的信息，任何的WEB日志中均会包含，但其局限性也较为明显：伪IP、代理、动态IP、局域网共享同一公网IP出口……这些情况都会影响基于IP来识别用户的准确性，所以IP识别用户的准确性比较低，目前一般不会直接采用IP来识别用户。

　　获取难度：★

　　准确度：★

2、基于IP+Agent的用户识别

　　同样基于最简单形式的WEB日志，我们可以增加一项——Agent，来提高单一IP方式识别用户的准确性。Agent也是WEB日志中一般都会包含的信息，通过IP+Agent的方式可以适当提高IP代理、公用IP这类情况下用户的分辨度，同时通过Agent还可以识别网络爬虫等特殊“用户”，但同样准确度也欠高。

　　获取难度：★

　　准确度：★★

3、基于cookie的用户识别

　　当你通过自定义Apache日志格式或者JavaScript的方法获得用户cookie的时候，其实你已经找到了一个更有效的用户识别的手段。cookie在未被清除的其前提下可以认为是跟某个访问客户端电脑绑定的（一个客户端有可能包含多个cookie），所以用cookie来标识用户其实指的是用户使用的客户端电脑，而并非用户本身。

　　用cookie识别用户的方法当然也存在缺陷：最常见的就是cookie被清除而导致用户无法与原先记录实现对应；同时由于客户端电脑会被共用，或者用户会在不同的电脑上访问你的网站，这个时候cookie就无法直接对应到该用户了。

　　获取难度：★☆

　　准确度：★★☆

4、基于用户ID的用户识别

　　基于用户ID的用户识别是最为准确，因为一般情况下用户不同共享他的用户ID，所以我们可以认为数据中的userid唯一地指向该用户，几乎不存在偏差。当然要使用用户ID来识别用户是需要一定的前提条件的：网站必须是提供用户注册登录服务的，并且可以通过一些手段在点击流数据中记录userid。

　　获取难度：★★

　　准确度：★★★

　　所以对于一个需要用户ID注册登录的网站来说，用户唯一标识符的选择可以遵从以下顺序：当用户注册登录时以userid为准，当用户在未登录状态浏览时以用户的cookie为准，当用户未登录且cookie无法获取的情况下以IP+Agent为准；这样就能从最大程度上识别唯一用户。

　　这里推荐一个网站日志中cookie项的自定义设置方法，以便更好地识别用户。cookie是从用户端存放的cookie文件记录中获取的，这个文件里面一般在包含一个cookieid的同时也会记下用户在该网站的userid（如果你的网站需要注册登陆并且该用户曾经登录过你的网站且cookie未被删除），所以在记录日志文件中cookie项的时候可以优先去查询cookie中是否含有用户ID类的信息，如果存在则将用户ID写到日志的cookie项，如果不存在则查找是否有cookieid，如果有则记录，没有则记为”-”，这样日志中的cookie就可以直接作为最有效的用户唯一标识符被用作统计。当然这里需要注意该方法只有网站本身才能够实现，因为用户ID作为用户隐私信息只有该网站才知道其在cookie的设置及存放位置，第三方统计工具一般很难获取。

获取用户信息的途径

　　通过以上的方法实现用户身份的唯一标识后，我们可以通过一些途径来采集用户的基础信息、特征信息及行为信息，然后为每位用户建立起详细的Profile：

　　1)　用户注册时填写的用户注册信息及基本资料；

　　2)　从网站日志中得到的用户浏览行为数据；

　　3)　从数据库中获取的用户网站业务应用数据；

　　4)　基于用户历史数据的推导和预测；

　　5)　通过直接联系用户或者用户调研的途径获得的用户数据；

　　6)　有第三方服务机构提供的用户数据。

识别并获取用户信息的价值

　　通过用户身份识别及用户基本信息的采集，我们可以通过网站分析的各种方法在网站是实现一些有价值的应用：

基于用户特征信息的用户细分；
基于用户的个性化页面设置；
基于用户行为数据的关联推荐；
基于用户兴趣的定向营销；
……

你找到答案了吗？

15 条回复

　　博客自发布第一篇文章以来，到今天刚好有一个月时间了，所以这里对开篇中提出的几个问题做一个解答，如果你还没有阅读过该文章，建议先阅读开篇。

　　也许很多朋友已经找到了答案，也有可能你们的解答与我下面的描述会有差异，当然只要都能解释问题，符合问题的条件，一切答案都是可以被接受的，问题的答案可能并非唯一的。其实这些问题只是想对网站数据分析做一些简单的解释，阐述作者个人对网站数据分析的一些认识，同时让这个过程更具趣味性。

1、趋势分析与预测

　　从表面看，寻找数字规律中的这串数字可能毫无规律，但只要把它们放到图表上，你就会惊奇地发现它们呈一条完美的曲线排列了起来：

　　这是在excel里面以1-20的序列为横坐标，以那串20个数字为纵坐标一一对应画出的散点图，可以看到这是一条比较规范的类S型曲线，也是最典型的一类成长曲线，也许你的网站的用户访问量或者销售额正是以类似这种趋势增长的。发现这种规律之后，就可以用数据统计的方法对其进行分析，对于这类有规律线性曲线，最常用的方法就是回归分析：

　　首先可以根据S曲线确定其基本表达式为：

　　　　　　　　　　　　或

　　表达式因为包含三个未知参数，无法直接通过回归分析求得，所以首先需要根据S曲线的特征和已知的数字观察到曲线无限接近于100，可以先暂定α的值为0.01，则该表达式变为：

　　可以将其转化为线性表达式：

　　　　　　　　　　　　其中y^*=ln(1/y-0.01); x^*=x; α^*=lnβ; β^*=-θ

　　然后就可以用标准一元线性回归的方法进行拟合和分析，计算得到拟合度R²=0.998，显著性系数接近于0，拟合度非常高，结果可以被接受。算出α和β的值约为0.7381和-0.5066，代入原方程得到：

　　再根据改方程当x=9是代入，得y约为31.35，预测得到那个缺失的数字约为31。

　　当然这可能只是其中一种分析和预测的方法，如果可以找到另外的拟合度足够高的表达式，那么用该表达式预测得到的数字一样有效，答案并非唯一的。这个题目是作者自己编的，自然计算得到的拟合度十分理想，在现实中可能并没有这么完美的曲线存在，但只要用类似的方法去思考和分析，一样也能找到需要的答案。

　　这里已经完成了对该题的解释，想顺带说一下成长曲线。大家都知道成长曲线存在着无法达到的极值，获取对于生物界来说该曲线确实是无法突破的，那么对已企业或者网站来说类似的流量增长曲线或者利润增长曲线是否可以被突破呢？答案是肯定的。任何失误的发展都会遇到瓶颈，网站也是这样，关键是如何发现和认识自身的瓶颈，只有真正地了解自身的问题，才能通过不断地优化、创新和市场拓展突破瓶颈，当瓶颈一旦被突破，原先无法逾越的极值点将变成新成长曲线的起始点继续向上攀升，而数据分析正是网站发现瓶颈的最有力武器。

2、识别用户

　　关于那道逻辑题，也许很多朋友已经发现这个就是根据爱因斯坦的那题经典的逻辑题改编而来的，答案如下：

次序	A	B	D	E	C
穿着	黄	蓝	红	黑	白
城市	广州	青岛	北京	上海	杭州
职业	律师	工程师	教授	医生	作家
饮料	水	茶	牛奶	咖啡	啤酒

　　其实对于网站分析来说，识别用户是极其重要的一个过程，网站分析中有一个重要的指标——Unique Visitor(UV)，用以标识唯一的访问用户，而如何从网站的底层日志中识别每次访问是否是同一用户一直是网站分析中的一个难点，因为某些时候用户访问是未登录的，或是匿名的，甚至连cookie都是被禁用的。而对于网站分析来说，识别唯一用户又是十分有用的，它直接影响到针对每个用户的网站行为分析、用户细分及定向营销等多个方面，所以之后会有专门的对如何更好地识别网站用户的相关介绍。

3、学会细分

　　细分是网站分析中一个十分重要的技巧和方法，无论是用户、产品、页面等都可以通过细分更好地发现其特征。其实图形题中的两个问题正是细分中的两种基本的方法：一种是已知类别，将类别未明的事物归类；另一种是已知存在这么多的事物，将这些食物分成若干类，我对这两个问题的解答如下（当然这个答案并非唯一，只要归类有所依据的答案都是可以被接受的）：

　　1）先观察2、4、8三个图形所拥有的相同特征：4条边、左右对称、上下对称、重心在同一水平线上、序号都是偶数，根据这些特征去寻找共同特征最多的图形，可以看到6号的圆形是最为接近的：左右对称、上下对称、重心在同一水平线上、序号都是偶数，所以我的答案是选择6号的圆形；

　　2）与第一题类似，从所有的图形中选择拥有最多共同特征的归为一类，并使各类别间的特征差异最大，我是从这几个角度进行区分的：边数、轴对称、中心对称、重心分布、序号，分成四类如下：

　　　　A类：2、4、8（4条边、左右对称、上下对称、重心都在水平中间线、序号都为偶数）；

　　　　B类：1、3、5（左右对称、重心都在水平中间线以下、序号都是奇数）；

　　　　C类：6（中心对称、任意轴对称、重心在水平中间线）；

　　　　D类：7（4条边、中心对称、重心在水平中间线）；

　　其实这两个问题也是数据挖掘中两个方法的简单体现：

分类

　　分类就是把一些新的事物映射到给定类别的中的某一个类别，用于描述事物或预测。常见的分类方法有：决策树、KNN法(K-Nearest Neighbor)、SVM法(Support Vector Machine)、VSM法(Vector Space Model)、神经网络等。

聚类

　　聚类就是将数据对象分组成多个类或者簇，划分的原则是在同一个簇中的对象之间具有较高的相似度，而不同簇中的对象差别较大。聚类算法可以分为划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法。

4、互联网发展趋势

　　对于最后一个问题，其实大家可以各抒己见，这里也只是作者的个人看法，也许阐述和对比的网站不一定恰当，这里只是想说明作为一个网站分析师，必须时刻关注互联网的发展趋势，而Alexa上面排在TOP前几位的网站正是互联网不断发展和进步的指向标。

　　正如前几天有人预测2010年facebook的流量将超越google，成为全球最受欢迎的网站，结果我上Alexa一比较，果然facebook在数据上除了用户量不及google外，几乎所有数据都持平或超越了google，其中页面访问量目前两个网站已不相上下，而网站访问时间facebook甚至已经达到了google的3倍（当然这跟网站本身的服务性质有关）；但确实不得不佩服facebook的实力，流量一路飙升，过关斩将，到现在能够觊觎互联网老大的宝座，但是要真正坐上去还得在用户量上超越google。其实很多人看好facebook也不无道理，因为毕竟facebook是信息的创造者，而google只是信息的整合者，创造者掌握着信息的信息竞争力。