从WEB日志到点击流

  我们平常在看网站分析相关文章的时候,时常会看到“点击流(Clickstream)”这个词,点击流数据是网站分析的主要来源。那么究竟什么是点击流数据,它又来源于何处,为什么它是网站分析的基础数据?关于这些问题的系统解释,推荐阅读《点击流数据仓库》这本书,这里先对这几个问题做下简单的回答。

  首先,点击流来源于何处?可能从文章标题就可以看出来了,点击流数据来源于网站日志,其实就是用户日常浏览你的网站时产生的日志信息(关于WEB日志,可以参阅这篇文章——WEB日志格式)。那为什么不直接叫网站浏览日志,而叫点击流数据呢?可以先看一下下面这张图:

clickstream

  从图上可以看出点击流这个概念更注重用户浏览网站的整个流程,网站日志中记录的用户点击就像是图上的“点”,而点击流更像是将这些“点”串起来形成的“线”。也可以把“点”认为是网站的Page,而“线”则是访问网站的Session。所以点击流数据是由网站日志中整理得到的,它可以比网站日志包含更多的信息,从而使基于点击流数据统计得到的结果更加丰富和高效。

  那么点击流数据是如何从WEB日志中扩展出来的呢?其实很简单,只要有Sessionid和站内Referrers就可以将这些“点”串联起来。其中Sessionid唯一地标识一条点击流,再通过Referrers确定这个Session中页面被依次访问的顺序,那么这条线就可以轻松地画出来了。

  通常我们会分两张表(数据库中)或两种格式的文件(文件系统中)来记录点击流数据,一张记录“点”的信息,另一张记录“线”的信息:

  线(Session)的信息:Sessionid(唯一标识符)、访问来源(Referrers)、进入页面(Entrance)、离开页面(Exit)、开始时间(Begin Time)、结束时间(End Time)、访问时长(Time on Site)、访问页面数(Depth of Visit)、访问用户(Cookie)……

  有没有发现,当你拥有这些信息时,很多网站分析度量的计算变简单了:来源(Sources)、进入页面(Entrances)、离开页面(Exits)可以直接获得,平均访问时间和平均浏览页面数也可以通过简单计算得到,连Bounce Rate的计算也变得简单了,只要选择那些访问页面数为1的“线”就行。

  点(Page)的信息:URL、点击时间(Hit Time)、页面停留时间(Time on Page)、位于Session的第几步(Step),Sessionid(在关系数据库中可以用于跟Session表的外键关联)……

track

  其实点的信息被简化了,当然你可以添加更多的信息,比如页面响应状态码,冗余访问用户的Cookie等。但是这里多了一个有意思的信息——Step,这个是基于Session的,通过Step你可以发现其实你已经追踪到了用户的访问足迹,这个信息在梳理网站的流程、计算转化率(Conversion Rate)的时候非常有用,也可以基于它做用户行为分析。

  其实这就是点击流,并没有那么复杂,但是可以注意到,当WEB日志转化成点击流数据的时候,很多网站分析度量的计算变得简单了,这就是点击流的“魔力”所在。基于点击流数据我们可以统计出许多常见的网站分析度量——网站分析的基本度量

从WEB日志到点击流》上有 38 条评论

  1. Pingback 引用通告: 7月26日 XJP新闻快评 - XJP的碎碎念

  2. Pingback 引用通告: 网站转化率与漏斗模型 « 网站分析公会

  3. Pingback 引用通告: 网站转化率与漏斗模型 | 25小时-通过网络看天下

  4. Pingback 引用通告: 网站漏斗模型——数据分析的常见课题 | 中国式网络营销——网络营销在中国

  5. Pingback 引用通告: Lamp Blog » 网站转化率与漏斗模型、关键路径

  6. joegh 文章作者

    @jjjk: 海量数据处理是点击流数据的一个难点,因为记录了用户的每次浏览动作,所以数据量往往是所有数据来源中最大的一块,一般需要注意对URL的处理(比如给每个URL地址分配一个ID,这会大大缩减数据量);如果你有分布式文本处理系统,将会明显提升处理的效率。

    回复
  7. joegh 文章作者

    @jjjk: 点击流只是最原始的数据来源,报表需要基于点击流数据进行各项指标的统计;至于数据挖掘需要根据商业需求进行驱动。

    回复
  8. Pingback 引用通告: 网站转化率与漏斗模型 | 电商聚读

  9. joegh 文章作者

    @程帅帅: 这里获取sessionid不是指在每个页面的URL里面带上sessionid这个参数,是在日志或者JS回传数据的时候带上sessionid,这个对SEO应该是没有影响的。

    回复
  10. Pingback 引用通告: 中国推广联盟 » SkyGlue—用GA标记用户生成点击流

  11. joegh 文章作者

    @老鼠: 其实主要的思路文中已经介绍了,具体操作需要结合网站数据的记录形式和记录的具体信息。

    回复
  12. 老鼠

    @joegh: 额….其实我真的想要个软件,嘿嘿,自己做日志分析软件还是很麻烦的,现在我能下载到市面的免费的软件,没能实现这个功能的,只能自己做

    回复
  13. 老鼠

    @老鼠: 呵呵,我也正有此打算,不过,貌似日志有些东西不能统计出来啊,比如用户停留时间,用户访问频率,日志软件我正在做

    回复
  14. 老鼠

    @joegh: 呵呵,我也正有此打算,不过,貌似日志有些东西不能统计出来啊,比如用户停留时间,用户访问频率,日志软件我正在做

    回复
  15. 老鼠

    @老鼠: 我也看过您的几篇文章的,就像您说的最有效的提及是登陆用户,但是从百度统计来看是用ip计算的,所以我建议用ip也可以的。用户停留时间也更好弄,只不过只访问一个页面的没办法提供数据

    回复
  16. Pingback 引用通告: 网站转化率与漏斗模型 | 钛媒体网

  17. Pingback 引用通告: 网站转化率与漏斗模型 - 科技辣

  18. Pingback 引用通告: 网站转化率与漏斗模型

  19. Pingback 引用通告: 网站分析的数据来源_读懂_钛媒体网

  20. Pingback 引用通告: 网站分析的数据来源

  21. Pingback 引用通告: 网站分析的数据来源 - 科技辣

  22. Pingback 引用通告: 网站分析的数据来源 | 199IT互联网TMT数据 | 中文互联网数据研究资讯中心-199IT

  23. Pingback 引用通告: 网站分析的数据来源 - 产品汪 – 观天下 觉真知|互联网产品经理训练营

  24. Pingback 引用通告: SkyGlue—用GA标记用户生成点击流 | 内容采集

  25. Pingback 引用通告: 网站转化率与漏斗模型 | 内容采集

C#爱好者 进行回复 取消回复

电子邮件地址不会被公开。 必填项已用 * 标注

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>