WEB日志格式 | 网站数据分析

　　WEB日志是网站分析和网站数据仓库的数据最基础来源，了解其格式和组成将有利于更好地进行数据的收集、处理和分析。

１、日志格式类型

　　目前常见的WEB日志格式主要由两类，一类是Apache的NCSA日志格式，另一类是IIS的W3C日志格式。NCSA格式又分为NCSA普通日志格式（CLF）和NCSA扩展日志格式（ECLF）两类，目前最常用的是NCSA扩展日志格式（ECLF）及基于自定义类型的Apache日志格式；而W3C扩展日志格式（ExLF）具备了更为丰富的输出信息，但目前的应用并不广泛，所以这里主要介绍的是NCSA扩展日志格式（ECLF）。

２、常见日志格式的组成

　　这是一个最常见的基于NCSA扩展日志格式（ECLF）的Apache日志样例：

58.61.164.141 – - [22/Feb/2010:09:51:46 +0800] “GET /reference-and-source/weblog-format/ HTTP/1.1″ 206 6326 ” http://www.google.cn/search?q=webdataanalysis” “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)”

　　可以看到这个日志主要由以下几个部分组成：

访问主机（remotehost）

　　显示主机的IP地址或者已解析的域名。

标识符（Ident）

　　由identd或直接由浏览器返回浏览者的EMAIL或其他唯一标示，因为涉及用户邮箱等隐私信息，目前几乎所有的浏览器就取消了这项功能。

授权用户（authuser）

　　用于记录浏览者进行身份验证时提供的名字，如果需要身份验证或者访问密码保护的信息则这项不为空，但目前大多数网站的日志这项也都是为空的。

日期时间（date）

　　一般的格式形如[22/Feb/2010:09:51:46 +0800]，即[日期/月份/年份:小时:分钟:秒钟时区]，占用的的字符位数也基本固定。

请求（request）

　　即在网站上通过何种方式获取了哪些信息，也是日志中较为重要的一项，主要包括以下三个部分：

　　请求类型（METHOD）

　　常见的请求类型主要包括GET/POST/HEAD这三种；

　　请求资源（RESOURCE）

　　显示的是相应资源的URL，可以是某个网页的地址，也可以是网页上调用的图片、动画、CSS等资源；

　　协议版本号（PROTOCOL）

　　显示协议及版本信息，通常是HTTP/1.1或HTTP/1.0。

状态码（status）

　　用于表示服务器的响应状态，通常1xx的状态码表示继续消息；2xx表示请求成功；3xx表示请求的重定向；4xx表示客户端错误；5xx表示服务器错误。

传输字节数（bytes）

　　即该次请求中一共传输的字节数。

来源页面（referrer）

　　用于表示浏览者在访问该页面之前所浏览的页面，只有从上一页面链接过来的请求才会有该项输出，如果是新开的页面则该项为空。上例中来源页面是google，即用户从google搜索的结果中点击进入。

用户代理（agent）

　　用于显示用户的详细信息，包括IP、OS、Bowser等。

3、日志格式扩展

　　apache日志格式可以自定义来配置其输出格式，常见的基于NCSA扩展日志格式（ECLF）自定义添加的包括域名（domain）和cookie。其中域名在一个网站拥有二级域名或者子域名时，可以更好地区分日志；而cookie可以作为用户的身份标识。其他具体的自定义信息详见：Custom Log Formats

《WEB日志格式》上有 33 条评论

蓝鲸 2010 年 2 月 25 日09:11

感谢博主对web日志的详细讲解。学习了。

回复 ↓
Pingback 引用通告： UEDBase | 用户为先·专注体验 » Blog Archive » 网站分析的基本度量
Pingback 引用通告： » log日志的作用和缺陷 - 网络营销博客.ALi,专注网络营销,分享网络营销.
Pingback 引用通告：网站用户的识别 » 草根程序员
Pingback 引用通告：网站分析的基本度量 | 十方界 - 佛教谓十方无量无边的世界
yuxiujian 2011 年 6 月 9 日21:12

博主，“GET / HTTP/1.1″ 这里的请求网址还是加上个吧，尽管下面有说明，但还是会忘记，对于我们这种学习型的人来说，越是详细点越好，我是看到别的地方的例子才想起来原来请求网址是这那个位置

回复 ↓
joegh 文章作者2011 年 6 月 9 日21:56

@yuxiujian: 多谢提醒，这个例子确实对新手有误解，GET /其实指的是获取首页，比如我的博客就是“http://webdataanalysis.net/”，因为“http://webdataanalysis.net”在日志里是被省略的。
现在改成获取本篇文章的请求了，GET /reference-and-source/weblog-format/其实就是请求“http://webdataanalysis.net/reference-and-source/weblog-format/”这个页面。

回复 ↓
Pingback 引用通告： NoJS的网站数据统计 | 邮件群发工具_邮件营销软件_QQ邮件群发机|邮侠邮件群发52edm.com
Pingback 引用通告：徳博 » 网站分析的基本度量[zt]
Pingback 引用通告：徳博 » WEB日志的作用和缺陷[zt]
Pingback 引用通告： [转]网站用户的识别 | 李鹏宇的博客
鹏宇 2013 年 6 月 16 日23:00

谢谢你的文章了

回复 ↓
鹏宇 2013 年 6 月 16 日23:00

谢谢你的文章了,2度感谢

回复 ↓
小明 2013 年 6 月 27 日11:40

感谢博主。博主好人

回复 ↓
Pingback 引用通告： – 网站用户的识别
Pingback 引用通告： WEB日志的作用和缺陷 | FResh
Pingback 引用通告：网站分析的基本度量 | 钛媒体网
Pingback 引用通告：网站分析的基本度量 | 加油谷歌！gogogoogle！
Pingback 引用通告： leojunp
Pingback 引用通告：网站分析的基本度量 - 科技辣
Pingback 引用通告：网站用户的识别_读懂_钛媒体网
Pingback 引用通告：网站用户的识别
Pingback 引用通告：网站用户的识别 | 极客互联|关注极客事业
Pingback 引用通告：从WEB日志到点击流_读懂_钛媒体网
Pingback 引用通告：从WEB日志到点击流
Pingback 引用通告：从WEB日志到点击流 | 极客互联|关注极客事业
Pingback 引用通告：网站用户的识别 - 科技辣
Pingback 引用通告：从WEB日志到点击流 - 科技辣
Pingback 引用通告：网站用户的识别 – 别楞站长网
Pingback 引用通告： WEB日志的作用和缺陷 | 统计人
Pingback 引用通告：轻松看懂WEB日志格式 | 爱运营
Pingback 引用通告：网站用户的识别 | 内容采集
Pingback 引用通告：从WEB日志到点击流 | 内容采集

网站数据分析

通过网站分析与数据分析实现网站优化

《WEB日志格式》上有 33 条评论

向鹏宇进行回复取消回复

１、日志格式类型

２、常见日志格式的组成

访问主机（remotehost）

标识符（Ident）

授权用户（authuser）

日期时间（date）

请求（request）

状态码（status）

传输字节数（bytes）

来源页面（referrer）

用户代理（agent）

3、日志格式扩展

《WEB日志格式》上有 33 条评论

向 鹏宇 进行回复 取消回复

向鹏宇进行回复取消回复