<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>网站数据分析 &#187; 个人观点分享</title>
	<atom:link href="http://webdataanalysis.net/category/personal-view/feed/" rel="self" type="application/rss+xml" />
	<link>http://webdataanalysis.net</link>
	<description>通过网站分析与数据分析实现网站优化</description>
	<lastBuildDate>Tue, 08 May 2012 14:14:01 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.9.1</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>不得不考虑的时间因素</title>
		<link>http://webdataanalysis.net/personal-view/avoid-the-trap-of-time/</link>
		<comments>http://webdataanalysis.net/personal-view/avoid-the-trap-of-time/#comments</comments>
		<pubDate>Tue, 28 Feb 2012 13:53:43 +0000</pubDate>
		<dc:creator>joegh</dc:creator>
				<category><![CDATA[个人观点分享]]></category>
		<category><![CDATA[比较分析]]></category>
		<category><![CDATA[用户分析]]></category>

		<guid isPermaLink="false">http://webdataanalysis.net/?p=1101</guid>
		<description><![CDATA[　　在网站数据分析中，时间是最常见也是最不可或缺的维度之一，大部分情况下用于限定指标统计的范围和粒度，同时时间因素也会对指标的一些统计规则和细节造成影响，而在某些数据分析中我们很容易忽略时间因素的影响，这些影响可能误导最终的结论。
　　发现这个问题是在一个数据提取的需求中，网站每天会发布很多新的内容，这些新的内容需要进行推荐，不然就会被埋没，所以很多网站都会有“最新推荐”之类的模块，而这个数据需求就是分析应该推荐哪些新内容？网站新发的内容质量参差不齐，而且数据积累较少，而推荐模块需要放置那些有潜力的新内容，以便潜力充分发掘后成长为热门内容，所以数据分析要做的就是去寻找那些有潜力的新发内容。如果是TOP10的推荐榜单，最简单的做法就是根据新内容的访问量或者转化率进行排序选前十，但其中有很多值得注意的地方，关于转化率需要注意的地方可以参考关键指标背后的秘密这篇文章，这里主要讨论如果以内容的访问量进行排序，如果选择近一周的汇总数据，我们需要注意什么？也许你已经想到了，之所以这里举例新内容，是因为新内容有一个发布时间（Publish Time），就像一个人的出生日期，而从发布时间到当前的时间间隔就是内容的持续时间，也可以认为是内容的生命期（Lifetime），就像一个人的年龄。内容的持续时间越长就获得越多的数据积累，相应获得高访问量的机会就越大，如果我们比较一周中在不同时间发布的内容在该周的总访问量，那些就会掉入错位比较的陷阱，或者叫“Mismatch”。
　　一个形象的比喻就是刚刚入伍的新兵跟久经沙场的老将的决斗，虽然新兵不是完全没有胜出的机会，也许那个新兵天生勇猛，或者有着一股初生牛犊不怕虎的冲劲，可以一举击败经验丰富的老将，但在大多数情况下这种可能性较小，这是一场不公平的决斗，而在数据分析中我们需要尽量去避免这类不公平的决斗（比较）。
内容和商品分析
　　其实日常中发生这类错误的情况可能很普遍，当我在博客新发文章几天后上Google Analytics去看数据，发现新文章页在相对较后面的位置，不是因为真的没人看，而是GA上默认展现近一个月的汇总数据，报表根据Pageviews排序的结果新内容无法在短时间内迅速冲到前几位。对于那些新发内容或者新上架产品频率不高的网站，运营人员可能比较清楚哪些是新内容，所以通过一些人为的辨认调节在分析的时候不易掉入陷阱，但对于每周有上百个新发内容的网站，这类错误的发生很可能埋没一些优质的新品。
　　我们需要找到一些办法去规避这个时间因素对分析结果的影响，通常我们在选择比较对象的时候需要控制所有的比较对象具备相同的持续时长，比如我们比较新内容的热门度，统一选择近一周的数据，对于较早发布的内容摒弃之前的数据，而近一周内刚发布的内容则舍弃不参与这次比较，等到有了完整的一周数据之后再加入比较。这样虽然可以确保比较在同一基准线上，但无疑延后了评估的结论，对于某些一上来就表现抢眼的内容无法及时发现，于是这里采用统计单位时间指标表现的方法，即根据内容的发布时间统计得到每个内容的持续时间（一般精确到天即可），然后将内容的总体访问量除以这个持续时间，就得到了单位时间的内容访问量，进而进行比较：

　　上表取的是5个新发布内容近10天的访问量数据，同时加入了内容自发布以来的持续天数，我们用总的访问量除以持续天数计算得到平均每天访问量，然后以总访问量和平均每天访问量分别进行降序排列，得到完全不一样的排名。如果按排序1，我们完全可能忽略D内容的强劲表现，而权衡时间因素之后的排序让我们能够更加准确的把握有潜力的新内容。
　　以上的方法同样适用于电子商务网站的商品分析，很多电商网站希望在新商品中挑选有足够潜力的商品进行重点营销，用于打造所谓的“爆款”，从而进一步促进订单量的增长提升销售额和利润。对有潜力新品的挑选一方面需要足够敏锐的嗅觉和眼光，另一方面就要借助数据分析，而这个时候不得不考虑上面提到的时间因素的影响，记住一个月内销售20件的商品不一定比销售50件的差，关键在于这些商品你是何时上架的，使用有效的方法进行评估才能找到真正有潜力有价值增长点的商品。
　　要知道任何的网站内容或产品都不是经久不衰的，都有它们自己的生命周期，所以明智的网站运营永远在不断寻找新的生长点，如果数据分析中欠缺考虑时间因素，那些有潜力的产品和内容很可能就会被“久经磨练”的产品内容长期压制，导致网站新陈代谢过于缓慢，进而落后于其他网站。
用户分析
　　在进行用户分析的时候，同样需要注意时间因素，如用户RFM分析、用户忠诚度价值评分、用户生命周期价值等，这些基于用户在一段时间内持续性行为分析的模型都易掉入时间的陷阱。我们没法奢求一个只注册了一周的新用户在近一个月的访问频率高于老用户，因为你只给了他7天的时间，而与他对决的是拥有充裕的30天时间的用户；同样你不应该去比较一个仅使用一个月的新用户与一个一直在持续使用的老用户在三个月或半年中的消费次数、消费金额等，因为他们不在同一起跑线上。但新用户拥有潜力，指不定他们就会成长为更加高价值的忠诚用户，所以在针对用户的营销中我们需要消除这个因素的影响，同样使用除以用户使用网站持续时间（从用户首次访问或者注册时间开始计算）的方法计算单位时间的指标表现，使用RFM模型看下考虑时间因素前后对用户评估的差异：

　　如上表所示，假如RFM模型选择了近100天的数据来对用户进行分析，这里同样加入“持续时间”这个统计量，即用户从注册到当前的天数，如果用户的注册时间在100天之前，那么用户在该统计周期中的持续时间就是100天（最大期限）。RFM的三个指标中的最近购买间隔（R）不受用户持续时间的影响，因此在考虑时间因素时不用做变换，而购买频率（F）和消费金额（M）都会受到持续时间的影响，需要除以持续时间，计算得到单位时间（这里是天）的数值，即表格中每位用户在“是否考虑时间因素”前后的指标变换。从变换前后的比较来看，用户1因为是持续使用的老用户，未考虑时间因素前在购买频率和消费金额上具有明显优势，但数据变换之后，用户2所表现的粘性和价值更高，即用户2虽然使用网站时间不长，但在单位时间的购买消费上优于用户1，我们通过雷达图进一步看下考虑时间因素前后的效果：

　　图中对数据进行标准化评分后，蓝线代表用户1，红线代表用户2，虚线表示未考虑时间因素，实现代表考虑了时间因素，可以看到用户2在考虑时间因素之后价值被明显放大，从图中可以得到用户2的预期价值优于用户1。如果我们不去考虑时间因素的影响，分析的结果就会产生明显的偏差，进而可能误导对用户的正确评估。
　　其实这里提及的时间因素还是一个遵循对比原则的问题，比较的对象之间必须具备可比性，不然比较的结果就没有任何的意义。
　　很久没有更新博客了，因为这段时间的变动没有时间去思考和整理一些新的内容。这篇文章中提及的分析中需要考虑到的时间因素其实在很多情况下都遇到过，尤其是对一个时间周期内汇总的统计指标做细分分析的时候需要格外注意各细分项存在的时间周期是否一致，希望对大家有所启发和帮助。

 　&#187; 本文采用  BY-NC-SA 协议，转载请注明来源：网站数据分析 &#187; 《不得不考虑的时间因素》



相关文章:基于用户细分的比较分析
值得关注的用户指标
网站用户的生命周期价值



相关文章:<ol><li><a href='http://webdataanalysis.net/web-quantitative-analysis/user-segment-and-comparison/' rel='bookmark' title='Permanent Link: 基于用户细分的比较分析'>基于用户细分的比较分析</a></li>
<li><a href='http://webdataanalysis.net/personal-view/key-user-metrics/' rel='bookmark' title='Permanent Link: 值得关注的用户指标'>值得关注的用户指标</a></li>
<li><a href='http://webdataanalysis.net/personal-view/customer-lifetime-value/' rel='bookmark' title='Permanent Link: 网站用户的生命周期价值'>网站用户的生命周期价值</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><a href="http://webdataanalysis.net/wp-content/uploads/2012/02/Mechanical-Clock.jpg" target="_blank" rel="lightbox[1101]"><img class="alignleft size-full wp-image-1102" title="时间因素" src="http://webdataanalysis.net/wp-content/uploads/2012/02/Mechanical-Clock.jpg" alt="Mechanical-Clock" width="240" height="180" /></a>　　在网站数据分析中，时间是最常见也是最不可或缺的维度之一，大部分情况下用于限定指标统计的范围和粒度，同时时间因素也会对指标的一些统计规则和细节造成影响，而在某些数据分析中我们很容易忽略时间因素的影响，这些影响可能误导最终的结论。</p>
<p>　　发现这个问题是在一个数据提取的需求中，网站每天会发布很多新的内容，这些新的内容需要进行推荐，不然就会被埋没，所以很多网站都会有“最新推荐”之类的模块，而这个数据需求就是分析应该推荐哪些新内容？网站新发的内容质量参差不齐，而且数据积累较少，而推荐模块需要放置那些有潜力的新内容，以便潜力充分发掘后成长为热门内容，所以数据分析要做的就是去寻找那些有潜力的新发内容。如果是TOP10的推荐榜单，最简单的做法就是根据新内容的访问量或者转化率进行排序选前十，但其中有很多值得注意的地方，关于转化率需要注意的地方可以参考<a href="http://webdataanalysis.net/web-quantitative-analysis/secret-of-kpi/" target="_blank">关键指标背后的秘密</a>这篇文章，这里主要讨论如果以内容的访问量进行排序，如果选择近一周的汇总数据，我们需要注意什么？也许你已经想到了，之所以这里举例新内容，是因为新内容有一个<strong>发布时间</strong>（Publish Time），就像一个人的出生日期，而从发布时间到当前的时间间隔就是内容的<strong>持续时间</strong>，也可以认为是内容的生命期（Lifetime），就像一个人的年龄。内容的持续时间越长就获得越多的数据积累，相应获得高访问量的机会就越大，如果我们比较一周中在不同时间发布的内容在该周的总访问量，那些就会掉入错位比较的陷阱，或者叫“Mismatch”。</p>
<p><a href="http://webdataanalysis.net/wp-content/uploads/2012/02/Unfair-Fight.jpg" target="_blank" rel="lightbox[1101]"><img class="alignright size-full wp-image-1105" title="不公平的决斗" src="http://webdataanalysis.net/wp-content/uploads/2012/02/Unfair-Fight.jpg" alt="Unfair-Fight" width="216" height="247" /></a>　　一个形象的比喻就是刚刚入伍的新兵跟久经沙场的老将的决斗，虽然新兵不是完全没有胜出的机会，也许那个新兵天生勇猛，或者有着一股初生牛犊不怕虎的冲劲，可以一举击败经验丰富的老将，但在大多数情况下这种可能性较小，这是一场不公平的决斗，而在数据分析中我们需要尽量去避免这类不公平的决斗（比较）。</p>
<h3>内容和商品分析</h3>
<p>　　其实日常中发生这类错误的情况可能很普遍，当我在博客新发文章几天后上Google Analytics去看数据，发现新文章页在相对较后面的位置，不是因为真的没人看，而是GA上默认展现近一个月的汇总数据，报表根据Pageviews排序的结果新内容无法在短时间内迅速冲到前几位。对于那些新发内容或者新上架产品频率不高的网站，运营人员可能比较清楚哪些是新内容，所以通过一些人为的辨认调节在分析的时候不易掉入陷阱，但对于每周有上百个新发内容的网站，这类错误的发生很可能埋没一些优质的新品。</p>
<p>　　我们需要找到一些办法去规避这个时间因素对分析结果的影响，通常我们在选择比较对象的时候需要控制所有的比较对象具备相同的持续时长，比如我们比较新内容的热门度，统一选择近一周的数据，对于较早发布的内容摒弃之前的数据，而近一周内刚发布的内容则舍弃不参与这次比较，等到有了完整的一周数据之后再加入比较。这样虽然可以确保比较在同一基准线上，但无疑延后了评估的结论，对于某些一上来就表现抢眼的内容无法及时发现，于是这里采用统计单位时间指标表现的方法，即根据内容的发布时间统计得到每个内容的持续时间（一般精确到天即可），然后将内容的总体访问量除以这个持续时间，就得到了单位时间的内容访问量，进而进行比较：</p>
<p style="text-align: center;"><a href="http://webdataanalysis.net/wp-content/uploads/2012/02/Contents-visits-sort-table.jpg" target="_blank" rel="lightbox[1101]"><img class="aligncenter size-full wp-image-1106" title="新内容访问量排序表" src="http://webdataanalysis.net/wp-content/uploads/2012/02/Contents-visits-sort-table.jpg" alt="Contents-visits-sort-table" width="522" height="127" /></a></p>
<p>　　上表取的是5个新发布内容近10天的访问量数据，同时加入了内容自发布以来的持续天数，我们用总的访问量除以持续天数计算得到平均每天访问量，然后以总访问量和平均每天访问量分别进行降序排列，得到完全不一样的排名。如果按排序1，我们完全可能忽略D内容的强劲表现，而权衡时间因素之后的排序让我们能够更加准确的把握有潜力的新内容。</p>
<p>　　以上的方法同样适用于电子商务网站的商品分析，很多电商网站希望在新商品中挑选有足够潜力的商品进行重点营销，用于打造所谓的“爆款”，从而进一步促进订单量的增长提升销售额和利润。对有潜力新品的挑选一方面需要足够敏锐的嗅觉和眼光，另一方面就要借助数据分析，而这个时候不得不考虑上面提到的时间因素的影响，记住一个月内销售20件的商品不一定比销售50件的差，关键在于这些商品你是何时上架的，使用有效的方法进行评估才能找到真正有潜力有价值增长点的商品。</p>
<p>　　要知道任何的网站内容或产品都不是经久不衰的，都有它们自己的生命周期，所以明智的网站运营永远在不断寻找新的生长点，如果数据分析中欠缺考虑时间因素，那些有潜力的产品和内容很可能就会被“久经磨练”的产品内容长期压制，导致网站新陈代谢过于缓慢，进而落后于其他网站。</p>
<h3>用户分析</h3>
<p>　　在进行用户分析的时候，同样需要注意时间因素，如<a href="http://webdataanalysis.net/web-quantitative-analysis/e-commerce-rfm/" target="_blank">用户RFM分析</a>、<a href="http://webdataanalysis.net/web-quantitative-analysis/user-value-estimate-system/" target="_blank">用户忠诚度价值评分</a>、<a href="http://webdataanalysis.net/personal-view/customer-lifetime-value/" target="_blank">用户生命周期价值</a>等，这些基于用户在一段时间内持续性行为分析的模型都易掉入时间的陷阱。我们没法奢求一个只注册了一周的新用户在近一个月的访问频率高于老用户，因为你只给了他7天的时间，而与他对决的是拥有充裕的30天时间的用户；同样你不应该去比较一个仅使用一个月的新用户与一个一直在持续使用的老用户在三个月或半年中的消费次数、消费金额等，因为他们不在同一起跑线上。但新用户拥有潜力，指不定他们就会成长为更加高价值的忠诚用户，所以在针对用户的营销中我们需要消除这个因素的影响，同样使用除以用户使用网站持续时间（从用户首次访问或者注册时间开始计算）的方法计算单位时间的指标表现，使用RFM模型看下考虑时间因素前后对用户评估的差异：</p>
<p style="text-align: center;"><a href="http://webdataanalysis.net/wp-content/uploads/2012/02/RFM-with-duration-table.jpg" target="_blank" rel="lightbox[1101]"><img class="aligncenter size-full wp-image-1107" title="RFM分析考虑时间因素" src="http://webdataanalysis.net/wp-content/uploads/2012/02/RFM-with-duration-table.jpg" alt="RFM-with-duration-table" width="470" height="107" /></a></p>
<p>　　如上表所示，假如RFM模型选择了近100天的数据来对用户进行分析，这里同样加入“持续时间”这个统计量，即用户从注册到当前的天数，如果用户的注册时间在100天之前，那么用户在该统计周期中的持续时间就是100天（最大期限）。RFM的三个指标中的最近购买间隔（R）不受用户持续时间的影响，因此在考虑时间因素时不用做变换，而购买频率（F）和消费金额（M）都会受到持续时间的影响，需要除以持续时间，计算得到单位时间（这里是天）的数值，即表格中每位用户在“是否考虑时间因素”前后的指标变换。从变换前后的比较来看，用户1因为是持续使用的老用户，未考虑时间因素前在购买频率和消费金额上具有明显优势，但数据变换之后，用户2所表现的粘性和价值更高，即用户2虽然使用网站时间不长，但在单位时间的购买消费上优于用户1，我们通过雷达图进一步看下考虑时间因素前后的效果：</p>
<p style="text-align: center;"><a href="http://webdataanalysis.net/wp-content/uploads/2012/02/RFM-with-duration-radar.jpg" target="_blank" rel="lightbox[1101]"><img class="aligncenter size-full wp-image-1108" title="RFM考虑时间因素雷达图" src="http://webdataanalysis.net/wp-content/uploads/2012/02/RFM-with-duration-radar.jpg" alt="RFM-with-duration-radar" width="444" height="277" /></a></p>
<p>　　图中对数据进行标准化评分后，蓝线代表用户1，红线代表用户2，虚线表示未考虑时间因素，实现代表考虑了时间因素，可以看到用户2在考虑时间因素之后价值被明显放大，从图中可以得到用户2的预期价值优于用户1。如果我们不去考虑时间因素的影响，分析的结果就会产生明显的偏差，进而可能误导对用户的正确评估。</p>
<p>　　其实这里提及的时间因素还是一个遵循对比原则的问题，<strong>比较的对象之间必须具备可比性，不然比较的结果就没有任何的意义</strong>。</p>
<p>　　很久没有更新博客了，因为这段时间的变动没有时间去思考和整理一些新的内容。这篇文章中提及的分析中需要考虑到的时间因素其实在很多情况下都遇到过，尤其是对一个时间周期内汇总的统计指标做细分分析的时候需要格外注意各细分项存在的时间周期是否一致，希望对大家有所启发和帮助。<br /></br><br />
<blockquote>
<div> 　&raquo; 本文采用 <a rel="license external nofollow" title="cc by-nc-sa" href="http://creativecommons.org/licenses/by-nc-sa/3.0/" target="_blank"> BY-NC-SA </a>协议，转载请注明来源：<a title="网站数据分析" href="http://webdataanalysis.net/">网站数据分析</a> &raquo; <a rel="bookmark" title="不得不考虑的时间因素" href="http://webdataanalysis.net/personal-view/avoid-the-trap-of-time/">《不得不考虑的时间因素》</a></div>
</blockquote>
<div id="wp-share-list-container"></div>

<p>相关文章:<ol><li><a href='http://webdataanalysis.net/web-quantitative-analysis/user-segment-and-comparison/' rel='bookmark' title='Permanent Link: 基于用户细分的比较分析'>基于用户细分的比较分析</a></li>
<li><a href='http://webdataanalysis.net/personal-view/key-user-metrics/' rel='bookmark' title='Permanent Link: 值得关注的用户指标'>值得关注的用户指标</a></li>
<li><a href='http://webdataanalysis.net/personal-view/customer-lifetime-value/' rel='bookmark' title='Permanent Link: 网站用户的生命周期价值'>网站用户的生命周期价值</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://webdataanalysis.net/personal-view/avoid-the-trap-of-time/feed/</wfw:commentRss>
		<slash:comments>15</slash:comments>
		</item>
		<item>
		<title>基于KNN的相关内容推荐</title>
		<link>http://webdataanalysis.net/personal-view/knn-relevant-content/</link>
		<comments>http://webdataanalysis.net/personal-view/knn-relevant-content/#comments</comments>
		<pubDate>Thu, 27 Oct 2011 14:56:10 +0000</pubDate>
		<dc:creator>joegh</dc:creator>
				<category><![CDATA[个人观点分享]]></category>
		<category><![CDATA[内容推荐]]></category>
		<category><![CDATA[数据挖掘]]></category>

		<guid isPermaLink="false">http://webdataanalysis.net/?p=1055</guid>
		<description><![CDATA[　　如果做网站的内容运营，相关内容推荐可以帮助用户更快地寻找和发现感兴趣的信息，从而提升网站内容浏览的流畅性，进而提升网站的价值转化。相关内容推荐最常见的两块就是“关联推荐”和“相关内容推荐”，关联推荐就是我们常说的购物篮分析，即使用购买了某商品的用户同时购买了什么这个规则来发现商品间的潜在联系，之前有相关的文章介绍——向上营销、交叉营销与关联推荐；关联推荐是基于用户行为分析的推荐，而相关内容推荐是基于内容固有特征的推荐，只与内容本身有关，与用户的行为完全无关，所以相关内容推荐的模型是一种“冷启动”的算法，不需要任何历史浏览访问数据的支持。
内容固有属性
　　相关内容推荐因为完全不借助用户浏览行为的数据，所以底层数据不依赖于网站的点击流日志，唯一的基础数据就是内容的固有属性及完整信息。我们以豆瓣网的几大块内容为例来看看对于这些内容一般包含哪些固有属性：



书籍
书名、作者、出版时间、出版社、分类、标签


音乐
专辑名、歌手、发行时间、发行方、风格流派、标签


电影
电影名称、导演、演员、上映时间、制片方、类型、标签



　　豆瓣很多地方都使用了“标签”这个词，用贴标签的形式来完成内容的分类和标识，但其实标签又分为很多种，有些标签是在内容生成时就被贴上的，有些可能是后续用户贴上去的，而且豆瓣一般为内容和标签定义了原始分类，如书籍分为文学、流行、文化……既然分类和标签内容源生就带有，那同样可以作为内容的固有属性。
　　还需要说明的是，这里不涉及文本挖掘和字符切分模糊匹配等问题，因此内容的标题、简介和全文不参与文本相似度的分析，虽然这些可能在构建完整的相关内容模型中不可缺少，但这里只考虑一些固有属性是否相同实现简单应用。基于上述豆瓣几类内容的属性特征，选择和整理适合分析的内容属性如下：

　　“作者”就是指内容的创造者，“来源”指内容的发布方或获取渠道，“分类”为内容归属的类别，“标签”可以包含对内容的各类描述信息和关键词等。这里为了能够尽可能清晰地描述整个分析模型和思路只选取了大部分内容都包含的一些属性，如果要构建更加高效的相关内容分析模型，需要更完整的内容属性，可以根据自身内容的特征进行属性的定义和选取。
KNN算法及应用
　　KNN（K-Nearest Neighbor algorithm），K最近邻算法，通过计算样本个体间的距离或者相似度寻找与每个样本个体最相近的K个个体，算法的时间复杂度跟样本的个数直接相关，需要完成一次两两比较的过程。KNN一般被用于分类算法，在给定分类规则的训练集的基础上对总体的样本进行分类，是一种监督学习（Supervised learning）方法。

　　这里我们不用KNN来实现分类，我们使用KNN最原始的算法思路，即为每个内容寻找K个与其最相似的内容，并推荐给用户。相当于每个内容之间都会完成一次两两比较的过程，如果你的网站有n个内容，那么算法的时间复杂度为Cn2，即n(n-1)/2。但是用内容固有属性有一个好处就是因为固有属性一旦创建后基本保持不变，因此算法输出的数据一旦计算好之后不需要重复计算去刷新，也就是对于网站内容而言，原有内容的数据在首次初始化之后可以不断重复使用，只要更新新增内容的数据就可以，数据的统计计算可以使用增量更新的形式，这样可以有效地减少服务器的计算压力。
相关内容模型
　　有了基础数据和算法的支持，我们就可以创建数据模型了。先看下基础数据的类型，作者、分类、来源和标签都是字符型，其中作者、分类、来源基本可以当做是单个值的属性，标签一般包含多个值。首先由于都是字符可以确定属性之间相似性的判定只能通过“是否相同”，无法体现数值上的差异，所以对于作者、分类、来源这几个单值属性而言，比较的结果就是一个布尔型的度量，相同或者不相同；对于标签这个多值属性可以考虑使用Jaccard相关系数，但因为每个内容标签的个数存在较大差异，使用验证后的结果并不理想，所以不考虑使用（当然，如果内容的标签个数比较固定，Jaccard相关系数是有效的）。因此，直接创建加权相似度模型如下，首先是标签的相似度分值设定：



相同标签数
图书比例
相似度分值




0
70%
0


1
20%
1


2
6%
2


3
3%
4


&#62;=4
1%
5



　　再结合作者、分类和来源，通过加权设定总体的相似度分值：



属性
相同时分值
不同时分值
权重
加权分值分布




作者
1
0
25
[0,25]


分类
1
0
10
[0,10]


来源
1
0
15
[0,15]


标签
[1,5]
0
10
[0,50]



　　将所有属性加权相似度分值的结果相加应该分布在[0,100]，分值越高说明内容间的相似度越高。对于这种简单的加权相似度评分模型，估计又有很多人要问权重是怎么确定的，确实，这里的权重并没有通过任何定量分析模型的方法去计算，只是简单的经验估计，但估计的过程经过反复地调整和优化，也就是不断地尝试调整各属性的权重系数并输出结果，抽样检验结果是否符合预期、是否有提升优化的空间。
　　基于上述内容间相似度的计算结果，套用KNN的原理实现相关内容推荐就异常简单了，只要根据每个内容与之比较的所有内容的相似度分值降序排列取前K个内容作为该内容的最相关内容推荐给用户就可以了。当然中间可能会涉及相同相似度分值的内容如何排序的问题（因为模型的关系分值分布可能不会很离散），建议如果相似度分值相同使用随机排序，以保证推荐结果有一定的变化，均匀内容的曝光。
　　好了，所有的分析流程介绍完了，好像跟前一篇的距离和相似度度量完全没有关系，其实距离和相似度度量是KNN的基础算法，因为KNN的个体相似度或邻近的距离都会选择距离度量和相似度度量中的某种方法进行计算，但这里考虑到了现实的数据情况和应用环境，并不是KNN就一定要硬套欧氏距离，其实换一种简单的方法可能反而更加适合整个模型，而且模型的最终效果可能会更理想。所以一切的数据挖掘算法的选择和使用都是基于数据模型的有效性和输出结果的效果来决定的，并不是简单的算法效果就一定不好，而高级复杂的算法一定更加有效。对了，如果你已经做了相关内容推荐，那么优化相关内容推荐这篇文章里面介绍的一些方法将是检验推荐效果的一个很好的参考。

 　&#187; 本文采用  BY-NC-SA 协议，转载请注明来源：网站数据分析 &#187; 《基于KNN的相关内容推荐》



相关文章:优化相关内容推荐
向上营销、交叉营销与关联推荐
排行榜与随机数



相关文章:<ol><li><a href='http://webdataanalysis.net/personal-view/optimize-related-content/' rel='bookmark' title='Permanent Link: 优化相关内容推荐'>优化相关内容推荐</a></li>
<li><a href='http://webdataanalysis.net/web-quantitative-analysis/association-recommendation/' rel='bookmark' title='Permanent Link: 向上营销、交叉营销与关联推荐'>向上营销、交叉营销与关联推荐</a></li>
<li><a href='http://webdataanalysis.net/personal-view/ranking-and-random/' rel='bookmark' title='Permanent Link: 排行榜与随机数'>排行榜与随机数</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　如果做网站的内容运营，相关内容推荐可以帮助用户更快地寻找和发现感兴趣的信息，从而提升网站内容浏览的流畅性，进而提升网站的价值转化。相关内容推荐最常见的两块就是“关联推荐”和“相关内容推荐”，关联推荐就是我们常说的购物篮分析，即使用购买了某商品的用户同时购买了什么这个规则来发现商品间的潜在联系，之前有相关的文章介绍——<a href="http://webdataanalysis.net/web-quantitative-analysis/association-recommendation/" target="_blank">向上营销、交叉营销与关联推荐</a>；关联推荐是基于用户行为分析的推荐，而相关内容推荐是基于内容固有特征的推荐，只与内容本身有关，与用户的行为完全无关，所以相关内容推荐的模型是一种“冷启动”的算法，不需要任何历史浏览访问数据的支持。</p>
<h3>内容固有属性</h3>
<p>　　相关内容推荐因为完全不借助用户浏览行为的数据，所以底层数据不依赖于网站的点击流日志，唯一的基础数据就是内容的固有属性及完整信息。我们以豆瓣网的几大块内容为例来看看对于这些内容一般包含哪些固有属性：</p>
<table border="1" cellspacing="0" cellpadding="0">
<tbody>
<tr>
<td width="83" valign="top"><strong>书籍</strong></td>
<td width="485" valign="top">书名、作者、出版时间、出版社、分类、标签</td>
</tr>
<tr>
<td width="83" valign="top"><strong>音乐</strong></td>
<td width="485" valign="top">专辑名、歌手、发行时间、发行方、风格流派、标签</td>
</tr>
<tr>
<td width="83" valign="top"><strong>电影</strong></td>
<td width="485" valign="top">电影名称、导演、演员、上映时间、制片方、类型、标签</td>
</tr>
</tbody>
</table>
<p>　　豆瓣很多地方都使用了“标签”这个词，用贴标签的形式来完成内容的分类和标识，但其实标签又分为很多种，有些标签是在内容生成时就被贴上的，有些可能是后续用户贴上去的，而且豆瓣一般为内容和标签定义了原始分类，如书籍分为文学、流行、文化……既然分类和标签内容源生就带有，那同样可以作为内容的固有属性。</p>
<p>　　还需要说明的是，这里不涉及文本挖掘和字符切分模糊匹配等问题，因此内容的标题、简介和全文不参与文本相似度的分析，虽然这些可能在构建完整的相关内容模型中不可缺少，但这里只考虑一些固有属性是否相同实现简单应用。基于上述豆瓣几类内容的属性特征，选择和整理适合分析的内容属性如下：</p>
<p style="text-align: center;"><a href="http://webdataanalysis.net/wp-content/uploads/2011/10/attributes-of-content.png" target="_blank" rel="lightbox[1055]"><img class="aligncenter size-full wp-image-1056" title="内容固有属性" src="http://webdataanalysis.net/wp-content/uploads/2011/10/attributes-of-content.png" alt="attributes-of-content" width="288" height="261" /></a></p>
<p>　　“作者”就是指内容的创造者，“来源”指内容的发布方或获取渠道，“分类”为内容归属的类别，“标签”可以包含对内容的各类描述信息和关键词等。这里为了能够尽可能清晰地描述整个分析模型和思路只选取了大部分内容都包含的一些属性，如果要构建更加高效的相关内容分析模型，需要更完整的内容属性，可以根据自身内容的特征进行属性的定义和选取。</p>
<h3>KNN算法及应用</h3>
<p>　　KNN（K-Nearest Neighbor algorithm），K最近邻算法，通过计算样本个体间的距离或者相似度寻找与每个样本个体最相近的K个个体，算法的时间复杂度跟样本的个数直接相关，需要完成一次两两比较的过程。KNN一般被用于分类算法，在给定分类规则的训练集的基础上对总体的样本进行分类，是一种监督学习（Supervised learning）方法。</p>
<p style="text-align: center;"><a href="http://webdataanalysis.net/wp-content/uploads/2011/10/KNN.png" target="_blank" rel="lightbox[1055]"><img class="aligncenter size-full wp-image-1058" title="K最近邻算法" src="http://webdataanalysis.net/wp-content/uploads/2011/10/KNN.png" alt="KNN" width="401" height="250" /></a></p>
<p>　　这里我们不用KNN来实现分类，我们使用KNN最原始的算法思路，即为每个内容寻找K个与其最相似的内容，并推荐给用户。相当于每个内容之间都会完成一次两两比较的过程，如果你的网站有n个内容，那么算法的时间复杂度为C<sub>n</sub><sup>2</sup>，即n(n-1)/2。但是用内容固有属性有一个好处就是因为固有属性一旦创建后基本保持不变，因此算法输出的数据一旦计算好之后不需要重复计算去刷新，也就是对于网站内容而言，原有内容的数据在首次初始化之后可以不断重复使用，只要更新新增内容的数据就可以，数据的统计计算可以使用增量更新的形式，这样可以有效地减少服务器的计算压力。</p>
<h3>相关内容模型</h3>
<p>　　有了基础数据和算法的支持，我们就可以创建数据模型了。先看下基础数据的类型，作者、分类、来源和标签都是字符型，其中作者、分类、来源基本可以当做是单个值的属性，标签一般包含多个值。首先由于都是字符可以确定属性之间相似性的判定只能通过“是否相同”，无法体现数值上的差异，所以对于作者、分类、来源这几个单值属性而言，比较的结果就是一个布尔型的度量，相同或者不相同；对于标签这个多值属性可以考虑使用Jaccard相关系数，但因为每个内容标签的个数存在较大差异，使用验证后的结果并不理想，所以不考虑使用（当然，如果内容的标签个数比较固定，Jaccard相关系数是有效的）。因此，直接创建加权相似度模型如下，首先是标签的相似度分值设定：</p>
<table border="1" cellspacing="0" cellpadding="0">
<thead>
<tr>
<td width="177" valign="top"><strong>相同标签数</strong></td>
<td width="201" valign="top"><strong>图书比例</strong></td>
<td width="189" valign="top"><strong>相似度分值</strong></td>
</tr>
</thead>
<tbody>
<tr>
<td width="177" valign="top"><strong>0</strong></td>
<td width="201" valign="top">70%</td>
<td width="189" valign="top">0</td>
</tr>
<tr>
<td width="177" valign="top"><strong>1</strong></td>
<td width="201" valign="top">20%</td>
<td width="189" valign="top">1</td>
</tr>
<tr>
<td width="177" valign="top"><strong>2</strong></td>
<td width="201" valign="top">6%</td>
<td width="189" valign="top">2</td>
</tr>
<tr>
<td width="177" valign="top"><strong>3</strong></td>
<td width="201" valign="top">3%</td>
<td width="189" valign="top">4</td>
</tr>
<tr>
<td width="177" valign="top"><strong>&gt;=4</strong></td>
<td width="201" valign="top">1%</td>
<td width="189" valign="top">5</td>
</tr>
</tbody>
</table>
<p>　　再结合作者、分类和来源，通过加权设定总体的相似度分值：</p>
<table border="1" cellspacing="0" cellpadding="0">
<thead>
<tr>
<td width="114" valign="top"><strong>属性</strong></td>
<td width="114" valign="top"><strong>相同时分值</strong></td>
<td width="114" valign="top"><strong>不同时分值</strong></td>
<td width="114" valign="top"><strong>权重</strong></td>
<td width="114" valign="top"><strong>加权分值分布</strong></td>
</tr>
</thead>
<tbody>
<tr>
<td width="114" valign="top"><strong>作者</strong></td>
<td width="114" valign="top">1</td>
<td width="114" valign="top">0</td>
<td width="114" valign="top">25</td>
<td width="114" valign="top">[0,25]</td>
</tr>
<tr>
<td width="114" valign="top"><strong>分类</strong></td>
<td width="114" valign="top">1</td>
<td width="114" valign="top">0</td>
<td width="114" valign="top">10</td>
<td width="114" valign="top">[0,10]</td>
</tr>
<tr>
<td width="114" valign="top"><strong>来源</strong></td>
<td width="114" valign="top">1</td>
<td width="114" valign="top">0</td>
<td width="114" valign="top">15</td>
<td width="114" valign="top">[0,15]</td>
</tr>
<tr>
<td width="114" valign="top"><strong>标签</strong></td>
<td width="114" valign="top">[1,5]</td>
<td width="114" valign="top">0</td>
<td width="114" valign="top">10</td>
<td width="114" valign="top">[0,50]</td>
</tr>
</tbody>
</table>
<p>　　将所有属性加权相似度分值的结果相加应该分布在[0,100]，分值越高说明内容间的相似度越高。对于这种简单的加权相似度评分模型，估计又有很多人要问权重是怎么确定的，确实，这里的权重并没有通过任何定量分析模型的方法去计算，只是简单的经验估计，但估计的过程经过反复地调整和优化，也就是不断地尝试调整各属性的权重系数并输出结果，抽样检验结果是否符合预期、是否有提升优化的空间。</p>
<p>　　基于上述内容间相似度的计算结果，套用KNN的原理实现相关内容推荐就异常简单了，只要根据每个内容与之比较的所有内容的相似度分值降序排列取前K个内容作为该内容的最相关内容推荐给用户就可以了。当然中间可能会涉及相同相似度分值的内容如何排序的问题（因为模型的关系分值分布可能不会很离散），建议如果相似度分值相同使用随机排序，以保证推荐结果有一定的变化，均匀内容的曝光。</p>
<p>　　好了，所有的分析流程介绍完了，好像跟前一篇的<a href="http://webdataanalysis.net/reference-and-source/distance-and-similarity/" target="_blank">距离和相似度度量</a>完全没有关系，其实距离和相似度度量是KNN的基础算法，因为KNN的个体相似度或邻近的距离都会选择距离度量和相似度度量中的某种方法进行计算，但这里考虑到了现实的数据情况和应用环境，并不是KNN就一定要硬套欧氏距离，其实换一种简单的方法可能反而更加适合整个模型，而且模型的最终效果可能会更理想。所以一切的数据挖掘算法的选择和使用都是基于数据模型的有效性和输出结果的效果来决定的，并不是简单的算法效果就一定不好，而高级复杂的算法一定更加有效。对了，如果你已经做了相关内容推荐，那么<a href="http://webdataanalysis.net/personal-view/optimize-related-content/" target="_blank">优化相关内容推荐</a>这篇文章里面介绍的一些方法将是检验推荐效果的一个很好的参考。<br /></br><br />
<blockquote>
<div> 　&raquo; 本文采用 <a rel="license external nofollow" title="cc by-nc-sa" href="http://creativecommons.org/licenses/by-nc-sa/3.0/" target="_blank"> BY-NC-SA </a>协议，转载请注明来源：<a title="网站数据分析" href="http://webdataanalysis.net/">网站数据分析</a> &raquo; <a rel="bookmark" title="基于KNN的相关内容推荐" href="http://webdataanalysis.net/personal-view/knn-relevant-content/">《基于KNN的相关内容推荐》</a></div>
</blockquote>
<div id="wp-share-list-container"></div>

<p>相关文章:<ol><li><a href='http://webdataanalysis.net/personal-view/optimize-related-content/' rel='bookmark' title='Permanent Link: 优化相关内容推荐'>优化相关内容推荐</a></li>
<li><a href='http://webdataanalysis.net/web-quantitative-analysis/association-recommendation/' rel='bookmark' title='Permanent Link: 向上营销、交叉营销与关联推荐'>向上营销、交叉营销与关联推荐</a></li>
<li><a href='http://webdataanalysis.net/personal-view/ranking-and-random/' rel='bookmark' title='Permanent Link: 排行榜与随机数'>排行榜与随机数</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://webdataanalysis.net/personal-view/knn-relevant-content/feed/</wfw:commentRss>
		<slash:comments>14</slash:comments>
		</item>
		<item>
		<title>网站的迷失度度量</title>
		<link>http://webdataanalysis.net/personal-view/measure-of-lostness/</link>
		<comments>http://webdataanalysis.net/personal-view/measure-of-lostness/#comments</comments>
		<pubDate>Tue, 10 May 2011 13:55:05 +0000</pubDate>
		<dc:creator>joegh</dc:creator>
				<category><![CDATA[个人观点分享]]></category>
		<category><![CDATA[网站分析度量]]></category>

		<guid isPermaLink="false">http://webdataanalysis.net/?p=980</guid>
		<description><![CDATA[　　在博客之前的文章——优化网站信息架构我曾经提到过关于迷失用户（Lost Visits）的定义，以及如何使用Google Analytics的高级群组（Advanced Segment）去区分出这批用户。最近在看《用户体验度量（Measuring the User Experience）》，发现自己实在太嫩了，人家Smith早在1996年就对迷失度（Lostness）有了定义，同时给出了迷失度L的计算公式，这里借花献佛，分享给大家。

即，L = sqrt[ (N/S-1)2 + (R/N-1)2 ]
L：迷失度
N：访问的不同页面数（Unique Pageviews）
S：访问的总页面数（Pageviews）
R：完成任务必需的最小页面数
　　Smith同时给出了迷失度的评定标准：最佳迷失度为0，迷失度小于0.4时，用户不会显示任何可观察到的迷失特征；迷失度大于0.5时，用户显现迷失特征。
　　结合公式，我们可以看到这里对迷失度的定义主要考虑到的是：1、重复访问相同的页面，2、没有能够用最简单的方式完成任务，过多地在网站中徘徊。其实第一眼看去这个公式有一定的道理，但细想一下其实也存在着不合理的地方。通常我们需要去获取知识，阅读和总结他人的经验，但如果只是一味地套用书本或者别人的东西，那么你就输了，尤其是在发展如此迅速的互联网领域。那么我们来看看这个公式有何不妥：
　　我们先思考这样一个问题：迷失的用户会表现怎样的特征？显然，当用户在网站中找不到自己需要的东西的时候会来回地点击各种页面，频繁地返回首页或者索引页面，那么从这个角度看，显然这个公式是成立的，迷失用户的表现特征就是频繁地重复浏览同一页面，并且浏览的页面数会比正常访问多得多。但再换一个角度思考，逆向思考下前面的问题：一个正常的用户会不会出现重复浏览同一页面或者浏览页面数较多的情况？显然也是可能的，简单的例子，如果你对我的博客非常感兴趣，看了一篇文章后还想看另外的文章……于是你来回于博客的文章页面和文章专题推荐或者网站地图页面之间，于是这些列出了文章索引的页面被一次又一次地重复访问着；再如，如果一个用户上电子商务网站的目的不是购物，而是闲逛，看看有没有便宜货，或者只是针对某类商品比对下商品的好坏及价格的差异，以伺机下手，那么这个时候这些用户的访问页面数就会异常的多，但他们其实都没有迷失。所以，上面的公式无法为你从所有的用户中挑出那些迷失的用户，最多只能对已知的迷失用户计算他们的迷失度，哪些是低度迷失，哪些是高度迷失。
　　但其实Smith没有错，错的是这个高速发展的时代，这也是我为什么说尤其在互联网领域不要直接照搬一些东西来直接应用于自身的原因。1996年，很明显还处于WEB1.0时代，完全没有现在网站的那些复杂交互和多样的功能，当时的网站大部分做的只是信息的单向发布，而用户访问网站的任务也是单一的，可能就是查找到自己想要的那个信息页面。所以我反而觉得这个迷失度公式在当时绝对是适用的，而且Smith在当时就能总结得出这个的度量公式足见其对如今大热的“用户体验”的先知先觉以及对用户体验度量的智慧。同时这个公式对于当前网站的迷失度衡量也不是完全无效，如果是用户体验的小组在做可用性实验，为实验设定的情景是需要用户在网站中完成一个特定的任务，那么这个公式完全是有效的，所以总结起来就是这个公式对复杂的多任务的网站迷失度衡量无效，而对基于单任务的简单网站或者实验环境是有效的。
　　既然这个公式对于当前的网站大部分时间不适用，我们就需要对其进行改良，使其适用于普遍的网站。再观察下这个公式，我们会发现其实它跟数据挖掘里面的欧几里得距离度量的计算方式十分相似，可以理解为所有的比例为1时是最理想的状态，公式计算的结果就是每个样本点与这个1的理想点的距离，距离越近迷失度越低，距离越远迷失度越高。所以这个思路完全可以借鉴，但显然只考虑浏览页面的这些度量还不够，我们需要加入其他的网站分析度量。
　　对于现在的大部分网站而言，功能是多样化的，用户使用网站的任务不再是单一的，所以无法为不同任务的用户确定一个统一的完成任务的最小访问页面数，而公式的前半部分依然有效，我们尝试用其他度量来替换后半部分。于是自然而然的想到了停留时间，当用户没有迷失时他们会在自己感兴趣的页面停留一段时间，那么页面平均停留时长（Avg. Time on Page）不会很小，所以改进后的公式如下：

即，L = sqrt[ (N/S-1)2 + (T/R-1)2 ]
L：迷失度
N：访问的不同页面数（Unique Pageviews）
S：访问的总页面数（Pageviews）
T：访问页面的平均停留时间（Avg. Time on Page）
R：网站正常的页面平均停留时长（既定值）
　　这个公式同样有几点需要注意，首先N/S和T/R要保证小于等于1，这样迷失度L计算的结果才会落在[0,sqrt(2)]之间，才有评定是否迷失的可行性。N/S可以保证小于等于1，但T/R无法保证，所以再套用公式之前需要做一步数据筛选的工作，也就是过滤那些可以被简单认定不是迷失的访问（建议过滤访问页面数小于3或者页面平均停留时间大于R的所有访问），筛选后的所有访问即是需要去认定是否具有迷失倾向的访问，同时有保证了T/R小于等于1这个规则。至于R的值如何确定，可以先看一下你自己网站的几个数据：

　　从近一个月的数据观察，我的博客的页面平均停留时间（Avg. Time on Page）为2分钟半左右，所以我暂定公式中的R（网站正常的页面平均停留时长）为2分钟，用高级过滤器查看所有Time on Page小于2分钟的访问大概占到了网站所有访问的45%。同时，上图给出的3个指标恰恰就是公式中需要用到的上需要用到的3个指标，结合刚刚给定的R值，公式中所有需要的变量我们都已经可以拿到了，下面来看看几个示例：



序号
N
S
T
R
L


1
4
5
60
120
0.5385


2
5
8
25
120
0.8760


3
4
5
20
120
0.8570



　　上表中计算得到了3个访问样本的迷失度度量L的值，很显然我们当前没法判定到底哪个迷失了哪个没有，所以还缺少一个判定基准（Benchmark），正如上面Smith给出的0.4和0.5，因为公式的变更我们可能需要重新定义这个基准。当然，如果你要用非常严谨科学的态度去定义这个基准线的话，这个过程完全可以作为一个研究课题，进行可用性的实验，观察实验用户的迷失情况，结合每个实验用户的指标数据最终给出一个迷失度的判断基准。当然如果你有兴趣，这个完全可以作为你的毕业设计或者学校科研课题去展开研究，我这边没有时间和资源去完成这个庞大的项目，只能按照经验值进行预估，针对我的博客，我认为当用户的重复访问页面比例超过1/3，并且页面平均停留时间不到30秒时，用户可能已经表现出一定的迷失倾向，将这个数值代入公式得到的迷失度L的值约为0.82，那么这个就可以作为衡量用户迷失的一个基准线，当L大于0.82时用户表现迷失的倾向，小于0.82则为正常访问。
　　当然我这里提出的迷失度度量公式同样存在优化空间，如果你有更好的想法，可以一起交流，欢迎在评论里面提出你的想法。
　　可能这篇文章的中间写了一大堆“废话”，主要是自己当时看到这个公式时思考如何将它有效地应用到实际的一个过程，实在没有耐心的朋友可以直接跳过，不影响文章的整体实现思路，不要抱怨：“怎么不早说，现在才提，我看都已经看下来了”，如果你看完了，就证明你有一颗足够淡定的心。其实我自己觉得在获取信息的时候（无论是看书还是看网上的文章）思考过程才是最重要的，这是对信息的一个有效过滤的过程，只有思考之后你获取的信息才是优质的，才是被你真正吸收的。但也有一个弊端，就是发现自己看书实在太慢太拖沓，现在手上正在阅读的有4本书，都是现在进行时，每本书的进度在1/3到1/2不等，涉及数据分析、用户体验、数据挖掘和报表展现，精力不够集中，一段时间不能同时兼顾太多呀，反而拖慢进度。

 　&#187; 本文采用  BY-NC-SA 协议，转载请注明来源：网站数据分析 &#187; 《网站的迷失度度量》



相关文章:网站页面度量与细分
网站数据分析的基本流程
优化网站内部搜索



相关文章:<ol><li><a href='http://webdataanalysis.net/personal-view/page-metrics-and-segment/' rel='bookmark' title='Permanent Link: 网站页面度量与细分'>网站页面度量与细分</a></li>
<li><a href='http://webdataanalysis.net/personal-view/circuit-of-web-data-analysis/' rel='bookmark' title='Permanent Link: 网站数据分析的基本流程'>网站数据分析的基本流程</a></li>
<li><a href='http://webdataanalysis.net/personal-view/optimize-site-search/' rel='bookmark' title='Permanent Link: 优化网站内部搜索'>优化网站内部搜索</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><a href="http://webdataanalysis.net/wp-content/uploads/2011/05/measure-of-lostness.png" target="_blank" rel="lightbox[980]"><img class="alignleft size-full wp-image-982" title="Lost" src="http://webdataanalysis.net/wp-content/uploads/2011/05/measure-of-lostness.png" alt="measure-of-lostness" width="240" height="180" /></a>　　在博客之前的文章——<a href="http://webdataanalysis.net/web-qualitative-analysis/optimize-information-architecture/" target="_blank">优化网站信息架构</a>我曾经提到过关于迷失用户（Lost Visits）的定义，以及如何使用Google Analytics的高级群组（Advanced Segment）去区分出这批用户。最近在看《用户体验度量（Measuring the User Experience）》，发现自己实在太嫩了，人家Smith早在1996年就对<strong>迷失度</strong>（<strong>Lostness</strong>）有了定义，同时给出了迷失度L的计算公式，这里借花献佛，分享给大家。</p>
<p style="text-align: center;"><img class="aligncenter size-full wp-image-981" title="迷失度公式" src="http://webdataanalysis.net/wp-content/uploads/2011/05/Lostness-expression.png" alt="Lostness-expression" width="256" height="34" /></p>
<blockquote><p>即，L = sqrt[ (N/S-1)<sup>2</sup> + (R/N-1)<sup>2</sup> ]</p>
<p>L：迷失度</p>
<p>N：访问的不同页面数（Unique Pageviews）</p>
<p>S：访问的总页面数（Pageviews）</p>
<p>R：完成任务必需的最小页面数</p></blockquote>
<p>　　Smith同时给出了迷失度的评定标准：最佳迷失度为0，迷失度小于0.4时，用户不会显示任何可观察到的迷失特征；迷失度大于0.5时，用户显现迷失特征。</p>
<p>　　结合公式，我们可以看到这里对迷失度的定义主要考虑到的是：1、重复访问相同的页面，2、没有能够用最简单的方式完成任务，过多地在网站中徘徊。其实第一眼看去这个公式有一定的道理，但细想一下其实也存在着不合理的地方。通常我们需要去获取知识，阅读和总结他人的经验，但如果只是一味地套用书本或者别人的东西，那么你就输了，尤其是在发展如此迅速的互联网领域。那么我们来看看这个公式有何不妥：</p>
<p>　　我们先思考这样一个问题：迷失的用户会表现怎样的特征？显然，当用户在网站中找不到自己需要的东西的时候会来回地点击各种页面，频繁地返回首页或者索引页面，那么从这个角度看，显然这个公式是成立的，迷失用户的表现特征就是频繁地重复浏览同一页面，并且浏览的页面数会比正常访问多得多。但再换一个角度思考，逆向思考下前面的问题：一个正常的用户会不会出现重复浏览同一页面或者浏览页面数较多的情况？显然也是可能的，简单的例子，如果你对我的博客非常感兴趣，看了一篇文章后还想看另外的文章……于是你来回于博客的文章页面和文章专题推荐或者网站地图页面之间，于是这些列出了文章索引的页面被一次又一次地重复访问着；再如，如果一个用户上电子商务网站的目的不是购物，而是闲逛，看看有没有便宜货，或者只是针对某类商品比对下商品的好坏及价格的差异，以伺机下手，那么这个时候这些用户的访问页面数就会异常的多，但他们其实都没有迷失。所以，上面的公式无法为你从所有的用户中挑出那些迷失的用户，最多只能对已知的迷失用户计算他们的迷失度，哪些是低度迷失，哪些是高度迷失。</p>
<p><a href="http://webdataanalysis.net/wp-content/uploads/2011/05/Web-1_0.png" target="_blank" rel="lightbox[980]"><img class="alignright size-full wp-image-986" title="WEB 1.0" src="http://webdataanalysis.net/wp-content/uploads/2011/05/Web-1_0.png" alt="Web 1.0" width="259" height="221" /></a>　　但其实Smith没有错，错的是这个高速发展的时代，这也是我为什么说尤其在互联网领域不要直接照搬一些东西来直接应用于自身的原因。1996年，很明显还处于WEB1.0时代，完全没有现在网站的那些复杂交互和多样的功能，当时的网站大部分做的只是信息的单向发布，而用户访问网站的任务也是单一的，可能就是查找到自己想要的那个信息页面。所以我反而觉得这个迷失度公式在当时绝对是适用的，而且Smith在当时就能总结得出这个的度量公式足见其对如今大热的“用户体验”的先知先觉以及对用户体验度量的智慧。同时这个公式对于当前网站的迷失度衡量也不是完全无效，如果是用户体验的小组在做可用性实验，为实验设定的情景是需要用户在网站中完成一个特定的任务，那么这个公式完全是有效的，所以总结起来就是这个公式对复杂的多任务的网站迷失度衡量无效，而对基于单任务的简单网站或者实验环境是有效的。</p>
<p>　　既然这个公式对于当前的网站大部分时间不适用，我们就需要对其进行改良，使其适用于普遍的网站。再观察下这个公式，我们会发现其实它跟数据挖掘里面的欧几里得距离度量的计算方式十分相似，可以理解为所有的比例为1时是最理想的状态，公式计算的结果就是每个样本点与这个1的理想点的距离，距离越近迷失度越低，距离越远迷失度越高。所以这个思路完全可以借鉴，但显然只考虑浏览页面的这些度量还不够，我们需要加入其他的网站分析度量。</p>
<p>　　对于现在的大部分网站而言，功能是多样化的，用户使用网站的任务不再是单一的，所以无法为不同任务的用户确定一个统一的完成任务的最小访问页面数，而公式的前半部分依然有效，我们尝试用其他度量来替换后半部分。于是自然而然的想到了停留时间，当用户没有迷失时他们会在自己感兴趣的页面停留一段时间，那么页面平均停留时长（Avg. Time on Page）不会很小，所以改进后的公式如下：</p>
<p style="text-align: center;"><img class="aligncenter size-full wp-image-987" title="迷失度修正公式" src="http://webdataanalysis.net/wp-content/uploads/2011/05/Lostness-expression_imp.png" alt="Lostness-expression_imp" width="253" height="23" /></p>
<blockquote><p>即，L = sqrt[ (N/S-1)<sup>2</sup> + (T/R-1)<sup>2</sup> ]</p>
<p>L：迷失度</p>
<p>N：访问的不同页面数（Unique Pageviews）</p>
<p>S：访问的总页面数（Pageviews）</p>
<p>T：访问页面的平均停留时间（Avg. Time on Page）</p>
<p>R：网站正常的页面平均停留时长（既定值）</p></blockquote>
<p>　　这个公式同样有几点需要注意，首先N/S和T/R要保证小于等于1，这样迷失度L计算的结果才会落在[0,sqrt(2)]之间，才有评定是否迷失的可行性。N/S可以保证小于等于1，但T/R无法保证，所以再套用公式之前需要做一步数据筛选的工作，也就是过滤那些可以被简单认定不是迷失的访问（建议过滤访问页面数小于3或者页面平均停留时间大于R的所有访问），筛选后的所有访问即是需要去认定是否具有迷失倾向的访问，同时有保证了T/R小于等于1这个规则。至于R的值如何确定，可以先看一下你自己网站的几个数据：</p>
<p style="text-align: center;"><a href="http://webdataanalysis.net/wp-content/uploads/2011/05/determine_R.png" target="_blank" rel="lightbox[980]"><img class="aligncenter size-full wp-image-989" title="迷失度相关指标" src="http://webdataanalysis.net/wp-content/uploads/2011/05/determine_R.png" alt="determine_R" width="339" height="116" /></a></p>
<p>　　从近一个月的数据观察，我的博客的页面平均停留时间（Avg. Time on Page）为2分钟半左右，所以我暂定公式中的R（网站正常的页面平均停留时长）为2分钟，用高级过滤器查看所有Time on Page小于2分钟的访问大概占到了网站所有访问的45%。同时，上图给出的3个指标恰恰就是公式中需要用到的上需要用到的3个指标，结合刚刚给定的R值，公式中所有需要的变量我们都已经可以拿到了，下面来看看几个示例：</p>
<table border="1" cellspacing="0" cellpadding="0">
<tbody>
<tr>
<td width="63" valign="top"><strong>序号</strong></td>
<td width="94" valign="top"><strong>N</strong></td>
<td width="108" valign="top"><strong>S</strong></td>
<td width="100" valign="top"><strong>T</strong></td>
<td width="102" valign="top"><strong>R</strong></td>
<td width="102" valign="top"><strong>L</strong></td>
</tr>
<tr>
<td width="63" valign="top"><strong>1</strong></td>
<td width="94" valign="top">4</td>
<td width="108" valign="top">5</td>
<td width="100" valign="top">60</td>
<td width="102" valign="top">120</td>
<td width="102" valign="top">0.5385</td>
</tr>
<tr>
<td width="63" valign="top"><strong>2</strong></td>
<td width="94" valign="top">5</td>
<td width="108" valign="top">8</td>
<td width="100" valign="top">25</td>
<td width="102" valign="top">120</td>
<td width="102" valign="top">0.8760</td>
</tr>
<tr>
<td width="63" valign="top"><strong>3</strong></td>
<td width="94" valign="top">4</td>
<td width="108" valign="top">5</td>
<td width="100" valign="top">20</td>
<td width="102" valign="top">120</td>
<td width="102" valign="top">0.8570</td>
</tr>
</tbody>
</table>
<p>　　上表中计算得到了3个访问样本的迷失度度量L的值，很显然我们当前没法判定到底哪个迷失了哪个没有，所以还缺少一个判定基准（Benchmark），正如上面Smith给出的0.4和0.5，因为公式的变更我们可能需要重新定义这个基准。当然，如果你要用非常严谨科学的态度去定义这个基准线的话，这个过程完全可以作为一个研究课题，进行可用性的实验，观察实验用户的迷失情况，结合每个实验用户的指标数据最终给出一个迷失度的判断基准。当然如果你有兴趣，这个完全可以作为你的毕业设计或者学校科研课题去展开研究，我这边没有时间和资源去完成这个庞大的项目，只能按照经验值进行预估，针对我的博客，我认为当用户的重复访问页面比例超过1/3，并且页面平均停留时间不到30秒时，用户可能已经表现出一定的迷失倾向，将这个数值代入公式得到的迷失度L的值约为0.82，那么这个就可以作为衡量用户迷失的一个基准线，当L大于0.82时用户表现迷失的倾向，小于0.82则为正常访问。</p>
<p>　　当然我这里提出的迷失度度量公式同样存在优化空间，如果你有更好的想法，可以一起交流，欢迎在评论里面提出你的想法。</p>
<p>　　可能这篇文章的中间写了一大堆“废话”，主要是自己当时看到这个公式时思考如何将它有效地应用到实际的一个过程，实在没有耐心的朋友可以直接跳过，不影响文章的整体实现思路，不要抱怨：“怎么不早说，现在才提，我看都已经看下来了”，如果你看完了，就证明你有一颗足够淡定的心。其实我自己觉得在获取信息的时候（无论是看书还是看网上的文章）思考过程才是最重要的，这是对信息的一个有效过滤的过程，只有思考之后你获取的信息才是优质的，才是被你真正吸收的。但也有一个弊端，就是发现自己看书实在太慢太拖沓，现在手上正在阅读的有4本书，都是现在进行时，每本书的进度在1/3到1/2不等，涉及数据分析、用户体验、数据挖掘和报表展现，精力不够集中，一段时间不能同时兼顾太多呀，反而拖慢进度。<br /></br><br />
<blockquote>
<div> 　&raquo; 本文采用 <a rel="license external nofollow" title="cc by-nc-sa" href="http://creativecommons.org/licenses/by-nc-sa/3.0/" target="_blank"> BY-NC-SA </a>协议，转载请注明来源：<a title="网站数据分析" href="http://webdataanalysis.net/">网站数据分析</a> &raquo; <a rel="bookmark" title="网站的迷失度度量" href="http://webdataanalysis.net/personal-view/measure-of-lostness/">《网站的迷失度度量》</a></div>
</blockquote>
<div id="wp-share-list-container"></div>

<p>相关文章:<ol><li><a href='http://webdataanalysis.net/personal-view/page-metrics-and-segment/' rel='bookmark' title='Permanent Link: 网站页面度量与细分'>网站页面度量与细分</a></li>
<li><a href='http://webdataanalysis.net/personal-view/circuit-of-web-data-analysis/' rel='bookmark' title='Permanent Link: 网站数据分析的基本流程'>网站数据分析的基本流程</a></li>
<li><a href='http://webdataanalysis.net/personal-view/optimize-site-search/' rel='bookmark' title='Permanent Link: 优化网站内部搜索'>优化网站内部搜索</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://webdataanalysis.net/personal-view/measure-of-lostness/feed/</wfw:commentRss>
		<slash:comments>14</slash:comments>
		</item>
		<item>
		<title>值得关注的用户指标</title>
		<link>http://webdataanalysis.net/personal-view/key-user-metrics/</link>
		<comments>http://webdataanalysis.net/personal-view/key-user-metrics/#comments</comments>
		<pubDate>Mon, 28 Mar 2011 14:25:37 +0000</pubDate>
		<dc:creator>joegh</dc:creator>
				<category><![CDATA[个人观点分享]]></category>
		<category><![CDATA[用户分析]]></category>
		<category><![CDATA[细分]]></category>

		<guid isPermaLink="false">http://webdataanalysis.net/?p=954</guid>
		<description><![CDATA[　　最近最常被问到的就是一些用户的统计指标，无论是决策层还是产品部门，所以这篇文章重点说下用户指标的一些内容。
　　假设你想用尽量简洁有效的数据了解一个网站或产品的用户情况，你会问哪几个用户数据？其实一个聪明的提问者永远不会问网站的累计用户数有多少，甚至不会问网站的UV是多少，因为这些指标都不能从真正意义上去反映网站的价值和发展状况。
　　举个简单的例子——网秦，累计用户数应该不下千万，但这个数字真的能够体现网秦所具备的价值吗？按照网秦的这种运营推广模式，真正的活跃用户有多少，所占比例如何？3·15之后，流失用户又有多少，这个流失率是不是足以让网秦先前辛辛苦苦培养起来的用户基础毁于一旦？所以网秦的发展前景又如何？其实我们可以使用一些更有说服力的用户指标来反映这些情况。
用户的细分方式
　　我不建议把用户细分成许许多多的类型，目前为止见过的用户细分的类别也不在少数，罗列出来应该有一大串：当前用户、新老用户、活跃用户、流失用户、留存用户、回访用户、误闯用户、休眠用户、常驻用户、忠诚用户……其实很多的定义或含义是相近的，在分析层面也扮演着类似的指标角色。所以不建议将用户这样混乱无章地分成N个类别，用户的细分关键在于以合理的体系将用户细分成几个类别，并且每个类别都能发挥其在用户分析上的功效，不存在累赘和混淆。
　　所以这里想介绍下我认为比较合理的用户细分方式。我将用户分成以下几类：当前使用用户、新用户、活跃用户、流失用户、回访用户，下面来简单的解释下。
　　当前使用用户：即我们平常所说的UV，也就是网站的登录或者使用用户数。用于体现网站的当前运营状况。
　　新用户：首次访问或者刚刚注册的用户；那么那些不是首次来访的用户就是老用户，于是同时也获得了老用户的统计。用于分析网站的推广效果或者成长空间。
　　活跃用户数：活跃用户的定义千差万别，一般定义有关键动作或者行为达到某个要求时的用户为活跃用户；每个网站应该根据自身的产品特定定义活跃用户。活跃用户用于分析网站真正掌握了多少有价值用户。
　　流失用户：网站的活跃用户与流失用户中已经做了定义和介绍，用于分析网站保留用户的能力。我们将那些未流失的用户叫做留存用户，可以通过总使用用户数减去流失用户数计算得到。
　　回访用户：是指那些之前已经流失，但之后又重新访问你的网站的用户。用于分析网站对挽回流失用户的能力（常常会受到那些很久没有登录的网站给你发的邮件吧，让你回去看看，这些措施就是他们在挽留那些流失用户）。除非近期内执行了一些挽留流失用户的手段，正常情况下回访用户的比例应该是比较低的，否则就是你对流失用户的定义不够准确，应该适当延长定义流失的时间间隔。
　　所以其实在我们获得某些用户统计指标之后，通过计算同时也获得了诸如老用户、留存用户这些指标。
值得关注的用户指标
　　文章的开头已经提到过，如果你想了解一个网站或者一个产品的用户情况，请尽量抓住那些最为关键的用户指标。如果是我来问，我只会问3个指标：活跃用户数、新用户比例和用户流失率。
　　显而易见，活跃用户数直接反映了网站或者产品真正掌握着多少用户，这些用户并不是因为某些广告或者链接误点进来的，而是真正对这个网站或者产品感兴趣，有意向去使用或者持续关注的。活跃用户数越高，网站或者产品当前拥有的价值越高。但这里有一点需要格外注意，那就是活跃用户的定义，活跃用户跟新用户不一样，活跃用户可能催生各种形形色色的定义，之前的文章——用Engagement衡量用户活跃度对于如何定义用户活跃做过介绍，活跃用户的定义也类似，可以有各种方法。宽松的定义可以让活跃用户“变多”，比如只要访问页面数超过2页或者停留时间超过30秒；而严谨的定义可能会导致活跃用户“减少”，比如微博网站定义平均每天发送微博数量超过2条的才是活跃用户。所以，不同的定义影响着活跃用户的数量，当你问到活跃用户时，一定要了解对方是如何定义活跃用户的。我更偏向于严谨的定义，虽然这会让活跃用户“减少”，但严谨的定义让数据显得更加真实，可以说根据这个定义统计到的用户是那些真正在为网站创造价值的用户。
　　新用户比例反映着网站或产品的推广能力，渠道的铺设和带来的效果。新用户比例不仅是评估市场部门绩效的一个关键指标，同时也是反映网站和产品发展状况的重要指标。
　　但只看新用户比例是不够的，需要结合着用户流失率一起看。我见过流失率98%的网站，也见过流失率20%左右的产品，流失率会根据产品对用户黏性的不同而显得参差不齐。用户流失率反映了网站或者产品保留用户的能力，即新用户比例反映的是用户“进来”的情况，用户流失率反映的是用户“离开”的情况，结合这两个指标会有下面3类情况，代表了3种不同的产品发展阶段：
新用户比例大于用户流失率：产品处于发展成长阶段；
新用户比例与用户流失率持平：产品处于成熟稳定阶段；
新用户比例低于用户流失率：产品处于下滑衰退阶段。
　　下面附上一张反映活跃用户数、新用户比例和用户流失率的图表，你能从这张图中看出些什么，假如你是这个网站的CEO，你接下来需要从哪个角度重点着手来改善网站的运营状况？

　　这篇文章可能没有涉及任何的数据和分析，这里只想理清楚用户的细分和指标，当这套用户的细分和指标体系规范化了以后，能够让用户分析变得游刃有余。

 　&#187; 本文采用  BY-NC-SA 协议，转载请注明来源：网站数据分析 &#187; 《值得关注的用户指标》



相关文章:网站的活跃用户与流失用户
网站用户的生命周期价值
网站用户忠诚度分析



相关文章:<ol><li><a href='http://webdataanalysis.net/web-quantitative-analysis/active-and-wastage-users/' rel='bookmark' title='Permanent Link: 网站的活跃用户与流失用户'>网站的活跃用户与流失用户</a></li>
<li><a href='http://webdataanalysis.net/personal-view/customer-lifetime-value/' rel='bookmark' title='Permanent Link: 网站用户的生命周期价值'>网站用户的生命周期价值</a></li>
<li><a href='http://webdataanalysis.net/web-quantitative-analysis/user-loyalty-analysis/' rel='bookmark' title='Permanent Link: 网站用户忠诚度分析'>网站用户忠诚度分析</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><a href="http://webdataanalysis.net/wp-content/uploads/2011/03/focus-metrics.jpg" target="_blank" rel="lightbox[954]"><img class="alignleft size-full wp-image-955" title="值得关注的用户指标" src="http://webdataanalysis.net/wp-content/uploads/2011/03/focus-metrics.jpg" alt="focus-metrics" width="268" height="200" /></a>　　最近最常被问到的就是一些用户的统计指标，无论是决策层还是产品部门，所以这篇文章重点说下用户指标的一些内容。</p>
<p>　　假设你想用尽量简洁有效的数据了解一个网站或产品的用户情况，你会问哪几个用户数据？其实一个聪明的提问者永远不会问网站的累计用户数有多少，甚至不会问网站的UV是多少，因为这些指标都不能从真正意义上去反映网站的价值和发展状况。</p>
<p>　　举个简单的例子——网秦，累计用户数应该不下千万，但这个数字真的能够体现网秦所具备的价值吗？按照网秦的这种运营推广模式，真正的活跃用户有多少，所占比例如何？3·15之后，流失用户又有多少，这个流失率是不是足以让网秦先前辛辛苦苦培养起来的用户基础毁于一旦？所以网秦的发展前景又如何？其实我们可以使用一些更有说服力的用户指标来反映这些情况。</p>
<h3>用户的细分方式</h3>
<p>　　我不建议把用户细分成许许多多的类型，目前为止见过的用户细分的类别也不在少数，罗列出来应该有一大串：当前用户、新老用户、活跃用户、流失用户、留存用户、回访用户、误闯用户、休眠用户、常驻用户、忠诚用户……其实很多的定义或含义是相近的，在分析层面也扮演着类似的指标角色。所以不建议将用户这样混乱无章地分成N个类别，用户的细分关键在于<strong>以合理的体系将用户细分成几个类别，并且每个类别都能发挥其在用户分析上的功效，不存在累赘和混淆</strong>。</p>
<p>　　所以这里想介绍下我认为比较合理的用户细分方式。我将用户分成以下几类：<strong>当前使用用户</strong>、<strong>新用户</strong>、<strong>活跃用户</strong>、<strong>流失用户</strong>、<strong>回访用户</strong>，下面来简单的解释下。</p>
<p>　　<strong>当前使用用户</strong>：即我们平常所说的UV，也就是网站的登录或者使用用户数。用于体现网站的当前运营状况。</p>
<p>　　<strong>新用户</strong>：首次访问或者刚刚注册的用户；那么那些不是首次来访的用户就是老用户，于是同时也获得了老用户的统计。用于分析网站的推广效果或者成长空间。</p>
<p>　　<strong>活跃用户数</strong>：活跃用户的定义千差万别，一般定义有关键动作或者行为达到某个要求时的用户为活跃用户；每个网站应该根据自身的产品特定定义活跃用户。活跃用户用于分析网站真正掌握了多少有价值用户。</p>
<p>　　<strong>流失用户</strong>：<a href="http://webdataanalysis.net/web-quantitative-analysis/active-and-wastage-users/" target="_blank">网站的活跃用户与流失用户</a>中已经做了定义和介绍，用于分析网站保留用户的能力。我们将那些未流失的用户叫做留存用户，可以通过总使用用户数减去流失用户数计算得到。</p>
<p>　　<strong>回访用户</strong>：是指那些之前已经流失，但之后又重新访问你的网站的用户。用于分析网站对挽回流失用户的能力（常常会受到那些很久没有登录的网站给你发的邮件吧，让你回去看看，这些措施就是他们在挽留那些流失用户）。除非近期内执行了一些挽留流失用户的手段，正常情况下回访用户的比例应该是比较低的，否则就是你对流失用户的定义不够准确，应该适当延长定义流失的时间间隔。</p>
<p>　　所以其实在我们获得某些用户统计指标之后，通过计算同时也获得了诸如老用户、留存用户这些指标。</p>
<h3>值得关注的用户指标</h3>
<p>　　文章的开头已经提到过，如果你想了解一个网站或者一个产品的用户情况，请尽量抓住那些最为关键的用户指标。如果是我来问，我只会问3个指标：<strong>活跃用户数</strong>、<strong>新用户比例</strong>和<strong>用户流失率</strong>。</p>
<p>　　显而易见，活跃用户数直接反映了网站或者产品真正掌握着多少用户，这些用户并不是因为某些广告或者链接误点进来的，而是真正对这个网站或者产品感兴趣，有意向去使用或者持续关注的。<strong>活跃用户数越高，网站或者产品当前拥有的价值越高</strong>。但这里有一点需要格外注意，那就是活跃用户的定义，活跃用户跟新用户不一样，活跃用户可能催生各种形形色色的定义，之前的文章——<a href="http://webdataanalysis.net/web-quantitative-analysis/use-engagement-measuring-activity/" target="_blank">用Engagement衡量用户活跃度</a>对于如何定义用户活跃做过介绍，活跃用户的定义也类似，可以有各种方法。宽松的定义可以让活跃用户“变多”，比如只要访问页面数超过2页或者停留时间超过30秒；而严谨的定义可能会导致活跃用户“减少”，比如微博网站定义平均每天发送微博数量超过2条的才是活跃用户。所以，<strong>不同的定义影响着活跃用户的数量，当你问到活跃用户时，一定要了解对方是如何定义活跃用户的</strong>。我更偏向于严谨的定义，虽然这会让活跃用户“减少”，但严谨的定义让数据显得更加真实，可以说根据这个定义统计到的用户是那些真正在为网站创造价值的用户。</p>
<p>　　新用户比例反映着网站或产品的推广能力，渠道的铺设和带来的效果。新用户比例不仅是评估市场部门绩效的一个关键指标，同时也是反映网站和产品发展状况的重要指标。</p>
<p>　　但只看新用户比例是不够的，需要结合着用户流失率一起看。我见过流失率98%的网站，也见过流失率20%左右的产品，流失率会根据产品对用户黏性的不同而显得参差不齐。用户流失率反映了网站或者产品保留用户的能力，即新用户比例反映的是用户“进来”的情况，用户流失率反映的是用户“离开”的情况，结合这两个指标会有下面3类情况，代表了3种不同的产品发展阶段：</p>
<blockquote><p>新用户比例大于用户流失率：产品处于发展成长阶段；</p>
<p>新用户比例与用户流失率持平：产品处于成熟稳定阶段；</p>
<p>新用户比例低于用户流失率：产品处于下滑衰退阶段。</p></blockquote>
<p>　　下面附上一张反映活跃用户数、新用户比例和用户流失率的图表，你能从这张图中看出些什么，假如你是这个网站的CEO，你接下来需要从哪个角度重点着手来改善网站的运营状况？</p>
<p style="text-align: center;"><a href="http://webdataanalysis.net/wp-content/uploads/2011/03/key-user-metrics.jpg" target="_blank" rel="lightbox[954]"><img class="aligncenter size-full wp-image-956" title="活跃用户数、新用户比例、用户流失率" src="http://webdataanalysis.net/wp-content/uploads/2011/03/key-user-metrics.jpg" alt="key-user-metrics" width="485" height="227" /></a></p>
<p>　　这篇文章可能没有涉及任何的数据和分析，这里只想理清楚用户的细分和指标，当这套用户的细分和指标体系规范化了以后，能够让用户分析变得游刃有余。<br /></br><br />
<blockquote>
<div> 　&raquo; 本文采用 <a rel="license external nofollow" title="cc by-nc-sa" href="http://creativecommons.org/licenses/by-nc-sa/3.0/" target="_blank"> BY-NC-SA </a>协议，转载请注明来源：<a title="网站数据分析" href="http://webdataanalysis.net/">网站数据分析</a> &raquo; <a rel="bookmark" title="值得关注的用户指标" href="http://webdataanalysis.net/personal-view/key-user-metrics/">《值得关注的用户指标》</a></div>
</blockquote>
<div id="wp-share-list-container"></div>

<p>相关文章:<ol><li><a href='http://webdataanalysis.net/web-quantitative-analysis/active-and-wastage-users/' rel='bookmark' title='Permanent Link: 网站的活跃用户与流失用户'>网站的活跃用户与流失用户</a></li>
<li><a href='http://webdataanalysis.net/personal-view/customer-lifetime-value/' rel='bookmark' title='Permanent Link: 网站用户的生命周期价值'>网站用户的生命周期价值</a></li>
<li><a href='http://webdataanalysis.net/web-quantitative-analysis/user-loyalty-analysis/' rel='bookmark' title='Permanent Link: 网站用户忠诚度分析'>网站用户忠诚度分析</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://webdataanalysis.net/personal-view/key-user-metrics/feed/</wfw:commentRss>
		<slash:comments>17</slash:comments>
		</item>
		<item>
		<title>排行榜与随机数</title>
		<link>http://webdataanalysis.net/personal-view/ranking-and-random/</link>
		<comments>http://webdataanalysis.net/personal-view/ranking-and-random/#comments</comments>
		<pubDate>Sun, 13 Mar 2011 09:45:35 +0000</pubDate>
		<dc:creator>joegh</dc:creator>
				<category><![CDATA[个人观点分享]]></category>

		<guid isPermaLink="false">http://webdataanalysis.net/?p=940</guid>
		<description><![CDATA[　　下面要介绍的内容也是前几天在工作中实际遇到并尝试去解决的一个问题。公司有一个优秀的团队，每个人都在思考如何解决目前存在的一些不合理的问题，无论是产品设计、内容运营还是后台架构。下面解决的问题就是源于一个数据的需求，根据需求进行设计和总结思考，同时也需要不断尝试着进行调整和优化。
　　其实无论是电子商务网站的商品交易量、内容网站的页面浏览量还是资源网站的资源下载量，大部分都会存在排行榜这个东西。排行榜提供了一个热门信息的入口，也是口碑营销和用户从众心理的典型体现。但对于一个优秀的网站而言，80%以上都不会用自然排名，多少会动一些“小手脚”，那不是在欺骗用户吗？是的，我们有时候确实在做这样的事情。而相比那些金钱驱动的对用户不负责任的更改排名的方式（大家应该都懂的），下面介绍的更改排名的小技巧对用户而言绝对是“美丽的谎言”。
自然排名的弊端
　　先来看看如果网站完全按照自然规则来定制排行榜会出现怎么样的情况：

　　当然可能没有这么夸张，但排行上的内容保持1个月甚至3个月都没有变化还是有可能的。网民的从众心理是不容忽视的，对于一个在网站没有明确目的四处闲逛的用户来说，各类排行榜变成了他们最好的入口；或者我们可以从数据的层面来解释下这个问题，一般排行榜会挂在网站的什么位置？首页，分类索引页，侧边栏？反正是那些用户容易看到，能够轻易点击的地方，这些页面或位置的共同特点就是高曝光，以首页为例，来看看我的博客的曝光排名前5的页面：

　　从数据中可以看到首页的浏览量差不多是其他页面的10倍，所以对于一个资源而言，是否放入排行榜将会导致至少有5倍左右的曝光量的差异，即如果要完成同样的转化目标，未放入排行榜的商品需要比放入排行榜的商品高出4倍的转化率，对于同样的商品，如果放在排行榜只要4%的转化就可以完成100个交易，那么如果把它撤出排行榜同样要完成100个交易就需要高达20%的转化，简直就是天壤之别，这就是排行榜的魔力。
　　这就是所谓的马太效应，是一个非常有趣的现象，但无论对于网站还是用户而言，马太效应的存在都是不利的，网站无法将那些排行之外的有潜力的商品推销出去，而用户同样会看不到那些排行榜之外更有价值的产品。所以我们需要设法去规避马太效应。
如何规避马太效应
　　马太效应（Matthew Effect），简单地说就是“强者愈强，弱者愈弱”。不得不承认马太效应是一个极其强大的自然法则，全世界都在试图规避这个法则，但又有多少能够真正的解决问题的。这个在经济、社会学界让人十分头疼的问题似乎在互联网这个虚拟的领域还是存在许多解决方案的，其中一个在其他领域绝对无法适用的方法就是——随机数。
　　其实在排行榜中规避马太效应的方法有很多，如果网站的数据和运算平台足够强大，完全可以借助一些算法去有效地解决这个问题，之前我也介绍过一个有效的内容推荐方法，或者如果能根据用户行为分析的结果提供根据用户兴趣定制的个性化排行榜，那下面的内容你可能就不必再看下去了。但对于一个小型网站或者刚刚起步数据还不是很全的新产品而言，随机数将会是规避马太效应的一个最简单有效的方法。
　　产生随机数的方法有很多，随机数也有很多不同类型，比如常见的取值范围在(0,1]的两位小数，或者是随机生成1到100的自然数。更改排行榜的方法也有很多，下面就用1-100的自然随机数来例举几个我想到的调整TOP10排行榜的方法：
随机排行方法1
　　调整策略：在前30名内容中随机取10个放入排行榜。
　　实现方式：为前30名的每个内容分配一个随机数，然后根据随机数排序取前10。
　　适用情况：同样适用前50或者前100打乱次序后随机取10，但是无论是前30还是50的内容排名上不能存在太显著的差异，比如热门书籍，可能前30本书的热门度差异并没有那么明显，那么就可以使用这种随机排序法。
随机排行方法2
　　调整策略：将排行榜的8、9、10名替换成11-20、21-30、31-40中各取一个随机内容。
　　实现方式：其实就是生成11-20、21-30、31-40范围的3个随机数，放到排行榜的8、9、10三个位置，先对1-100的随机数做一个简单处理，将其除以10 取余数，于是就相当于是0-9的随机数，在分别加上11、21、31就生成了11-20、21-30、31-40范围的3个随机数，取相应的内容放到排行榜即可。
　　适用情况：存在明显的明星产品，比如软件下载网站的下载前几名会一直被某些软件占据，这些软件确实是用户最常用的软件，跟其他软件的下载量存在显著差距，这个时候就不要去动排名前几的产品，而只要随机变动排名后几位的产品就行。
随机排行方法3
　　调整策略：随机取排行榜中的1个位置来放置推荐的内容。
　　实现方式：有了上面的例子，这个实现起来就比较简单了，其实就是生成一个1-10的随机数，先将1-100的随机数除以10 取余数，再加1即可，再将排行榜上这个随机数的内容替换成推荐内容即可。
　　适用情况：已经有现成的优质内容希望推荐给用户，并能够预期到这些内容很有可能在将来会上排行榜的。
　　好了，上面就是我所列举的几个使用随机数改变排行榜来有效规避马太效应的实际应用，你是不是有更好的想法和方案，在评论中与我分享吧。

 　&#187; 本文采用  BY-NC-SA 协议，转载请注明来源：网站数据分析 &#187; 《排行榜与随机数》



相关文章:基于KNN的相关内容推荐
时间序列的趋势分析
关于实时数据统计



相关文章:<ol><li><a href='http://webdataanalysis.net/personal-view/knn-relevant-content/' rel='bookmark' title='Permanent Link: 基于KNN的相关内容推荐'>基于KNN的相关内容推荐</a></li>
<li><a href='http://webdataanalysis.net/personal-view/time-series-analysis/' rel='bookmark' title='Permanent Link: 时间序列的趋势分析'>时间序列的趋势分析</a></li>
<li><a href='http://webdataanalysis.net/personal-view/real-time-data/' rel='bookmark' title='Permanent Link: 关于实时数据统计'>关于实时数据统计</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><a href="http://webdataanalysis.net/wp-content/uploads/2011/03/top10-list.jpg" target="_blank" rel="lightbox[940]"><img class="alignleft size-full wp-image-941" title="排行榜与随机数" src="http://webdataanalysis.net/wp-content/uploads/2011/03/top10-list.jpg" alt="top10-list" width="210" height="210" /></a>　　下面要介绍的内容也是前几天在工作中实际遇到并尝试去解决的一个问题。公司有一个优秀的团队，每个人都在思考如何解决目前存在的一些不合理的问题，无论是产品设计、内容运营还是后台架构。下面解决的问题就是源于一个数据的需求，根据需求进行设计和总结思考，同时也需要不断尝试着进行调整和优化。</p>
<p>　　其实无论是电子商务网站的商品交易量、内容网站的页面浏览量还是资源网站的资源下载量，大部分都会存在排行榜这个东西。排行榜提供了一个热门信息的入口，也是口碑营销和用户从众心理的典型体现。但对于一个优秀的网站而言，80%以上都不会用自然排名，多少会动一些“小手脚”，那不是在欺骗用户吗？是的，我们有时候确实在做这样的事情。而相比那些金钱驱动的对用户不负责任的更改排名的方式（大家应该都懂的），下面介绍的更改排名的小技巧对用户而言绝对是“美丽的谎言”。</p>
<h3>自然排名的弊端</h3>
<p>　　先来看看如果网站完全按照自然规则来定制排行榜会出现怎么样的情况：</p>
<p><a href="http://webdataanalysis.net/wp-content/uploads/2011/03/Ranking-changing.jpg" rel="lightbox[940]"><img class="aligncenter size-full wp-image-942" title="排行榜变化" src="http://webdataanalysis.net/wp-content/uploads/2011/03/Ranking-changing.jpg" alt="Ranking-changing" width="600" height="312" /></a></p>
<p>　　当然可能没有这么夸张，但排行上的内容保持1个月甚至3个月都没有变化还是有可能的。网民的从众心理是不容忽视的，对于一个在网站没有明确目的四处闲逛的用户来说，各类排行榜变成了他们最好的入口；或者我们可以从数据的层面来解释下这个问题，一般排行榜会挂在网站的什么位置？首页，分类索引页，侧边栏？反正是那些用户容易看到，能够轻易点击的地方，这些页面或位置的共同特点就是高曝光，以首页为例，来看看我的博客的曝光排名前5的页面：</p>
<p style="text-align: center;"><a href="http://webdataanalysis.net/wp-content/uploads/2011/03/GA-pageviews-top5.jpg" target="_blank" rel="lightbox[940]"><img class="aligncenter size-full wp-image-943" title="GA页面浏览TOP5" src="http://webdataanalysis.net/wp-content/uploads/2011/03/GA-pageviews-top5.jpg" alt="GA-pageviews-top5" width="332" height="146" /></a></p>
<p>　　从数据中可以看到首页的浏览量差不多是其他页面的10倍，所以对于一个资源而言，是否放入排行榜将会导致至少有5倍左右的曝光量的差异，即如果要完成同样的转化目标，未放入排行榜的商品需要比放入排行榜的商品高出4倍的转化率，对于同样的商品，如果放在排行榜只要4%的转化就可以完成100个交易，那么如果把它撤出排行榜同样要完成100个交易就需要高达20%的转化，简直就是天壤之别，这就是排行榜的魔力。</p>
<p>　　这就是所谓的马太效应，是一个非常有趣的现象，但无论对于网站还是用户而言，马太效应的存在都是不利的，网站无法将那些排行之外的有潜力的商品推销出去，而用户同样会看不到那些排行榜之外更有价值的产品。所以我们需要设法去规避马太效应。</p>
<h3>如何规避马太效应</h3>
<p>　　马太效应（Matthew Effect），简单地说就是“强者愈强，弱者愈弱”。不得不承认马太效应是一个极其强大的自然法则，全世界都在试图规避这个法则，但又有多少能够真正的解决问题的。这个在经济、社会学界让人十分头疼的问题似乎在互联网这个虚拟的领域还是存在许多解决方案的，其中一个在其他领域绝对无法适用的方法就是——随机数。</p>
<p>　　其实在排行榜中规避马太效应的方法有很多，如果网站的数据和运算平台足够强大，完全可以借助一些算法去有效地解决这个问题，之前我也介绍过<a href="http://webdataanalysis.net/personal-view/useful-recommendation/" target="_blank">一个有效的内容推荐方法</a>，或者如果能根据用户行为分析的结果提供根据用户兴趣定制的个性化排行榜，那下面的内容你可能就不必再看下去了。但对于一个小型网站或者刚刚起步数据还不是很全的新产品而言，随机数将会是规避马太效应的一个最简单有效的方法。</p>
<p>　　产生随机数的方法有很多，随机数也有很多不同类型，比如常见的取值范围在(0,1]的两位小数，或者是随机生成1到100的自然数。更改排行榜的方法也有很多，下面就用1-100的自然随机数来例举几个我想到的调整TOP10排行榜的方法：</p>
<h4>随机排行方法1</h4>
<p>　　<strong>调整策略</strong>：在前30名内容中随机取10个放入排行榜。</p>
<p>　　<strong>实现方式</strong>：为前30名的每个内容分配一个随机数，然后根据随机数排序取前10。</p>
<p>　　<strong>适用情况</strong>：同样适用前50或者前100打乱次序后随机取10，但是无论是前30还是50的内容排名上不能存在太显著的差异，比如热门书籍，可能前30本书的热门度差异并没有那么明显，那么就可以使用这种随机排序法。</p>
<h4>随机排行方法2</h4>
<p>　　<strong>调整策略</strong>：将排行榜的8、9、10名替换成11-20、21-30、31-40中各取一个随机内容。</p>
<p>　　<strong>实现方式</strong>：其实就是生成11-20、21-30、31-40范围的3个随机数，放到排行榜的8、9、10三个位置，先对1-100的随机数做一个简单处理，将其除以10 取余数，于是就相当于是0-9的随机数，在分别加上11、21、31就生成了11-20、21-30、31-40范围的3个随机数，取相应的内容放到排行榜即可。</p>
<p>　　<strong>适用情况</strong>：存在明显的明星产品，比如软件下载网站的下载前几名会一直被某些软件占据，这些软件确实是用户最常用的软件，跟其他软件的下载量存在显著差距，这个时候就不要去动排名前几的产品，而只要随机变动排名后几位的产品就行。</p>
<h4>随机排行方法3</h4>
<p>　　<strong>调整策略</strong>：随机取排行榜中的1个位置来放置推荐的内容。</p>
<p>　　<strong>实现方式</strong>：有了上面的例子，这个实现起来就比较简单了，其实就是生成一个1-10的随机数，先将1-100的随机数除以10 取余数，再加1即可，再将排行榜上这个随机数的内容替换成推荐内容即可。</p>
<p>　　<strong>适用情况</strong>：已经有现成的优质内容希望推荐给用户，并能够预期到这些内容很有可能在将来会上排行榜的。</p>
<p>　　好了，上面就是我所列举的几个使用随机数改变排行榜来有效规避马太效应的实际应用，你是不是有更好的想法和方案，在评论中与我分享吧。<br /></br><br />
<blockquote>
<div> 　&raquo; 本文采用 <a rel="license external nofollow" title="cc by-nc-sa" href="http://creativecommons.org/licenses/by-nc-sa/3.0/" target="_blank"> BY-NC-SA </a>协议，转载请注明来源：<a title="网站数据分析" href="http://webdataanalysis.net/">网站数据分析</a> &raquo; <a rel="bookmark" title="排行榜与随机数" href="http://webdataanalysis.net/personal-view/ranking-and-random/">《排行榜与随机数》</a></div>
</blockquote>
<div id="wp-share-list-container"></div>

<p>相关文章:<ol><li><a href='http://webdataanalysis.net/personal-view/knn-relevant-content/' rel='bookmark' title='Permanent Link: 基于KNN的相关内容推荐'>基于KNN的相关内容推荐</a></li>
<li><a href='http://webdataanalysis.net/personal-view/time-series-analysis/' rel='bookmark' title='Permanent Link: 时间序列的趋势分析'>时间序列的趋势分析</a></li>
<li><a href='http://webdataanalysis.net/personal-view/real-time-data/' rel='bookmark' title='Permanent Link: 关于实时数据统计'>关于实时数据统计</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://webdataanalysis.net/personal-view/ranking-and-random/feed/</wfw:commentRss>
		<slash:comments>10</slash:comments>
		</item>
		<item>
		<title>关键转化路径优化</title>
		<link>http://webdataanalysis.net/personal-view/path-optimization/</link>
		<comments>http://webdataanalysis.net/personal-view/path-optimization/#comments</comments>
		<pubDate>Sun, 20 Feb 2011 07:59:18 +0000</pubDate>
		<dc:creator>joegh</dc:creator>
				<category><![CDATA[个人观点分享]]></category>
		<category><![CDATA[电子商务]]></category>
		<category><![CDATA[转化率]]></category>

		<guid isPermaLink="false">http://webdataanalysis.net/?p=928</guid>
		<description><![CDATA[　　其实网站分析中很重要的一块就是网站的关键转化路径分析，可能很多的网站分析师在这一方面都倾注了大量的时间和精力，尽最大的努力寻找最优的转化路径，因为优化关键转化路径相当于提高转化率，进而提高网站收益。所以，尤其对于电子商务网站或者付费服务网站而言，关键转化路径分析尤为重要。之前的文章——网站转化率与漏斗模型对关键路径的定义和分析做过简单介绍，同时推荐了一个非常形象的数据展现方式——漏斗模型，能够让每一步的转化看起来一目了然。
　　既然对关键路径和转化率的定义和计算已经做过介绍，这篇文章不再累赘，这里只是想分享一下近段时间在统计关键路径的数据时对数据表现出的特征的一些感受，不知道跟大家日常看到的想到的是否一样。
　　其实对网站转化路径的优化无非就是一句话：简化、多样化关键转化路径。
简化转化路径
　　简化转化路径是近些年在关键转化路径分析优化方面讨论的较多的，同时大部分网站也都是朝这个方向在做，也带来了不错的效果。简单看一下电子商务网站转化路径的简化流程：

　　首先是把放入购物车作为了可选步骤，而不是必需步骤，购物车可以为购买多种商品的顾客带来方便，因为可以统一下单，也就是只需要完成一次订单填写和确认的工作；而对于只购买了一样商品的用户而言，显然放入购物车步骤是一个累赘，直接拿着商品结账就完了。
　　再者就是前段时间网上讨论很多的对注册和登录步骤的简化，用户选择购物和选择成为网站的会员完全是两码事，为什么买东西就一定要先注册成为网站用户？就像你去超市买东西为什么一定要办一张会员卡。当然注册成为网站会员可以为你下次的购买带来不少的方便，对于网站而言，只有用户注册才能构建器网站完整的CRM系统，实现用户的跟踪分析和用户的保留，所以一度注册登录是网上购物的必需步骤。但随着去年团购网站的纷纷涌现，用户对去每个网站消费都要注册一遍感到了厌烦，于是就有了简化注册的讨论，毕竟给网站带来直接利益的还是用户的购买行为，没有必要因为注册步骤的存在而引起潜在消费用户的流失。
多样化转化路径
　　其实上面说的“放入购物车”从必需的步骤到可选的步骤就是一个转化路径多样化的实现，这种灵活的选择同时满足了购买单独商品和购买多种商品的用户需求；但这里要说的是另一种多样化的形式。
　　先简单再看下上面的转化步骤，有哪几个是必需的步骤？商品、订单和支付，这3个分别代表了信息流、物流和资金流，是必需的（对于某些不需要物流的虚拟商品而言，订单步骤也是可以省略的，这里不考虑这类商品）。所以最简单的转化路径应该是：

　　跟上面简化后的步骤比较下：

　　少了一个浏览商品详情页面的步骤，我们先不去讨论这个步骤到底是否是必需的，先看下数据能告诉我们什么？
　　刚好公司的产品同时提供了以上的两种转化路径，可以通过数据来分析一下这两种路径哪个更加有效。不妨将上面那条最简化路径叫做路径1，下面的叫路径2，先看下用户的选择，有多少用户选择路径1完成购买，数据的结果大概是50%，也就是选择路径1和路径2的用户几乎相等；再看看下从“确认订单”到“完成支付”的转化情况，这是两条路径都有的转化，数据显示路径1的转化率要比路径2高了30%，可以看到选择路径1的用户具有更加明确的目的性，就是为了完成购买；那是不是如果只提供路径2一种选择，那些有明确购买目的的用户即使走路径2也会产生跟路径1一样的转化质量呢？这个显然是不可能的，一旦转化步骤多了一步，肯定会多多少少伴随着部分用户的流失，数据显示如果只提供路径2，整体转化率要比提供两条路径低了20%左右，所以对于这个案例，提供两条转化路径对于整体转化率的提升上显然是有效的。
　　当然每个数据分析的结果都是以运营环境及产品业务的特征为基础的，在不同的商业模式下完全相同的分析指标可能得到的是完全不同的结果。所以需要对以上数据的环境做个说明：移动互联网的网络环境使用户多请求一个页面的成本相对较高；产品的规格比较统一，差异性小，质量比较稳定；运营的商品价格较低，对于用户而言购买的风险相对较低。
　　现在再来回答上面的问题——商品详情页面是不是必需的？用户总是在寻求最简单有效的实现途径来降低成本，但同时也会担心风险的存在，而不同的用户对待风险的态度又会有所不同，诸如上述的运营环境，当风险相对较小时，会有相当一部分用户选择最简化的转化途径来满足自身的需求，同时那些较为严谨的用户也有更多的选择来屏蔽风险。所以转化路径的多样化指的是根据自身产品和业务的特征，定制多种的转化路径来满足不同用户的需求。假设卓越首页也上加上这样的“立即购买”按钮，不知道会有多少用户会选择去点击这些按钮：

　　最后总结起来无非就是一句话：给用户更多的选择。还是以用户中心的理论，不要因为网站自身的需要而给用户造成额外的麻烦和负担，给用户更多的选择和自由，只要用户参与进来了，就是在为网站创造价值，而网站存在的本质无非就是体现其应有的价值。


 　&#187; 本文采用  BY-NC-SA 协议，转载请注明来源：网站数据分析 &#187; 《关键转化路径优化》



相关文章:网站转化率与漏斗模型
直邮营销分析（下）
网站分析的应用和价值



相关文章:<ol><li><a href='http://webdataanalysis.net/web-quantitative-analysis/conversion-rate-and-funnel-model/' rel='bookmark' title='Permanent Link: 网站转化率与漏斗模型'>网站转化率与漏斗模型</a></li>
<li><a href='http://webdataanalysis.net/personal-view/direct-mail-analysis-2/' rel='bookmark' title='Permanent Link: 直邮营销分析（下）'>直邮营销分析（下）</a></li>
<li><a href='http://webdataanalysis.net/personal-view/effect-of-web-analytics/' rel='bookmark' title='Permanent Link: 网站分析的应用和价值'>网站分析的应用和价值</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　其实网站分析中很重要的一块就是网站的关键转化路径分析，可能很多的网站分析师在这一方面都倾注了大量的时间和精力，尽最大的努力寻找最优的转化路径，因为优化关键转化路径相当于提高转化率，进而提高网站收益。所以，尤其对于电子商务网站或者付费服务网站而言，关键转化路径分析尤为重要。之前的文章——<a href="http://webdataanalysis.net/web-quantitative-analysis/conversion-rate-and-funnel-model/" target="_blank">网站转化率与漏斗模型</a>对关键路径的定义和分析做过简单介绍，同时推荐了一个非常形象的数据展现方式——漏斗模型，能够让每一步的转化看起来一目了然。</p>
<p>　　既然对关键路径和转化率的定义和计算已经做过介绍，这篇文章不再累赘，这里只是想分享一下近段时间在统计关键路径的数据时对数据表现出的特征的一些感受，不知道跟大家日常看到的想到的是否一样。</p>
<p>　　其实对网站转化路径的优化无非就是一句话：<strong>简化、多样化关键转化路径</strong>。</p>
<h3>简化转化路径</h3>
<p>　　简化转化路径是近些年在关键转化路径分析优化方面讨论的较多的，同时大部分网站也都是朝这个方向在做，也带来了不错的效果。简单看一下电子商务网站转化路径的简化流程：</p>
<p style="text-align: center;"><a href="http://webdataanalysis.net/wp-content/uploads/2011/02/original_path.jpg" target="_blank" rel="lightbox[928]"><img class="aligncenter size-full wp-image-929" title="原始转化路径" src="http://webdataanalysis.net/wp-content/uploads/2011/02/original_path.jpg" alt="original_path" width="560" height="119" /></a></p>
<p>　　首先是把放入购物车作为了可选步骤，而不是必需步骤，购物车可以为购买多种商品的顾客带来方便，因为可以统一下单，也就是只需要完成一次订单填写和确认的工作；而对于只购买了一样商品的用户而言，显然放入购物车步骤是一个累赘，直接拿着商品结账就完了。</p>
<p>　　再者就是前段时间网上讨论很多的对注册和登录步骤的简化，用户选择购物和选择成为网站的会员完全是两码事，为什么买东西就一定要先注册成为网站用户？就像你去超市买东西为什么一定要办一张会员卡。当然注册成为网站会员可以为你下次的购买带来不少的方便，对于网站而言，只有用户注册才能构建器网站完整的CRM系统，实现用户的跟踪分析和用户的保留，所以一度注册登录是网上购物的必需步骤。但随着去年团购网站的纷纷涌现，用户对去每个网站消费都要注册一遍感到了厌烦，于是就有了简化注册的讨论，毕竟给网站带来直接利益的还是用户的购买行为，没有必要因为注册步骤的存在而引起潜在消费用户的流失。</p>
<h3>多样化转化路径</h3>
<p>　　其实上面说的“放入购物车”从必需的步骤到可选的步骤就是一个转化路径多样化的实现，这种灵活的选择同时满足了购买单独商品和购买多种商品的用户需求；但这里要说的是另一种多样化的形式。</p>
<p>　　先简单再看下上面的转化步骤，有哪几个是必需的步骤？商品、订单和支付，这3个分别代表了信息流、物流和资金流，是必需的（对于某些不需要物流的虚拟商品而言，订单步骤也是可以省略的，这里不考虑这类商品）。所以最简单的转化路径应该是：</p>
<p style="text-align: center;"><a href="http://webdataanalysis.net/wp-content/uploads/2011/02/simplest_path.jpg" target="_blank" rel="lightbox[928]"><img class="aligncenter size-full wp-image-930" title="最简转化路径" src="http://webdataanalysis.net/wp-content/uploads/2011/02/simplest_path.jpg" alt="simplest_path" width="363" height="50" /></a></p>
<p>　　跟上面简化后的步骤比较下：</p>
<p style="text-align: center;"><a href="http://webdataanalysis.net/wp-content/uploads/2011/02/simplify_path.jpg" target="_blank" rel="lightbox[928]"><img class="aligncenter size-full wp-image-931" title="简化的转化路径" src="http://webdataanalysis.net/wp-content/uploads/2011/02/simplify_path.jpg" alt="simplify_path" width="426" height="50" /></a></p>
<p>　　少了一个浏览商品详情页面的步骤，我们先不去讨论这个步骤到底是否是必需的，先看下数据能告诉我们什么？</p>
<p>　　刚好公司的产品同时提供了以上的两种转化路径，可以通过数据来分析一下这两种路径哪个更加有效。不妨将上面那条最简化路径叫做路径1，下面的叫路径2，先看下用户的选择，有多少用户选择路径1完成购买，数据的结果大概是50%，也就是选择路径1和路径2的用户几乎相等；再看看下从“确认订单”到“完成支付”的转化情况，这是两条路径都有的转化，数据显示路径1的转化率要比路径2高了30%，可以看到选择路径1的用户具有更加明确的目的性，就是为了完成购买；那是不是如果只提供路径2一种选择，那些有明确购买目的的用户即使走路径2也会产生跟路径1一样的转化质量呢？这个显然是不可能的，一旦转化步骤多了一步，肯定会多多少少伴随着部分用户的流失，数据显示如果只提供路径2，整体转化率要比提供两条路径低了20%左右，所以对于这个案例，提供两条转化路径对于整体转化率的提升上显然是有效的。</p>
<p>　　当然每个数据分析的结果都是以运营环境及产品业务的特征为基础的，在不同的商业模式下完全相同的分析指标可能得到的是完全不同的结果。所以需要对以上数据的环境做个说明：移动互联网的网络环境使用户多请求一个页面的成本相对较高；产品的规格比较统一，差异性小，质量比较稳定；运营的商品价格较低，对于用户而言购买的风险相对较低。</p>
<p>　　现在再来回答上面的问题——商品详情页面是不是必需的？<strong>用户总是在寻求最简单有效的实现途径来降低成本，但同时也会担心风险的存在，而不同的用户对待风险的态度又会有所不同</strong>，诸如上述的运营环境，当风险相对较小时，会有相当一部分用户选择最简化的转化途径来满足自身的需求，同时那些较为严谨的用户也有更多的选择来屏蔽风险。所以转化路径的多样化指的是<strong>根据自身产品和业务的特征，定制多种的转化路径来满足不同用户的需求</strong>。假设卓越首页也上加上这样的“立即购买”按钮，不知道会有多少用户会选择去点击这些按钮：</p>
<p style="text-align: center;"><a href="http://webdataanalysis.net/wp-content/uploads/2011/02/amazon_buy_alternate.jpg" target="_blank" rel="lightbox[928]"><img class="aligncenter size-full wp-image-932" title="卓越首页添加购买按钮" src="http://webdataanalysis.net/wp-content/uploads/2011/02/amazon_buy_alternate.jpg" alt="amazon_buy_alternate" width="538" height="203" /></a></p>
<p>　　最后总结起来无非就是一句话：给用户更多的选择。还是以用户中心的理论，不要因为网站自身的需要而给用户造成额外的麻烦和负担，给用户更多的选择和自由，只要用户参与进来了，就是在为网站创造价值，而网站存在的本质无非就是体现其应有的价值。</p>
<p></br><br />
<blockquote>
<div> 　&raquo; 本文采用 <a rel="license external nofollow" title="cc by-nc-sa" href="http://creativecommons.org/licenses/by-nc-sa/3.0/" target="_blank"> BY-NC-SA </a>协议，转载请注明来源：<a title="网站数据分析" href="http://webdataanalysis.net/">网站数据分析</a> &raquo; <a rel="bookmark" title="关键转化路径优化" href="http://webdataanalysis.net/personal-view/path-optimization/">《关键转化路径优化》</a></div>
</blockquote>
<div id="wp-share-list-container"></div>

<p>相关文章:<ol><li><a href='http://webdataanalysis.net/web-quantitative-analysis/conversion-rate-and-funnel-model/' rel='bookmark' title='Permanent Link: 网站转化率与漏斗模型'>网站转化率与漏斗模型</a></li>
<li><a href='http://webdataanalysis.net/personal-view/direct-mail-analysis-2/' rel='bookmark' title='Permanent Link: 直邮营销分析（下）'>直邮营销分析（下）</a></li>
<li><a href='http://webdataanalysis.net/personal-view/effect-of-web-analytics/' rel='bookmark' title='Permanent Link: 网站分析的应用和价值'>网站分析的应用和价值</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://webdataanalysis.net/personal-view/path-optimization/feed/</wfw:commentRss>
		<slash:comments>15</slash:comments>
		</item>
		<item>
		<title>数据的报表和报告</title>
		<link>http://webdataanalysis.net/personal-view/data-report/</link>
		<comments>http://webdataanalysis.net/personal-view/data-report/#comments</comments>
		<pubDate>Sun, 30 Jan 2011 14:14:07 +0000</pubDate>
		<dc:creator>joegh</dc:creator>
				<category><![CDATA[个人观点分享]]></category>

		<guid isPermaLink="false">http://webdataanalysis.net/?p=920</guid>
		<description><![CDATA[　　最近一直很忙，所以博客的更新频率会相对慢一点。今天想聊聊关于数据展现方面的几个看法，数据在后台经过各种的计算和处理最终得到了一些合理和直观的指标，我们需要将这些指标展现给数据的需求方，其中就会涉及数据的展示方式和数据的可视化的问题。可能这些问题日常并不被数据处理人员所重视，数据处理人员更关心数据的完整性、一致性、准确性和及时性，而对于数据的展现，更多的是只要数据能够到达需求方的手里即可，很少会有人花心思去关注数据的展现是否合理，需求方是否能够理解数据的含义，理解是否一致，数据是否通俗易懂这些问题。但这里需要说的是，其实数据的展示非常重要，它直接影响看数据的人能否用最短的时间去读懂数据、理解数据，去合理地应用数据，让数据产生价值，最终会影响到用户对数据的兴趣，而一旦用户对每天繁琐累赘的数据失去耐心的时候，数据的价值也会随之泯灭。
　　这里主要介绍日常最常提到的两类数据展现方式——报表和报告，从字面上看好像大同小异，但其实两者发挥着截然不同的功效。
报表
　　说起报表大家都不会陌生，数据分析师每天都需要看各类形形色色的报表。报表主要展现的是数据的值、趋势、比例等，所以报表只能体现数据上的表现，数据的异常和变化情况。
　　报表的展现方式主要包括两类，一类是目前最常见的WEB报表，基于B/S架构的报表系统可以提供支持多人同时登陆和查看相关的数据；另一类就是基于客户端的数据展现，最常见的就是我们会用Excel来制作报表。
　　WEB端的报表可以直接通过浏览器登录进行查看，最常见的就是Google Analytics、百度统计等第三方网站分析工具的数据展现，将数据托管到了它们的服务器上提供SaaS的服务；

　　WEB报表另一类就是BI报表工具，与第三方工具的不同之处在于系统搭建在自己的服务器上，数据自然也保存在本方，能够保证数据的隐私和安全。定制性也会比第三方工具高一些，除了提供自定义Dashboard、简单的数据筛选等功能外，还可以自己制作报表、定制图表，提供各类Query和Hint组件，而且随着BI功能的不断发展，大部分的BI报表都提供了多维模型的制作和OLAP的展现。国外知名的BI工具包括IBM的Cognos，Oracle的BIEE及SAP的BO(Business Object)，国内比较熟悉的水晶报表是BO面向中心企业的一套解决方案；开源的BI工具在国内用的最普遍，文档资源最丰富的要数Pentaho；国内的BI工具目前不多，前段时间发现用友有个BQ的商务智能平台，但没有细致了解，所以不好评述。

　　客户端的报表将数据读取到本地进行查看，所以优势在于数据的响应速度很快，可以随意的更改和处理数据，不用顾忌对原数据的损坏，所以最大的好处就在于对数据操作的灵活性；而相应的不足就在于数据并不是最新的，每次需要去刷新数据，当遇到数据量比较大时，刷新的效率就会很低，并且对于能够承受的加载数据量也没有WEB端多。所以这也是目前WEB报表比较流行的原因。
报告
　　报告所体现的作用其实与报表截然不同，报表所能解释的问题仅限于数据层面，而报告则丰富得多，报告应该能够从各方面，包括产品状况、运营状况、市场推广状况、销售状况甚至总体的战略经营状况，对数据的表现提供业务和决策层面解释，从而分析和总结业务和决策上的问题，为有效的优化提供支持。
　　所以报告是对报表的一种提炼，不再局限于数据本身，而是要通过数据去寻找业务层面的原因，所以往往报告上的解释和总结对于公司的整体运营更有价值，报告是数据分析提炼的一个必要环节。
Excel报表实例
　　相信正在看这篇文章的人有99.9%用过Excel来查看、处理和分析数据，所以对于Excel里面一般的表格和图表都在熟悉不过了，我不是使用Excel的佼佼者，所以这里不去班门弄斧了。但从数据分析的角度，其实Excel里面的一类功能非常实用，而且能够非常方便地实现数据的汇总和细分，就是数据透视表。
　　数据透视表是作为报表来展现数据的一种很好的方式，有以下几个优势：

可以连接外部数据源将数据导入Excel，Excel几乎支持所有数据库作为外部数据源，通过数据—获取外部数据来进行数据源的连接数据，并导入数据。
可以实现数据刷新，Excel支持后台、定时和打开刷新这几种数据的更新方式，所以解除了需要手工输入维护数据的烦恼；
支持多种数据聚合方式，求和、计数、平均值、最大最小值等；
支持基本的OLAP操作，包括下钻（展开）、上卷（汇总）、切片（单项筛选）、切块（多项筛选）和旋转（行列交换）。

　　下面是我从Oracle导入制作的一个数据透视表示例，下面提供了Excel文件的下载，大家有兴趣的可以下载过去自己玩玩：

点击下载：Excel透视表示例
　　好了，趁着春节前一小段闲暇跟大家分享了我对报表和报告的理解，以及用Excel制作的一个最简单的交叉透视表，这也是近段时间我所进行的工作的其中一块，希望大家能够受用。无论你现在是不是足够重视数据的可视化，无论你现在有没有精心地去制作各类报表和报告，我想说的是请尊重数据的用户，我们要让用户更愉悦地去看数据，这样才能让用户更好地理解数据和应用数据，而这个正是数据的用户体验所在。
　　最后，提前祝大家春节愉快，跟家人好好聚聚，过一个温暖惬意的春节。

 　&#187; 本文采用  BY-NC-SA 协议，转载请注明来源：网站数据分析 &#187; 《数据的报表和报告》



相关文章:排行榜与随机数
用户需要什么数据？
BI应用中的三大矛盾



相关文章:<ol><li><a href='http://webdataanalysis.net/personal-view/ranking-and-random/' rel='bookmark' title='Permanent Link: 排行榜与随机数'>排行榜与随机数</a></li>
<li><a href='http://webdataanalysis.net/personal-view/what-data-they-want/' rel='bookmark' title='Permanent Link: 用户需要什么数据？'>用户需要什么数据？</a></li>
<li><a href='http://webdataanalysis.net/personal-view/contradiction-of-bi/' rel='bookmark' title='Permanent Link: BI应用中的三大矛盾'>BI应用中的三大矛盾</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　最近一直很忙，所以博客的更新频率会相对慢一点。今天想聊聊关于数据展现方面的几个看法，数据在后台经过各种的计算和处理最终得到了一些合理和直观的指标，我们需要将这些指标展现给数据的需求方，其中就会涉及数据的展示方式和数据的可视化的问题。可能这些问题日常并不被数据处理人员所重视，数据处理人员更关心数据的完整性、一致性、准确性和及时性，而对于数据的展现，更多的是只要数据能够到达需求方的手里即可，很少会有人花心思去关注数据的展现是否合理，需求方是否能够理解数据的含义，理解是否一致，数据是否通俗易懂这些问题。但这里需要说的是，其实数据的展示非常重要，它直接影响看数据的人能否用最短的时间去读懂数据、理解数据，去合理地应用数据，让数据产生价值，最终会影响到用户对数据的兴趣，而一旦用户对每天繁琐累赘的数据失去耐心的时候，数据的价值也会随之泯灭。</p>
<p>　　这里主要介绍日常最常提到的两类数据展现方式——报表和报告，从字面上看好像大同小异，但其实两者发挥着截然不同的功效。</p>
<h3>报表</h3>
<p>　　说起报表大家都不会陌生，数据分析师每天都需要看各类形形色色的报表。报表主要展现的是数据的值、趋势、比例等，所以报表只能体现数据上的表现，数据的异常和变化情况。</p>
<p>　　报表的展现方式主要包括两类，一类是目前最常见的WEB报表，基于B/S架构的报表系统可以提供支持多人同时登陆和查看相关的数据；另一类就是基于客户端的数据展现，最常见的就是我们会用Excel来制作报表。</p>
<p>　　WEB端的报表可以直接通过浏览器登录进行查看，最常见的就是Google Analytics、百度统计等第三方网站分析工具的数据展现，将数据托管到了它们的服务器上提供SaaS的服务；</p>
<p style="text-align: center;"><a href="http://webdataanalysis.net/wp-content/uploads/2011/01/GA-Dashboard.jpg" target="_blank" rel="lightbox[920]"><img class="aligncenter size-full wp-image-921" title="Google Analytics Dashboard" src="http://webdataanalysis.net/wp-content/uploads/2011/01/GA-Dashboard.jpg" alt="GA-Dashboard" width="585" height="225" /></a></p>
<p>　　WEB报表另一类就是BI报表工具，与第三方工具的不同之处在于系统搭建在自己的服务器上，数据自然也保存在本方，能够保证数据的隐私和安全。定制性也会比第三方工具高一些，除了提供自定义Dashboard、简单的数据筛选等功能外，还可以自己制作报表、定制图表，提供各类Query和Hint组件，而且随着BI功能的不断发展，大部分的BI报表都提供了多维模型的制作和OLAP的展现。国外知名的BI工具包括IBM的Cognos，Oracle的BIEE及SAP的BO(Business Object)，国内比较熟悉的水晶报表是BO面向中心企业的一套解决方案；开源的BI工具在国内用的最普遍，文档资源最丰富的要数Pentaho；国内的BI工具目前不多，前段时间发现用友有个BQ的商务智能平台，但没有细致了解，所以不好评述。</p>
<p style="text-align: center;"><a href="http://webdataanalysis.net/wp-content/uploads/2011/01/BI-Dashboard.jpg" target="_blank" rel="lightbox[920]"><img class="aligncenter size-full wp-image-922" title="BI Dashboard" src="http://webdataanalysis.net/wp-content/uploads/2011/01/BI-Dashboard.jpg" alt="BI-Dashboard" width="622" height="398" /></a></p>
<p>　　客户端的报表将数据读取到本地进行查看，所以优势在于数据的响应速度很快，可以随意的更改和处理数据，不用顾忌对原数据的损坏，所以最大的好处就在于对数据操作的灵活性；而相应的不足就在于数据并不是最新的，每次需要去刷新数据，当遇到数据量比较大时，刷新的效率就会很低，并且对于能够承受的加载数据量也没有WEB端多。所以这也是目前WEB报表比较流行的原因。</p>
<h3>报告</h3>
<p>　　报告所体现的作用其实与报表截然不同，报表所能解释的问题仅限于数据层面，而报告则丰富得多，报告应该能够从各方面，包括产品状况、运营状况、市场推广状况、销售状况甚至总体的战略经营状况，对数据的表现提供业务和决策层面解释，从而分析和总结业务和决策上的问题，为有效的优化提供支持。</p>
<p>　　所以<strong>报告是对报表的一种提炼</strong>，不再局限于数据本身，而是要通过数据去寻找业务层面的原因，所以往往报告上的解释和总结对于公司的整体运营更有价值，报告是数据分析提炼的一个必要环节。</p>
<h3>Excel报表实例</h3>
<p>　　相信正在看这篇文章的人有99.9%用过Excel来查看、处理和分析数据，所以对于Excel里面一般的表格和图表都在熟悉不过了，我不是使用Excel的佼佼者，所以这里不去班门弄斧了。但从数据分析的角度，其实Excel里面的一类功能非常实用，而且能够非常方便地实现数据的汇总和细分，就是<strong>数据透视表</strong>。</p>
<p>　　数据透视表是作为报表来展现数据的一种很好的方式，有以下几个优势：</p>
<ul>
<li><strong>可以连接外部数据源将数据导入Excel</strong>，Excel几乎支持所有数据库作为外部数据源，通过数据—获取外部数据来进行数据源的连接数据，并导入数据。</li>
<li><strong>可以实现数据刷新</strong>，Excel支持后台、定时和打开刷新这几种数据的更新方式，所以解除了需要手工输入维护数据的烦恼；</li>
<li><strong>支持多种数据聚合方式</strong>，求和、计数、平均值、最大最小值等；</li>
<li><strong>支持<a href="http://webdataanalysis.net/web-data-warehouse/features-of-olap/" target="_blank">基本的OLAP</a></strong><strong><a href="http://webdataanalysis.net/web-data-warehouse/features-of-olap/" target="_blank">操作</a></strong>，包括下钻（展开）、上卷（汇总）、切片（单项筛选）、切块（多项筛选）和旋转（行列交换）。</li>
</ul>
<p>　　下面是我从Oracle导入制作的一个数据透视表示例，下面提供了Excel文件的下载，大家有兴趣的可以下载过去自己玩玩：</p>
<p style="text-align: center;"><a href="http://webdataanalysis.net/wp-content/uploads/2011/01/Excel-Pivot-Sample.jpg" target="_blank" rel="lightbox[920]"><img class="aligncenter size-full wp-image-923" title="Excel透视表" src="http://webdataanalysis.net/wp-content/uploads/2011/01/Excel-Pivot-Sample.jpg" alt="Excel-Pivot-Sample" width="588" height="298" /></a></p>
<p>点击下载：<a onclick="_gaq.push(['_trackEvent', 'Download', 'Download', 'Pivot Sample']);" href="http://webdataanalysis.net/wp-content/uploads/2011/01/pivot_sample.xlsx">Excel透视表示例</a></p>
<p>　　好了，趁着春节前一小段闲暇跟大家分享了我对报表和报告的理解，以及用Excel制作的一个最简单的交叉透视表，这也是近段时间我所进行的工作的其中一块，希望大家能够受用。无论你现在是不是足够重视数据的可视化，无论你现在有没有精心地去制作各类报表和报告，我想说的是请尊重数据的用户，我们要让用户更愉悦地去看数据，这样才能让用户更好地理解数据和应用数据，而这个正是数据的用户体验所在。</p>
<p>　　最后，提前祝大家春节愉快，跟家人好好聚聚，过一个温暖惬意的春节。<br /></br><br />
<blockquote>
<div> 　&raquo; 本文采用 <a rel="license external nofollow" title="cc by-nc-sa" href="http://creativecommons.org/licenses/by-nc-sa/3.0/" target="_blank"> BY-NC-SA </a>协议，转载请注明来源：<a title="网站数据分析" href="http://webdataanalysis.net/">网站数据分析</a> &raquo; <a rel="bookmark" title="数据的报表和报告" href="http://webdataanalysis.net/personal-view/data-report/">《数据的报表和报告》</a></div>
</blockquote>
<div id="wp-share-list-container"></div>

<p>相关文章:<ol><li><a href='http://webdataanalysis.net/personal-view/ranking-and-random/' rel='bookmark' title='Permanent Link: 排行榜与随机数'>排行榜与随机数</a></li>
<li><a href='http://webdataanalysis.net/personal-view/what-data-they-want/' rel='bookmark' title='Permanent Link: 用户需要什么数据？'>用户需要什么数据？</a></li>
<li><a href='http://webdataanalysis.net/personal-view/contradiction-of-bi/' rel='bookmark' title='Permanent Link: BI应用中的三大矛盾'>BI应用中的三大矛盾</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://webdataanalysis.net/personal-view/data-report/feed/</wfw:commentRss>
		<slash:comments>9</slash:comments>
		</item>
		<item>
		<title>时间序列的趋势分析</title>
		<link>http://webdataanalysis.net/personal-view/time-series-analysis/</link>
		<comments>http://webdataanalysis.net/personal-view/time-series-analysis/#comments</comments>
		<pubDate>Wed, 22 Dec 2010 14:30:43 +0000</pubDate>
		<dc:creator>joegh</dc:creator>
				<category><![CDATA[个人观点分享]]></category>
		<category><![CDATA[趋势分析]]></category>

		<guid isPermaLink="false">http://webdataanalysis.net/?p=885</guid>
		<description><![CDATA[——数据的上下文1
 　　无论是网站分析工具、BI报表或者数据的报告，我们很难看到数据以孤立的点单独地出现，通常数据是以序列、分组等形式存在，理由其实很简单，我们没法从单一的数据中发现什么，用于分析的数据必须包含上下文（Context）。数据的上下文就像为每个指标设定了一个或者一些参考系，通过这些参照和比较的过程来分析数据的优劣，就像中学物理上的例子，如果我们不以地面作为参照物，我们无法区分火车是静止的还是行进的，朝北开还是朝南开。
　　在实际看数据中，我们可能已经在不经意间使用数据的上下文了，趋势分析、比较分析、细分与分布等都是我们在为数据设置合适的参照环境。所以这边通过一个专题——数据的上下文，来总结和整理我们在日常的数据分析中可以使用的数据参考系，前面几篇主要是基于内部基准线（Internal Benchmark）的制定的，后面会涉及外部基准线（External Benchmark）的制定。今天这篇是第一篇，主要介绍基于时间序列的趋势分析，重提下同比和环比，之前在网站新老用户分析这篇文章，已经使用同比和环比举过简单应用的例子。
同比和环比的定义
　　定义这个东西在这里还是再唠叨几句，因为不了解定义就无法应用，熟悉的朋友可以跳过。  
　　同比：为了消除数据周期性波动的影响，将本周期内的数据与之前周期中相同时间点的数据进行比较。早期的应用是销售业等受季节等影响较严重，为了消除趋势分析中季节性的影响，引入了同比的概念，所以较多地就是当年的季度数据或者月数据与上一年度同期的比较，计算同比增长率。
　　环比：反应的是数据连续变化的趋势，将本期的数据与上一周期的数据进行对比。最常见的是这个月的数据与上个月数据的比较，计算环比增长率，因为数据都是与之前最近一个周期的数据比较，所以是用于观察数据持续变化的情况。
　　买二送一，再赠送一个概念——定基比（其实是百度百科里附带的   ）：将所有的数据都与某个基准线的数据进行对比。通常这个基准线是公司或者产品发展的一个里程碑或者重要数据点，将之后的数据与这个基准线进行比较，从而反映公司在跨越这个重要的是基点后的发展状况。
同比和环比的应用环境
　　其实同比、环比没有严格的适用范围或者针对性的应用，一切需要分析在时间序列上的变化情况的数据或者指标都可以使用同比和环比。
　　但是我的建议是为网站的目标指标建立同比和环比的数据上下文，如网站的收益、网站的活跃用户数、网站的关键动作数等，这类指标需要明确长期的增长趋势，同比和环比能够为网站整体运营的发展状况提供有力的参考。
　　还有个建议就是不要被同比和环比最原始或者最普遍的应用所束缚住：同比就是今年每个月或每季度的数据与去年同期比，环比就是这个月的数据与上个月比。对于方法的应用需要根据实际的应用的环境，进行合理的变通，选择最合适的途径。所以同比和环比不一定以年为周期，也不一定是每月、季度为时间粒度的统计数据，我们可以根据需要选择任意合适的周期，比如你们公司的产品运营是以周、半月、甚至每年的特定几个月为周期循环变动，那完全可以将这些作为同比的周期。
　　特别对于互联网这个瞬息万变的环境，常用的年与年之间的同比，以季度或月为粒度的统计可能不再合适，为了适应快速的变化，以月为周期、周为周期的同比，以天为粒度、小时为粒度的统计数据进行环比将变成常见的方式，因为要适应这种快速的变化，我们需要做出更迅速的决策和调整，当然数据要适应这种快速决策的需要。
应用实例
　　同比和环比被广泛地应用于各个领域，在Google的图片中搜索同比和环比会有丰富的包含了同比环比的图表显示在你的眼前，所以这里只举个简单的例子：因为很多的互联网产品的数据变化情况会以“周”为周期进行波动（周末会出现明显的上升或者下降趋势），所以这里以一周的数据为例来看下同比和环比的展现效果。还是虚拟数据，为了展示上的需要而临时设定的：




周一
周二
周三
周四
周五
周六
周日


上周收益
113
134
123
145
137
196
187


本周收益
129
122
134
149
146
215
208


同比增长
14.16%
-8.96%
8.94%
2.76%
6.57%
9.69%
11.23%


环比增长
-27.88%
-5.43%
9.84%
11.19%
-2.01%
47.26%
-3.26%





　　从图中可以看出数据在一周中的变化趋势，周中和周末之间存在明显的差异，周末的收益会有明显的上涨，在使用同比的时候需要抓到这类数据的周期性的变化规律，让数据的对比能够更加有效地反映数据的变化。同时在Excel里面可以直接为一组基于时间序列的数据绘制趋势线，正如图中的虚线所示，本周收益在一周中的变化趋势就显得非常明显，这里用的是指数的拟合，Excel的趋势线提供了线性、指数、对数、幂等回归分析的方式，同时也包含多项式和移动平均等趋势分析的方法。
　　最后看看我们经常在使用的网站分析工具里面有没有同比和环比的功能呢？这里以Google Analytics和百度统计为例截了两张图，首先看下百度统计登录进去后的网站概况：

　　百度统计默认就为我们提供了一个比较环境，上方表格中是今天与昨天的数据对比及变化情况，还提供了预测的功能；下方的折线图显示的是每小时数据的变化，提供前一天或者上周的同一天（百度可能已经意识到网站大部分会存在以周为变化周期的趋势，所以很多地方都提供了以周为单位的参考数据）的每个整点的数据对照，同时可以选择不同的时间区间和各类指标。再看看Google Analytics的Dashboard：

　　Google不像百度那样一进去就能看到对照数据，需要我们手工去选择，在时间区间的选择界面提供了“Compare to Past”的勾选按钮，如果默认是近一个月的数据，那么参照数据就是再往前推一个月的每日变化数据，Timeline的选择面板做得非常炫，可以自定义地选择任何有效的时间区间，当然也同样提供不同的参考指标，鼠标移到图中相应日期的点后会显示具体的数据及差异的大小。
　　同比和环比是最简单直观的基于时间序列的趋势分析方法，通过观察关键指标的变化情况来洞察网站的发展和运营情况，同时衡量目标的实现程度。所以这篇文章的主题是使用趋势分析的方法来为网站的目标设定数据的上下文，下一篇将主要针对KPI指标进行数据上下文的选择和设定。

 　&#187; 本文采用  BY-NC-SA 协议，转载请注明来源：网站数据分析 &#187; 《时间序列的趋势分析》



相关文章:网站KPI的质量控制
网站的迷失度度量
OLAP的基本特征



相关文章:<ol><li><a href='http://webdataanalysis.net/web-quantitative-analysis/kpi-quality-control/' rel='bookmark' title='Permanent Link: 网站KPI的质量控制'>网站KPI的质量控制</a></li>
<li><a href='http://webdataanalysis.net/personal-view/measure-of-lostness/' rel='bookmark' title='Permanent Link: 网站的迷失度度量'>网站的迷失度度量</a></li>
<li><a href='http://webdataanalysis.net/web-data-warehouse/features-of-olap/' rel='bookmark' title='Permanent Link: OLAP的基本特征'>OLAP的基本特征</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<h2>——数据的上下文1</h2>
<p><a href="http://webdataanalysis.net/wp-content/uploads/2010/12/solar-system.jpg" target="_blank" rel="lightbox[885]"><img class="alignleft size-full wp-image-886" title="时间序列的趋势分析" src="http://webdataanalysis.net/wp-content/uploads/2010/12/solar-system.jpg" alt="solar-system" width="280" height="183" /></a> 　　无论是网站分析工具、BI报表或者数据的报告，我们很难看到数据以孤立的点单独地出现，通常数据是以序列、分组等形式存在，理由其实很简单，我们没法从单一的数据中发现什么，用于分析的数据必须包含<strong>上下文（</strong><strong>Context）</strong>。数据的上下文就像为每个指标设定了一个或者一些<strong>参考系</strong>，通过这些参照和比较的过程来分析数据的优劣，就像中学物理上的例子，如果我们不以地面作为参照物，我们无法区分火车是静止的还是行进的，朝北开还是朝南开。</p>
<p>　　在实际看数据中，我们可能已经在不经意间使用数据的上下文了，趋势分析、比较分析、细分与分布等都是我们在为数据设置合适的参照环境。所以这边通过一个专题——数据的上下文，来总结和整理我们在日常的数据分析中可以使用的数据参考系，前面几篇主要是基于内部基准线（Internal Benchmark）的制定的，后面会涉及外部基准线（External Benchmark）的制定。今天这篇是第一篇，主要介绍基于时间序列的趋势分析，重提下同比和环比，之前在<a href="http://webdataanalysis.net/web-quantitative-analysis/new-returning-visitors-analysis/" target="_blank">网站新老用户分析</a>这篇文章，已经使用同比和环比举过简单应用的例子。</p>
<h3>同比和环比的定义</h3>
<p>　　定义这个东西在这里还是再唠叨几句，因为不了解定义就无法应用，熟悉的朋友可以跳过。 <img src='http://webdataanalysis.net/wp-includes/images/smilies/icon_wink.gif' alt=';-)' class='wp-smiley' /> </p>
<p><strong>　　同比</strong>：为了消除数据周期性波动的影响，将本周期内的数据与之前周期中相同时间点的数据进行比较。早期的应用是销售业等受季节等影响较严重，为了消除趋势分析中季节性的影响，引入了同比的概念，所以较多地就是当年的季度数据或者月数据与上一年度同期的比较，计算同比增长率。</p>
<p><strong>　　环比</strong>：反应的是数据连续变化的趋势，将本期的数据与上一周期的数据进行对比。最常见的是这个月的数据与上个月数据的比较，计算环比增长率，因为数据都是与之前最近一个周期的数据比较，所以是用于观察数据持续变化的情况。</p>
<p>　　买二送一，再赠送一个概念——<strong>定基比</strong>（其实是百度百科里附带的 <img src='http://webdataanalysis.net/wp-includes/images/smilies/icon_razz.gif' alt=':-P' class='wp-smiley' />  ）：将所有的数据都与某个基准线的数据进行对比。通常这个基准线是公司或者产品发展的一个里程碑或者重要数据点，将之后的数据与这个基准线进行比较，从而反映公司在跨越这个重要的是基点后的发展状况。</p>
<h3>同比和环比的应用环境</h3>
<p>　　其实同比、环比没有严格的适用范围或者针对性的应用，一切需要分析在时间序列上的变化情况的数据或者指标都可以使用同比和环比。</p>
<p>　　但是我的建议是<strong>为网站的目标指标建立同比和环比</strong>的数据上下文，如网站的收益、网站的活跃用户数、网站的关键动作数等，这类指标需要明确长期的增长趋势，同比和环比能够为网站整体运营的发展状况提供有力的参考。</p>
<p>　　还有个建议就是不要被同比和环比最原始或者最普遍的应用所束缚住：同比就是今年每个月或每季度的数据与去年同期比，环比就是这个月的数据与上个月比。对于方法的应用需要根据实际的应用的环境，进行合理的变通，选择最合适的途径。所以同比和环比不一定以年为周期，也不一定是每月、季度为时间粒度的统计数据，我们可以根据需要选择任意合适的周期，比如你们公司的产品运营是以周、半月、甚至每年的特定几个月为周期循环变动，那完全可以将这些作为同比的周期。</p>
<p>　　特别对于互联网这个瞬息万变的环境，常用的年与年之间的同比，以季度或月为粒度的统计可能不再合适，为了适应快速的变化，以月为周期、周为周期的同比，以天为粒度、小时为粒度的统计数据进行环比将变成常见的方式，因为要适应这种快速的变化，我们需要做出更迅速的决策和调整，当然数据要适应这种快速决策的需要。</p>
<h3>应用实例</h3>
<p>　　同比和环比被广泛地应用于各个领域，在Google的图片中搜索同比和环比会有丰富的包含了同比环比的图表显示在你的眼前，所以这里只举个简单的例子：因为很多的互联网产品的数据变化情况会以“周”为周期进行波动（周末会出现明显的上升或者下降趋势），所以这里以一周的数据为例来看下同比和环比的展现效果。还是虚拟数据，为了展示上的需要而临时设定的：</p>
<table border="1" cellspacing="0" cellpadding="0">
<tbody>
<tr>
<td width="71" valign="top"><strong></strong></td>
<td width="71" valign="top"><strong>周一</strong></td>
<td width="71" valign="top"><strong>周二</strong></td>
<td width="71" valign="top"><strong>周三</strong></td>
<td width="71" valign="top"><strong>周四</strong></td>
<td width="71" valign="top"><strong>周五</strong></td>
<td width="71" valign="top"><strong>周六</strong></td>
<td width="71" valign="top"><strong>周日</strong></td>
</tr>
<tr>
<td width="71" valign="top"><strong>上周收益</strong></td>
<td width="71" valign="top">113</td>
<td width="71" valign="top">134</td>
<td width="71" valign="top">123</td>
<td width="71" valign="top">145</td>
<td width="71" valign="top">137</td>
<td width="71" valign="top">196</td>
<td width="71" valign="top">187</td>
</tr>
<tr>
<td width="71" valign="top"><strong>本周收益</strong></td>
<td width="71" valign="top">129</td>
<td width="71" valign="top">122</td>
<td width="71" valign="top">134</td>
<td width="71" valign="top">149</td>
<td width="71" valign="top">146</td>
<td width="71" valign="top">215</td>
<td width="71" valign="top">208</td>
</tr>
<tr>
<td width="71" valign="top"><strong>同比增长</strong></td>
<td width="71" valign="top">14.16%</td>
<td width="71" valign="top">-8.96%</td>
<td width="71" valign="top">8.94%</td>
<td width="71" valign="top">2.76%</td>
<td width="71" valign="top">6.57%</td>
<td width="71" valign="top">9.69%</td>
<td width="71" valign="top">11.23%</td>
</tr>
<tr>
<td width="71" valign="top"><strong>环比增长</strong></td>
<td width="71" valign="top">-27.88%</td>
<td width="71" valign="top">-5.43%</td>
<td width="71" valign="top">9.84%</td>
<td width="71" valign="top">11.19%</td>
<td width="71" valign="top">-2.01%</td>
<td width="71" valign="top">47.26%</td>
<td width="71" valign="top">-3.26%</td>
</tr>
</tbody>
</table>
<p style="text-align: center;">
<p style="text-align: center;"><a href="http://webdataanalysis.net/wp-content/uploads/2010/12/time-series-trend-analysis.png" target="_blank" rel="lightbox[885]"><img class="aligncenter size-full wp-image-1013" title="时间序列分析" src="http://webdataanalysis.net/wp-content/uploads/2010/12/time-series-trend-analysis.png" alt="time-series-trend-analysis" width="555" height="202" /></a></p>
<p>　　从图中可以看出数据在一周中的变化趋势，周中和周末之间存在明显的差异，周末的收益会有明显的上涨，在使用同比的时候需要抓到这类数据的周期性的变化规律，让数据的对比能够更加有效地反映数据的变化。同时在Excel里面可以直接为一组基于时间序列的数据绘制<strong>趋势线</strong>，正如图中的虚线所示，本周收益在一周中的变化趋势就显得非常明显，这里用的是指数的拟合，Excel的趋势线提供了线性、指数、对数、幂等回归分析的方式，同时也包含多项式和移动平均等趋势分析的方法。</p>
<p style="text-align: left;">　　最后看看我们经常在使用的网站分析工具里面有没有同比和环比的功能呢？这里以Google Analytics和百度统计为例截了两张图，首先看下百度统计登录进去后的网站概况：<br />
<a href="http://webdataanalysis.net/wp-content/uploads/2010/12/Baidu-dashboard-compare.jpg" target="_blank" rel="lightbox[885]"><img class="aligncenter size-full wp-image-888" title="百度Dashboard对比" src="http://webdataanalysis.net/wp-content/uploads/2010/12/Baidu-dashboard-compare.jpg" alt="Baidu-dashboard-compare" width="614" height="274" /></a></p>
<p style="text-align: center;">　　百度统计默认就为我们提供了一个比较环境，上方表格中是今天与昨天的数据对比及变化情况，还提供了预测的功能；下方的折线图显示的是每小时数据的变化，提供前一天或者上周的同一天（百度可能已经意识到网站大部分会存在以周为变化周期的趋势，所以很多地方都提供了以周为单位的参考数据）的每个整点的数据对照，同时可以选择不同的时间区间和各类指标。再看看Google Analytics的Dashboard：<br />
<a href="http://webdataanalysis.net/wp-content/uploads/2010/12/GA-dashboard-compare.jpg" target="_blank" rel="lightbox[885]"><img class="aligncenter size-full wp-image-889" title="Google Analytics Dashboard对比" src="http://webdataanalysis.net/wp-content/uploads/2010/12/GA-dashboard-compare.jpg" alt="GA-dashboard-compare" width="650" height="273" /></a></p>
<p>　　Google不像百度那样一进去就能看到对照数据，需要我们手工去选择，在时间区间的选择界面提供了“Compare to Past”的勾选按钮，如果默认是近一个月的数据，那么参照数据就是再往前推一个月的每日变化数据，Timeline的选择面板做得非常炫，可以自定义地选择任何有效的时间区间，当然也同样提供不同的参考指标，鼠标移到图中相应日期的点后会显示具体的数据及差异的大小。</p>
<p>　　同比和环比是最简单直观的基于时间序列的趋势分析方法，通过观察关键指标的变化情况来洞察网站的发展和运营情况，同时衡量目标的实现程度。所以这篇文章的主题是使用趋势分析的方法来为网站的目标设定数据的上下文，下一篇将主要针对KPI指标进行数据上下文的选择和设定。<br /></br><br />
<blockquote>
<div> 　&raquo; 本文采用 <a rel="license external nofollow" title="cc by-nc-sa" href="http://creativecommons.org/licenses/by-nc-sa/3.0/" target="_blank"> BY-NC-SA </a>协议，转载请注明来源：<a title="网站数据分析" href="http://webdataanalysis.net/">网站数据分析</a> &raquo; <a rel="bookmark" title="时间序列的趋势分析" href="http://webdataanalysis.net/personal-view/time-series-analysis/">《时间序列的趋势分析》</a></div>
</blockquote>
<div id="wp-share-list-container"></div>

<p>相关文章:<ol><li><a href='http://webdataanalysis.net/web-quantitative-analysis/kpi-quality-control/' rel='bookmark' title='Permanent Link: 网站KPI的质量控制'>网站KPI的质量控制</a></li>
<li><a href='http://webdataanalysis.net/personal-view/measure-of-lostness/' rel='bookmark' title='Permanent Link: 网站的迷失度度量'>网站的迷失度度量</a></li>
<li><a href='http://webdataanalysis.net/web-data-warehouse/features-of-olap/' rel='bookmark' title='Permanent Link: OLAP的基本特征'>OLAP的基本特征</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://webdataanalysis.net/personal-view/time-series-analysis/feed/</wfw:commentRss>
		<slash:comments>17</slash:comments>
		</item>
		<item>
		<title>用户需要什么数据？</title>
		<link>http://webdataanalysis.net/personal-view/what-data-they-want/</link>
		<comments>http://webdataanalysis.net/personal-view/what-data-they-want/#comments</comments>
		<pubDate>Wed, 01 Dec 2010 12:48:00 +0000</pubDate>
		<dc:creator>joegh</dc:creator>
				<category><![CDATA[个人观点分享]]></category>
		<category><![CDATA[细分]]></category>

		<guid isPermaLink="false">http://webdataanalysis.net/?p=872</guid>
		<description><![CDATA[　　这里首先需要说明的是标题中的“用户”指的是数据的用户，或者数据的需求方，这些用户往往不是网站或企业面向的外部用户，数据的消费者通常是公司内部各个部门和领域的人员。
　　为什么会提出这个问题，其实我们经常会遇到这样的情况：公司的高层抱怨从报表里面看不到有用的东西，是不是可以对报表做下整理（于是下面就忙开了），但是该怎么整理或者他们到底需要的是什么数据（好吧，高层的需求一般是不会明说的，我们要试着自己去揣摩）；同时各个部门也在不断地提各类数据需求，往往他们的需求就比较明确，有时可能会细得吓人，需要每个用户的每次关键操作（考验服务器的时间到了）。数据部门就是处在这样一个对数据的需求存在着如何多样化的环境里面，所以考验数据人员的时间到了，我们能满足所有的需求吗？
目标和KPI
　　好了，首先来解答一下我们揣摩“圣意”后的结果，老板或者高层需要什么数据？其实很简单，他们只想知道公司的总体状况如何，所以我们只需要提供汇总的目标和KPI数据，不需要太多，2-3张报表，10个左右的指标足够展现出公司的全局了，但其实首先要做的是对公司的目标和KPI有一个明确的认识和定义。
　　主要关注人员：决策层
　　虽然目标和KPI的主要关注人群锁定在公司的决策层，但其实公司的每位员工都应该关心公司的目标实现情况及KPI指标的表现，因为目标和KPI是客观评价公司状况和效益的最有效途径。但往往各个部门关心目标的KPI的方式会有差异，于是数据需要去满足各个部门不同的关注目标的KPI的方式，就有了下面的细分。
细分与功能点
　　公司的决策层可能会希望看到上面这些目标和KPIs的汇总数据，但如果我们给所有用户都提供这类汇总数据，那么可能其他用户就只能远远地望着这些数据，什么都做不了。所以我们需要给不同的用户不同类别不同层面的数据，因为我们要做的就是让每个数据消费者都能根据数据Take Actions，而其中很重要的一块就是数据的细分。
　　我们可以从多个角度对网站分析的报表和指标进行细分，每个公司根据自己运营类型的差异选择适合自己的细分模块，当然这里说的最常见的几个细分模块：内容、用户和来源，也就是Google Analytics的分块方式。
内容细分
　　主要关注人员：产品运营
　　尽管互联网的形式在不断地多样化，但无论如何互联网还是主要以信息服务提供商的角色存在，归根到底还是内容，所以对于网站而言内容是它的核心竞争力所在，对于网站分析同样如此，所以首当其冲的就是内容的细分。之前有篇文章——网站页面度量与细分，对网站的内容的一些度量指标和几个细分方式作了介绍，无论以哪些指标或者以何种细分方式来评价内容，最终我们的目的都是区分优质和劣质的内容，掌控产品的运营状况，从而保持或者改进网站内容。
　　内容细分的分析结果无疑可以给产品运营或者网站运营提供有价值的参考依据，明确了哪些是需要把握的核心内容，哪些内容需要改进。同时借助一些特殊的指标还可以指引细节上的改进，比如一个Pageviews很高但Avg. Time on Page较短、Exit Rate很高的页面显然在内容上没有足够的吸引力，但标题或简介信息足够吸引眼球，那么改进的方向就可以确定为提高内容的描述方式；如果你的网站提供电子商务服务，那么每个或每类产品细分的销售额（目标）及转化率（KPI）将让你能够更好地有针对性地进行产品和运营方式的选择。
用户细分
　　主要关注人员：用户体验、销售
　　我们一般通过用户的使用环境（网络、设备、系统和客户端等）、人口统计学信息（性别、年龄、地域等）、用户行为类型（使用的趋势、忠诚度、创造的价值等）这几类数据和指标对用户进行细分。在现在“用户中心论”盛行的潮流下，是不是把用户放在内容后面有点不妥？网站的一切就是为了满足用户的需求，包括所有的内容的提供，但其实在数据分析上用户分析并没有内容分析来得普遍，特别是还要对用户进行细分，道理很简单，内容或者产品是可以自己把握的，而用户不行，所以尤其是基于用户行为分析的数据，说得很多但真正做好的或者应用于实践的其实并不多。
　　但有一块必须要有用户分析数据的支持，那就是用户体验的设计和优化。对于用户体验设计而言，其目标是能够满足所有用户的使用习惯，所以比较和优化各类用户在不同的使用环境和使用习惯中的数据能够对用户体验的改善起到很大的作用；而如果你的网站产品需要进行销售，那么用户行为分析对于个性化的产品销售和推荐能够起到很好的效果，它刚好与用户体验的目标相反，这类细分分析主要是为了满足每类甚至每个用户需求上的偏好。
来源细分
　　主要关注人员：市场推广
　　其实对于网站分析人员而言，渠道来源的数据分析肯定不会陌生，许多网站都会重点分析这块的效果，包括SEO和SEM等都已经发展成为了非常专业的领域。网站分析工具里面一般都会区分直接进入、搜索引擎、外部网站及促销途径这几项来源，其实我们可以使用一些有效的途径将这些渠道分得更细，包括社会化媒介、合作网站、广告直邮等，通过这些来源细分去观察各渠道带来的流量的质量（在目标和KPI指标上的表现），我们就可以看清楚各推广渠道的优劣，从而为有效的推广行动提供参考。
　　其实还有一块——线下渠道，我们往往会认为线下的电视、报纸等上面的促销或广告的效果很难用数据进行监控，但其实只要我们去寻求一些办法，这些也是可以实现的，比如离线通是监控线下电话营销渠道的很好的工具。通过对线下渠道的监控分析，是我们更了解线下推广的效果以及其对线上推广所带来的关联和影响，最终指导推广人员更有效地布置和实施整套完整的推广计划。
功能点分析
　　主要关注人员：技术、用户体验
　　如果你的网站不单是简单的几个页面，而是一个庞大复杂的系统，其中提供了丰富的功能和应用，那么我们还需要做一类分析，就是各功能点的分析。之前在“让用户更容易地找到需要的信息”专题中分析过几类网站中常见的功能：站内搜索、导航设计和内容推荐，这些功能点我们都可以使用特殊的方法获取数据、设置特殊的指标去分析他们的实现效果。
　　技术和用户体验团队都需要关注这些功能的实现效果和优化空间，数据是评价这些功能最有效的途径，因为这些功能都影响着用户的体验和满意度，一个真正优秀的网站需要把握好每个功能的每个细节的实现。
分析模型
　　上面提到的相关人员几乎涵盖了每个公司的各个领域，但其实还缺少一块重要的组成部分，就是我们自己——数据分析人员。其实对于数据分析人员来说，他们需要把握所有的数据，从全局的目标和KPI到各类细分指标，以及各类功能点的数据。但这些还远远不够，数据分析师必须发挥他们的所长，设计并构建起各类分析模型，这些模型不仅可以对公司的关键业务和运营状态做出客观的评价，起到总结的效果外，更可以发现一些潜在的商业需求点，为公司的发展提供可能的方向和决策依据，起到预测的作用。
　　分析模型主要分为两类，一类是定量分析模型，这个在我的博客中已经介绍过一些，包括关键路径分析的漏斗模型、基于用户行为分析的用户评价模型，当然也包括数据挖掘领域的用户兴趣发现、内容模式匹配，以及基于其上的个性化推荐模型，这些都在一定程度上实现了预测的效果。
　　另一类是定性分析模型，包括目标市场的调研、以用户为中心的研究以及竞争优势的分析。当然现在可能在用户调研和用户体验方面做得相对多些，通过网上问卷、可用性实验、实景访问调研，结合一些可视化的点击热图、鼠标移动监控等工具来评估用户在使用网站是的整体感受和满意度，这种更加接近用户的分析方法将逐步为网站和产品的优化带来许多新的思考。
自定义Dashboard

　　其实大部分的网站分析工具和BI报表工具中都会提供自定义Dashboard的功能，以便用户可以将自己关注的指标、报表和图表集成地显示在同一个Dashboard上面，方便日常的观察和分析。本来这是一个很Cool的功能，因为只要稍微用点心，可以把自己的“仪表盘”做得很漂亮，但现实中这个功能没有想象中实现得那么好，或者用户没有去自定义Dashboard的习惯（当然存在数据的组织和关联上的限制以及报表工具易用性方面的问题），但作为数据的提供方，我们在定制好公用的Dashboard的同时，有必要时还要帮助某些特定需求群体定制自定义的Dashboard。
　　优秀的自定义Dashboard不仅能够合理地组织数据，同时更加可视化地展现数据，让数据的观察的分析不需要这么累，是的，也许用户会爱上这些数据。同时自定义的Dashboard其实还可以有效的控制数据权限，在Dashboard里面将合适的指标和报表开放给用户，从而屏蔽掉一些敏感的数据，数据的保密性对数据部门而言也是一块重要的工作。
　　不知道读完整篇文章会不会觉得有点空，没有实质的内容或实践性的分析方法，但其实这篇文章花了我很长的时间进行总结和思考，梳理整个数据提供方案的可行的思路，希望能给出一个系统全面的数据组织和提供方案，用数据为线索贯穿企业的各个角落，真正能够建立起数据驱动（Data Driven）的企业文化，让数据不单只是单纯的展现这么简单，能够满足各类人员的不同需要，并最终依靠数据提高企业在各个领域执行的效率和效果。

 　&#187; 本文采用  BY-NC-SA 协议，转载请注明来源：网站数据分析 &#187; 《用户需要什么数据？》



相关文章:网站数据分析的基本流程
网站的迷失度度量
值得关注的用户指标



相关文章:<ol><li><a href='http://webdataanalysis.net/personal-view/circuit-of-web-data-analysis/' rel='bookmark' title='Permanent Link: 网站数据分析的基本流程'>网站数据分析的基本流程</a></li>
<li><a href='http://webdataanalysis.net/personal-view/measure-of-lostness/' rel='bookmark' title='Permanent Link: 网站的迷失度度量'>网站的迷失度度量</a></li>
<li><a href='http://webdataanalysis.net/personal-view/key-user-metrics/' rel='bookmark' title='Permanent Link: 值得关注的用户指标'>值得关注的用户指标</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><a href="http://webdataanalysis.net/wp-content/uploads/2010/12/what-do-they-want.jpg" target="_blank" rel="lightbox[872]"><img class="alignleft size-full wp-image-873" title="用户需要什么数据" src="http://webdataanalysis.net/wp-content/uploads/2010/12/what-do-they-want.jpg" alt="what-do-they-want" width="210" height="270" /></a>　　这里首先需要说明的是标题中的“用户”指的是数据的用户，或者数据的需求方，这些用户往往不是网站或企业面向的外部用户，数据的消费者通常是公司内部各个部门和领域的人员。</p>
<p>　　为什么会提出这个问题，其实我们经常会遇到这样的情况：公司的高层抱怨从报表里面看不到有用的东西，是不是可以对报表做下整理（于是下面就忙开了），但是该怎么整理或者他们到底需要的是什么数据（好吧，高层的需求一般是不会明说的，我们要试着自己去揣摩）；同时各个部门也在不断地提各类数据需求，往往他们的需求就比较明确，有时可能会细得吓人，需要每个用户的每次关键操作（考验服务器的时间到了）。数据部门就是处在这样一个对数据的需求存在着如何多样化的环境里面，所以考验数据人员的时间到了，我们能满足所有的需求吗？</p>
<h3>目标和KPI</h3>
<p>　　好了，首先来解答一下我们揣摩“圣意”后的结果，老板或者高层需要什么数据？其实很简单，他们只想知道公司的总体状况如何，所以我们只需要提供汇总的目标和KPI数据，不需要太多，2-3张报表，10个左右的指标足够展现出公司的全局了，但其实首先要做的是对公司的目标和KPI有一个明确的认识和定义。</p>
<blockquote><p>　　主要关注人员：<strong>决策层</strong></p></blockquote>
<p>　　虽然目标和KPI的主要关注人群锁定在公司的决策层，但其实公司的每位员工都应该关心公司的目标实现情况及KPI指标的表现，因为目标和KPI是客观评价公司状况和效益的最有效途径。但往往各个部门关心目标的KPI的方式会有差异，于是数据需要去满足各个部门不同的关注目标的KPI的方式，就有了下面的细分。</p>
<h3>细分与功能点</h3>
<p>　　公司的决策层可能会希望看到上面这些目标和KPIs的汇总数据，但如果我们给所有用户都提供这类汇总数据，那么可能其他用户就只能远远地望着这些数据，什么都做不了。所以我们需要给不同的用户不同类别不同层面的数据，因为<strong>我们要做的就是让每个数据消费者都能根据数据</strong><strong>Take Actions</strong>，而其中很重要的一块就是数据的细分。</p>
<p>　　我们可以从多个角度对网站分析的报表和指标进行细分，每个公司根据自己运营类型的差异选择适合自己的细分模块，当然这里说的最常见的几个细分模块：<strong>内容</strong>、<strong>用户</strong>和<strong>来源</strong>，也就是Google Analytics的分块方式。</p>
<h4>内容细分</h4>
<blockquote><p>　　主要关注人员：<strong>产品运营</strong></p></blockquote>
<p>　　尽管互联网的形式在不断地多样化，但无论如何互联网还是主要以信息服务提供商的角色存在，归根到底还是内容，所以对于网站而言内容是它的核心竞争力所在，对于网站分析同样如此，所以首当其冲的就是内容的细分。之前有篇文章——<a href="http://webdataanalysis.net/personal-view/page-metrics-and-segment/" target="_blank">网站页面度量与细分</a>，对网站的内容的一些度量指标和几个细分方式作了介绍，无论以哪些指标或者以何种细分方式来评价内容，最终我们的目的都是区分优质和劣质的内容，掌控产品的运营状况，从而保持或者改进网站内容。</p>
<p>　　内容细分的分析结果无疑可以给产品运营或者网站运营提供有价值的参考依据，明确了哪些是需要把握的核心内容，哪些内容需要改进。同时借助一些特殊的指标还可以指引细节上的改进，比如一个Pageviews很高但Avg. Time on Page较短、Exit Rate很高的页面显然在内容上没有足够的吸引力，但标题或简介信息足够吸引眼球，那么改进的方向就可以确定为提高内容的描述方式；如果你的网站提供电子商务服务，那么每个或每类产品细分的销售额（目标）及转化率（KPI）将让你能够更好地有针对性地进行产品和运营方式的选择。</p>
<h3><a href="http://webdataanalysis.net/wp-content/uploads/2010/12/different-data-requirement.jpg" target="_blank" rel="lightbox[872]"><img class="alignright size-full wp-image-877" title="多样的数据需求" src="http://webdataanalysis.net/wp-content/uploads/2010/12/different-data-requirement.jpg" alt="different-data-requirement" width="280" height="242" /></a>用户细分</h3>
<blockquote><p>　　主要关注人员：<strong>用户体验、销售</strong></p></blockquote>
<p>　　我们一般通过用户的使用环境（网络、设备、系统和客户端等）、人口统计学信息（性别、年龄、地域等）、用户行为类型（使用的趋势、忠诚度、创造的价值等）这几类数据和指标对用户进行细分。在现在“用户中心论”盛行的潮流下，是不是把用户放在内容后面有点不妥？网站的一切就是为了满足用户的需求，包括所有的内容的提供，但其实在数据分析上用户分析并没有内容分析来得普遍，特别是还要对用户进行细分，道理很简单，内容或者产品是可以自己把握的，而用户不行，所以尤其是基于用户行为分析的数据，说得很多但真正做好的或者应用于实践的其实并不多。</p>
<p>　　但有一块必须要有用户分析数据的支持，那就是用户体验的设计和优化。对于用户体验设计而言，其目标是能够满足所有用户的使用习惯，所以比较和优化各类用户在不同的使用环境和使用习惯中的数据能够对用户体验的改善起到很大的作用；而如果你的网站产品需要进行销售，那么用户行为分析对于个性化的产品销售和推荐能够起到很好的效果，它刚好与用户体验的目标相反，这类细分分析主要是为了满足每类甚至每个用户需求上的偏好。</p>
<h3>来源细分</h3>
<blockquote><p>　　主要关注人员：<strong>市场推广</strong></p></blockquote>
<p>　　其实对于网站分析人员而言，渠道来源的数据分析肯定不会陌生，许多网站都会重点分析这块的效果，包括SEO和SEM等都已经发展成为了非常专业的领域。网站分析工具里面一般都会区分直接进入、搜索引擎、外部网站及促销途径这几项来源，其实我们可以使用一些有效的途径将这些渠道分得更细，包括社会化媒介、合作网站、广告直邮等，通过这些来源细分去观察各渠道带来的流量的质量（在目标和KPI指标上的表现），我们就可以看清楚各推广渠道的优劣，从而为有效的推广行动提供参考。</p>
<p>　　其实还有一块——线下渠道，我们往往会认为线下的电视、报纸等上面的促销或广告的效果很难用数据进行监控，但其实只要我们去寻求一些办法，这些也是可以实现的，比如<a href="http://www.lixiantong.com/" target="_blank">离线通</a>是监控线下电话营销渠道的很好的工具。通过对线下渠道的监控分析，是我们更了解线下推广的效果以及其对线上推广所带来的关联和影响，最终指导推广人员更有效地布置和实施整套完整的推广计划。</p>
<h4>功能点分析</h4>
<blockquote><p>　　主要关注人员：<strong>技术、用户体验</strong></p></blockquote>
<p>　　如果你的网站不单是简单的几个页面，而是一个庞大复杂的系统，其中提供了丰富的功能和应用，那么我们还需要做一类分析，就是各功能点的分析。之前在“让用户更容易地找到需要的信息”专题中分析过几类网站中常见的功能：<a href="http://webdataanalysis.net/personal-view/optimize-site-search/" target="_blank">站内搜索</a>、<a href="http://webdataanalysis.net/personal-view/optimize-navigation/" target="_blank">导航设计</a>和<a href="http://webdataanalysis.net/personal-view/optimize-related-content/" target="_blank">内容推荐</a>，这些功能点我们都可以使用特殊的方法获取数据、设置特殊的指标去分析他们的实现效果。</p>
<p>　　技术和用户体验团队都需要关注这些功能的实现效果和优化空间，数据是评价这些功能最有效的途径，因为这些功能都影响着用户的体验和满意度，一个真正优秀的网站需要把握好每个功能的每个细节的实现。</p>
<h3>分析模型</h3>
<p>　　上面提到的相关人员几乎涵盖了每个公司的各个领域，但其实还缺少一块重要的组成部分，就是我们自己——<strong>数据分析人员</strong>。其实对于数据分析人员来说，他们需要把握所有的数据，从全局的目标和KPI到各类细分指标，以及各类功能点的数据。但这些还远远不够，数据分析师必须发挥他们的所长，设计并构建起各类分析模型，这些模型不仅可以对公司的关键业务和运营状态做出客观的评价，起到总结的效果外，更可以发现一些潜在的商业需求点，为公司的发展提供可能的方向和决策依据，起到预测的作用。</p>
<p>　　分析模型主要分为两类，一类是<strong>定量分析模型</strong>，这个在我的博客中已经介绍过一些，包括关键路径分析的<a href="http://webdataanalysis.net/web-quantitative-analysis/conversion-rate-and-funnel-model/" target="_blank">漏斗模型</a>、基于用户行为分析的<a href="http://webdataanalysis.net/web-quantitative-analysis/user-value-estimate-system/" target="_blank">用户评价模型</a>，当然也包括数据挖掘领域的用户兴趣发现、内容模式匹配，以及基于其上的个性化推荐模型，这些都在一定程度上实现了预测的效果。</p>
<p>　　另一类是<strong>定性分析模型</strong>，包括目标市场的调研、以用户为中心的研究以及竞争优势的分析。当然现在可能在用户调研和用户体验方面做得相对多些，通过网上问卷、可用性实验、<a href="http://webdataanalysis.net/web-qualitative-analysis/site-visits/" target="_blank">实景访问调研</a>，结合一些可视化的点击热图、鼠标移动监控等工具来评估用户在使用网站是的整体感受和满意度，这种更加接近用户的分析方法将逐步为网站和产品的优化带来许多新的思考。</p>
<h3>自定义Dashboard</h3>
<p style="text-align: center;"><a href="http://webdataanalysis.net/wp-content/uploads/2010/12/dashboard.jpg" target="_blank" rel="lightbox[872]"><img class="aligncenter size-full wp-image-878" title="dashboard" src="http://webdataanalysis.net/wp-content/uploads/2010/12/dashboard.jpg" alt="dashboard" width="638" height="380" /></a></p>
<p>　　其实大部分的网站分析工具和BI报表工具中都会提供自定义Dashboard的功能，以便用户可以将自己关注的指标、报表和图表集成地显示在同一个Dashboard上面，方便日常的观察和分析。本来这是一个很Cool的功能，因为只要稍微用点心，可以把自己的“仪表盘”做得很漂亮，但现实中这个功能没有想象中实现得那么好，或者用户没有去自定义Dashboard的习惯（当然存在数据的组织和关联上的限制以及报表工具易用性方面的问题），但作为数据的提供方，我们在定制好公用的Dashboard的同时，有必要时还要帮助某些特定需求群体定制自定义的Dashboard。</p>
<p>　　优秀的自定义Dashboard不仅能够合理地组织数据，同时更加可视化地展现数据，让数据的观察的分析不需要这么累，是的，也许用户会爱上这些数据。同时自定义的Dashboard其实还可以有效的控制数据权限，在Dashboard里面将合适的指标和报表开放给用户，从而屏蔽掉一些敏感的数据，数据的保密性对数据部门而言也是一块重要的工作。</p>
<p>　　不知道读完整篇文章会不会觉得有点空，没有实质的内容或实践性的分析方法，但其实这篇文章花了我很长的时间进行总结和思考，梳理整个数据提供方案的可行的思路，希望能给出一个系统全面的数据组织和提供方案，用数据为线索贯穿企业的各个角落，真正能够建立起数据驱动（Data Driven）的企业文化，让数据不单只是单纯的展现这么简单，能够满足各类人员的不同需要，并最终依靠数据提高企业在各个领域执行的效率和效果。<br /></br><br />
<blockquote>
<div> 　&raquo; 本文采用 <a rel="license external nofollow" title="cc by-nc-sa" href="http://creativecommons.org/licenses/by-nc-sa/3.0/" target="_blank"> BY-NC-SA </a>协议，转载请注明来源：<a title="网站数据分析" href="http://webdataanalysis.net/">网站数据分析</a> &raquo; <a rel="bookmark" title="用户需要什么数据？" href="http://webdataanalysis.net/personal-view/what-data-they-want/">《用户需要什么数据？》</a></div>
</blockquote>
<div id="wp-share-list-container"></div>

<p>相关文章:<ol><li><a href='http://webdataanalysis.net/personal-view/circuit-of-web-data-analysis/' rel='bookmark' title='Permanent Link: 网站数据分析的基本流程'>网站数据分析的基本流程</a></li>
<li><a href='http://webdataanalysis.net/personal-view/measure-of-lostness/' rel='bookmark' title='Permanent Link: 网站的迷失度度量'>网站的迷失度度量</a></li>
<li><a href='http://webdataanalysis.net/personal-view/key-user-metrics/' rel='bookmark' title='Permanent Link: 值得关注的用户指标'>值得关注的用户指标</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://webdataanalysis.net/personal-view/what-data-they-want/feed/</wfw:commentRss>
		<slash:comments>16</slash:comments>
		</item>
		<item>
		<title>BI应用中的三大矛盾</title>
		<link>http://webdataanalysis.net/personal-view/contradiction-of-bi/</link>
		<comments>http://webdataanalysis.net/personal-view/contradiction-of-bi/#comments</comments>
		<pubDate>Mon, 22 Nov 2010 11:58:15 +0000</pubDate>
		<dc:creator>joegh</dc:creator>
				<category><![CDATA[个人观点分享]]></category>
		<category><![CDATA[OLAP]]></category>
		<category><![CDATA[数据仓库]]></category>

		<guid isPermaLink="false">http://webdataanalysis.net/?p=865</guid>
		<description><![CDATA[　　因为近期工作的变更，一直在忙一些杂七杂八的东西，工作交接、离职手续及对新工作的思路整理，目前还处在这个阶段，所以可能近期没有比较新的内容跟大家分享，最近的几篇文章会以一些总结的内容为主，主要是对之前的工作中的一些感想。但相信之后会有更加丰富的数据分析相关的内容向大家呈上，因为我相信我要去的新公司是一个朝气蓬勃、充满创意和挑战的地方，而最重要的是他们对数据的重视和理解。
　　看到文章标题，相信大家已经知道这篇文章还是关于BI方面的，其实这是我刚进现在所在公司的时候所写的一篇文章，现在回头看来即使一直努力地在协调好这些矛盾，但说实话最终没有一个是真正完完全全的解决了的。我相信如果其他公司也是自己搭建BI系统的话，多多少少也会遇到这些问题，可能其中的一两个矛盾现在也正困扰着大家，我这里提供了我的解决方案，至于可行性和效果，有待大家去验证。
矛盾一：业务部门对数据的理解与数据部门对需求的理解
　　把它放在第一位是因为这个直接影响着数据所能发挥的效用，或者说这个矛盾没协调好的话，数据所能创造的价值将大打折扣。造成这个矛盾的原因就是业务部门无法了解数据的获取、处理、计算整个流程，从而对数据的含义和用处产生了自己的理解；同时数据部门无法真正了解业务需求，不清楚数据到底用于何处，为了监控或评估产品的哪个方面，于是无法提供最优或最有效的数据。
　　解决方案：建立业务部门与数据部门间的接口。这个接口包括规范的流程、详细的文档、合理的数据展现，而最重要的还是能够衔接起业务和数据之间的人。
　　首先是数据需求流程的规范化，也就是需求一般由业务部门提起，通过数据部门对数据的获取和计算将结果返回给业务部门，这个流程中业务部门不仅要提供数据的规则，同时应该对获取数据的目的、指标的定义、用处和价值做出详细的描述；而数据部门不仅要给出最终数据，同时需要对指标的获取途径、计算方法作出解释，最终的目的都是为了使双方在理解上能够达成一致。
　　其次是详细的文档。这个其实就是上面所说的流程中必然会产生的两类文档：数据需求文档和数据解释文档（在数据仓库里面是元数据的重要组成部分，关于数据仓库的元数据一直想整理一篇文章出来，希望在之后尽快贴上来），文档的内容基本就是包含上面流程中提到的那些内容。
　　再者就是合理的数据展现。其实就是一个原则：让每个人看到自己想看的数据，并能直观地理解这些数据。无论是报表、Excel还是其他展现方式，每个指标都应该能够有途径去直接查看相应的数据解释文档，而数据应该以最直观的方式展现出来以方便理解，借助各类图表结合的方式。
　　最后也是最重要的一点就是业务与数据的衔接者。这类人员应该对产品的战略目标、业务流程十分熟悉，同时对数据的获取途径、计算方法也了如指掌，或许不需要涉及高技术难度的数据ETL处理、组织和优化，但必须具备自己去计算和获取各类数据的能力。
矛盾二：业务需求的不断变化与生成数据的复杂流程
　　业务需求是不断变化的，尤其是身在互联网这个发展迅速的环境中。所以我们往往会遇到每天业务部门都会有新的需求过来，或者几天前某个指标的计算逻辑在几天之后就发生了变化。而数据部门面对这些情况，往往会陷入困境，一方面由于数据获取上的问题导致某些指标没法计算得到，另一方面指标计算逻辑的改变可能需要改动到整个复杂的数据处理流程，令人头疼。
　　解决方案：集成化的完整的底层数据与快速灵活的数据获取途径。
　　其实在关于数据仓库架构的文章中就提到过数据仓库尽量保存所有的底层细节数据，包括原始的日志点击流数据和前台数据库的ODS数据以及其他来源的数据，其实我不太建议数据仓库是单纯根据需求建立起来的多维模型，因为需求始终会变，但多维模型在应对变化时有缺失灵活性。而如果保存的底层数据，其实在大部分时间内就能做到以不变应万变，因为几乎所有的指标都是从这些底层数据中计算得到的，拥有了底层数据相当于满足了大部分数据的需求。
　　还有一个问题就是对需求改变时的及时应变，一种方法是建立面向不同主题的多维模型（当然是在底层数据的上层建的），因为多维模型能够满足从多个角度多个层面对数据的观察分析，能够从一定程度上解决数据的多样需求；同时基于底层数据集成化的组织管理环境，使用标准化的统计语言，如SQL语句，借助其强大的对数据的聚合、排序、分组等能力，加速数据的获取和计算。
矛盾三：数据即时查询的效率与海量数据的处理和建模
　　其实这里又是一个权衡的问题，即如何在提供足够丰富的指标的前提下保证数据的展现、获取和查询的效率能够满足数据需求方的要求。如果提供的指标不够，或者数据的粒度不够细，就无法满足日常数据监控和分析需要；相反，如果每天计算和统计的指标过多或者数据分得太细，那么显然会增加服务器运算的负荷，同时在数据查询上的响应能力也会相应的下降。
　　解决方案：把握核心数据，建立合理的多维模型。
　　其实数据仓库中海量数据的处理和查询效率的问题本身就是一门很深的学问，涉及数据仓库结构和ETL的优化、OLAP的优化（上一篇文章——OLAP的基本特征有提到Oracle在这方面所做的优化），这里不谈论这些技术上的实现途径，还是说应用上的。
　　核心数据，简单说就是网站的目标、KPIs等，这些数据是从高层到基层人员都在时刻关注的数据，所以最优先的原则就是保证这些数据的查询效率和及时响应。最简单的做法就是这些指标独立统计，不放入多维模型，只做每天的简单聚合存入Summary表中直接供报表展现。
　　另一个就是建立合理的多维模型，说到合理这里又要抱怨下，数据的需求方起初会漫无边际地提各种需求，可能会有上百个指标，但一旦统计出来之后很少会有人真正去使用和分析这些指标（估计是因为看了会眼花），这个我在关于实时数据统计中提到过类似问题。因为在多维模型中增加一个维或维的层次加深一层，对于立方的数据是以乘积方式递增的，比如增加一个100条记录的维相当于立方的数据乘以100，或者时间维的粒度从天到小时，相当于数据量是原先的24倍，这个对于那些本身数据量就非常庞大的多维模型而言本身就是一场灾难。所以建立多维模型时的原则是提供实际应用中需要的维和指标，同时把握好各个维的层次粒度。
　　上面就是我遇到的三大难题了，一下子又写了这么多，希望大家有耐心看完。其实之前的工作也较多地涉及了一些技术上面的东西，主要是Oracle和PL/SQL，由于对于那方面不是很擅长，另外博客主要面向网站数据分析方面的主题，所以很多总结的东西也不敢拿出来献丑，如果大家希望也有这个方面的讨论的，我可以分享几篇上来，大家可以留言给我点建议。  

 　&#187; 本文采用  BY-NC-SA 协议，转载请注明来源：网站数据分析 &#187; 《BI应用中的三大矛盾》



相关文章:OLAP的基本特征
维（Dimension）和立方（Cube）
让URL更适合分析



相关文章:<ol><li><a href='http://webdataanalysis.net/web-data-warehouse/features-of-olap/' rel='bookmark' title='Permanent Link: OLAP的基本特征'>OLAP的基本特征</a></li>
<li><a href='http://webdataanalysis.net/web-data-warehouse/dimension-and-cube/' rel='bookmark' title='Permanent Link: 维（Dimension）和立方（Cube）'>维（Dimension）和立方（Cube）</a></li>
<li><a href='http://webdataanalysis.net/personal-view/url-optimization/' rel='bookmark' title='Permanent Link: 让URL更适合分析'>让URL更适合分析</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><a href="http://webdataanalysis.net/wp-content/uploads/2010/11/spear-and-shield.png" target="_blank" rel="lightbox[865]"><img class="alignleft size-full wp-image-867" title="BI应用中的矛盾" src="http://webdataanalysis.net/wp-content/uploads/2010/11/spear-and-shield.png" alt="spear-and-shield" width="240" height="279" /></a>　　因为近期工作的变更，一直在忙一些杂七杂八的东西，工作交接、离职手续及对新工作的思路整理，目前还处在这个阶段，所以可能近期没有比较新的内容跟大家分享，最近的几篇文章会以一些总结的内容为主，主要是对之前的工作中的一些感想。但相信之后会有更加丰富的数据分析相关的内容向大家呈上，因为我相信我要去的新公司是一个朝气蓬勃、充满创意和挑战的地方，而最重要的是他们对数据的重视和理解。</p>
<p>　　看到文章标题，相信大家已经知道这篇文章还是关于BI方面的，其实这是我刚进现在所在公司的时候所写的一篇文章，现在回头看来即使一直努力地在协调好这些矛盾，但说实话最终没有一个是真正完完全全的解决了的。我相信如果其他公司也是自己搭建BI系统的话，多多少少也会遇到这些问题，可能其中的一两个矛盾现在也正困扰着大家，我这里提供了我的解决方案，至于可行性和效果，有待大家去验证。</p>
<h3>矛盾一：业务部门对数据的理解与数据部门对需求的理解</h3>
<p>　　把它放在第一位是因为这个直接影响着数据所能发挥的效用，或者说这个矛盾没协调好的话，数据所能创造的价值将大打折扣。造成这个矛盾的原因就是业务部门无法了解数据的获取、处理、计算整个流程，从而对数据的含义和用处产生了自己的理解；同时数据部门无法真正了解业务需求，不清楚数据到底用于何处，为了监控或评估产品的哪个方面，于是无法提供最优或最有效的数据。</p>
<p><strong>　　解决方案</strong>：建立业务部门与数据部门间的接口。这个接口包括<strong>规范的流程</strong>、<strong>详细的文档</strong>、<strong>合理的数据展现</strong>，而最重要的还是能够<strong>衔接起业务和数据之间的人</strong>。</p>
<p>　　首先是数据需求流程的规范化，也就是需求一般由业务部门提起，通过数据部门对数据的获取和计算将结果返回给业务部门，这个流程中业务部门不仅要提供数据的规则，同时应该对获取数据的目的、指标的定义、用处和价值做出详细的描述；而数据部门不仅要给出最终数据，同时需要对指标的获取途径、计算方法作出解释，最终的目的都是为了使双方在理解上能够达成一致。</p>
<p>　　其次是详细的文档。这个其实就是上面所说的流程中必然会产生的两类文档：<strong>数据需求文档</strong>和<strong>数据解释文档</strong>（在数据仓库里面是元数据的重要组成部分，关于数据仓库的元数据一直想整理一篇文章出来，希望在之后尽快贴上来），文档的内容基本就是包含上面流程中提到的那些内容。</p>
<p>　　再者就是合理的数据展现。其实就是一个原则：让每个人看到自己想看的数据，并能直观地理解这些数据。无论是报表、Excel还是其他展现方式，每个指标都应该能够有途径去直接查看相应的数据解释文档，而数据应该以最直观的方式展现出来以方便理解，借助各类图表结合的方式。</p>
<p>　　最后也是最重要的一点就是业务与数据的衔接者。这类人员应该对产品的战略目标、业务流程十分熟悉，同时对数据的获取途径、计算方法也了如指掌，或许不需要涉及高技术难度的数据ETL处理、组织和优化，但必须具备自己去计算和获取各类数据的能力。</p>
<h3>矛盾二：业务需求的不断变化与生成数据的复杂流程</h3>
<p>　　业务需求是不断变化的，尤其是身在互联网这个发展迅速的环境中。所以我们往往会遇到每天业务部门都会有新的需求过来，或者几天前某个指标的计算逻辑在几天之后就发生了变化。而数据部门面对这些情况，往往会陷入困境，一方面由于数据获取上的问题导致某些指标没法计算得到，另一方面指标计算逻辑的改变可能需要改动到整个复杂的数据处理流程，令人头疼。</p>
<p>　　<strong>解决方案</strong>：<strong>集成化的完整的底层数据与快速灵活的数据获取途径</strong>。</p>
<p>　　其实在关于<a href="http://webdataanalysis.net/web-data-warehouse/data-warehouse-frame/" target="_blank">数据仓库架构</a>的文章中就提到过数据仓库尽量保存所有的底层细节数据，包括原始的日志点击流数据和前台数据库的ODS数据以及其他来源的数据，其实我不太建议数据仓库是单纯根据需求建立起来的多维模型，因为需求始终会变，但多维模型在应对变化时有缺失灵活性。而如果保存的底层数据，其实在大部分时间内就能做到以不变应万变，因为几乎所有的指标都是从这些底层数据中计算得到的，拥有了底层数据相当于满足了大部分数据的需求。</p>
<p>　　还有一个问题就是对需求改变时的及时应变，一种方法是建立面向不同主题的多维模型（当然是在底层数据的上层建的），因为多维模型能够满足从多个角度多个层面对数据的观察分析，能够从一定程度上解决数据的多样需求；同时基于底层数据集成化的组织管理环境，使用标准化的统计语言，如SQL语句，借助其强大的对数据的聚合、排序、分组等能力，加速数据的获取和计算。</p>
<h3>矛盾三：数据即时查询的效率与海量数据的处理和建模</h3>
<p>　　其实这里又是一个权衡的问题，即如何在提供足够丰富的指标的前提下保证数据的展现、获取和查询的效率能够满足数据需求方的要求。如果提供的指标不够，或者数据的粒度不够细，就无法满足日常数据监控和分析需要；相反，如果每天计算和统计的指标过多或者数据分得太细，那么显然会增加服务器运算的负荷，同时在数据查询上的响应能力也会相应的下降。</p>
<p>　　<strong>解决方案</strong>：<strong>把握核心数据，建立合理的多维模型</strong>。</p>
<p>　　其实数据仓库中海量数据的处理和查询效率的问题本身就是一门很深的学问，涉及数据仓库结构和ETL的优化、OLAP的优化（上一篇文章——<a href="http://webdataanalysis.net/web-data-warehouse/features-of-olap/" target="_blank">OLAP的基本特征</a>有提到Oracle在这方面所做的优化），这里不谈论这些技术上的实现途径，还是说应用上的。</p>
<p>　　核心数据，简单说就是网站的目标、KPIs等，这些数据是从高层到基层人员都在时刻关注的数据，所以最优先的原则就是保证这些数据的查询效率和及时响应。最简单的做法就是这些指标独立统计，不放入多维模型，只做每天的简单聚合存入Summary表中直接供报表展现。</p>
<p>　　另一个就是建立合理的多维模型，说到合理这里又要抱怨下，数据的需求方起初会漫无边际地提各种需求，可能会有上百个指标，但一旦统计出来之后很少会有人真正去使用和分析这些指标（估计是因为看了会眼花），这个我在<a href="http://webdataanalysis.net/personal-view/real-time-data/" target="_blank">关于实时数据统计</a>中提到过类似问题。因为在多维模型中增加一个维或维的层次加深一层，对于立方的数据是以乘积方式递增的，比如增加一个100条记录的维相当于立方的数据乘以100，或者时间维的粒度从天到小时，相当于数据量是原先的24倍，这个对于那些本身数据量就非常庞大的多维模型而言本身就是一场灾难。所以建立多维模型时的原则是提供实际应用中需要的维和指标，同时把握好各个维的层次粒度。</p>
<p>　　上面就是我遇到的三大难题了，一下子又写了这么多，希望大家有耐心看完。其实之前的工作也较多地涉及了一些技术上面的东西，主要是Oracle和PL/SQL，由于对于那方面不是很擅长，另外博客主要面向网站数据分析方面的主题，所以很多总结的东西也不敢拿出来献丑，如果大家希望也有这个方面的讨论的，我可以分享几篇上来，大家可以留言给我点建议。 <img src='http://webdataanalysis.net/wp-includes/images/smilies/icon_wink.gif' alt=';)' class='wp-smiley' /> <br /></br><br />
<blockquote>
<div> 　&raquo; 本文采用 <a rel="license external nofollow" title="cc by-nc-sa" href="http://creativecommons.org/licenses/by-nc-sa/3.0/" target="_blank"> BY-NC-SA </a>协议，转载请注明来源：<a title="网站数据分析" href="http://webdataanalysis.net/">网站数据分析</a> &raquo; <a rel="bookmark" title="BI应用中的三大矛盾" href="http://webdataanalysis.net/personal-view/contradiction-of-bi/">《BI应用中的三大矛盾》</a></div>
</blockquote>
<div id="wp-share-list-container"></div>

<p>相关文章:<ol><li><a href='http://webdataanalysis.net/web-data-warehouse/features-of-olap/' rel='bookmark' title='Permanent Link: OLAP的基本特征'>OLAP的基本特征</a></li>
<li><a href='http://webdataanalysis.net/web-data-warehouse/dimension-and-cube/' rel='bookmark' title='Permanent Link: 维（Dimension）和立方（Cube）'>维（Dimension）和立方（Cube）</a></li>
<li><a href='http://webdataanalysis.net/personal-view/url-optimization/' rel='bookmark' title='Permanent Link: 让URL更适合分析'>让URL更适合分析</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://webdataanalysis.net/personal-view/contradiction-of-bi/feed/</wfw:commentRss>
		<slash:comments>11</slash:comments>
		</item>
	</channel>
</rss>

