分类目录归档：未分类

网站数据分析的一些问题3

　　之前的文章——网站数据分析的一些问题2中主要整理了BI相关的问题，这篇文章主要想整理一些数据仓库相关的问题。因为最近重新在看一些数据仓库的资料和书籍，想把之前以及当前遇到的主要问题提出来（博客中有关数据仓库的相关内容请参阅网站数据仓库这个目录），同时自己也对数据仓库方面的知识进行下重新的整理和认识，而且很久没有在博客发新的文章了，不能让自己过于懒散了。

　　之前看过Inmon的《构建数据仓库》和《DW 2.0》，而另外一位数据仓库大师Kimball的《数据仓库生命周期工具箱》一直没有时间阅读，最近才有时间看完了大部分，就迫不及待想写点东西了。其实数据仓库领域普遍认为Inmon和Kimball的理论是对立的，两者在构建数据仓库上方向性的差异一直争论不休，谁也无法说服谁到底哪种方法更好。我的Evernote的笔记里面不知什么时候从哪里摘录过来了对两者观点的概括性描述，非常简洁明了而一针见血：

　　Inmon vs Kimball
　　Kimball – Let everybody build what they want when they want it, we’ll integrate it all when and if we need to. (BOTTOM-UP APPROACH)

　　Pros: fast to build, quick ROI, nimble

　　Cons: harder to maintain as an enterprise resource, often redundant, often difficult to integrate data marts

　　Inmon – Don’t do anything until you’ve designed everything. (TOP-DOWN APPROACH)

　　Pros: easy to maitain, tightly integrated

　　Cons: takes way too long to deliver first projects, rigid

　　其实看了《数据仓库生命周期工具箱》之后，发现两者的观点没有那么大的本质性差异，可能随着数据仓库的不断发展，两者在整体的架构上慢慢趋同。基本上，构建统一的企业级数据仓库的方向是一致的，而Inmon偏向于从底层的数据集成出发，而Kimball则趋向于从上层的需求角度出发，这可能跟两者从事的项目和所处的位置有关。

　　有了上面这段高质量的概括，第一个问题——你更偏向于以何种方式搭建数据仓库（BOTTOM-UP or TOP-DOWN），分别有什么优劣势？——其实就不用问了，所以下面主要提几个在实际中可能经常遇到或者需要想清楚的问题：

Q1、数据仓库的技术解决方案有哪些，这些解决方案的优势在哪，瓶颈在哪？

　　随着数据仓库的不断发展和成熟，“大数据”概念的风靡，有越来越多的相关产品出来，最常见的技术解决方案包括hadoop和hive，oracle，mysql的infobright，greenplum及nosql，或者多个结合使用。

　　其实归纳起来就两类：一是用传统RDBMS为主导的数据库管理数据，oracle、mysql等都是基于传统的关系型数据库，优势就是有更严谨的数据结构，关系型数据库对数据的管理更加规范，数据处理过程中可能出现的非人为误差极小，而且标准的SQL接口使数据获取的成本较低，数据的查询和获取更加灵活和高效；但劣势也很明显，对海量数据的处理和存储的能力不足，当数据量达到一定程度的时候就会出现明显的瓶颈。而是基于文本的分布式处理引擎，hadoop、greenplum和nosql都是基于文本数据的处理和存储，优势是强大的数据处理能力，分布式的架构支持并行计算，并且具备超强的扩展延伸能力；劣势就是上层接口不方便，因此Hadoop上层的hive和greenplum上层的postgreSQL都是为了解决数据接口的问题，并且数据的查询和获取很难做到实时响应，灵活性不足。

Q2、数据仓库是否就应该保存聚合数据，细节数据不应该放入数据仓库？

　　其实这个问题基本已经达成共识，如果是构建企业级的数据仓库，那么对细节数据的集成和存储是必不可少的，但现实中还是存在很多直接从外部数据源计算聚合之后导入数据仓库的实例。如果对数据仓库只是轻量级的应用，仅存放聚合数据也无可厚非，毕竟没人规定数据仓库一定要是怎么样的，最终的目的无非就是满足对数据的支持和需求。

　　但对于企业的长期发展来看，数据仓库中存放细节数据有两方面的好处：一方面从技术层面，数据仓库存储细节数据可以释放前台数据库的查询压力，同时对于文本类数据和外部文档类数据入库之后管理更加规范，数据仓库保留历史和不可变更的特性可以让信息不被丢失；另一方面就是从数据的使用上，数据仓库让数据的获取和使用更加简便，集成细节数据让大量的文本型数据可查询，可关联，而面向主题的设计让数据的展现和分析更有方向性和目的性，而且细节数据是支持数据分析和数据挖掘应用所必不可少的。所以，如果数据仓库要不断地催生出更大的价值，细节数据的存储是必不可少的。

Q3、你会把数据仓库分为几层，每层的数据作用是什么？

　　没有标准答案，根据数据仓库中数据的复杂性和对数据使用的需求程度，数据仓库可以有不用的层级划分。

　　我一般会把数据仓库划成三层：最底层的细节数据，管理策略是优化存储，一般存储导入的原始数据，便于进行向上的统计汇总，因为数据量较大所以需要优化存储；中间层是多维模型，管理策略是优化结构和查询，面向主题的多维模型的设计，需要满足OLAP和数据查询的多样需求，同时保证查询的便捷性，关键在与维表的设计和维度的选择及组合，事实表需要关注存储和索引的优化；最上层是展现数据，管理策略是优化效率，一般会存放每天需要展现的汇总报表，或者根据多维模型拼装的视图，展现层的数据需要以最快的速度展现出来，一般用于BI平台的Dashboard和报表。

Q4、数据仓库搭建中最繁杂的事情是什么，最容易缺失的是哪一块？

　　一直觉得数据仓库的核心不在于数据集成，当然数据集成是数据仓库实现价值的前提，数据仓库真正的价值体现在数据的有效应用，数据源于业务反作用于业务。而搭建数据仓库的核心在于数据仓库的架构和数据模型的设计，怎么权衡数据的存储和数据获取效率之间的矛盾是数据仓库管理上的难点，这个难点任何数据仓库都会存在，而大数据增大了这种权衡中的难度。而数据的集成和数据质量控制是数据仓库搭建中最繁杂的事情，尤其是数据清洗的过程，我之前也写过几篇数据质量控制的文章，但现实中这个过程还要复杂得多，而且为了上层数据产出的准确性和有效性，这项工作又不得不做，而且要做得尽量细致。

　　搭建数据仓库中最容易缺失的就是对元数据的管理，很少有数据仓库团队具备完整的元数据，当然搭建数据仓库的工程师本身就是活的元数据，但无论是为了用数据的人还是数据仓库自身的团队着想，元数据都不可或缺。一方面元数据为数据需求方提供了完整的数据仓库使用文档，帮助他们能自主地快速获取数据，另一方面数据仓库团队成员可以从日常的数据解释中解脱出来，无论是对后期的不断迭代更新和维护还是培训新的员工，都非常有好处，元数据可以让数据仓库的应用和维护更加高效。

　　写在最后：以上仅代表个人观点，欢迎大家踊跃拍砖，更加希望高手们能在评论中给出宝贵的答案，任何角度的观点和讨论都可以，集思广益。

关于《网站分析实战》

16 条回复

　　我和蓝鲸的新书——《网站分析实战——如何以数据驱动决策，提升网站价值》终于在春节前正式出版发售了，中间经历了差不多一年的时间，非常感谢各方的努力和协同合作，也希望书的内容真正能给大家带来一些有价值的东西。

　　其实一开始并没有写书的意向，一方面因为书的内容需要比较严谨，而博客上面发布的文章在组织和叙述上都是比较随意的，而且基于目前积累的知识不足以写成一本完整的书；另一方面由于工作的原因，不太可能保证有足够的时间和精力去完成撰写。但机缘巧合，刚好蓝鲸有意向写些东西出来，然后去年春节恰好换工作的间隙有一段空闲时间，所以刚好利用这段时间完成了新书绝大部分的内容。

　　我在书中提到的内容会基于博客内容做些扩展，有些内容是博客中完全没有提到过的，并且书中的内容组织会更加地系统和完整，包括一些应用案例也是反复思考后，在能够有效地解释和反映主题前提下才放上去的。而博客中提到的一些不太成熟的思考没有放进书里面。同时配上一些重新制作或加工的图表和图片，保证内容的质量能够满足出版的要求，而且全书采用了彩印，所以阅读的体验应该还是不错的。

关于书的内容

　　《网站分析实战》主要介绍的是网站分析和数据分析相关的内容。蓝鲸对Google Analytics十分精通，所以他的内容主要是结合GA展开的，GA有一套完整的网站分析体系，所以蓝鲸的内容基本上涵盖了网站分析的整个知识面；而我的内容相对分散，主要是网站的数据分析方面的一些思路和个人在工作实践中总结的一些想法，也有一些网站数据分析的基础方法，穿插在整本书的内容中。全书的目录如下：

第1章.         解析神奇的网站分析——网站分析的目的、流程及价值

第2章.         从这里开始学习网站分析——网站分析中的基础指标解释

第3章.         网站分析师的三板斧——网站分析常用方法

第4章.         网站流量那些事儿——网站流量分析

第5章.         你的网站在偷懒吗——网站内容效率分析

第6章.         谁在使用我的网站——网站用户分析

第7章.         我们的目标是什么——网站目标与KPI

第8章.         深入追踪网站的访问者——路径与转化分析

第9章.         从新手到专家——网站分析高级应用

　　其中我涉及的内容主要包括：第1章网站分析的基础流程，第2章的数据获取，第3章的分析前准备、趋势分析和对比分析，第5章的最终产品页分析，第6章用户分析的所有内容，第7章的目标KPI监控与分析，第8章的关键路径转化分析和多路径选择分析，第9章的数据分析高级应用，关于数据仓库和内容推荐的部分。

　　因为书的内容是把我和蓝鲸的内容组合在一起，我们两人在表述方式上难免会存在一些差异，有些地方可能会存在一些细微的不一致，我们已经试图做一些串联和组合使内容更加连贯，但难免还是会存在一些细节上的小问题，还望大家见谅。

谁适合读这本书

　　其实所有对网站分析、数据分析感兴趣，或者工作在互联网领域，每天多多少少需要涉及一些看数据的工作的所有朋友都适合读这本书，我想书的某些方面的内容应该会对你有所帮助。主要适合的读者群体如下：

网站分析师、数据分析师：这个不用说原因了；
SEOer、SEMer：其实所有做互联网市场推广的朋友都可以读，因为至少流量分析跟你们的工作是相关的；
网站运营和产品经理：其实数据分析是运营和产品经理的日常工作，书中的内容分析和用户分析可以为你们提供一些思路；
个人站长：Google Analytics本身就是个人站长进行网站数据统计的普遍选择，所以蓝鲸的一些独门小技巧绝对对你们有帮助；
中高层管理人员：数据对企业越来越重要，公司的中高层管理者需要对一些核心指标了然于心，而书中目标和KPI相关的内容也可以为管理者提供一些参考建议。
网站分析和数据分析爱好者、初学者、或者准备往这个领域发展的朋友：这本书足够让你们了解和学习到网站数据分析到底是怎么样一个有趣的东西。

致谢

　　这本书完全是多方协同合作的产物。首先感谢我的合作者 @蓝鲸碎碎念，没有你的高质量内容的支持我压根就不会考虑写些东西出来，而且整个过程的合作都非常的顺畅愉快。

　　再要感谢的就是图书策划姚新军先生 @长颈鹿27 ，给了我们很多的建议，并且协调完成了整个图书出版流程，当然也要感谢所有参与后期排版、制作、美工等各方面的优化工作的朋友们，你们的辛苦工作才使整本书的面貌焕然一新。

　　感谢所有撰写图书推荐的朋友们，能在百忙之中抽空阅读书稿并提出宝贵的意见，在收到写推荐的邀请邮件后都非常积极地给出了反馈。

　　最后，这次写书对我来说也是一次特殊的经历和体验，希望书的内容能最终为大家带来一些有趣和有用的东西，希望你们能够喜欢，新书的推荐已经挂在博客的右侧边栏 ==> ，新书的网购地址如下：

　　亚马逊　　　当当　　　京东　　　豆瓣

网站数据分析的一些问题2

5 条回复

　　上一篇——网站数据分析的一些问题1中主要罗列了一些关于网站数据分析行业与数据分析师这个职业相关的一些问题，这篇是第二篇，主要想罗列一些关于BI的问题。

　　BI（Business Intelligence，商业智能），先看一下维基百科上面对BI的定义：

Business intelligence (BI) is defined as the ability for an organization to take all its capabilities and convert them into knowledge.

　　BI提供大量有价值的信息引导企业寻找新的发展机遇，当企业认识到潜在的机遇并成功地实施相应战略决策的时候，BI就能帮助企业在市场建立竞争优势并维持企业持续地发展。BI时常跟决策支持系统（Decision Support System, DSS）联系在一起，其实BI最主要的目标就是实现对企业的决策支持。

　　下面就探讨几个BI方面的问题：

Q1、BI与数据仓库（DW）之间的关系是怎么样的？（知乎）

　　首先可以明确的是BI的重点在于对数据的应用上，让数据变成有价值的信息，而所有的基础数据基本都是来源于数据仓库。

　　BI有两个方向的定义：广义的BI是包含数据仓库的，广义的BI包括数据的获取、处理、储存，到之后的分析、挖掘、展现变成有价值信息的整个过程，组成了一套完整的系统，当然在这个系统中数据仓库担当着从数据获取之后的处理和存储的职责，是基础组成部分；狭义的BI仅仅包括上层的数据应用，包括数据的展现、分析、挖掘等，所以不包括数据仓库。

　　因为BI的定义更侧重于数据应用，而随着数据量的不大扩大，数据仓库更多地被作为一项独立的技术被抽离出来，所以当前BI和数据仓库的定义更倾向于分离，整个系统被叫做“DW/BI”的解决方案。

Q2、BI系统主要是为了帮助企业解决什么样的问题？（知乎）

　　BI最初的目标就是优化企业的决策支持，实现从数据到有价值的信息的转化，辅助企业商业战略和决策的制定。所以BI的最终目标是获取商业的Insight。

　　BI首先实现的是企业数据的透明化，原始的数据报表就是为了从数据的角度定量地掌握企业的运营状态，有了数据的支撑，很多决策的制定就会有了参考依据。随着商业和信息技术的不断发展，BI不再仅仅停留在报表的领域，数据除了展现以外被更多地用于商业分析，而商业分析的基础组成就是统计、预测和优化，这些对企业的运营决策起到了更加关键的作用。但随着信息膨胀，数据量的剧增，BI也不断面临挑战，我们需要花更多的成本去处理和存储数据，需要花更多的精力去分析和应用数据。我之前写过BI应用中的三大矛盾这篇文章，因为有段时间了，很多地方的看法可能有了变化，但这3个矛盾相信依然还是存在。

　　所以，最终还是要把握BI的输出是有价值的信息，无论中间的处理方式是查询、报表，还是分析、挖掘，最终要得出的是有价值的结论。

Q3、目前BI的应用或组件主要有哪些？（知乎）

　　这里简单地归纳了一下，可能会有遗漏，希望大家能够在评论中补充。这里仅仅包括狭义BI中基于数据应用层面的一些功能，数据仓库的数据处理方面的应用不在这里罗列。

　　首先是报表、图表和Dashboard，目前的报表和图表除了更加丰富以外，跟传统报表还有一个关键的区别就是可交互性。目前的报表基本都提供简单的数据筛选、排序等功能，Dashboard的出现实现了按需整合报表和图表的功能。

　　再则是OLAP，OLAP一度被当做BI的核心功能，不得不承认OLAP是分析数据最有效的手段，尤其是基于多个维度多个层面的分析，这些是一两张报表图表所无法做到的。OLAP一般都是基于已经设计成型的多维模型以及存放多维模型的数据集市（Data Mart），数据集市和OLAP跟业务层面有着很多关联，这个使数据集市跟底层的数据仓库有了区分。

　　然后是数据的查询和分析，有时基于既定的模型的OLAP无法满足分析的需求，所以就有了数据查询的需求，一般直接查询数据仓库的细节数据；BI中的Ad-hoc Query则是对既定多维模型的灵活查询，可以自由组合维度和度量。

　　最后是报表的发布和数据预警，这都是属于BI平台的推送功能，一般可以通过邮件订阅的形式定期把组合的报表推送给相关的人员，而通过预警的设定，可以监控数据的变化趋势，掌握数据可能出现的异常。

　　另外BI还有很多新奇的功能，如基于GIS的地图数据、基于Flash实现的动态图表及对数据挖掘功能的集成等。

Q4、BI中的多维数据模型和OLAP的实用价值在哪？（知乎）

　　之前有关于多维数据模型和OLAP的介绍，可以参考数据仓库的多维数据模型和数据立方体与OLAP这两篇文章中的内容。

　　其实多维数据模型和OLAP最主要的是解决了如何有效地观察数据的问题，传统关系模型很难直接对数据进行观察分析，而多维模型为数据观察者提供了清晰的视角，就如平常我们从多个角度看待事物一样，多维模型维度的设计就很好地提供了这些角度的选择。而OLAP的几个操作形式正是体现了“分析”这个词本身的含义，从总体到细节，结合多个维度的交叉分析，让我们具备了对整个数据集进行全景观测的能力。

　　OLAP最关键的技术除了多维模型设计还有就是预计算（Precomputation），或者叫预聚合，预计算解决了数据快速获取的问题，基于一定的规则或者算法对数据集进行预计算之后，OLAP的操作性能可能得到有效地提升，从而使对大量数据的快速灵活的分析操作成为可能。

Q5、目前市场上主流的BI产品主要有哪些？（知乎）

　　市场上主要的商业BI产品包括IBM的Cognos，另外IBM有自己的DB2可以建立数据仓库，在2010年收购SPSS之后，让其在数据分析和数据挖掘的领域也更加具有竞争力、SAP的Business Objects（BO），另外SAP有BW（Business Information Warehouse），作为传统的ERP方案提供商在数据集成方面有独特的优势、Oracle的BI（企业级的叫BIEE，Oracle Business Intelligence Enterprise Edition），Oracle借助其强大的关系型数据库建立数据仓库有独特的优势。这3大商业BI都属于整合型的BI，再加上微软借助Sql Server数据库提供的SSIS、SSAS和SSRS也是属于整合型的BI解决方案。另外也有独立的BI公司，如SAS，传统优势在数据挖掘领域、Micro Strategy的BI解决方案、开源强大的BI系统Pentaho（之前几年还有很多开源的BI系统，但因为BI在技术上有一定的门槛和成本，所以目前很多开源BI 都会包括开源版本和商业版本，Pentaho也不例外），国内也有用友的BQ软件也是属于BI产品。

　　归纳一下就是目前的BI产品主要以商业产品为主，而且整套的BI产品一般都是重量级的，在购买、部署和使用上都需要一定的成本投入。

　　如果对BI方面有自己的见解，欢迎在下面评论，或者到知乎回答相应的问题。

网站数据分析的一些问题1

15 条回复

　　从事数据仓库和数据分析相关的工作也有段时间了，其实很多问题一直萦绕在脑中，有些甚至已经困扰相当长的一段时间，自己也在不断学习和工作的过程中寻找各种解决方案或者不断优化和替换之前的方案。这些问题从宏观层面到细节层面，很多问题其实没有绝对完美的解决方案，我们只能一步一步地摸索，不断寻找更优的方案以其让问题能够更好高效地得到解决，但每个人掌握的知识有限，所以无论怎么样每个人对问题的看法都会存在局限性；同时因为每个人的知识背景和经历的差异性，对各种问题又会触发各种不同的见解，所以通过集思广益往往能够得到让人眼前一亮的结论。

　　先说说博客，无论怎么样我的博客只是想做些记录和总结，只是表述一些个人的观点，我想每个人在学习工作中总会有所积累，有自己在专业领域的一些收获，每个人公平地享有相同的时间，每个人学到的掌握的都是有限的，没有孰强孰弱之分，差别只在于愿不愿意将其分享出来；博客中整理的内容，可能有些人认为不适合公开，毕竟有些东西还有些实用价值，但必须看到的是目前互联网发展速度太快了，我之前发的文章等半年之后回去看就会发现当时自己的想法并不成熟，如果在现阶段可能不会完全按照上面的思路去实现了，知识的更新和积累让我们不断选择更优的方法，不断改进和升级自身的知识体系，更何况很多东西在一个业务体系下适用，到另外的体系下就不适用了，聪明的人不会完全照搬照抄原方法，而是寻找最合适的方法，或者使用更灵活变通的方式去使用方法，所以也不必担心技能被“偷学”，因为只会模仿的人不知道怎么用好这些方法，而足够聪明的人到哪里都能学到适合自己的方法，在这个信息膨胀的环境下无法阻止他们的“偷学”。

　　其实博客最大的收获还是通过博客认识了很多朋友，尤其是网站分析领域的，相当一部分也有自己的博客，大家互相交流学到了很多东西，有些东西是互补并相互促进的，这些朋友都是乐意分享自己想法的人，每个人都有各自领域的专业和强项，这样反而使我听到和学到了很多耳目一新的东西，受益匪浅。所以如果你有时间写写博客，那么得到的收获绝对要比你觉得可能会失去的多得多。

　　既然我在博客里面已经写了很多，所以这里想换一个角色，我想通过几篇文章把之前遇到的诸多问题罗列出来，希望大家能够不吝提出自己的看法和解决方案。其实我更希望在博客的评论中看到更多不同的看法或者通过文章的思路扩展衍生出在其他方向上有价值的应用。另外，知乎真的是一个非常棒的知识分享和学习的平台，潜藏了很多的大牛，我会把整理的每个问题都贴到知乎上面，这样可以收集到更多牛人的看法，希望大家在知乎上有认识相关领域的大牛的可以积极地进行邀请。

　　这篇是第一篇，想重点罗列一些跟网站数据分析行业和数据分析师相关的问题。

Q1、你因何会选择网站分析或互联网数据分析这个行业，你认为这个行业的价值何在，发展前景如何？（知乎）

　　我的答案：互联网是一个阳光行业，而数据分析本身又是一个非常有意思的工作，很多时候，它就像是一个侦探从细枝末节的线索中寻找那个唯一的真相，如果你喜欢这种探秘的感觉，那么你同样会喜欢上网站数据分析这个行业。

　　其实我之前在《网站分析的应用和价值》这篇文章中介绍过网站数据分析的价值（这里不引用链接了，大家可以搜一下），简单地说就是“系统地帮助网站实现更加高效的运营”。

　　互联网数据量的快速膨胀，急需对数据进行系统化的处理和分析，以便快速地发现信息，转化价值，所以就目前来看，无论是国外的发展趋势，还是国内对这个行业的需求都是快速增长的，发展前景是比较乐观的。

Q2、作为网站的数据分析师，你完成的最有成就感的事情是什么，感到最纠结的事情又是什么？（知乎）

　　我的答案：最有成就感的事情就是用数据实现价值，无论是通过数据排查问题进而解决问题，还是通过数据分析应用优化网站产品，其实都是创造价值的过程。

　　最纠结的事情其实不是整日需要维护和验证数据的一致性、准确性，数据时常会存在诸多细节上的问题，因为这些基本是必然存在的，无论在哪个公司，网站从事何种业务，技术或者数据的环境如何，数据的问题还是无所不在，而保证数据质量本身就是数据分析师最基础的工作，也是开展分析的前提和基础。

　　我最纠结的还是在于数据的需求和应用，如果与数据的需求方在数据的理解上达不成一致，那么很多数据需求就会存在反复的调整变动，期间就会做很多重复的工作或者无用功，甚至有些时候数据分析师大费周章地提取的一份数据在需求方那里只是用几秒钟扫视一遍，没有产生任何的价值，这也是令数据分析师最伤感的事情。所以数据分析始终要从获取最终insight的角度出发，如果数据需求中无法说明获取数据是为了试图得出何种insight，那么这个需求基本就没有实现的必要了。

Q3、作为网站的数据分析师，你日常工作中最常做的是什么，需要与哪些同事交流，一般会用到哪些工具？（知乎）

　　我的答案：数据分析师的日常工作很简单，就是数据处理和观察报表，而且这两块工作会占用每天的大部分时间。如果每天能够准时提供准确的报表，及时地反馈数据异常，那么你已经是一个合格的数据分析师了。

　　数据分析师要接触的部门会比较多，可以是任何有数据需求的部门，运营、产品、市场、销售、客服……甚至是各层级的BOSS。

　　同样，数据分析师日常使用的工具其实也非常简单，估计在90%的时间都在使用数据库的SQL、Excel或者PPT，当然视每个公司的情况会有差异。所以如果你听到某位数据分析师说他天天在研究什么什么样的高级分析方法或者高深的数据算法，天天在使用R、SPSS、SAS，那么不排除有装X的嫌疑。

Q4、在你刚刚步入网站数据分析的工作，或者你曾经新到一个公司或者网站从事数据分析师的工作，你是如何着手开始你的新工作的，你觉得你需要了解哪些东西，会从哪些方面优先开始学习？（知乎）

　　我的答案：“业务 => 网站或产品 => 数据处理流程 => 指标和报表”，我的基本流程就是这样的，当然这个也不绝对是前后的顺序，可以是同时结合着看的。

　　数据分析的重点不在于数据而在于分析，分析针对的是业务，所以业务是首要了解的东西，就像一个人做事情，首先要明确的是要做的是什么事情；然后是网站或产品，它是实现业务的媒介，就像是做事情时使用的工作或方法；数据的处理流程包括了数据的获取、处理和存储模型，它是记录信息，可以看做是日记，记录了一个人做事情的整个流程；指标和报表就是为了将一个人做事情的整个流程复述出来，把握重点同时又不失关键细节，所以必须要了解指标的统计规则和报表的展现方式，以便更好地突显重点，了解省略的细节，让复述贴近事实。

　　很明显，当你了解了这个人在做什么事情之后再去阅读这个人在做事情时记录的信息或听取复述要远比你直接通过复述内容或者阅读记录信息来猜测这个人在做什么事情来得高效得多。

　　不知道现在知乎注册还需要不需要邀请码，如果需要的话可以问我要，我的Gtalk（joeghwu@gmail.com）。

你找到答案了吗？

15 条回复

　　博客自发布第一篇文章以来，到今天刚好有一个月时间了，所以这里对开篇中提出的几个问题做一个解答，如果你还没有阅读过该文章，建议先阅读开篇。

　　也许很多朋友已经找到了答案，也有可能你们的解答与我下面的描述会有差异，当然只要都能解释问题，符合问题的条件，一切答案都是可以被接受的，问题的答案可能并非唯一的。其实这些问题只是想对网站数据分析做一些简单的解释，阐述作者个人对网站数据分析的一些认识，同时让这个过程更具趣味性。

1、趋势分析与预测

　　从表面看，寻找数字规律中的这串数字可能毫无规律，但只要把它们放到图表上，你就会惊奇地发现它们呈一条完美的曲线排列了起来：

　　这是在excel里面以1-20的序列为横坐标，以那串20个数字为纵坐标一一对应画出的散点图，可以看到这是一条比较规范的类S型曲线，也是最典型的一类成长曲线，也许你的网站的用户访问量或者销售额正是以类似这种趋势增长的。发现这种规律之后，就可以用数据统计的方法对其进行分析，对于这类有规律线性曲线，最常用的方法就是回归分析：

　　首先可以根据S曲线确定其基本表达式为：

　　　　　　　　　　　　或

　　表达式因为包含三个未知参数，无法直接通过回归分析求得，所以首先需要根据S曲线的特征和已知的数字观察到曲线无限接近于100，可以先暂定α的值为0.01，则该表达式变为：

　　可以将其转化为线性表达式：

　　　　　　　　　　　　其中y^*=ln(1/y-0.01); x^*=x; α^*=lnβ; β^*=-θ

　　然后就可以用标准一元线性回归的方法进行拟合和分析，计算得到拟合度R²=0.998，显著性系数接近于0，拟合度非常高，结果可以被接受。算出α和β的值约为0.7381和-0.5066，代入原方程得到：

　　再根据改方程当x=9是代入，得y约为31.35，预测得到那个缺失的数字约为31。

　　当然这可能只是其中一种分析和预测的方法，如果可以找到另外的拟合度足够高的表达式，那么用该表达式预测得到的数字一样有效，答案并非唯一的。这个题目是作者自己编的，自然计算得到的拟合度十分理想，在现实中可能并没有这么完美的曲线存在，但只要用类似的方法去思考和分析，一样也能找到需要的答案。

　　这里已经完成了对该题的解释，想顺带说一下成长曲线。大家都知道成长曲线存在着无法达到的极值，获取对于生物界来说该曲线确实是无法突破的，那么对已企业或者网站来说类似的流量增长曲线或者利润增长曲线是否可以被突破呢？答案是肯定的。任何失误的发展都会遇到瓶颈，网站也是这样，关键是如何发现和认识自身的瓶颈，只有真正地了解自身的问题，才能通过不断地优化、创新和市场拓展突破瓶颈，当瓶颈一旦被突破，原先无法逾越的极值点将变成新成长曲线的起始点继续向上攀升，而数据分析正是网站发现瓶颈的最有力武器。

2、识别用户

　　关于那道逻辑题，也许很多朋友已经发现这个就是根据爱因斯坦的那题经典的逻辑题改编而来的，答案如下：

次序	A	B	D	E	C
穿着	黄	蓝	红	黑	白
城市	广州	青岛	北京	上海	杭州
职业	律师	工程师	教授	医生	作家
饮料	水	茶	牛奶	咖啡	啤酒

　　其实对于网站分析来说，识别用户是极其重要的一个过程，网站分析中有一个重要的指标——Unique Visitor(UV)，用以标识唯一的访问用户，而如何从网站的底层日志中识别每次访问是否是同一用户一直是网站分析中的一个难点，因为某些时候用户访问是未登录的，或是匿名的，甚至连cookie都是被禁用的。而对于网站分析来说，识别唯一用户又是十分有用的，它直接影响到针对每个用户的网站行为分析、用户细分及定向营销等多个方面，所以之后会有专门的对如何更好地识别网站用户的相关介绍。

3、学会细分

　　细分是网站分析中一个十分重要的技巧和方法，无论是用户、产品、页面等都可以通过细分更好地发现其特征。其实图形题中的两个问题正是细分中的两种基本的方法：一种是已知类别，将类别未明的事物归类；另一种是已知存在这么多的事物，将这些食物分成若干类，我对这两个问题的解答如下（当然这个答案并非唯一，只要归类有所依据的答案都是可以被接受的）：

　　1）先观察2、4、8三个图形所拥有的相同特征：4条边、左右对称、上下对称、重心在同一水平线上、序号都是偶数，根据这些特征去寻找共同特征最多的图形，可以看到6号的圆形是最为接近的：左右对称、上下对称、重心在同一水平线上、序号都是偶数，所以我的答案是选择6号的圆形；

　　2）与第一题类似，从所有的图形中选择拥有最多共同特征的归为一类，并使各类别间的特征差异最大，我是从这几个角度进行区分的：边数、轴对称、中心对称、重心分布、序号，分成四类如下：

　　　　A类：2、4、8（4条边、左右对称、上下对称、重心都在水平中间线、序号都为偶数）；

　　　　B类：1、3、5（左右对称、重心都在水平中间线以下、序号都是奇数）；

　　　　C类：6（中心对称、任意轴对称、重心在水平中间线）；

　　　　D类：7（4条边、中心对称、重心在水平中间线）；

　　其实这两个问题也是数据挖掘中两个方法的简单体现：

分类

　　分类就是把一些新的事物映射到给定类别的中的某一个类别，用于描述事物或预测。常见的分类方法有：决策树、KNN法(K-Nearest Neighbor)、SVM法(Support Vector Machine)、VSM法(Vector Space Model)、神经网络等。

聚类

　　聚类就是将数据对象分组成多个类或者簇，划分的原则是在同一个簇中的对象之间具有较高的相似度，而不同簇中的对象差别较大。聚类算法可以分为划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法。

4、互联网发展趋势

　　对于最后一个问题，其实大家可以各抒己见，这里也只是作者的个人看法，也许阐述和对比的网站不一定恰当，这里只是想说明作为一个网站分析师，必须时刻关注互联网的发展趋势，而Alexa上面排在TOP前几位的网站正是互联网不断发展和进步的指向标。

　　正如前几天有人预测2010年facebook的流量将超越google，成为全球最受欢迎的网站，结果我上Alexa一比较，果然facebook在数据上除了用户量不及google外，几乎所有数据都持平或超越了google，其中页面访问量目前两个网站已不相上下，而网站访问时间facebook甚至已经达到了google的3倍（当然这跟网站本身的服务性质有关）；但确实不得不佩服facebook的实力，流量一路飙升，过关斩将，到现在能够觊觎互联网老大的宝座，但是要真正坐上去还得在用户量上超越google。其实很多人看好facebook也不无道理，因为毕竟facebook是信息的创造者，而google只是信息的整合者，创造者掌握着信息的信息竞争力。

开篇

2 条回复

　　欢迎来到网站分析的世界，这是一个充满趣味的世界，在这里，你可以找到与网站数据仓库和数据分析相关的知识，有意思的分析方法和分析结果，希望这里的一切能让你的网站变得更加优秀。
　　这是博客的第一篇文章，这里有几个有意思的问题，大家可以尝试着去找到答案（试图通过搜索引擎去寻找答案可能会让你失望，下面的问题都是作者的原创或改编）：

１、寻找数字规律

　　这里有20个数字，其中第9个数字缺失了，试着寻找到它们的排列规律，并预测出第9个数字最有可能是什么？

1，1，2，4，6，9，14，21，____，43，55，67，77，85，91，94，96，98，99，99

２、一道逻辑题

　　有ABCDE五个人去参加一个聚会，他们来自不同的城市，拥有不同的职业、穿着不同色调的服饰，按照一定的顺序先后到达并各自点了5种不同的饮料，其中：

D 的职业是教授；
第3位到达的人点了杯牛奶；
B 和律师相邻到达；
北京人穿着红色的衣服；
工程师和 A 相邻到达；
工程师和点了一杯水的人相邻到达。
作家点了杯啤酒；
最早到的是广州人；
C 来自杭州；
青岛人点了茶；
穿着黑色衣服的人正好在穿白色衣服的人之前到达；
上海人的职业是医生；
广州人与穿蓝衣服的人相邻到达；
律师穿着黄色的衣服；
穿黑衣服的人点了杯咖啡；

　　你能推理出ABCDE五个人的到达次序，以及他们各自来自哪个城市、从事什么职业、穿着什么颜色的衣服及到达之后点了何种饮料吗？

３、一道图形题

　　上面是形状各异的8种图形，它们从左到右分别编号1-8号，请问：

１）如果2、4、8号图形归为同一类别，那么请再选择一个图形放入该类型，能使该类别中的所有图形具有最多的共同特征；

２）试着将上述8个图形分成3到4个类别，并使每个类别中的所有图形具有最多的共同特征，同时各类别间特征的差异最大。（也许分法有多种）

４、尝试做个预言家

　　3个月前，facebook的用户量以无法阻挡的势头超越yahoo，预示着以WEB2.0为基础的信息集成开放平台已经替代传统的信息内容发布商，成为了互联网信息交互新的主导力量。

　　而在此同时，另外一股新兴的力量也在强势崛起，twitter的follow的概念让信息传播的速度以指数的形式迅速扩张，其同样简洁、实时的功能正在对传统的IM工具构成挑战：

　　twitter拥有了更广阔的平台和更透明的信息传递方式，是否也会在某一天，twitter的用户量会超越MSN成为即时信息传递的新宠，大家有兴趣的可以预测一下，在不久的将来会不会有这么一天，大概会在何时？

　　也许你已经找到了自己的答案了，作者对以上问题的解释请参见你找到答案了吗？