怎样合理地定义用户流失

2013年8月8日 由 joegh    18 条评论 »
怎样合理地定义用户流失

  很久没有更新博客了,这篇再写一些关于“用户流失”的内容。之前发布的网站的活跃用户与流失用户这篇文章对网站的活跃用户、流失用户及新用户流失做了定义,这里修正下对流失用户的英文叫法,一般对流失用户常用的英文为“churn user”,之前用的wastage、away、lost等都不是太规范。后来陆续有做相关分析的朋友问到流失用户的流失时间长度到底选择多长是合理的,尤其......

» 阅读更多: 怎样合理地定义用户流失

网站数据分析的一些问题3

2013年5月23日 由 joegh    6 条评论 »
网站数据分析的一些问题3

  之前的文章——网站数据分析的一些问题2中主要整理了BI相关的问题,这篇文章主要想整理一些数据仓库相关的问题。因为最近重新在看一些数据仓库的资料和书籍,想把之前以及当前遇到的主要问题提出来(博客中有关数据仓库的相关内容请参阅网站数据仓库这个目录),同时自己也对数据仓库方面的知识进行下重新的整理和认识,而且很久没有在博客发新的文章了,不能让自己过于懒散了。 ;......

» 阅读更多: 网站数据分析的一些问题3

大数定律与抽样陷阱

2013年2月3日 由 joegh    6 条评论 »
大数定律与抽样陷阱

  前面一篇文章——难以解释的数据异常——发出来之后,朋友推荐我去读《黑天鹅》,刚刚翻完这本书,发现书中的很多观点和细节的表述都能给人启发,尤其是“叙述谬论”和“过度解释”这个两点能对难以解释的数据异常这篇文章中描述的内容给出另一个侧面的解释。从作者塔勒布的后记和书中表述的观点来看,读过这本书的人可能很容易走入两种认识的极端:   1、既然一些未知的黑天鹅事件可......

» 阅读更多: 大数定律与抽样陷阱

掌阅招聘数据分析师[北京]

2013年1月28日 由 joegh    没有评论 »
掌阅招聘数据分析师[北京]

   掌阅科技是国内专业从事手机软件开发及无线娱乐运营的科技公司,主打产品是Android平台的iReader。掌阅致力于为用户提供高品质的移动阅读生活,成为国内一流的手机服务提供商。 掌阅是移动互联网领域比较锐意进取的一个公司,高层都非常务实,重视数据的价值,相信数据分析师在掌阅会有非常不错的发展前景。 职位描述   通过数据监控产品运营状况,帮助产品和运营的......

» 阅读更多: 掌阅招聘数据分析师[北京]

关于《网站分析实战》

2013年1月12日 由 joegh    16 条评论 »
关于《网站分析实战》

  我和蓝鲸的新书——《网站分析实战——如何以数据驱动决策,提升网站价值》终于在春节前正式出版发售了,中间经历了差不多一年的时间,非常感谢各方的努力和协同合作,也希望书的内容真正能给大家带来一些有价值的东西。   其实一开始并没有写书的意向,一方面因为书的内容需要比较严谨,而博客上面发布的文章在组织和叙述上都是比较随意的,而且基于目前积累的知识不......

» 阅读更多: 关于《网站分析实战》

衡量数据的离散程度

2013年1月2日 由 joegh    7 条评论 »
衡量数据的离散程度

  我们通常使用均值、中位数、众数等统计量来反映数据的集中趋势,但这些统计量无法完全反应数据的特征,即使均值相等的数据集也存在无限种分布的可能,所以需要结合数据的离散程度。常用的可以反映数据离散程度的统计量如下: 极差(Range)   极差也叫全距,指数据集中的最大值与最小值之差:   极差计算比较简单,能从一定程度上反映数据集的离......

» 阅读更多: 衡量数据的离散程度

难以解释的数据异常

2012年12月5日 由 joegh    9 条评论 »
难以解释的数据异常

  在分析数据的时候,总有那些一些数据异常无法找到适当的理由进行合理解释,也许可以换个角度来看待这些异常。为什么明明数据发生较大的起伏波动,我们绞尽脑汁还是无法找到合理的原因,这些到底是怎么样的异常,是不是存在一些共性,或者这些异常是不是我们平常所说的异常,抑或是应该归到其他类别,不妨先叫它们“难以解释的异常”。   近段时间在读《思考,快与慢》这......

» 阅读更多: 难以解释的数据异常

分析的前提—数据质量3

2012年11月20日 由 joegh    2 条评论 »
分析的前提—数据质量3

  前面的两篇文章——分析的前提—数据质量1和分析的前提—数据质量2分别介绍了通过Data Profiling的方法获取数据的统计信息,并使用Data Auditing来评估数据是否存在质量问题,数据的质量问题可以通过完整性、准确性和一致性三个方面进行审核。这篇文章介绍最后一块内容——数据修正(Data Correcting)。   数据审核帮助我们发现数据中存在的问题,而这些问......

» 阅读更多: 分析的前提—数据质量3

分析的前提—数据质量2

2012年10月21日 由 joegh    2 条评论 »
分析的前提—数据质量2

  前一篇文章介绍了数据质量的一些基本概念,数据质量控制作为数据仓库的基础环节,是保障上层数据应用的基础。数据质量保证主要包括数据概要分析(Data Profiling)、数据审核(Data Auditing)和数据修正(Data Correcting)三个部分,前一篇文章介绍了Data Profiling的相关内容,从Data Profiling的过程中获得了数据的概要统计信息,所以下面就要用这些......

» 阅读更多: 分析的前提—数据质量2

分析的前提—数据质量1

2012年9月26日 由 joegh    3 条评论 »
分析的前提—数据质量1

  数据质量(Data Quality)是数据分析结论有效性和准确性的基础也是最重要的前提和保障。数据质量保证(Data Quality Assurance)是数据仓库架构中的重要环节,也是ETL的重要组成部分。   我们通常通过数据清洗(Data cleansing)来过滤脏数据,保证底层数据的有效性和准确性,数据清洗一般是数据进入数据仓库的前置环节,一般来说数据一旦进入数据仓......

» 阅读更多: 分析的前提—数据质量1