
前面一篇文章——难以解释的数据异常——发出来之后,朋友推荐我去读《黑天鹅》,刚刚翻完这本书,发现书中的很多观点和细节的表述都能给人启发,尤其是“叙述谬论”和“过度解释”这个两点能对难以解释的数据异常这篇文章中描述的内容给出另一个侧面的解释。从作者塔勒布的后记和书中表述的观点来看,读过这本书的人可能很容易走入两种认识的极端: 1、既然一些未知的黑天鹅事件可......
» 阅读更多: 大数定律与抽样陷阱
前面一篇文章——难以解释的数据异常——发出来之后,朋友推荐我去读《黑天鹅》,刚刚翻完这本书,发现书中的很多观点和细节的表述都能给人启发,尤其是“叙述谬论”和“过度解释”这个两点能对难以解释的数据异常这篇文章中描述的内容给出另一个侧面的解释。从作者塔勒布的后记和书中表述的观点来看,读过这本书的人可能很容易走入两种认识的极端: 1、既然一些未知的黑天鹅事件可......
» 阅读更多: 大数定律与抽样陷阱![掌阅招聘数据分析师[北京] 掌阅招聘数据分析师[北京]](http://webdataanalysis.net/wp-content/uploads/2011/01/zhangyue_logo-150x150.jpg)
掌阅科技是国内专业从事手机软件开发及无线娱乐运营的科技公司,主打产品是Android平台的iReader。掌阅致力于为用户提供高品质的移动阅读生活,成为国内一流的手机服务提供商。 掌阅是移动互联网领域比较锐意进取的一个公司,高层都非常务实,重视数据的价值,相信数据分析师在掌阅会有非常不错的发展前景。 工作职责 对运营报表数据分析,发现数据背后的潜在商......
» 阅读更多: 掌阅招聘数据分析师[北京]
我和蓝鲸的新书——《网站分析实战——如何以数据驱动决策,提升网站价值》终于在春节前正式出版发售了,中间经历了差不多一年的时间,非常感谢各方的努力和协同合作,也希望书的内容真正能给大家带来一些有价值的东西。 其实一开始并没有写书的意向,一方面因为书的内容需要比较严谨,而博客上面发布的文章在组织和叙述上都是比较随意的,而且基于目前积累的知识不......
» 阅读更多: 关于《网站分析实战》
我们通常使用均值、中位数、众数等统计量来反映数据的集中趋势,但这些统计量无法完全反应数据的特征,即使均值相等的数据集也存在无限种分布的可能,所以需要结合数据的离散程度。常用的可以反映数据离散程度的统计量如下: 极差(Range) 极差也叫全距,指数据集中的最大值与最小值之差: 极差计算比较简单,能从一定程度上反映数据集的离......
» 阅读更多: 衡量数据的离散程度
在分析数据的时候,总有那些一些数据异常无法找到适当的理由进行合理解释,也许可以换个角度来看待这些异常。为什么明明数据发生较大的起伏波动,我们绞尽脑汁还是无法找到合理的原因,这些到底是怎么样的异常,是不是存在一些共性,或者这些异常是不是我们平常所说的异常,抑或是应该归到其他类别,不妨先叫它们“难以解释的异常”。 近段时间在读《思考,快与慢》这......
» 阅读更多: 难以解释的数据异常
前面的两篇文章——分析的前提—数据质量1和分析的前提—数据质量2分别介绍了通过Data Profiling的方法获取数据的统计信息,并使用Data Auditing来评估数据是否存在质量问题,数据的质量问题可以通过完整性、准确性和一致性三个方面进行审核。这篇文章介绍最后一块内容——数据修正(Data Correcting)。 数据审核帮助我们发现数据中存在的问题,而这些问......
» 阅读更多: 分析的前提—数据质量3
前一篇文章介绍了数据质量的一些基本概念,数据质量控制作为数据仓库的基础环节,是保障上层数据应用的基础。数据质量保证主要包括数据概要分析(Data Profiling)、数据审核(Data Auditing)和数据修正(Data Correcting)三个部分,前一篇文章介绍了Data Profiling的相关内容,从Data Profiling的过程中获得了数据的概要统计信息,所以下面就要用这些......
» 阅读更多: 分析的前提—数据质量2
数据质量(Data Quality)是数据分析结论有效性和准确性的基础也是最重要的前提和保障。数据质量保证(Data Quality Assurance)是数据仓库架构中的重要环节,也是ETL的重要组成部分。 我们通常通过数据清洗(Data cleansing)来过滤脏数据,保证底层数据的有效性和准确性,数据清洗一般是数据进入数据仓库的前置环节,一般来说数据一旦进入数据仓......
» 阅读更多: 分析的前提—数据质量1
最早看到SkyGlue这个工具是在Cloga博客的文章,后来经过jasseyyang的推荐,向SkyGlue的cindy申请开通了博客GA账号的试用。经过一段时间的使用,现在来简单介绍一下SkyGlue这个工具。 SkyGlue是Google Analytics的一个扩展工具,基于对网站中唯一访客的识别和标记,自动追踪网站的事件监控,记录用户操作的点击流数据。SkyGlue同样是通过JS页......
» 阅读更多: SkyGlue—用GA标记用户生成点击流
上一篇——网站数据分析的一些问题1中主要罗列了一些关于网站数据分析行业与数据分析师这个职业相关的一些问题,这篇是第二篇,主要想罗列一些关于BI的问题。 BI(Business Intelligence,商业智能),先看一下维基百科上面对BI的定义: Business intelligence (BI) is defined as the ability for an organization to take all its capabilities and convert them into k......
» 阅读更多: 网站数据分析的一些问题2