月度归档:2013 年一月

掌阅招聘数据分析师[北京]

zhangyue_logo   掌阅科技是国内专业从事手机软件开发及无线娱乐运营的科技公司,主打产品是Android平台的iReader。掌阅致力于为用户提供高品质的移动阅读生活,成为国内一流的手机服务提供商。

掌阅是移动互联网领域比较锐意进取的一个公司,高层都非常务实,重视数据的价值,相信数据分析师在掌阅会有非常不错的发展前景。

职位描述

  通过数据监控产品运营状况,帮助产品和运营的优化。满足数据需求方对数据的需求,通过有效的方式帮助需求方更好地利用数据;控制数据的获取、计算和交付流程的规范化,在可行性的基础上尽可能地提交完整、准确、及时的数据。

工作职责

  1. 对运营报表数据分析,发现数据背后的潜在商业机会,提供辅助决策支持。
  2. 深入理解移动阅读和图书推荐的运营业务逻辑,构建公司业务领域海量数据分析与挖掘模型和相应分析方法论,优化经营效果。
  3. 分析用户行为特征与规律,为移动终端产品持续改进提供评估模型,并提出合理建议
  4. 对管理层或其他部门的数据分析相关需求,进行业务调研、需求解析、和试验设计等

技能要求

  1. 统计、数学、信息技术,计算机本科及以上学历一年以上相关工作经历
  2. 掌握一种数据分析工具(R/SAS/SPSS/Matlab),具备编程能力实现最优化算法的,有实际建模经验
  3. 熟悉某种数据库 熟练运用SQL,有丰富的数据分析、挖掘、清洗和建模的经验,有脚本语言经验python/shell/perl/php 优先
  4. 熟练独立编写商业数据分析报告,及时发现和分析其中隐含的变化和问题

待遇水平

月薪:12K-20K,根据应聘者的水平而定,上限也不是完全封死的。

联系方式

简历请发送至:lingxiaohui@zhangyue.com  关注职位,想要咨询的也可以加QQ:1005467677

关于《网站分析实战》

web-analytics-in-action  我和蓝鲸的新书——《网站分析实战——如何以数据驱动决策,提升网站价值》终于在春节前正式出版发售了,中间经历了差不多一年的时间,非常感谢各方的努力和协同合作,也希望书的内容真正能给大家带来一些有价值的东西。

  其实一开始并没有写书的意向,一方面因为书的内容需要比较严谨,而博客上面发布的文章在组织和叙述上都是比较随意的,而且基于目前积累的知识不足以写成一本完整的书;另一方面由于工作的原因,不太可能保证有足够的时间和精力去完成撰写。但机缘巧合,刚好蓝鲸有意向写些东西出来,然后去年春节恰好换工作的间隙有一段空闲时间,所以刚好利用这段时间完成了新书绝大部分的内容。

  我在书中提到的内容会基于博客内容做些扩展,有些内容是博客中完全没有提到过的,并且书中的内容组织会更加地系统和完整,包括一些应用案例也是反复思考后,在能够有效地解释和反映主题前提下才放上去的。而博客中提到的一些不太成熟的思考没有放进书里面。同时配上一些重新制作或加工的图表和图片,保证内容的质量能够满足出版的要求,而且全书采用了彩印,所以阅读的体验应该还是不错的。 ;-)  

关于书的内容

  《网站分析实战》主要介绍的是网站分析和数据分析相关的内容。蓝鲸对Google Analytics十分精通,所以他的内容主要是结合GA展开的,GA有一套完整的网站分析体系,所以蓝鲸的内容基本上涵盖了网站分析的整个知识面;而我的内容相对分散,主要是网站的数据分析方面的一些思路和个人在工作实践中总结的一些想法,也有一些网站数据分析的基础方法,穿插在整本书的内容中。全书的目录如下:

第1章.         解析神奇的网站分析——网站分析的目的、流程及价值

第2章.         从这里开始学习网站分析——网站分析中的基础指标解释

第3章.         网站分析师的三板斧——网站分析常用方法

第4章.         网站流量那些事儿——网站流量分析

第5章.         你的网站在偷懒吗——网站内容效率分析

第6章.         谁在使用我的网站——网站用户分析

第7章.         我们的目标是什么——网站目标与KPI

第8章.         深入追踪网站的访问者——路径与转化分析

第9章.         从新手到专家——网站分析高级应用

  其中我涉及的内容主要包括:第1章网站分析的基础流程,第2章的数据获取,第3章的分析前准备、趋势分析和对比分析,第5章的最终产品页分析,第6章用户分析的所有内容,第7章的目标KPI监控与分析,第8章的关键路径转化分析和多路径选择分析,第9章的数据分析高级应用,关于数据仓库和内容推荐的部分。

  因为书的内容是把我和蓝鲸的内容组合在一起,我们两人在表述方式上难免会存在一些差异,有些地方可能会存在一些细微的不一致,我们已经试图做一些串联和组合使内容更加连贯,但难免还是会存在一些细节上的小问题,还望大家见谅。

谁适合读这本书

  其实所有对网站分析、数据分析感兴趣,或者工作在互联网领域,每天多多少少需要涉及一些看数据的工作的所有朋友都适合读这本书,我想书的某些方面的内容应该会对你有所帮助。主要适合的读者群体如下:

  • 网站分析师、数据分析师:这个不用说原因了;
  • SEOer、SEMer:其实所有做互联网市场推广的朋友都可以读,因为至少流量分析跟你们的工作是相关的;
  • 网站运营和产品经理:其实数据分析是运营和产品经理的日常工作,书中的内容分析和用户分析可以为你们提供一些思路;
  • 个人站长:Google Analytics本身就是个人站长进行网站数据统计的普遍选择,所以蓝鲸的一些独门小技巧绝对对你们有帮助;
  • 中高层管理人员:数据对企业越来越重要,公司的中高层管理者需要对一些核心指标了然于心,而书中目标和KPI相关的内容也可以为管理者提供一些参考建议。
  • 网站分析和数据分析爱好者、初学者、或者准备往这个领域发展的朋友:这本书足够让你们了解和学习到网站数据分析到底是怎么样一个有趣的东西。

致谢

  这本书完全是多方协同合作的产物。首先感谢我的合作者 @蓝鲸碎碎念 ,没有你的高质量内容的支持我压根就不会考虑写些东西出来,而且整个过程的合作都非常的顺畅愉快。

  再要感谢的就是图书策划姚新军先生 @长颈鹿27 ,给了我们很多的建议,并且协调完成了整个图书出版流程,当然也要感谢所有参与后期排版、制作、美工等各方面的优化工作的朋友们,你们的辛苦工作才使整本书的面貌焕然一新。

  感谢所有撰写图书推荐的朋友们,能在百忙之中抽空阅读书稿并提出宝贵的意见,在收到写推荐的邀请邮件后都非常积极地给出了反馈。

  最后,这次写书对我来说也是一次特殊的经历和体验,希望书的内容能最终为大家带来一些有趣和有用的东西,希望你们能够喜欢,新书的推荐已经挂在博客的右侧边栏 ==> ,新书的网购地址如下:

  亚马逊   当当   京东   豆瓣

衡量数据的离散程度

  我们通常使用均值、中位数、众数等统计量来反映数据的集中趋势,但这些统计量无法完全反应数据的特征,即使均值相等的数据集也存在无限种分布的可能,所以需要结合数据的离散程度。常用的可以反映数据离散程度的统计量如下:

极差(Range)

  极差也叫全距,指数据集中的最大值与最小值之差:

Range

  极差计算比较简单,能从一定程度上反映数据集的离散情况,但因为最大值和最小值都取的是极端,而没有考虑中间其他数据项,因此往往会受异常点的影响不能真实反映数据的离散情况。

四分位距(interquartile range,IQR)

  我们通常使用箱形图来表现一个数据集的分布特征:

box-plot

  一般中间矩形箱的上下两边分别为数据集的上四分位数(75%,Q3)和下四分位数(25%,Q1),中间的横线代表数据集的中位数(50%,Media,Q2),四分位距是使用Q3减去Q1计算得到:

 interquartile-range

  如果将数据集升序排列,即处于数据集3/4位置的数值减去1/4位置的数值。四分位距规避了数据集中存在异常大或者异常小的数值影响极差对离散程度的判断,但四分位距还是单纯的两个数值相减,并没有考虑其他数值的情况,所以也无法比较完整地表现数据集的整体离散情况。

方差(Variance)

  方差使用均值作为参照系,考虑了数据集中所有数值相对均值的偏离情况,并使用平方的方式进行求和取平均,避免正负数的相互抵消:

Variance

  方差是最常用的衡量数据离散情况的统计量。

标准差(Standard Deviation)

  方差得到的数值偏差均值取平方后的算术平均数,为了能够得到一个跟数据集中的数值同样数量级的统计量,于是就有了标准差,标准差就是对方差取开方后得到的:

Standard-Deviation

  基于均值和标准差就可以大致明确数据集的中心及数值在中心周围的波动情况,也可以计算正态总体的置信区间等统计量。

平均差(Mean Deviation)

  方差用取平方的方式消除数值偏差的正负,平均差用绝对值的方式消除偏差的正负性。平均差可以用均值作为参考系,也可以用中位数,这里使用均值:

Mean-Deviation

  平均差相对标准差而言,更不易受极端值的影响,因为标准差是通过方差的平方计算而来的,但是平均差用的是绝对值,其实是一个逻辑判断的过程而并非直接计算的过程,所以标准差的计算过程更加简单直接。

变异系数(Coefficient of Variation,CV)

  上面介绍的方差、标准差和平均差等都是数值的绝对量,无法规避数值度量单位的影响,所以这些统计量往往需要结合均值、中位数才能有效评定数据集的离散情况。比如同样是标准差是10的数据集,对于一个数值量级较大的数据集来说可能反映的波动是较小的,但是对于数值量级较小的数据集来说波动也可能是巨大的。

  变异系数就是为了修正这个弊端,使用标准差除以均值得到的一个相对量来反映数据集的变异情况或者离散程度:

Coefficient-of-Variation

  变异系数的优势就在于作为一个无量纲量,可以比较度量单位不同的数据集之间的离散程度的差异;缺陷也是明显的,就是无法反应真实的绝对数值水平,同时对于均值是0的数据集无能为力。

  其实这篇文章只是对基础的统计知识的整理,可以从很多资料里面找到,很多统计学的书里面都是在“统计描述”章节中介绍这些基础的统计量,跟均值、中位数、众数等一起罗列,很少通过统计量的具体应用进行分类,而国外的一些书对知识点的介绍更多的是从实际应用的角度出发的,这里推荐《深入浅出统计学》这本书,虽然介绍的都是基础的统计知识,但可读性比较强,通俗易通,相比国内的一些统计学教程,更容易在大脑中建立起有效的知识索引,在具体应用中能够更加得心应手。