数据的标准化

　　数据的标准化（normalization）是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。

　　其中最典型的就是数据的归一化处理，即将数据统一映射到[0,1]区间上，常见的数据归一化的方法有：

min-max标准化(Min-max normalization)

　　也叫离差标准化，是对原始数据的线性变换，使结果落到[0,1]区间，转换函数如下：

　　其中max为样本数据的最大值，min为样本数据的最小值。这种方法有一个缺陷就是当有新数据加入时，可能导致max和min的变化，需要重新定义。

log函数转换

　　通过以10为底的log函数转换的方法同样可以实现归一下，具体方法如下：

　　看了下网上很多介绍都是x^*=log₁₀(x)，其实是有问题的，这个结果并非一定落到[0,1]区间上，应该还要除以log₁₀(max)，max为样本数据最大值，并且所有的数据都要大于等于1。

atan函数转换

　　用反正切函数也可以实现数据的归一化：

　　使用这个方法需要注意的是如果想映射的区间为[0,1]，则数据都应该大于等于0，小于0的数据将被映射到[-1,0]区间上。

　　而并非所有数据标准化的结果都映射到[0,1]区间上，其中最常见的标准化方法就是Z标准化，也是SPSS中最为常用的标准化方法：

z-score 标准化(zero-mean normalization)

　　也叫标准差标准化，经过处理的数据符合标准正态分布，即均值为0，标准差为1，其转化函数为：

　　其中μ为所有样本数据的均值，σ为所有样本数据的标准差。

《数据的标准化》上有 53 条评论

Scyan 2010 年 3 月 29 日20:33

这篇文章很有用，收藏了。

回复 ↓
king 2010 年 7 月 2 日15:47

牵扯到数学了都，数学学的不怎么好

回复 ↓
爱贝芙 2010 年 8 月 28 日00:39

真科学。。。一直在寻找这些

回复 ↓
eagle 2011 年 3 月 2 日17:48

这个不错，应该再多一些的

回复 ↓
joegh 文章作者2011 年 3 月 2 日17:50

@eagle: 这个确实可以在很多地方用到

回复 ↓
miyaxin 2011 年 3 月 8 日17:52

好久没看到那么专业的东西了，收藏！

回复 ↓
Pingback 引用通告：网站内容评分模型 | 互联网的那点事
Pingback 引用通告：网站内容评分模型 | Open小巷
nancy 2011 年 5 月 31 日14:26

很好的总结，我会好好学习的，谢谢分享。

回复 ↓
Pingback 引用通告：合并和比较度量
Pingback 引用通告：会员分层和顾客忠诚度分析 | SiteComment
Pingback 引用通告：距离和相似度度量 — SEM KNOWLEDGE BASE|搜索营销智库
Pingback 引用通告：会员分层和顾客忠诚度分析（下） | 搜索营销艺术
般若 2011 年 11 月 21 日17:31

我想请问一下，如果是多个不同单位的数据，其中包含客流量（人数）、销售成功率（百分比）、销售额（货币单位）、平均每个客人消费金额（货币单位）。希望这几个数据能够以时间段，如小时（时间段内发生的以上数据）来分成若干组，将每组的数据用雷达图的方式来进行分析。那么这个数据的标准化应该如何来进行呢？看了您的文章后，我的理解，是不是要对每一组（具体某个时间段内的以上数据）数据进行标准化？使用LOG函数是否对于数据分析而言会更加具有可操作性？希望您能够抽空解答我的问题，谢谢

回复 ↓
joegh 文章作者2011 年 11 月 23 日15:03

@般若: 你好，你说的根据小时（时间）来进行分组只是维度层面的不同，标准化是基于消除度量在量纲上的差异，跟维度没有关系，指标化之后你可以根据任何维度来进行展现。
至于标准化方法的选择需要根据度量的数值特征，Log函数适用于数值存在明显量级上差异的度量，如横跨了百、千、万的度量就可以选择Log函数，如果数值上没有这么大的差异，建议还是使用Min-Max或者Z标准化。

回复 ↓
Pingback 引用通告：网站内容评分模型 | 电商聚读
Pingback 引用通告：距离和相似度度量 - 网事-tech400互联网行业动态资讯/互联网产品分析资讯
Pingback 引用通告：网站内容评分模型 - 网事-tech400互联网行业动态资讯/互联网产品分析资讯
Pingback 引用通告：行走在互联网路上——UE之旅 » 网站内容评分模型
Pingback 引用通告：距离和相似度度量 | 行走在互联网路上——UE之旅
Pingback 引用通告：徳博 » 数据的标准化[转]
Pingback 引用通告：徳博 » 网站内容评分模型[zt]
atan函数转换数据归一化 2012 年 4 月 19 日18:37

你好：
atan函数转换数据归一化，套用你上面的公式
我试验了一下，数据都是大于0的，用RANDBETWEEN(1000,10000)取了27个数据，映射并不是落在[0,1]区间的，问题出在哪里？

回复 ↓
joegh 文章作者2012 年 4 月 23 日21:42

@atan函数转换数据归一化: 你好，这个公式得到的值应该是在[0,1]区间内的，你看下用的是不是反正切函数atan，另外有没有忘记除PI。

回复 ↓
AJL021 2012 年 7 月 25 日13:27

我看的一篇论文里，他把数据-1.01073、-0.90798、-0.68406、-0.39136、-0.40718、0.05702、0.237498、0.637706、1.021315、1.401818归一化为了0.033063、0.071119、0.154052、0.262459、0.2566、0.386289、049537、0.643595、0.785672、0.926599。不知道是怎么做呢？希望牛人能帮我解答下！！

回复 ↓
joegh 文章作者2012 年 7 月 29 日12:40

@AJL021: 这个根据结果去猜使用的归一化方法还真不好猜，一般来说文档里面会对归一化方法的使用做些说明的。

回复 ↓
AJL021 2012 年 7 月 30 日16:12

就是没有说明啊！！直接的出来的，我也纳闷的很啊，不管怎么样，还是谢谢你了！！

回复 ↓
Pingback 引用通告：網站內容評分模型 - Game2遊戲|互聯網網誌-領先的正體中文互聯網/遊戲資訊網誌！ - 領先的正體中文互聯網/遊戲資訊網誌！
cris hao 2012 年 8 月 23 日13:20

讲的很好。很偶然的机会来到这里。内容很受用

回复 ↓
xinfaxian 2012 年 9 月 8 日09:43

其实我对标准化与归一化这两个概念一直弄不太清，请问一下，他们是相同的，还是说有包含的关系。

回复 ↓
joegh 文章作者2012 年 9 月 8 日12:15

@xinfaxian: 你好，我的理解是：标准化指使用某个标准将指标处理到一个相同水平上，去除各指标间不同单位对数值的影响；归一化特指处理之后的数值分布一定是在[0,1]这个区间。所以归一化应该是标准化的一种特殊形式。

回复 ↓
Pingback 引用通告：网站用户忠诚度分析 | 中国推广联盟
Pingback 引用通告： acmol的博客 » [转载]距离和相似度度量
Pingback 引用通告：网站内容评分模型 | 钛媒体网
Pingback 引用通告：网站内容评分模型
Pingback 引用通告：网站内容评分模型 | 科技辣科技辣
Pingback 引用通告：会员分层和顾客忠诚度分析 | 微购
Pingback 引用通告：网站关键指标背后的秘密
Pingback 引用通告：如何对数据的进行标准化？ | leojunp
李栋 2013 年 10 月 30 日22:04

你好，能说说这四种标准化方法的优缺点以及适用情况吗？例如Log函数适用于数值存在明显量级上差异的度量。

回复 ↓
王小芳 2013 年 11 月 28 日21:18

啊啊啊啊啊啊啊啊啊啊啊啊，看不懂啊，还是门外汉呢

回复 ↓
laryc 2014 年 4 月 29 日21:24

log函数做归一化，如果x小于1则会出现负数？是这么理解的么？

回复 ↓
joegh 文章作者2014 年 4 月 29 日22:20

@laryc: 所以这里的每个标准化函数都有相应的适用条件，log函数只能使用于大于1的正数。

回复 ↓
Pingback 引用通告：网站内容评分模型 | 萃聪@Boris
jiandan 2014 年 7 月 7 日14:13

您好~您能帮忙分析一下去min-max和Z-score各自适用的数据类型和使用特点吗？

回复 ↓
iijokul 2014 年 7 月 26 日11:50

@joegh: 我接着你们的讨论，是不是针对其中客流量（人数）、销售成功率（百分比）、销售额（货币单位）、平均每个客人消费金额（货币单位），分别作归一化，如把客流量人数归一化到[0,1]之间，然后把销售成功率归一化到[0,1]之间？？？

回复 ↓
joegh 文章作者2014 年 8 月 3 日15:11

@iijokul: 对的，如果你要对单位和量级不同的指标进行综合评分，那么就需要消除它们之间量级和单位的差异性。

回复 ↓
Chen 2014 年 9 月 1 日10:57

log标准化，样本数应该都不小于10吧。比如样本（3，4），其中用log标准化之后，3变成1.313了

回复 ↓
Chen 2014 年 9 月 1 日11:09

额我算错了

回复 ↓
Pingback 引用通告：会员分层和顾客忠诚度分析 | 内容采集
Pingback 引用通告：数据标准化的几种方法 | 内容采集
Pingback 引用通告：网站内容评分模型 | 内容采集
Pingback 引用通告：数据归一化和几种常用方法 – Cocky My Space

发表评论取消回复