在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。
为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x2, x3, … xn),Y=(y1, y2, y3, … ......» 阅读更多: 距离和相似度度量 存档在 ‘参考资料整理’ 分类
距离和相似度度量
2011年10月7日
在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。
为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x2, x3, … xn),Y=(y1, y2, y3, … ......» 阅读更多: 距离和相似度度量 合并和比较度量
2011年6月28日
——数据的上下文4
往往我们在做分析的时候需要结合各类基本的指标进行二次计算合并得到一个可以用于进行综合评价或比较的度量,这个过程中就需要涉及到一些指标的合并技巧,和比较基准的设定。其实之前“数据上下文”的系列文章中也一再强调了我们需要为指标设定合理的参考系来评价指标的趋势或表现的好坏,之前提供了一系列的方法,但这篇文章里面要介绍的方法应该是最简单方便的,同时不失实用性,得益于《用户体验度量......» 阅读更多: 合并和比较度量 关于网络机器人
2010年2月24日
网络机器人也叫网络蜘蛛(Web Spider),是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络机器人通过网页的链接地址来寻找网页,通常由网站首页开始,根据链接依次抓取网页。
并非所有的网络机器人都是搜索引擎,同样会有翻译服务、订阅服务、阅读器等,甚至还有许多恶意机器人也会市场来访问你的网站。所以对网站中网络机器人相关的数据统计和分析也是部分必要的。
统计机器人信息的作......» 阅读更多: 关于网络机器人 








