欧几里得距离的定义如下:
Posted: Sun Jan 05, 2025 6:12 am
在真实应用中,经常会出现元素项的取值问题,取值范围大的属性对距离的影响高于取值范围小的属性,比如在RFM模型的属性中,M的取值往往要远大于F的取值,这样不利于真实反映真实的相异度,为了解决这个问题,一般要对属性值进行规格化。 规格化的意思就是将各个属性值按比例映射到相同的取值区间通常将各个属性均映射到[,]区间,这样是为了平衡各个属性对距离的影响。
映射公式为: 表示所有元素项中i个属性的最大值和最小值,x是集合中的一个属性指标。 .、k-mens聚类算法 把近两年内还有订购记录的客户设定为一个元素集合D,其中每个元素有个具有可观察的属性:R近度、F频度、M值度。 元素集合D按照K-mens聚类算法把他分为个聚类子集: 把集合D中每一个元素客户的RFM属性进行规格化,是基于按照映射公式把各个属 澳大利亚电话号码数据 性均映射到[,]区间的结果; 对集合的各个属性进行加权处理,加权属性权重H法确定的权向量中对应的权重
加权后的集合; 从集合中随机选取K个元素k ,作为作为k个簇的各自的中心; 分别计算剩下的元素到k个簇中心的相异度按照欧几里得距离度量,将这些元素分别划归到相异度最低的簇; 根据聚类结果,重新计算k个簇各自的中心,计算方法是取簇中所有元素各自维度的算术平均数; 将集合中全部元素按照新的中心重新聚类; 重复第步,直到聚类结果跟最近一次的聚类结果一致,不再变化; 输出最终的聚类结果; .、划分客户类别 不同的层级聚合揭示不同层级的客户在行为上的特性以及变化倾向,划分客户类别方法如: 计算K均值聚类中每类客户的RFM平均值: ,其中< i <n,n指的是每类中的客户设备数,指的是对应类别中每台设备的R之和,R的计量单位为天
映射公式为: 表示所有元素项中i个属性的最大值和最小值,x是集合中的一个属性指标。 .、k-mens聚类算法 把近两年内还有订购记录的客户设定为一个元素集合D,其中每个元素有个具有可观察的属性:R近度、F频度、M值度。 元素集合D按照K-mens聚类算法把他分为个聚类子集: 把集合D中每一个元素客户的RFM属性进行规格化,是基于按照映射公式把各个属 澳大利亚电话号码数据 性均映射到[,]区间的结果; 对集合的各个属性进行加权处理,加权属性权重H法确定的权向量中对应的权重
加权后的集合; 从集合中随机选取K个元素k ,作为作为k个簇的各自的中心; 分别计算剩下的元素到k个簇中心的相异度按照欧几里得距离度量,将这些元素分别划归到相异度最低的簇; 根据聚类结果,重新计算k个簇各自的中心,计算方法是取簇中所有元素各自维度的算术平均数; 将集合中全部元素按照新的中心重新聚类; 重复第步,直到聚类结果跟最近一次的聚类结果一致,不再变化; 输出最终的聚类结果; .、划分客户类别 不同的层级聚合揭示不同层级的客户在行为上的特性以及变化倾向,划分客户类别方法如: 计算K均值聚类中每类客户的RFM平均值: ,其中< i <n,n指的是每类中的客户设备数,指的是对应类别中每台设备的R之和,R的计量单位为天