正文内容
模糊聚类及应用
来源:莲生三十二
作者:开心麻花
2025-09-19
1

模糊聚类及应用(精选8篇)

模糊聚类及应用 第1篇

模糊聚类分析是非监督模式识别的重要分支, 在模式识别、数据挖掘、计算机视觉以及模糊控制等领域具有广泛的应用, 也是近年来得到迅速发展的一个研究分支。采用模糊聚类可以得到样本属于各个类别的不确定性程度, 即建立起了样本对于类别的不确定性描述, 由于它更能客观地反映现实世界, 从而成为了聚类分析研究的主流技术。

模糊聚类算法中最常用的是模糊C-均值聚类算法, 除此之外, 现在还出现了许多改进的模糊C-均值聚类算法以及模糊C-均值聚类算法与其它算法的结合使用, 如模糊聚类与神经网络的结合使用、模糊聚类与遗传算法的结合使用等等。本文主要介绍了模糊C-均值聚类、遗传模糊C-均值聚类算法以及免疫进化模糊聚类算法的原理及应用, 通过对其分析研究, 提出模糊聚类算法至今仍存在的一些问题, 并展望其发展前景。

二、几种模糊聚类算法的原理及其应用

2.1 模糊C-均值聚类算法

2.1.1 模糊C-均值聚类算法的原理

模糊C-均值 (FCM) 聚类的方法是:先将n个点分成c类, 定义每一个类有一个聚类中心, 然后根据点与聚类中心的距离, 形成一些具有相同性质的模糊子集, 每一个点与聚类中心有一个隶属度。一个类也就是一系列点组成的模糊子集, 每个点对于不同的聚类中心有不同隶属度, 由此, 可以形成在一定隶属度条件下的分类。

设目标函数为:

其中

i∈[0, 1], 表示第j个数据点隶属于第i个聚类中心的程度;ci为模糊组i的聚类中心, dij=‖ci-xj‖为第i个聚类中心与第j个数据点间的欧几里德距离;m∈[1, ∞]是一个加权指数。

构造拉格朗日乘子, 建立新的目标函数如下:

对所有输入参量求导, 使原目标函数达到最小的必要条件为:

FCM算法简述如下:

步1:随机初始化c个数据聚类中心;

步2:用式 (5) 计算U阵;

步3:用式 (4) 计算c个新的聚类中心ci, i=1, …, c;

步4:根据式 (1) 计算目标函数, 若小于某个确定的阈值, 或相对上次目标函数改变量小于某个阈值, 则算法停止, 否则, 返回步2。

2.1.2 模糊C-均值聚类算法的应用

通过上面分析可以看出:

(1) FCM算法需要两个参数一个是聚类数目c, 另一个是参数m。一般来讲c要远远小于聚类样本的总个数, 同时要保证c>1。对于m, 它是一个控制算法的柔性的参数, 如果m过大, 则聚类效果会很次, 而如果m过小则算法会接近HCM (硬聚类算法) 。

(2) 算法的输出是c个聚类中心点向量和c*n的一个模糊划分矩阵, 这个矩阵表示的是每个样本点属于每个类的隶属度。根据这个划分矩阵按照模糊集合中的最大隶属原则就能够确定每个样本点归为哪个类。聚类中心表示的是每个类的平均特征, 可以认为是这个类的代表点。

(3) 从算法的推导过程中不难看出, 算法对于满足正态分布的数据聚类效果会很好, 而对孤立点是敏感的。

基于现在对模糊C-均值聚类算法的研究, 它主要被应用在如多元图像分割、船舶故障诊断、结构面组识别、说话人识别系统和遥感影像分类等领域, 都取得了良好的效果。

2.2 遗传模糊C-均值聚类算法

2.2.1 遗传模糊C-均值聚类算法的原理

遗传算法的主要操作有:初始化群体、选择、交叉、变异。遗传算法用于FCM聚类算法的具体过程如下:

步1:确定聚类数目c。

步2:初始化群体。随机生成含有P个个体的群体, 每个个体代表c类中每个类的中心{v1, v2, …, vc}, vi为p维向量。

步3:交叉。设交叉概率为Pc, 对P中每一个个体随机生成一个0~1之间的随机数r, 若r<Pc, 则进行交叉操作。对P随机选中一个个体, 随机生成一个在1~c之间的整数i, 按{v1, v2, …, vc}-{v1, v2, …, vj, v&apos;j=1, …, v&apos;c}和{v&apos;1, v&apos;2, …, v&apos;c}-{v&apos;1, v&apos;2, …, v&apos;j, v&apos;j=1, …, v&apos;c}方式对位置j进行交叉操作, 也就是第j类的中心交换。

步4:变异。设变异概率为Pm, 对选中的每一个个体{v1, v2, …vc}随机选定某一位置vj, 对其进行变异操作, 随机产生一个新的vj。

步5:个体的适应度为:

对交叉、变异产生的新个体与群体中的个体进行比较, 适应度F较大的被选入群体, 而适应度最小的群体被淘汰。

2.2.2 遗传模糊C-均值聚类算法的应用

从2.1中FCM的过程可以看出, 当需要处理的问题的样本或样本维数很大时, 适应度函数的计算量变得非常巨大, 导致算法需要花费大量的时间才能收敛到最优值。所以, 为了减少计算量, 可以采用遗传模糊C-均值聚类算法 (GFCMA) , 将遗传算法与模糊C-均值聚类方法结合起来, 可有效避免FCM聚类算法对初始聚类中心的依赖, 获取全局最优。

现在, 遗传模糊C-均值聚类算法被广泛应用于图像分割, 可以解决标准FCM算法在图像分割中运算速度慢和对初始值依赖大的两大缺陷。首先对模糊聚类中心进行编码, 然后依据FCM算法的目标函数建立适应度函数, 在适当的交叉率和变异率下, 最终可实现基于遗传模糊C-均值算法的图像分割。此方法比标准FCM算法具有更快的计算速度和更好的鲁棒性。然而尽管作如此的改进, GFCMA算法仍是相当耗时的一项工作。

2.3 免疫进化模糊聚类算法

2.3.1 免疫进化模糊聚类算法的原理

在进行算法计算之前, 我们需要解决选择编码方式和构造适应度函数等问题。从目标函数J (U, V) m可知, 聚类的最终目的是获得有限集的聚类中心集合V和U。由于二者之间是相互关联的, 所以我们既可以对U编码, 也可以对V编码。从计算量上考虑, 我们选择了对后者的二进制编码方式。从目标函数J (U, V) 可知, 模糊聚类的效果越好, 则目标函数越小。因此, 构造适应度函数为

算法的主要步骤如下.

步1:设定聚类个数c, 1<c<n;设定模糊指数为m, m∈ (1, +∞) ;遗传种群大小为n;记忆库种群大小为l;免疫选择阈值为Ti;交叉率为Pc;变异率为Pm;终止条件为Sc。

步2:随机产生记忆库中的l个解个体和遗传种群的n个随机解, 并由它们共同组成初始种群P (t) (t=0) 。

步3:计算每个个体的期望繁殖率。

(1) 计算各抗体间的相似度。抗体xg和xh的相似度为

式中:H (g, h) 为抗体xg和xh的信息熵。

(2) 计算抗原与各抗体的亲和力。本算法中将xg与抗原的亲和力Ag定义为xg的适应度, 即Ag=f (xg) 。

(3) 计算各抗体在种群中的比率。xg在种群中的比率为

(4) 计算抗体的期望繁殖率e。抗体xg的期望繁殖率为

步4:产生新一代种群P (t) , t=t+1。按照e的大小, 将各个体降序排列, 取前n个个体构成遗传种群, 前l个个体构成记忆库种群。

步5:判断是否满足结束条件。若满足, 则结束算法;若不满足, 则进行下面的操作。

步6:生成新的解群体。对遗传种群进行选择、交叉和变异操作, 生产新的n个解个体, 并与记忆库中的l个个体共同组成新的解群体。

步7:执行步3。

2.3.2 免疫进化模糊聚类算法的应用

免疫进化模糊聚类算法是针对图像处理中的模糊边缘检测问题而提出的。该算法在传统遗传算法全局随机搜索的基础上, 借鉴生物免疫机制中抗体的多样性保持策略, 改善遗传算法的群体多样性, 具有很好的整体收敛性能和全局搜索能力。该算法不仅具有很强的模糊边缘和微细边缘检测能力, 而且可以减弱基于遗传算法的模糊聚类算法在遗传后期的波动现象, 因此能有效地应用于图像处理、数据挖掘和机械故障诊断等方面。

三、存在问题及前景展望

虽然模糊聚类算法应用广泛, 但是目前它还存在以下几个方面的问题:

(1) 许多算法都引入了新的参数, 有的引入的参数还比较多。这势必会直接影响算法的性能。

(2) 基于划分的模糊聚类算法如此之多, 而不同聚类算法的聚类结果和性能也不同, 如何根据实际情况选取一个合适的算法仍旧是个难点。

(3) 目前, 对于已提出的聚类算法的收敛性和解的稳定性问题, 进行深入理论研究的相对较少。

考虑到以上这些问题, 以及目前文献对这些问题的研究都比较零散, 若能够提出一个统一的基于划分的模糊聚类算法模型, 统一研究算法的性质, 则将是一件十分有意义的事情, 并将会促进模糊聚类算法的进一步成熟和更广泛的应用。

参考文献

[1].高新波.模糊聚类分析及其应用[M].西安:西安电子科技大学, 2004.

[2].何清.模糊聚类分析理论与应用研究进展[J].模糊系统与数学, 1998, 12 (2) .

[3].曾翎, 王美玲, 陈华富.遗传模糊C-均值聚类算法应用于MRI分割[J].电子科技大学学报, 2008, 37 (4) .

[4].郭子龙, 王孙安.免疫进化模糊聚类算法在边缘检测中的应用[J].西安交通大学学报, 2004, 38 (3) .

[5].严骏.模糊聚类算法应用研究[D].浙江:浙江大学, 2006.

模糊聚类及应用 第2篇

模糊聚类分析在员工销售业绩评估中的应用 作者:苗森玉

来源:《哈尔滨师范大学·自然科学学报》2013年第02期

【摘要】 该文选取国内某品牌化妆品公司8个销售员销售业绩的相关数据作为统计指标,利用最大最小法建立相似矩阵,用闭包法做出聚类分析.结果表明模糊聚类分析对员工销售业绩评估科学合理,符合实际,对公司掌握员工销售情况有很大帮助.【关键词】 模糊聚类分析;销售业绩评估;数据标准化;模糊相似矩阵;传递闭包0引言

聚类分析是将事物根据一定的特征,并按某种特定要求或规律分类的方法.传统的聚类分析是一种硬划分,它把每个待辨识的对象严格地划分到某类中.因此,这种类别划分的界限是分明的.而实际上大多数对象并没有严格的属性,它们在性态和类属方面存在着中介性,因此适合进行软划分.1965年Zadeh教授在《Fuzzy Set》一文中提出了模糊集理论,为传统聚类分析的软划分提供了有力的分析工具.人们开始用模糊的方法来处理聚类问题,并称之为模糊聚类分析.由于模糊聚类得到的样本属于各个类别的不确定性程度,表达了样本类属的中介性,即建立起了样本对于类别的不确定性描述,更能客观地反映现实世界.[1]

模糊聚类分析包含多种分析方法,该文选取某家办公用品公司的8个销售员的数据作为统计指标,利用最大最小法建立相似矩阵,用闭包法做出聚类分析.1模糊聚类分析的基本思想与步骤

浅谈模糊聚类及其应用 第3篇

一、模糊聚类分析的主要步骤:

根据待分类的样品及每个样品有的属性确定原始数据矩阵后, 有

1. 数据标准化

不同的数据的量纲常表示为不同的, 为了避免由量纲的不同带来的误差, 要对原始数据变换。变换的方法通常有中心化变换, 规格化变换, 标准化变换及对数变换。对数据作标准化变换即对数据进行中心化然后再除以标准差, 有

2. 构造模糊相似矩阵

模糊相似矩阵, 用来标定被分类数据与的相似

二、模糊聚类与其他学科的结合

1. 与灰色理论的结合

(1) 与灰色关联度结合运用

灰色关联度分析方法弥补了采用数理统计方法进行系统分析时的缺点, 对样本量及其规律性没有特殊的要求。传统的灰色关联度计算是在评价指标较多时指标权重的归一化可能使某些指标分配的权重很小, 忽视了这些指标在评价中的作用。我们给所有的指标一个特定的阈值, 通过模糊聚类对样本进行分组, 在各组中计算出平均值代表改组的各指标进行关联分析, 综合考虑了各个指标的作用。

(2) 与灰色聚类的结合运用

模糊聚类与灰色聚类虽然都包含非确定的划分, 但是灰色系统理论是从信息的非完备性出发研究和处理复杂系统的理论, 通过对系统某一层次的观测资料加以数学处理, 达到在更高层次上了解系统内部变化的趋势和相互关系。灰色聚类是将聚类对象对于不同的聚类指标所拥有的白化权, 按几个灰类进行归纳, 通过计算所有指标的综合效果, 判断聚类对象所属类型。通常人们进行灰色聚类, 都是经验性的人为确定了灰类从而确定白化权函数, 如果灰类的划分准确性不高则函数的计算, 样本的分类的准确度就会下降。如果在划分灰类的时候运用模糊聚类把样本分为若干个灰类, 模糊聚类是一种迭代优化算法, 迭代收敛时聚类中心为最优聚类中心, 得出每个灰类的模糊平均值再进行灰色聚类, 这样, 模糊聚类与灰色聚类的结合具有更高的科学性。

2. 遗传算法中模糊聚类的应用

遗传算法是模拟自然界遗传机制和生物进化论而形成的一种搜索最优解的算法。它是一个以适应度为目标函数, 对种群个体施加遗传操作, 实现群体结构重组, 经迭代而达到总体优化的过程。用遗传算法求解聚类问题, 要解决以下问题:如何将聚类问题的解编码到基因串中;如何构造适应度函数来度量每条基因串对聚类问题的适应程度;如何选择各个遗传算子, 确定各操作参数的取值。由聚类的目标函Jm (U, P) 可知, 聚类的最终目标是获得样本集X的一个模糊划分矩阵U和聚类的原型P, 而U和P是相关的, 即已知其一则可求得另一个的解, 因此, 我们就可以有两种编码方案。在第一种编码方案中, 我们对硬划分矩阵U进行编码, 设n个样本要分成c类, 用基因串来表示某一类分类的结果, 其中为时, 表示第i个样本属于第k类。在第二种编码方案中, 对聚类原型矩阵P进行编码, 把c组表示聚类原型的参数连接起来, 根据各自的取值范围, 将其量化值 (用二进制串表示) 编码成基因串。

3. 模糊聚类在模式识别与图像处理中的应用

模式识别中一个最重要的问题是特征提取, 模糊聚类不但能从原始数据中直接提取特征, 还能对已经得到的特征进行优选和降维操作在提取完特征后需要设计分类器, 模糊聚类算法既可以提供最近邻原型分类器, 还可以用来进行特征空间划分和模糊规则提取, 以构造基于模糊IF-THEN规则的分类器。模糊聚类在图像处理中最为广泛的应用为图像分割。由于图像分割问题可以等效为图像灰度的无监督分类, 1 9 7 9年C o l e m a n和An d re ws就提出用聚类算法进行图像分割, 随着模糊聚类理论的发展, 人们又结合塔型结构, 小波分析等一些新技术, 提出了多中基于模糊聚类的灰度图像分割新方法, 并且在纹理图像分割, 彩色图像分割, 序列图像分割, 遥感图像分割等方面获得了很大的进展。

三、结束语

本文主要从模糊聚类的分析步骤, 模糊聚类与灰色理论, 遗传算法的结合以及在具体的应用如模式识别, 图像处理进行阐述。但是对于模糊聚类算法本身, 不同的阈值会产生不同的分类结果, 所以如何确定这些分类的有效性是一个很值得的方向。

摘要:本文介绍了模糊聚类的分析方法, 并从灰色关联度, 灰色聚类, 遗传算法与模糊聚类结合运用的角度说明了模糊聚类与其他方法的相互渗透使用, 以及模糊聚类在模式识别, 图像处理中的作用。

关键词:模糊聚类,灰色关联度,灰色聚类,遗传算法

参考文献

[1]高新波:模糊聚类分析及其应用[M].西安:西安电子科技大学出版社, 2004

[2]李俭 孙才新 陈伟根 周泉 杜林:灰色聚类与模糊聚类集成诊断变压器内部故障的方法研究[J].中国电机工程学报, 2003, 23 (2)

模糊聚类及应用 第4篇

众所周知,信息检索是情报信息工作中的关键问题。从国内现有的信息检索系统来看,大多数采用的是布尔逻辑检索技术,即采用逻辑或、逻辑与和逻辑非等逻辑运算规则。布尔逻辑检索技术要求指定文献引词必须存在的条件或不能出现的条件。随着科学技术的飞速发展,各个学科之间相互渗透,相关学科在文献中体现的条件不再是简单的“是”或“否”,而是用“模糊”的相关程度体现。这种状况使得布尔逻辑检索技术不能科学地区分在文献中涉及到各学科的相关程度,从而在此技术上建立起来的检索系统对信息的检索效率低下。

文献[1]指出模糊数学理论在信息检索中能够描述信息的模糊性、相关性以及切题性,从而能用模糊数学理论中有关的结论解决信息检索中的有关问题。文献[2]基于模糊数学中的模糊等价关系的动态聚类分析方法,建立了信息检索的动态聚类分析模型。然而,文献[2]只是给出了信息检索的动态聚类分析模型基本想法,给出的算法描述不够明确完全,使得该模型在应用中实现还会有困难。本文以不同的算法新建信息检索的动态聚类分析模型,实现该模型的算法快而有效。同时指出在应用中实现模型的若干问题,最后给出一个算例。

1 信息检索中的模糊聚类分析模型

所谓聚类分析就是根据事物间的不同特征、亲疏程度和相似性等关系,对它们进行分类的一种数学方法,其数学基础是数理统计中的多元分析。模糊聚类分析就是建立在模糊数学理论基础上的聚类分析。模糊聚类分析方法有好几种(参见文献[3]),根据信息检索的特征,此处介绍的是利用模糊相似矩阵直接聚类分析的方法,其特点是在分类数不确定的情形下,可以根据不同要求对事物进态聚类。

1.1 相关定义

为了准确描述信息检索的动态聚类分析模型,我们将使用以下术语以及记号。

(1)标引词集T={t1,t2,,tn},这是由若干个标引词ti组成的集合;

(2)文献信息d=(μ(t1),μ(t2),,μ(tn)),ti∈T,其中μ(tn)是由标引词ti在该文献中出现的频率,使用统计分析计算出的隶属度。通常我们把每篇文献在检索中记为文献信息d;

(3)文献信息库D={d|d=(μ(t1),μ(t2),,μ(tn)),ti∈T};

(4)分类文献信息集U={d1,d2,,dn},di∈D,这是将要被分类的文献信息集;

(5)相似度rij=δ(di,dj),其中δ(di,dj)按照某种规则给出的文献信息di和dj之间的一种度量,它描述文献信息di和dj之间相关程度;

(6)模糊相似矩阵R=(rij)nn,其中rij是相似度。相似矩阵R是以分类文献信息集U={d1,d2,,dn}中di和dj之间相似度rij构造出来的,它刻画的是U={d1,d2,,dn}信息之间相关程度。

1.2 模糊动态聚类分析模型

在一个合适的分类中,同一类中的对象应该具有自反性、对称性以及传递性三个性质。模糊数学的理论告诉我们。如果相似度rij选择得当,相似矩阵R=(rij)nn具有自反性和对称性,但一般不具备传递性。因此,仅靠相似矩阵R中刻画U={d1,d2,,dn}信息之间相关程度来对d1,d2,,dn分类是不够准确的。模糊聚类分析就是根据相似矩阵R来寻找一个等价关系进行分类,其主要步骤如下:

1.2.1 构造模糊相似矩阵

对给定的分类文献信息集U={d1,d2,,dn},di∈D,选择一个计算相似度rij=δ(di,dj)的算法(见本文2.1相似度的选择),可以计算出模糊相似矩阵

1.2.2 选择模糊聚类方法

可以选择的模糊聚类方法通常有四种:模糊传递闭包法、直接聚类法、最大树法和编网法。文献[2]描述的仅仅是前一种,即模糊传递闭包法。模糊传递闭包法是从模糊相似矩阵R=(rij)nn出发,构造一个新的模糊等价矩阵(即模糊相似矩阵R的传递闭包t(R)),该矩阵满足自反性、对称性以及传递性三个性质。因此,可以根据模糊等价矩阵进行聚类。由于文献[2]已对模糊传递闭包法进行过描述,故本文省略对模糊传递闭包法的介绍。鉴于对于大规模信息检索而言,模糊传递闭包法的计算量太大,模糊数学理论中提供了计算量大为减少的后三种方法。这里仅介绍后三种方法之一的直接聚类法。

直接聚类法不计算模糊相似矩阵R的传递闭包t(R),而是直接用模糊相似矩阵R进行聚类,具体步骤如下:

(1)将模糊相似矩阵R中的所有不同元素从大到小的顺序编排,设为

(2)以λk(k=1,2,,m)为置信水平,选取λ=λk,直接在模糊相似矩阵R上找出λk水平上的相似类,并进行归并,即得到λk水平上的等价分类。寻找相似类和归并的原则:若rij≥λk,则将di和dj分为一类。设B1,B2是λk水平上的两个类,若B1∩B2≠,则称它们是相似的。将所有相似的类合并成一类,最后得到的分类就是k水平上的等价分类。

(3)画动态聚类图(该步骤可省略)。

应该指出,在理论上已经证明直接聚类法与模糊传递闭包法的分类结果相同。

2 应用模糊聚类分析中的若干问题

在实际应用模糊聚类分析将会遇到以下几类问题。

2.1 相似度的选择

要构造出相应的模糊相似矩阵R=(rij)nn,关键在于选择合适的相似度rij=δ(di,dj)。在模糊数学理论中相似度rij=δ(di,dj)有多种选择。这里,根据分类文献信息的特点,我们选择贴近度δ(di,dj)来描述文献信息di和dj之间的密切程度,即用贴近度δ(di,dj)作为相似度rij=δ(di,dj):

式(2)称为最大最小贴近度。通常贴近度δ(di,dj)有三种形式:(1)最大最小贴近度;(2)算术平均最小贴近度;(3)几何平均最小贴近度。后两种形式是在最大最小贴近度表示式中的分母有所不同。从计算量比较而言,最大最小贴近度的计算量最小。(注:相似度rij=δ(di,dj)还可以有除贴近度以外的其他形式)。

一般来说,当选择不同的算法计算相似度rij时,所得的模糊聚类可能也不同,因此需要使用一个评价方法寻找最佳算法。下面简要介绍针对直接聚类法的评价方法及其步骤(也适用于最大树法和编网法)。以下设可以用于计算相似度rij的算法集为L={l1,l2,,lm}。

2.1.1 计算模糊相似矩阵R的模糊类等价矩阵t*(R)

对于每一个算法lk∈L,可以算出模糊相似矩阵Rk=(rij)nn的模糊类等价矩阵t*(Rk)=(t(rij))nn,这里取

其中Λ表示阵Rk=(rij)nn中全部不同的元素所构成的集合;diλ~Rdj表示di和dj在λR水平上属于同一类。

2.1.2 计算t*(R)对R的偏差

由于我们的模糊聚类可以用模糊类等价矩阵t*(R)来反映,而模糊相似矩阵R=(rij)nn与模糊类等价矩阵t*(R)之间一般不同,这之间有一定的“偏差”。t*(Rk)对R=(rij)nn的偏差有以下四种:

(1)t*(R)对R的总偏差

(2)t*(R)对R的平均偏差

(3)t*(R)对R的相对总偏差

(4)t*(R)对R的相对平均偏差

因此,对于每一个算法lk∈L,我们可以计算得到t*(Rk)对Rk的偏差向量

2.1.3 对算法进行评价

对算法L集的m个算法的m个偏差向量用多目标优化的原则选取适当的评价准则,求出一个算法l0∈L,使得其偏差在该准则下是m个偏差中最小的,则此算法l0就是最佳算法。

一般来说,在信息检索要求不太高的情况下,不必寻找最佳算法,我们可以直接选择最大最小贴近度(它的计算量最小)计算相似度rij,从而求得模糊相似矩阵R=(rij)nn。

2.2 最佳置信水平的选择

显然,对于确定的模糊相似矩阵R=(rij)nn,选择不同的置信水平,得到的模糊聚类是不一样的。下面简要介绍选择使得模糊聚类是最优的置信水平的步骤。

2.2.1 计算等价类关于置信水平的偏差

设R=(rij)nn是模糊相似矩阵,Cλ为λ水平上的一个等价类,称

是等价类Cλ关于λ水平的偏差;而称

是R关于λ水平的偏差,其中Cλ为λ水平上的一个等价类;记R关于λ水平的所有等价类集合为F(Rλ),再称

是R关于λ水平等同模糊聚类的偏差。通常,用直接聚类法对R产生的模糊聚类是有上述偏差的,这种模糊聚类被称为有偏差聚类。

2.2.2 确定置信度约束下的最佳置信水平

在从模糊聚类中做出聚类决策时,往往需要选择一个合适的置信水平λ,既不过高,也不过低,使得相应等同模糊聚类的偏差达到最小。假定给定α和β,满足0α<β<1,将[α,β]作为λ的限定范围,就可以按下列准则求得最佳置信水平:对每个置信水平λ∈[α,β],计算满足下式

的λ0就是在置信度约束[α,β]之下的最佳置信水平。

2.3 置信水平优劣排序

在信息检索的实践中,虽然可以从模糊聚类做出的聚类决策中找到最佳置信水平下的分类,但可能由于精度过高,反而达不到信息检索的实际需要。这时,我们可以对所有置信水平下的模糊聚类按从优到劣进行排序,这样,用户可以通过置信水平方便地控制输出,找出符合要求的模糊聚类,从而提高检索效率。对分类文献信息集U的模糊聚类排序方法如下:除极端的模糊聚类(即U中所有元素为一类,或所有元素各自为一类)外,对模糊相似矩阵R所有的等同模糊聚类的偏差按从小到大排序,在排序结果中,在前的优,在后的劣。

3 举例

设标引词集T={t1,t2,t3,t4}={密码体制,公钥密码,离散对数,椭圆曲线},在文献信息库D中对文献信息集U={d1,d2,d3,d4,d5}进行分类,其中d1=(μ1(t1),μ1(t2),μ1(t3),μ1(t4))=(0.1,0.1,0.3,0.5)、d2=(0.2,0.4,0.1,0.3)、d3=(0.2,0.4,0.3,0.1)、d4=(0.2,0.5,0.3,0.1)、d5=(0.2,0.4,0.3,0.2)。

第一步,构造模糊相似矩阵R。我们选取最大最小贴近度(即表达式(2))计算相似度rij(精确到十分位),可得模糊相似矩阵(即表达式(1))为

第二步,进行动态模糊聚类。将模糊相似矩阵R中的所有不同元素从大到小的顺序编排如下:

如果取λ=0.91,在R中,因r34=r43=r35=r53=0.91,故得相似类为

将所有相似类归并成一类,U被分成3类:{d1},{d2},{d3,d4,d5}。类似地,可以求得U对于其他8个置信水平的模糊聚类:

取λ=1,U被分成5类:{d1},{d2},{d4},{d3},{d5};

取λ=0.83,U被分成3类:{d1},{d2},{d3,d4,d5};

取λ=0.75,0.67,0.62,U被分成2类:{d1},{d2,d3,d4,d5};

取λ=0.50,0.43,0.40,U被分成1类:{d1,d2,d3,d4,d5}。

第三步,画动态聚类图(省略)。

最后,考虑最佳置信水平。由于在λ=1和0.50,0.43,0.40时,U分别被分成5类和1类的极端情况,没有实际意义,故只考虑0.50<λ<1的情况。由(3)、(4)和(5)式可以算得:

因此,由(6)式可知:在置信度约束[0.62,0.91]之下的最佳置信水平是λ=0.83,也就是说,在置信水平是λ=0.83下的模糊聚类{d1},{d2},{d3,d4,d5}是最优分类。显然,如果在置信水平是λ=0.83下的模糊聚类达不到信息检索的要求,可以选择次优的模糊聚类,即λ=0.62下的模糊聚类{d1},{d2,d3,d4,d5}。

4 结束语

在大规模信息检索活动中,简洁有效的算法对提高检索效率是至关重要的。本文基于模糊直接聚类分析的方法,建立了一个快速有效的信息检索的模糊聚类分析模型,同时讨论了在应用中实现该模型的若干个必须注意的问题,并给出了解决方案,这对模糊聚类分析方法实际应用有直接的作用。

摘要:采用基于模糊直接聚类分析的方法,建立了一个快速有效的信息检索的模糊聚类分析模型。讨论了该模型在信息检索应用中的若干问题。最后给出了算例。

关键词:信息检索,模糊数学,聚类分析

参考文献

[1]焦玉英,雷春明.模糊理论在信息检索中的应用研究.情报学,2000;19(5):519—524

[2]曾玉.信息检索的模糊聚类分析模型.情报学,2004;23(4):433—536

模糊聚类及应用 第5篇

1 基于负荷曲线进行用户分类的意义

作为需求侧管理的一部分,现代意义的电力营销更加注重在保证售电商合理利润的前提下销售电力商品的使用效率,促进电力工业的可持续发展。基于用户用电特性的分类方法通过用户曲线与系统曲线的对比,为电力公司选择用户、采取各种价格措施,如峰谷分时电价、可中断电价、避峰电价等影响用户用电行为、改善系统负荷曲线形状提供有益参考,促进电力系统的生产和运行效率的提高[2]。

电力消费市场细分是指根据不同电力消费者的电力需求特点、用电行为和用电习惯等不同特征把市场分割为若干个相类似的消费者群体。由于不同的用电行为对电力系统的生产运行成本影响不同,因此,基于负荷曲线的用户分类是电力消费市场细分的基础[3]。

2 负荷曲线的正规化处理

假设对于每一个用户能够观测到多日(如一个月)的日负荷曲线。由于用户的用电行为因不同季节的工作日、休息日而有所不同,因此首先将观测到的日负荷曲线按不同季节的工作日、休息日分类。下文负荷曲线均指按此意义分类完毕后的工作日曲线。为消除各种偶然因素的影响,对每一用户负荷曲线求平均值,以平均后的负荷曲线作为该用户的代表曲线。

记最大负荷为Pmax,第h时刻的负荷为P(h=1,2,,t),以Pmax为正规化因子对负荷曲线进行正规化处理,则有undefined,其中xh为正规化后的负荷曲线第h时刻值。以下所指负荷曲线均为正规化后的代表性日负荷曲线,对用户的分类即为对用户负荷曲线的分类。

3 模糊C均值聚类法

3.1 算法描述

模糊C均值聚类方法中,每一个数据点按照一定的模糊隶属度属于某一聚类中心。首先随机选取若干聚类中心,所有数据点被赋予对聚类中心一定的模糊隶属度,然后通过迭代方法不断修正聚类中心,迭代过程以极小化所有数据点到各个聚类中心的跳高与隶属度的加权和为优化目标[3,4]。目标函数为:

undefined

n为负荷曲线数量。

c为事先指定的聚类数。

kx为第k条负荷曲线,以向量表示。

vi为第i类负荷曲线的中心,迭代停止时为第i类负荷曲线的聚类中心。

μik为第k个用户隶属于第i类用户的隶属度。

每一次迭代过程中的迭代中心及隶属度分别由公式(2)和(3)更新

undefined

其中:r为迭代次数。

m为模糊化变量,通常取m=2。

聚类过程如下:

Step1令m=2,对c(2c

Step2根据公式(2)和(4)计算vundefined和(dundefined)2。

Step3由公式(3)计算μundefined。

Step4对于给定阈值ρ,若有

[J(r+1)-J(r)]<ρ (5)

则聚类过程停止,否则返回至Step2。

模糊C均值聚类在聚类结束时会生成聚类中心和隶属度矩阵,该矩阵表示每条曲线相对于各分类的隶属程度。根据最大隶属度原则可以判断每条曲线所属的分类,实现聚类目的。

3.2 聚类有效性检验

由于模糊C均值聚类方法需要事先指定分类数,因此,有必要进行聚类的有效性检验,以此为基础,综合考虑负荷数据获取的经济性以及实际需要,选取适当的分类。直观上,有效的分类具有以下特点:①同类曲线间距离较小。②非同类的典型曲线间距离较大。③在聚类生成的隶属度矩阵中,每条曲线的最大隶属度的平均值较高。因此,可以引入以下检验指标[5,6]:

undefined

ν(i)为第i类曲线的聚类中心。

X(i)为第i类中所有负荷曲线的集合。

I1描述了同一类中的所有负荷曲线与该类负荷曲线中心的距离,因此该指标为逆指标。

undefined

其中undefined(X(i))为同属于第i类的所有曲线之间的距离;undefined(V)为聚类中心之间的距离之和。分母数值较大时,类与类之间的差别相对明显。分子的数值较小时,同类曲线具有较好的相似性。因此,该指标为逆指标。

undefined

Umaxk为第k条负荷曲线在隶属度矩阵中的最大隶属度。在聚类相对清晰有效时,曲线k应具有相对于某一分类的较大的隶属度。因此,该指标为正指标。

3.3 模糊聚类在大用户负荷特性分类中的应用

本节选取某市25个主要用户2005年的负控数据作为研究对象,数据格式为每日 24点采样,取年平均后,得到 25 条曲线:通过综合比较,将负荷曲线分为六类较为适当。其中第一类曲线:第 15、24 条;第二类曲线:第 3、4 条;第三类:第 1、5、7、8、21、25 条;第四类:第 9、11、12、13、16、18、22 条;第五类:第 2、6、10、17、20 条;第六类:第 14、19、23 条。根据这六条曲线可以得到如图1所示的用户特征曲线。

由图1可知,第一类曲线从上午8时左右开始快速攀升,至12时左右达到早高峰,随后负荷率略有下降,但仍处于较高水平,直至晚19时左右,随后呈较快下降趋势;第二类曲线从凌晨6点左右开始上升,早高峰在13点左右,然后略有下降,从16点左右又开始上升,晚上21点左右出现晚高峰,随后开始下降;第三类曲线从上午8点到晚上22点左右负荷率都比较高,其余时段都处于低谷,类似于较为典型的商场负荷;第四类曲线相对平稳,负荷率较高,从上午9时至晚21时保持相对较高的负荷率,高峰出现在11时左右;第五类曲线从上午9时左右开始上升,高峰出现在12时左右,随后虽有起伏,但总体呈下降趋势;第六类曲线从上午8时左右开始上升,在上午10时至晚18时负荷率保持在较高水平,并在上午10左右达到高峰,18时以后开始下降。

通过用模糊聚类方法,原本隶属不同行业的用户在负荷特性上会有较大的相似性,也就是可能会属于一个类,而以往的做法往往是先划分行业再分析同行业的用户,使得不同行业的用户之间本来潜在的一些共性和联系没有被发掘。

4 构筑负荷曲线的意义

构筑负荷曲线的理论依据:先将系统的用电负荷分行业,求得分行业典型日负荷曲线,然后根据分行业典型日负荷曲线和构筑的分行业最大负荷转换叠加得出构筑的典型日负荷曲线。该方法需要分析行业用电与负荷特性的关系,并需要得出分行业的基本负荷曲线和分行业的最大负荷。由于分行业叠加法能有效地反映产业结构、用电结构变化对负荷特性的影响,成为构筑日负荷(分行业负荷)曲线的可行方法。

5 结束语

本文主要采用了模糊聚类方法中的C均值聚类算法对不同行业不同用户以及同用户不同时间的负荷曲线进行分类和分析比较,模糊C均值聚类算法本质上就是将一堆数据按距离的长度分类,因此这里存在着一个最优化的问题:就是当C取多少时,聚类的效果最好。为了能判断分类数C的恰当与否和分类的结果是好还是不好,在此定义类间分辨率。对某一聚类中心Vi,它与其它聚类中心的距离的最小值是dundefined,在属于该聚类中心的所有原始数据中,每个原始数据与该聚类中心都有一个距离,这个距离中最大的距离记为rundefined,这个距离的平均值记为undefinedi,则类间分辨率的好坏由如下两个公式的值来判断:

undefined

如果数据分布的较为合理,则每个聚类中心周围都应聚集着一定数量的原始数据,且rundefined应该小于dundefined,且αi应该大于1,同时αi比βi小,β越大,说明那些属于某一类的数据点越接近聚类中心。当分类数从小变大时,α也会从小变大,直到达到一个极大值,也就是说此时的分类效果最好。然后由于分类数c的增加,α又会开始变大,并远大于第一个极大值,所以在取相对最合理的分类数时,以取α的第一个最大值为宜。而β则作为一个辅助判断量,它只是说明了分类时数据围绕在聚类中心的程度。

摘要:应用数据挖掘技术研究用户的负荷特性分析。采用模糊聚类方法对典型行业典型用户的负荷特性进行分析,将用户分类,然后在分类后的曲线的基础上构筑负荷曲线。

关键词:负荷曲线,特性分析,数据挖掘

参考文献

[1]赵希正.中国电力负荷特性分析与预测[M].北京:中国电力出版社,2002.

[2]陶莉.峰谷电价政策对负荷特性的影响[D].南京:东南大学硕士学位论文,2004.

[3]李波波.模糊聚类在电力用户分类中的应用[J].需求侧管理,2005,7(9):18-21.

[4]赵德应,李胜洪,张巧霞.气温变化对用电负荷和电网运行影响的初步探讨[J].电网技术,2000,24(1):55-58.

[5]李扬,王治华,卢毅,等.南京市夏季气温——日峰荷特性分析[J].电网技术,2001,25(7):63-66.

[6]张祥,肖达强,廖可贵.华中电网用电负荷与气温关系分析[J].华中电力,2001,14(2):51-53.

模糊聚类在客户关系管理中的应用 第6篇

关键词:客户关系管理,数据挖掘,模糊聚类,最小生成树

0 引言

CRM[1,2]是客户关系管理 (Customer Relationship Management) 的简称, CRM作为一种先进的管理模式, 其内容无论在广度和深度上都在不断扩展。目前的CRM产品还远未达到人们对数据访问、分析处理的期望, 主要问题在于目前的数据库系统可以高效地实现数据的录入、查询、统计等功能, 却无法发现数据中存在和隐含的关系和规则, 无法根据现有的数据预测未来的发展趋势。数据挖掘技术可以从大量的顾客消费数据中发现客户的消费行为模式, 可以使客户关系管理更加智能化, 从而可以显著提高企业的经济效益和社会效益。

数据挖掘在客户关系管理的研究主要有7个方向[3], 分别是关联 (Association) 、分类 (Classification) 、聚类 (Clustering) 、预测 (Forecasting) 、回归 (Regression) 、序列发现 (Sequence Discovery) 和可视化 (Visualization) 。在聚类分析中K均值算法属于硬聚类 (任一元素只能属于某一类, 非此即彼的) , 但是在做客户分析时, 并不能指出某个客户一定属于或一定不属于某一客户群体, 恰恰相反, 一个客户样本可以属于不同的客户群, 从而帮助营销人员制定出针对客户的营销策略, 以提高客户的价值贡献, 因此选择模糊聚类能更好地体现客户特征。传统的模糊聚类算法FCM存在以下3个方面的不足[4,5,6,7]:①迭代次数多, 计算量大;②参数m的优选仍有待进一步研究;③对初始值较敏感, 易于陷入局部最小。聂呈启等人在2003年提出了一种利用最大树做模糊聚类的方法[8], 该模糊聚类方法不存在FCM聚类中存在的问题, 但是这种模糊聚类方法不适合处理大量的数据, 而客户关系管理系统中存在着大量的客户数据, 因此不能直接把文献[8]中的模糊聚类算法应用到客户关系管理系统中。针对文献[8]存在的不足, 提出了一种基于Kruskal算法的最小生成树模糊聚类算法KTFC并将其应用于客户关系管理中。实验证明, KTFC算法具有较好的正确性和有效性。

1 模糊聚类算法KTFC

1.1 原始数据模糊处理

关系数据表中的数据分为布尔型、数值型、类属型和空值4种类型。隶属函数定义如下[8]:

1.1.1 布尔属性值的隶属函数

设U是整个数据域, Ui是U中的第i个元素, i∈1, 2, 3, , n;Aj是U中第j个属性, j∈1, 2, 3, , m;Sij是第i个元素、第j个属性的属性值;αjk是第j个属性中第k个属性值, k∈1, 2, 3, , t, t是对应的某个属性的属性值的分类数;N (αjk) 是属性值αjk的个数。设计如下属性值的隶属函数:

其中k=1, 2;n是U的元素个数。

1.1.2 数值属性值的隶属函数

在数值属性值的分类上, 把相同属性值分为同一类, 其它的属性值应根据距离分别进行处理。如果数据是连续值, 或其离散性很小, 可以采用划分区间的办法, 把同一区间内的所有属性值划分为一类。经过类划分后, 要注重各个类对于属性的隶属情况。

设l是属性的分类数, Cl是第l个类, N (cl) 是类Cl包含的属性值的个数, Cli是第l类中第i个属性值, 则属性值的隶属函数为:

其中l=1, 2, 3, ;i=1, 2, 3,

1.1.3 类属属性值的隶属函数

类属属性值是一种分类的属性, 它与数值属性值的区分是从有限分类集中取得某一分类值。将相同属性值划分为同一类, 其隶属函数主要考虑各类属性值个数在总的分类集中所占的比例, 其隶属函数如下:

其中l=1, 2, 3, , i=1, 2, 3, ;式中l、Cl、N (cl) 、Cli的含义同 (1.1.2) 节中所述。

1.1.4 空值属性值的隶属函数

如果某个属性空值个数和总元素个数之比超过限定阈值Z0, 可以删除此属性, 即聚类分析时不考虑此属性;对于比值低于Z0的属性, 可根据空值个数所占总数的比例, 设定3个等级 (高、中、低) , 高比例对应最高隶属度, 中比例对应中等隶属度, 低比例对应最低隶属度, 其隶属度函数如式 (4) 所示:

式中Sil是第i个元素、第j个属性的属性值, r0为空值所占比例, h0对应高比例阈值, l0对应低比例阈值。

原始数据经上述隶属函数的模糊处理后, 所有属性值都转变为小于等于1的数值, 它们反映了其对应属性值的出现频率及重要程度。

1.2 建立模糊相似矩阵

设论域为U, 元素个数为|U|。建立论域U的元素之间的模糊相似关系R, R矩阵的阶数为|U|。利用欧几里得距离公 (式 (5) ) , 可以计算R矩阵的元素rij, 式中m是属性个数, Sik是第i行, 第k列的属性值。

1.3 利用最小生成树做模糊聚类分析

由模糊相似关系R得到网N= (V, {E}) 有n (n-1) /2条边, 找出最小生成树为T= (V, TE) 。对于任意给定的λ, 只要将w (ei) >λ (w (ei) 是边ei的权值) 的边ei砍断就可得到一个不连通图, 它的各个连通的分支就是在λ水平上的类, 而且这种分类法与最小生成树的选择无关。[9]

在客户关系管理中要处理的数据量比较大, 因此选择Kruskal算法求网N的最小生成树T。基于Kruskal算法的最小生成树模糊聚类算法KTFC描述如下:

Step0:begin;

Step1:按照1.1节介绍的方法对实验数据进行模糊化处理, 形成初始化表;

Step2:选定λi, 且0λi1;

Step3:按照公式 (5) 计算模糊相似矩阵, 用动态数组的形式存储, 只存储小于λi值的边的信息, 存储结构如下:Struct{

int x, y, w, flag

}Node, *FuzzyMatrix

其中w<λ, ui∈U, uj∈U, 且i≠j, flag标识该边的使用状态 (flag=0, 1, 2, 分别代表该边等待处理, 被采用和被抛弃;

Step4:根据需要动态分配存储模糊相似矩阵的空间:

FM= (FuzzyMatrix) malloc (m) *sizeof (Node)

其中m是权值小于λ的边的数量;

Step5:按照权值w对动态数组FM中的数据进行升序排序, 排序结果存放到另一个动态数组FMX中;

Step6:从头到尾依次扫描升序排序好的数组FMX, 按照Kruskal算法思想选取边, 被选用的边的flag项标识为1, 被放弃的边的flag项标识为2;

Step7:根据实际需求查看聚类结果是否满意, 如果不满意, 重新设定λj, 且λj<λi, go to step 6;否则go to step 8;

Step8:结束。

聚类后, 可对各分类进行筛选, 将数量比率少于设定阈值的类删除, 这些被删除的类作为奇异类另作分析。

2 实验结果分析

为验证模糊聚类算法KTFC的有效性, 采用某餐饮集团下的某家饭店的1 000条会员数据。选择λ=0.2时, 生成两棵最小生成树, 客户聚类如表1所示;选取λ=0.1, 生成三棵最小生成树, 客户聚类结果如表2所示。基于两种λ值的聚类都会有一些孤立点, 因为这些孤立点比较少, 没有分析的价值, 所以可以将它们忽略。

选取λ=0.2时, 根据客户聚类结果可以得到以下客户消费行为模式:

第Ⅰ类人员的特点是每次每人消费的金额比较少, 月消费频率比较高, 因为这些人的工作单位在饭店附近, 而家又离单位比较远, 所以经常在该饭店吃工作餐。通过这些分析, 可以得知该饭店的低档菜口味较好, 价位合适, 比较受附近工作的客户欢迎, 这部分客户群体是饭店的稳定客源。

第Ⅱ类人员的特点是每人每次消费的金额比较多, 月消费频率比较少, 这部分会员消费水平比较高。

选取λ=0.1时, 根据客户聚类结果可以得到以下客户消费行为模式:

(1) 第Ⅰ类人员的特点是每人每次消费的金额比较少, 月消费频率比较高, 因为这些人的工作单位在饭店附近, 而家又离单位比较远, 所以经常在该饭店吃工作餐。通过这些分析, 可以得知该饭店的低档菜口味较好, 价位合适, 比较受附近工作客户的欢迎, 这部分客户群体是饭店的稳定客源。

(2) 第Ⅱ类人员的特点是宴请宾客, 这类人员每次每人消费的金额很高, 但是月消费频率中等。

(3) 第Ⅲ类人员的特点是在饭店附近居住的人员, 一般选择在这里家庭聚餐, 这类人员每人消费的金额中等, 月消费频率中等。

由上面的实验结果可知, 选取不同的λ值, 会得到不同的聚类结果, 针对上述从数据挖掘的结果中所抽取的知识, 该饭店可以做出相应的营销策略, 使饭店获取更大的经济效益和社会效益。

3 结语

基于Kruskal算法的最小生成树模糊聚类算法KT-FC省去了多重迭代的反复计算过程, 而且只需要对模糊相似矩阵从头到尾扫描一次, 计算量大大减少, 动态地取不同的λ值可以获得不同的聚类结果, 大大地提高了聚类的灵活性。如何更科学地选取λ的值, 有待进一步研究。

参考文献

[1]李志刚.客户关系管理理论与应用[M].北京:机械工业出版社, 2006.

[2]涂继亮.基于数据挖掘的智能客户关系管理系统的研究[D].哈尔滨:哈尔滨理工大学, 2005.

[3]E W T NGAI, LI XIU, D C K.Chau.Application of data mining techniques in customer relationship management:a literature review and classification[J].Expert Systems with Applications, 2009 (36) :2592-2602.

[4]杨淑莹.模式识别与智能计算——Matlab技术实现[M].北京:电子工业出版社, 2009.

[5]钟珞, 潘昊, 封筠, 等.模式识别[M].武汉:武汉大学出版社, 2006.

[6]李弼程, 邵美珍, 黄洁.模式识别原理与应用[M].西安:西安电子科技大学出版社, 2008.

[7]JEMES C.BEZDEK, ROBERT ETRLICH, WILLIAM FULL, FCM:the fuzzy c-means clustering algorithm[J].Computers&Geosciences, 1984, 10 (2-3) :191-203.

[8]聂呈启, 聂伟强, 彭云.数据挖掘中的模糊聚类分析[J].计算机工程与应用, 2003 (33) :184-186.

模糊聚类及应用 第7篇

随着市场存、贷款利率的逐步放开, 银行、小额贷款公司、投资管理公司等金融业间的竞争日益激烈, 而金融业间的竞争根本上则是对客户的争夺。随着信息科技的飞速发展, 金融企业在自身经营中也积累了大量的业务数据。如何依托企业内部的金融数据系统通过数据挖掘技术进行数据分析, 从企业内部存储的大量数据资料中提取不同客户的属性, 据此确认客户的喜好和行为特征, 进而对现有客户进行分类管理, 实现有针对性的营销、维护及淘汰, 如此则不仅有利于稳定和拓展银行业绩, 同时, 也能够最大限度降低管理客户的相关费用。

1 模糊聚类思想

模糊聚类包括模糊与聚类, 主要是指在对现有的大量模糊、随机的实际应用数据在挖掘[1]过程中发现 (KDD) 知识的方法统称。模糊集法、以及聚类就是利用数据挖掘进行数据分析时较为常用的方法, 其他还有神经网络法、遗传算法、决策树法、统计分析法等。

具体来说, 模糊集法是利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊分析的一组完整的研究实现技术。复杂性越高的系统, 使用该方法模糊性越强, 效果将会越明显。聚类即是将一组个体按照相似性原则归于若干类别, 实现“物以类聚”[2]。其目的在于缩短同一类别个体之间的距离, 但却保持不同类别的个体间差异 (距离) 要尽可能大。聚类方法有统计法、机器学习法等。

基于同类别个体的隶属度取值范围, 可将聚类分为两类, 即硬聚类算法和模糊聚类算法。在模糊聚类法中, 一个样本同时属于所有的类, 但是可通过隶属度的大小来区分其差异。该理论操作简便, 结果可信, 且在实际生活中应用广泛。

采用模糊聚类算法对银行客户进行分类管理时, 其基本步骤通常为[3]:

(1) 现有客户数据的标准化;

(2) 利用标准化数据建立模糊相似矩阵;

(3) 通过矩阵进行客户数据聚类。

在众多模糊聚类算法中, 模糊C-均值 (FCM) 算法应用最为广泛且取得理想效果[4]。该法是通过优化目标函数得到每个样本点对所有类中心的隶属度, 从而决定样本点的类属以达到对样本数据进行自动分类的目的。本文数据即采用此算法进行处理。在此, 假设银行客户数据为样本集合X, X={x1, x2, , xn}, 将其分成c个模糊组, 需求每组的聚类中心cj (j=1, 2, , C) , 而使目标函数达到最小。

2 实例分析

2.1 数据样本

客户在开设账户、存贷款、购买银行产品的过程中与银行建立关系, 银行从客户日常金融活动中积累了大量的数据, 而在客户诸多数据信息中, 需筛选出优质客户实行重点维护, 潜在客户则重点培养, 劣质客户即准备淘汰, 以实现利润最大化。

研究抽取与银行发生业务的60名客户, 并从综合业务系统中提取了这些客户办理相应业务产生的结果数据, 具体则如表1所示。

若对客户实现分类, 即识别是维护、培养还是淘汰, 就相当于按照客户对银行的贡献度[5]将客户进行综合排序。在此, 设X= (X1, X2, Xn) 为要排序的对象, 每个对象由m个指标表示各种属性, 可表示为:

采用模糊聚类方法将客户排序分类, 本质上就是一个多指标综合排序[6]的过程。具体来说, 要实现排序, 每一个指标应该对应一个最优值, 即可人为构造一个虚拟客户并视作新对象Xn+1, 而其各项指标都是从现有值中求取最优值, 即

基于此, 依据这些对象间的模糊相似关系, 进行模糊计算, 再根据结果实现聚类。

2.2 数据标准化

样本数据的标准化, 就是压缩到区间[0, 1]上, 为此构造模糊相似矩阵。常用的即是采用标准差变换:

其中:

此时, 只需将样本数据代入即可, 如当数据逐一代入后, 即可得到标准化后的数据如下:

采用标准差变换来完成数据的标准化过程, 简单高效, 且易于实现, 是多数情况下较高频使用的一种数据标准化手段。

2.3 构造模糊相似矩阵

数据标准化后, 接下来即需确定模糊相似系数rij, 研究采用更常见的欧氏距离法。方法公式为:

其中:

确定了模糊相似系数后, 模糊相似矩阵即由各对象间的模糊相似系数构成;而将标准化后的样本数据代入公式 (6) 、 (7) , 就可以确定模糊相似矩阵, 具体数学形式为:

本文采用的欧氏距离法直观清晰, 而且容易理解。此外, 确定模糊相似系统的方法还有相似系数法、主观评分法等,

2.4 模糊聚类

以上研究完成后, 即需对样本数据进行模糊聚类。模糊聚类就是根据给定阈值水平, 将最相似的对象聚为一类。研究中, 找出与Xn+1为一类的对象, 记下序号, 其下标即为最优对象所在行的行号, 而后删掉该行, 继续排序, 直至全部完成, 由此即可得到所有客户从优到劣的完整排序。具体排序结果表2所示。

研究结论:根据排序结果, 可以将前20名列为维护类客户, 中间20名划归培养类客户, 而末20名则属淘汰类客户。

3 结束语

模糊聚类方法结合了模糊数学中的模糊相似矩阵的思想, 可理解性强, 允许数据性质的模糊性, 可以应用于具有潜在关联的数据聚类。样本数据通过模糊聚类, 得到了样本数据属于各个类别的不确定性程度, 进而给出了样本针对各个类别的不确定性描述。采用这种方法, 在银行等各种行业进行客户分类均具有很好的实用性。

摘要:本文以银行业务数据为研究对象, 结合聚类分析和模糊数学中模糊相似矩阵的思想, 将模糊数学理论应用于聚类分析中, 提出了基于模糊聚类分析的综合排序方法, 即模糊聚类法。本文采用该算法对现有银行客户的存、贷款、信用卡、转账结算等业务的总体情况进行综合排序, 以便于银行客户经理根据排序结果, 对不同客户采取支持、维护或淘汰等不同的分类管理策略, 最大限度降低银行的客户管理成本。

关键词:模糊聚类,银行客户,综合排序,分类管理

参考文献

[1]朱明.数据挖掘[M].合肥:中国科学技术大学出版社, 2002.

[2]何曰光.模糊聚类算法及应用[J].石油仪器, 2004, 18 (3) :43-44.

[3]刘夫涛, 张雷, 艾波.多重系统聚类挖掘算法及其实现[J].计算机工程与应用, 2000 (10) :41-42.

[4]周红芳, 宋姣姣, 罗作民.一种改进的模糊聚类算法[J].计算机应用, 2010, 30 (5) :77-79.

[5]丁剑敏.数据挖掘技术及其在商业银行中的应用[J].市场周刊·财经论坛, 2013 (4) :58-59.

模糊聚类及应用 第8篇

关键词:模糊C均值聚类,抗噪性,道岔缺口,图像分割

模糊C均值聚类(Fuzzy C-Means,FCM)算法是一种基于目标函数的算法,在图像分割领域占有重要地位。但FCM算法在进行图像分割时,需初始化参数,包括聚类中心和聚类数目等[1]。若选取的聚类中心处于局部极值时,算法不仅收敛速度下降,且分割精度也会降低。本文在粒子群聚类算法的基础上,针对粒子群算法易于陷入局部极小值的问题,通过引入量子理论,将二者进行融合,形成基于量子粒子群的模糊聚类算法。

1 FCM算法

假设给定任意的一组数据样本集合记为,其中s为数据集X的维数,n为集合中样本的数目,c(2≤c<n,c∈Z)是对数据集X进行划分的聚类个数。Bezdek所定义的FCM聚类算法的目标函数为[2]

其中,m是模糊因子;uij是第j个样本xj属于第i类的隶属度值,取值范围在(0,1)间;‖xj-vi‖表示样本点xj到聚类中心vi的欧氏距离。vi和uij的表达式为

FCM算法步骤为:

步骤1为参数初始化,包括设定聚类数目c,模糊因子m,最大的迭代次数Tmax以及允许的最小迭代误差ε,初始化各聚类中心V(0)=[v1,v2,…,vc];令迭代次数t=0;

步骤2用式(2)更新隶属度矩阵Ut+1;

步骤3用式(2)更新聚类中心V(t+1);

步骤4为若满足‖V(t+1)-V(t)‖<ε或t>Tmax,则聚类停止,输出U和V;否则令t=t+1,返回步骤2,直到满足停止迭代的条件为止。

2 量子粒子群模糊聚类算法

2.1 粒子群优化算法

粒子群优化算法[3]用粒子表示所求问题的解,然后在解空间中通过迭代搜索最优值,从而找到问题的最优解。每个粒子由3部分构成:粒子的历史最优位置、粒子的飞行速度及粒子的适应度值。在迭代寻优的过程中,粒子按照个体极值和全局极值改变自身的移动方向和位置。个体极值是当前粒子自身搜寻到的最优解,记为Pbest,代表粒子自身的认知能力;全局极值是目前整个种群搜寻到的最优解,记为Gbest,代表粒子对种群的认知能力[4]。在找到Pbest和Gbest这两个极值后,所有粒子按照如下公式更新自身速度及新的位置

其中,Xi(t)是当前第i粒子的位置;Vi(t)是当前第i粒子的速度向量;是第i个粒子经过t次迭代后搜寻到的自身最优解的位置;Gbest(t)是当前整个粒子群所找到的最优解位置;c1、c2是学习因子;分别代表粒子对自身的认知系数和对社会的认知系数,一般均为常数2,r1、r2是[0,1]之间的随机数。按照适应度值的大小来评价搜索到解空间位置的优劣,从而使所有的粒子向着搜索空间内个体最优位置和全局最优位置移动[5]。

2.2 量子理论

量子理论其根本在于量子微观世界成功的揭示了物质的内部组成及运动规律[6]。比特是经典信息中的基本概念,通常用0和1二进制数表示信息,与经典比特相同,量子比特(Quantum bit)也描述一种信息状态[7],也可写成|0〉和|1〉的形式,称为计算基矢,其中“|〉”为Dirac标记。量子比特与经典比特的最大区别在于:经典比特只有0和1两种状态,而量子比特除了|0〉和|1〉以外,还可以是这两种状态的任意线性组合,即量子的叠加态,其表达式可表示为

其中,α、β均为复系数,分别表示|0〉、|1〉出现的概率,通常称为量子态的概率幅,需满足归一化条件|α|2+|β|2=1。当α=0或β=0时,量子比特退化为|0〉或|1〉,此时量子比特退化为经典比特。

量子计算的发展从一切量子系统中最简单的运算开始。通过一系列的幺正变换可使量子态实现一些逻辑功能。通常将在这一时间间隔内实现逻辑变换的量子装置称为量子逻辑门或量子门,较为常见的量子门主要有非门、旋转门和Hadamard门等[8]。其中,量子旋转门占有重要地位,通过量子旋转角来完成更新操作,用表示量子旋转角。其矩阵表示为

当量子旋转门作用于量子比特|φ〉时,更新表达式为

通过上式可以看出量子旋转门的作用,且更新后的量子比特概率幅依然满足归一化要求(|cos(θ+φ)|2+|sin(θ+φ)|2=1)。值得注意的是,量子旋转角θ是量子旋转门的核心部分,其关系到算法的收敛速度和寻优能力,因此也是量子智能算法及其衍生算法主要的研究对象。量子旋转角θ的选择公式为

其中,Δθ为当前量子状态旋转到目标状态时转过角度大小;s(α,β)表示所需旋转的方向。

2.2.1 粒子群量子位编码

由于粒子群在编码初始化时有较强的随机性,故在此采用实数编码方案,将量子位的概率幅作为编码值

其中,θij2π×rnd;rnd为(0,1)之间的随机数,i=1,2,…,m;j=1,2,…,n。而n是种群规模;n是空间维数。经过量子位编码后,每个粒子在搜索空间中占据了两个位置,每个位置的概率幅分别为

可见经过量子编码后,整个粒子群在种群规模不变的前提下,搜索空间加倍,种群多样性增加。

2.2.2 量子粒子的状态更新

在量子粒子群优化算法中,粒子位置的移动是通过量子旋转门来实现的。与标准PSO中速度和位置的更新公式相比,量子旋转门角度的更新代替粒子速度的更新;粒子量子位概率幅的更新代替粒子位置的更新。假设粒子Pi当前搜索到的最优位置为

整个种群当前搜索到的最优位置为

(1)量子位旋转角度更新。粒子Pi的量子位更新后的角度增量为

其中,ω是惯性因子;c1、c2是常数;r1、r2是[0,1]之间的随机数;Δθl和Δθg分别是当前粒子与移动后粒子的角度差值以及全局最优位置的角度差值,其计算公式为

(2)量子位概率幅更新。

利用量子旋转门可得到粒子更新后的位置为

(3)变异处理。粒子群算法由于在搜索过程中种群多样性的丢失导致算法易陷入局部极小值。为此,需要通过变异操作来增加种群的多样性,防止算法陷入局部最优,利用量子非门实现变异操作

其中,i∈{1,2,3,…,m},j∈{1,2,3,…,n}。

为此,引入一个变异概率,记为pm,同时规定每个粒子在(0,1)之间均有一个随机数rndi,若rndi<pm,则就近选择该粒子上n/2个量子位,利用量子非门交换两个概率幅,但当前粒子的转角向量和自身最优位置均不变。

2.3 改进的算法步骤

步骤1为参数初始化,包括种群规模n,变异率pm,聚类类别c,随机选取c个样本点作为聚类中心组成一个量子个体;

步骤2根据目标函数计算每个量子个体的适应度值;

步骤3根据式(14)和式(17)更新粒子的位置;

步骤4按照异概率,对每个粒子依式(19)实现变异操作;

步骤5返回步骤2循环计算,直到满足收敛条件或代数达到最大迭代次数;

步骤6解码最优个体,将其作为FCM算法的初始聚类中心点,并初始化FCM算法其他参数;步骤7利用FCM算法完成图像进行分割;

步骤8为算法结束。

3 实验仿真及分析

为了验证算法的有效性,在联想Intel(R)Core(TM)i3-2120,CPU 3.3 GHz,内存1.98 GB平台上,利用Matlab对多幅标准测试图像进行了验证。

参数选取:粒子群规模n=30;c1=c2=2;w=0.2;变异率Pm=0.02;最大迭代次数Tmax=100;允许最小的停止迭代阈值ε为0.000 1。图1(a)是Airfield原图像,图1(b)和图1(c)分别为FCM算法及本文算法分割效果,聚类数目c=3。

图2(a)是Boats原图像,图2(b)和图2(c)分别是FCM算法及本文算法的分割效果,聚类数目c=2。

图3(a)是Girl原图像,图3(b)和图3(c)分别是FCM算法及本文算法的分割效果,聚类数目c=2。



图4(a)是脑部MRI图像,图4(b)和图4(c)分别是FCM算法及本文算法的分割效果,聚类数目c=4。

通过对比图1中3种分割效果,本文算法能较好地分割出信号楼,地面上的线路分割连续且清晰;通过对比图2中3种分割效果,本文算法分割出的直线型信息(包括船杆、船体侧面的直线以及房屋的轮廓)基本完整且边缘部分更平滑,地面纹理信息分割的也更为细腻;通过对比图3中3种分割效果,在桌面、书架等物体的分割上,本文算法分割出的纹理更加清晰,在人物的手臂、服装的纹理及人物面部信息保留的更为完整;对比图4中3种分割效果,本文算法分割出的脑白质、脑灰质、脑脊液的边缘连续、清晰,尤其在脑脊液的分割中保留了更多的细节信息。

客观上,表1给出了每幅图像经过30次实验后在聚类中心、划分系数、划分熵、迭代次数以及运行时间的数据对比。由于量子粒子群搜寻到最优的初始聚类中心,使得本文算法收敛具有较强的方向性,因此在迭代次数及运行时间上均有所减少,划分系数和划分熵表明,本文算法的分割效果较好。

4 结束语

针对FCM算法对初始聚类中心敏感的问题,利用量子粒子群优化算法搜寻FCM算法的初始聚类中心,形成基于量子粒子群优化算法的模糊聚类算法,利用量子非门增加种群搜索空间多样性,防止陷入局部极小值。同时,借助于量子算法提高粒子群优化算法的收敛速度,完成后续的图像分割。实验仿真结果表明,改进算法能获得稳定的聚类中心且分割效果理想,同时解决了及粒子群优化算法易于陷入局部最优的不足,提高算法的分割精度。

参考文献

[1]张翡,范虹.基于模糊C均值聚类的医学图像分割研究[J].计算机工程与应用,2014,50(4):144-151.

[2]Joseph C Dunn.A fuzzy relative of the ISODATA process and its use in detecting compact well separated clusters[J].Journal of Cybernetics,1973,3(1):32-47.

[3]Kennedy J,Eberhart R C.Partiele swarm optimization[C].Perth,Australia:Proe of the IEEE Intemational Conference on Neural Networks(ICNN),1995.

[4]纪震,吴青华,廖惠连.粒子群算法及应用[M].北京:科学出版社,2009.

[5]孙俊,方伟,吴小俊,等.量子行为粒子群优化:原理及其应用[M].北京:清华大学出版社,2011.

[6]李士勇,李盼池.量子计算与量子优化算法[M].哈尔滨:哈尔滨工业大学出版社,2009.

[7]赵生妹,郑宝玉.量子信息处理技术[M].北京:北京邮电大学出版社,2010.

相关文章
创新公共服务范文

创新公共服务范文

创新公共服务范文(精选12篇)创新公共服务 第1篇科学技术是第一生产力,科技公共服务平台对国家或区域的技术创新具有巨大的推动作用。科技...

3
2025-10-24
匆匆中学生读后有感

匆匆中学生读后有感

匆匆中学生读后有感(精选9篇)匆匆中学生读后有感 第1篇匆匆读后感500字_读《匆匆》有感当细细地品读完一本名著后,大家心中一定有不少感...

1
2025-10-24
草莓教学范文

草莓教学范文

草莓教学范文(精选17篇)草莓教学 第1篇“风儿轻轻吹,彩蝶翩翩飞,有位小姑娘上山摘草莓,一串串哟红草莓,好像……”优美的歌词,动听...

3
2025-10-24
仓储类课程范文

仓储类课程范文

仓储类课程范文(精选7篇)仓储类课程 第1篇物流产业是复合型产业,发达的物流能加速传统运输、仓储和零售等行业向现代物流服务领域延伸。...

1
2025-10-24
创造性批评:解说与解读

创造性批评:解说与解读

创造性批评:解说与解读(精选8篇)创造性批评:解说与解读 第1篇创造性批评:解说与解读作为诗性文化重要组成部分的审美批评,同文学艺术实践...

2
2025-10-24
初二地理试卷分析

初二地理试卷分析

初二地理试卷分析(精选6篇)初二地理试卷分析 第1篇莲山 课件 w ww.5 YK J.COM 4 初二地理试卷分析二、试题所体现的新课程理念和...

4
2025-10-24
常州市河海中学文明班小结

常州市河海中学文明班小结

常州市河海中学文明班小结(精选2篇)常州市河海中学文明班小结 第1篇常州市河海中学2008~2009学年第一学期 八(1)班创 文 明 班 ...

4
2025-10-24
财务负责人身份证明

财务负责人身份证明

财务负责人身份证明(精选14篇)财务负责人身份证明 第1篇财务负责人身份证明及签字样本兹证明为我公司财务负责人。特此证明。身份证复印...

3
2025-10-24
付费阅读
确认删除?
回到顶部