一个专业的论文、出书、专利服务平台

品质、专业的

论文指导服务

面向混合数据的代价敏感三支决策边界域分类方法

时间:2021-10-13分类:智能科学技术

  摘 要:针对现有三支决策模型的研究对象多为单一性数据的决策系统,对于混合数据边界域样本处理的研究相对较少,本文面向混合数据提出了基于核属性的代价敏感三支决策边界域分类方法。该方法基于正域约简计算混合邻域决策系统的核属性集,在此基础上计算混合邻域类,并利用三支决策规则分别将对象划分到各决策类的正域、边界域和负域;提出了一种基于代价敏感学习的三支决策边界域分类方法,并构造了误分类代价的计算方法,以此划分边界域中的对象。通过对 UCI 上的 10 个数据集进行实验对比与分析,进一步验证了本文方法为处理边界域样本提供了一种可行有效的方法。

面向混合数据的代价敏感三支决策边界域分类方法

  周阳阳; 钱文彬; 王映龙; 彭莉莎; 曾武序, 智能系统学报 发表时间:2021-10-13

  关键词:三支决策;粒计算;代价敏感;混合数据;正域约简;边界域样本处理;粗糙集; 核属性

  1三支决策是加拿大学者 Yao.Y.Y 提出的一种 “化繁为简”决策理论[1-2],它从粒计算视角将论域划分为三个互不相交的论域子空间,并对其分别采取不同的应对策略,这种分而治之的思想,可有效提高决策准确度,降低误分类代价。三支决策理论模拟人类认知、学习和决策的过程,可处理决策过程中出现的不确定性问题。近年来,三支决策理论引起了许多研究者的关注,已成为了粒计算和知识发现领域中的一个重要研究方向。目前,三支决策在众多应用领域中得到广泛的应用,如人脸识别[3]、推荐系统[4-5]、决策系统[6]和邮件过滤[7]等;为了处理复杂的应用场景,提出了不同的计算模型,如序贯三支决策[3,8] 、优化三支决策[9]、前景三支决策[10]、 三支模糊集[11]和三支约简[12]等。

  在实际应用中,代价是影响三支决策划分的重要因素之一。代价敏感学习能够有效缓解分类过程中的数据不平衡问题,其主要作用是处理决策过程和结果产生的各类代价问题。代价敏感学习主要研究两种代价:误分类代价(结果代价)和测试代价,两者互相关联,呈负相关。如在医疗诊断中,患者想要获得更高的诊断准确率(即决策代价越低),就需要做更多的检查(即测试代价越高)。由于代价是数据的内在特征,将其与知识发现结合会使得问题更具有普适性,目前,代价敏感学习已经应用到现实生活中的许多领域,如:人脸识别[13]、价格预测[14]和客户信用评价[15]等。

  因此,基于代价敏感的三支决策算法与模型引起了许多学者的关注和研究,已取得重要的研究成果。Fang 等人[8]将信息粒度纳入决策分析过程,同时考虑决策过程和决策结果的代价,分别设计了两种不同的算法以最小化决策过程和决策结果代价。 Yang 等人[16]提出了一种三支决策和可分辨矩阵的框架,在此框架下分别设计了基于删除和增加的代价敏感近似属性约简算法。Jia 等人[17]构造了一种可以直接应用于传统的代价敏感学习问题的三支决策模型,在此基础上,提出基于多类三支决策模型的多阶段代价敏感学习方法。Li 等人[18]为从输入图像中顺序提取分层粒度结构,提出了一种基于 DNN 的顺序粒度特征提取方法,在此基础上,提出一种代价敏感的序贯三支决策模型。Fang 等[19]考虑了用户需求,提出一种基于模糊粗糙集的序贯三支决策模型的优化机制,用来实现对代价敏感的最优粒度选择。Ma 等人[20]定义了三支特定类的最低代价约简,分别设计了基于添加-删除策略和删除策略来构建特定类的最小代价约简算法。以上算法与模型能够最小化结果代价或过程代价。而在许多应用领域中往往需要从代价敏感视角来分析三支决策边界域样本,目前三支决策的研究对象多为单一性数据的决策系统,对于混合数据边界域样本处理的研究相对较少。

  为此,本文提出了一种面向混合数据的代价敏感三支决策边界域分类方法。首先,基于正域约简,提出了面向混合数据的属性约简模型;然后,提出了一种基于代价敏感的三支决策边界域样本处理方法,在贝叶斯最小风险的基础上构造误分类代价公式,划分边界域中的对象。最后,对 UCI 上的 10 个数据集进行实验,结果表明该方法能够降低误分类代价,而且能较准确的划分边界域中的对象;这为三支决策的边界域样本处理提供了一种可借鉴的方法。

  1 基本知识

  1.1 邻域粗糙集

  在粗糙集理论[21]中,给定一个四元组决策系统: DS U At C D V a At I a At       , , | , |  a a   ,其中 U x x x  1 2 , ,..., n表示有限非空的对象全集,称为论域或者对象空间; At 表示有限非空的属性全集,由条件属性和决策属性共同组成; C a a a   1 2 , ,... n表示有限非空的条件属性全集, D 表示决策属性; Va 表示 a C 的属性值集, | a I U At V  是一个信息函数,能给每个对象的每个属性赋值,即 ( ) a a I x V  。

  定义 1 [22] 给定混合邻域决策系统 DN U  , , , , ,  D C F F D V I a a  ,距离度量函数  N U U : ,给定属性子集 B C 和邻域参数,则对象 x 和 y 基于 B 的邻域关系为: NR B x y U U N x y ( ) ( , ) | ( , )  B      对 x U , x 的邻域粒度可表示为:  B B ( ) | , , ( , ) x y x y U N x y      其中, D F 为离散属性集合, C F 为连续属性集合,是邻域参数。

  1.2 三支决策粗糙集

  三支决策粗糙集[23]通过 2 个状态集和 3 个动作集来描述其决策过程。其中,状态集 S X X    , 分别表示对象属于概念 X 和不属于概念 X ,动作集 A a a a   P B N , , 表示对于不同状态,分别采取接受、延迟和拒绝三种不同的动作。由于采取不同动作会产生不同的损失,记 , ,  PP BP NP 表示当 x X 时,分别采取动作 , P B a a 和 N a 产生的风险损失值;同样地,记 , ,  PN BN NN 表示当 x X 时,分别采取动作 , P B a a 和 N a 产生的风险损失值;损失之间的关系满足: PP BP NP   ,    NN BN PN  。在实际应用中,这些损失值通过专家的经验获取。

  定义 2 [1] 在决策系统 DS U C D V I    , , , a a 中,令 X 为论域 U 基于决策属性 D 的划分,和为三支决策的阈值, P X x ( |[ ]) 表示对象 x 的条件概率,对于 x U ,根据贝叶斯决策过程,计算得到最小成本准则的三支决策规则: POS X x U P X x ( ) | ( ) 1          BND X x U P X x ( ) | ( )           NEG X x U P X x ( ) |0 ( )        其中:     ( | ) X x P X x x  , . 表示对象的个数;      ( ) ( ) ( ) BN NN BN NN NP BP       其中,正域 POS X( ) 、负域 NEG X( ) 和边界域 BND X( ) 分别对应三支决策规则中的接受、拒绝和不 承 诺 规 则 , 且 满 足 : POS X BND X ( ) ( )   NEG X X ( ) ;仅当 X U时, POS X BND X ( ) ( )   NEG X U ( ) 。

  1.3 代价敏感学习

  代价敏感学习主要研究误分类代价和测试代价,由于本文中考虑了其误分类代价,误分类代价表示对对象错误划分后的一种惩罚。用 Ck k 表示误分类代价矩阵,其中 k 表示 k 分类问题。为方便理解,以二分类代价矩阵 11 12 2 2 21 22  =      c c C c c 为例;其中 11 c 表示将类别为 1 的对象划分到类别 1 种,因此 11 c 的值为 0,同理 22 c 的值也为 0; 12 c 表示将类别为 1 的对象划分到类别 2 中,此时属于误分类,在划分中需付出惩罚代价,因此 12 c  0 ,同理 21 c  0。

  2 基于正域约简的代价敏感三支决策边界域分类方法

  2.1 面向混合邻域决策系统的正域约简

  由于基于三支决策的粒计算方法大多是处理连续型数据或离散型数据等单一型数据,但是在现实生活的应用领域中数据类型通常是既含有连续型数据又含有离散型数据的混合数据,为此需对混合数据的三支决策模型展开研究。

  定 义 3 给定混合邻域决策系统 DN U  , , , , ,  D C F F D V I a a   , ( ) V x a 表示对象 x 在属性 a 上的属性值:

  对于 , , D     x y U a F ,则 x 和 y 基于 D F 的距离为: 0, ( ) ( ) ( , ) 1, ( ) ( ) D a a F a a V x V y N x y V x V y     对于 , , C     x y U a F ,则 x 和 y 基于 C F 的距离为: 1 1 C ( , ) | ( ) ( )| m p p F a a k N x y V x V y          其中,当 p 1 时, C ( , ) F N x y 为曼哈顿距离;当 p  2 时, C ( , ) F N x y 为欧氏距离;当 p 时, C ( , ) F N x y 为切比雪夫距离。

  定 义 4 给 定 混 合 邻 域 决 策 系 统 DN U  , , , , ,  D C F F D V I  a a  ,令 Di 为论域U 基于决策属性D 的划分,则混合邻域决策系统的上下近似表示为: AN D x U x D ( ) | ( )      C i AN D x U x D ( ) | ( )        C i 通过上下近似集,可知特征子集 B 上的正域如下: POS D AN D x U x D C C i ( ) ( ) | ( )       

  定 义 5 给定混合邻域决策系统 DN U  , , , , ,  D C F F D V I  a a ,令属性 i a C ,则混合邻域决策系统中基于三支决策的核属性集定义为: CORE C a POS D POS D ( ) | 0            i C C a  i 

  下面以表 1 为例,给出一个混合邻域决策系统,其中, U x x x   1 2 10 , ,..., 为对象集, C a a a   1 2 6 , ,..., 为条件属性集, 决策类 U D D D   1 2 , ,分别为 D x x x x x x 1 1 3 5 6 7 9  , , , , ,  , D x x x x 2 2 4 8 10  , , , 。

  根据定义 5 可计算出混合邻域决策系统的核属性集,具体的计算过程如下:首先,根据定义 3,利用 p  2 时的欧式距离计算全体对象的混合邻域粒度,再根据定义 5 计算出 1 4 5 6 ( ) , , , , POS D x x x x C  x7 ,同理可计算出    1 1 4 5 6 7 ( ) , , , , POS D x x x x x C a  , 因 为 1 ( ) ( ) POS D POS D C C a  , 所以属性 1 a  CORE C( ) ,同理可求出a a a a CORE C 2 3 5 6 , , , ( )  ,只有属性 4 a CORE C  ( ) 。由此可知核属性集为 CORE C a ( )  4。下面将在此基础上,提出了代价敏感下的三支决策边界域分类方法。

  2.2 基于核属性集的代价敏感三支决策边界域分类方法

  定 义 6 给 定 混 合 邻 域 决 策 系 统 DN U  , , , , ,  D C F F D V I  a a  ,设属性子集 B C  , 和  为三支决策的阈值, Di 表示不同的决策属性,则不同属性子集下的三支决策规则定义为: POS D x U P D x B i i B ( ) | ( ( )) 1         BND D x U P D x B i i B ( ) | ( ( ))         NEG D x U P D x B i i B ( ) |0 ( ( ))       其中, ( ) ( | ( ))= ( ) i B i B B D x P D x x  。

  以表 1 为例,可给出混合邻域决策系统代价矩阵,如表 2 所示。结合定义 2 和表 2,可求出三支决策的阈值  = 7 9, 1 3  。

  令 B CORE C a   ( )  4 ,根据定义 3 可计算出核属性子集 B 下的对象之间的邻域粒度;再根据定义 6 计算出核属性集下决策类 D1 的的正域、负域和边界域,具体的计算过程如下:由定义 3 可计算出核属性集 B 下 的 1 x 的邻域粒度 1 ( ) B  x x x x x x x x x 1 2 5 6 7 8 9 10 , , , , , , ,  ,由此求出 1 x 的条件概率 1 1 ( ( ))=5 8 P D x   B ,所以 1 1 ( ) B x BND D ,同理 2 4 5 6 7 8 9 10 1 , , , , , , , ( )  B x x x x x x x x BND D ,即 1 ( ) BND D B = , , , , , , , , x x x x x x x x x 1 2 4 5 6 7 8 9 10。通过相同的计算可求出: 1 POS DB ( )=和 NEG D x B ( )=1 3   。

  定 义 7 在 混 合 邻 域 决 策 系 统 DN U  , , , , ,  D C F F D V I  a a 中,Di 为论域 U 基于决策属性 D 的划分,给定属性子集 B C ,为了简化公式,用 r CP 和 (1 )r CP 分 别 代 替 1 ( ( )) P D x i B j 和 1 (1 ( ( ))) P D x i B j   ,对于  x BND D j B i  ,样本简化后的误分类代价计算公式如下: ( | ) ( ) ((1 ) ) r PN B i j r r PN NP CP PC D x CP CP      (1 ) ( | ) ((1 ) ) ( )

  其中, ( | ) PC D x B i 表示在决策类 Di 下将对象 x 划分到正域产生的误分类代价,同理, ( | ) NC D x B i 表示在决策类 Di 下将对象 x 划分到负域产生的误分类代价。  NP 和 PN 是代价矩阵中的风险损失值, ( | ( )) P D x i B 表示在决策类 Di 下对象 x 的条件概率。性 质 1 在 混 合 邻 域 决 策 系 统 DN U  , , , , ,  D C F F D V I  a a 中, Di 是对决策属性 D 的划分,假设属性子集 B C ,对于 ( ) B i  x BND D ,可得出如下推论: (1)如果 | ( | ) PC D x NC D x B i B i   ,则 x ( ) NEG D B i ; (2)如果 ( | ) ( | ) PC D x NC D x B i B i ,则 x ( ) POS D B i 。以表 1 为例,令 B Core C a   ( )  4,已知 D1 x x x x x x 1 3 5 6 7 9 , , , , , 和 BND D x x x x x x B ( )= , , , , , , 1 1 2 4 5 6 7  x x x 8 9 10 , , ,根据定义 7 和性质 1 可将边界域中的对象划分到正域和负域,具体的计算过程如下:

  对于 1 ( ) B  x BND D ,根据定义 7 可求出划分对象 1 x 产生的两种误分类代价 1 1 ( | ) 6 11 PC D x B  , 1 1 ( | ) 5 11 NC D x B ,因为 1 1 1 1 | ( | ) PC D x NC D x B B   ,所以 1 1 ( ) B x NEG D ,同理可得x x x x x x 2 4 6 8 9 10 , , , , ,  1 ( )  NEG D B 和 5 7 1 , ( )  B x x POS D 。由此可知,该混合邻域决策系统的正域为: POS D x x B ( )= , 1 5 7  ,负域为: NEG D x x x x x x x x B ( )= , , , , , , , 1 1 2 3 4 6 8 9 10   。

  3 算法描述及复杂度分析

  针对混合邻域决策系统,为了有效划分其三支决策边界域中的对象,本文提出了一种面向混合数据的代价敏感三支决策边界域分类方法,该算法主要分为三个部分。首先,针对混合邻域决策系统中的数据,通过混合邻域计算公式计算每个对象的混合邻域粒度,得到混合邻域决策表的正域对象集合,由此基于启发式策略计算核属性集。其次,在此基础上,计算混合邻域决策表中每个对象的邻域粒度,从而计算出每个对象属于不同决策类的条件概率,利用三支决策规则将对象分别划分到不同决策类的正域、边界域和负域中;最后,针对边界域中的对象,分别计算其划分到正域和负域所产生的误分类代价,通过比较这两种代价的大小,将边界域中的对象划分到正域或负域中,为此,算法的流程图 1 所示。

  算法描述如下:

  算法:面向混合数据的代价敏感三支决策边界域分类方法

  输入:混合邻域决策系统 DN ,邻域参数和阈值 , ;

  输出:核属性集下对不同决策类的正域和负域;

  1)对混合邻域决策系统 DN 做归一化处理;

  2)计算决策类 D U D i ;

  3):计算邻域粒度 ( ) C  x ,初始化 ( ) CORE D C =;

  4)对于 x U ,若满足 ( ) C i  x D ,则将对象 x 存入到正域 POS D POS D x C C ( ) ( )   ;

  5)对于 i   a C ,分别计算去除每个对象之后的特征 子 集 的 正 域 集 合 -  ( ) C ai POS D ,若满足  ( ) ( ) i POS D POS D C C a ,则将属性 i a 存入到核属性集 CORE D CORE D a C C i ( ) ( )   ;

  6)基于核属性集 ( ) CORE D C ,计算对象的邻域粒度  ( ) CORE D C  x ;

  7)对于 x U ,计算对象 x 属于决策类 Di 的条件概率  ( | ( )) C P D x i CORE D  : ①若  ( | ( )) 1 C   P D x i CORE D  ,则将对象 x 划分到决策类 Di 的正域 ( ) CORE i C POS D ; ②否则,若  0 ( | ( )) C P D x i CORE D    ,则将对象 x 划分到决策类 Di 的负域 ( ) CORE i C NEG D ; ③否则将对象 x 划分到决策类 Di 的边界域 ( ) CORE i C BND D ;

  8)对于 ( ) C b CORE i   x BND D 计算 ( | ) CORE i j C PC D x 和 ( | ) CORE i j C NC D x : ①若满足 ( | ) ( | ) CORE i j CORE i j C C PC D x NC D x ,则将对象 j x 划分到决策类 Di 的负域 ( ) CORE i C NEG D ; ② 否则将对象 b x 划分到决策类 Di 的正域 ( ) CORE i C POS D ;

  9 ) 输出划分结果正域 ( ) CORE i C POS D ,负域 ( ) CORE i C NEG D 。//算法结束。

  算法时间复杂度分析:

  算法的 1)的时间复杂度为 O U C (| || |),2)划分决策类所需的时间复杂度为 O U(| |) ;3)在属性全集下,通过混合邻域计算公式得出每个对象的混合邻域粒度,其时间复杂度为 2 O U C (| | | |) ;4)计算正域对象的时间复杂度为 O U(| |) ;5)计算核属性集的时间复杂度为 2 O U C (| | | |) ;6)在核属性集 CORE 下,计算每个对象的混合邻域粒度,其时间复杂度为 2 (| | | ( )|) O U CORE DC i ;7)计算各决策类正域、边界域和负域,其时间复杂度为 O U(| |) ;8)结合代价敏感划分边界域中的对象,其时间复杂度为 (| |)   CORE i C O BND D 。综上所述,算法最坏情况下的时间复杂度是 2 O U C (| | | |) ;由于存储空间主要用于存放数据,因此算法的空间复杂度为 O U C (| || |)。

  4 实验比较与分析

  为了验证本文方法对边界域对象划分的可行性和有效性,实验从 UCI 中选取了 10 个混合数据集进行实验测试与分析;选用分类准确率、权衡因子、误分类损失和时间作为评价指标,对实验结果进行对比与分析。

  4.1 数据集与实验设置

  为了更好地说明所提出算法的普适性,本文根据数据集的来源和规模两个方面,从国际公开的机器学习 UCI 数据库中选取了 10 个数据集进行实验结果的对比和分析,数据集的信息描述如表 3 所示。表中 Speaker Accent 和 Ionosphere 数据集中包含连续型数据,Phishing Websites 和 Student Evaluation 数据集中包含离散型数据;其余数据集均包含连续型和离散型数据;这些数据集来自欺诈分析、医学诊断、信号处理和教育评价等应用领域。同时为了消除量纲的影响,对所有数据集中的连续型数据进行归一化处理。本次实验的运行环境为:Win10, Intel(R)Core(TM), i5-6500 CPU @ 3.20GHz 3.19GHz 和 8GB 内存,用 Python 编程语言实现算法设计。

  4.2 评价指标

  实验将从准确率、权衡因子、误分类损失和运行时间四种度量指标[24]对划分结果进行分析,定义如下:准确率: ( ) ( ) i i i POS D D Acc POS D 权衡因子: 2 Acc Cov F Acc Cov  误分类损失: Cos b bp n np t n n      式中, ( ) POS Di 和 Di 表示正域和决策类, b n 和 n n 分别表示边界域、负域中的对象个数;bp 和np 分别表示将属于某一决策类的对象错误划分到该类别的边界域和负域中产生的损失;由于本文算法的输出只包含正域和负域,因此 Cov=1 。本实验的风险损失参数为 =0.3 bp , =0.7 np 。

  4.3 实验结果与分析

  4.3.1 参数 PN 和 NP 对划分结果的影响

  在混合邻域决策系统中,参数 PN 和 NP 通过影响阈值对 , 的大小来影响三支决策的划分。因此,为了详细分析参数 PN 和 NP 的值对划分准确度的影响。本小节中,为了一般性,从上述数据集中选取 6 个作为代表进行实验分析,分别将 PN 和 NP 的值从 3 到 10,且每次步长变化 1 进行实验。实验结果如图 2 的子图(a)和(b)所示。

  在子图(a)中,当 PN 的取值区间在4,5时, Credit Approval 等 5 个数据集的准确率随代价的增加而下降,且变化趋势较为平缓;当 PN 的取值区间在7,8时,这些数据集的准确率随代价的增加而下降,且变化趋势较为显著。在子图(b)中,当 NP 的取值区间在4,5时,Credit Approval 等 5 个数据集的准确率随代价的增加而上升,且变化趋势较为显著;当 NP 的取值在6,7区间时,数据集 Speaker Accent 的准确率随代价的增加而升高,进而达到平稳状态;当 NP 的 取 值 在7,8区间时, Credit Approval 等个 5 数据集的准确率随代价的增加而升高,且变化趋势较为平缓;当代价 PN 和 NP 的取值在[8,10]这个区间时,准确率达到平稳状态,所有数据集的准确率不再随着代价的变化而变化。

  综上所述,从整体上看,代价 PN 和 NP 对分类准确度的影响呈负相关,数据集的准确率随着代价 PN 的增加,呈现出整体下降的趋势;而随着代价 NP 的增加,整体呈现出上升的趋势。从局部上看,当代价的取值在4,5和7,8这两个区间时,数据集的准确率随着代价的增加而发生变化,当代价的取值在其他区间时,数据集的准确率趋于稳定的状态。由此,在实际的决策过程中,可结合上述分析的结论,并根据数据集的分布和代价敏感学习构造合适的代价矩阵。

  4.3.2 本文模型与不同三支决策模型的对比分析

  本节主要分析不同三支决策模型对分类性能的影响,表 4 7 给出了三种粗糙集模型下准确率 ACC、权衡因子 F、误分类损失 Cost 和运行时间 Time 的实验结果。其中,NCTM (Neighborhood Rough set based Cost-sensitive Three-way Decision Boundary Region Processing Model)是基于邻域粗糙集[25]设计考虑了代价敏感的三支决策边界域处理模型,PCTM (Pawlak Rough set based Cost-sensitive Three-way Decision Boundary Region Processing Model)是基于经典粗糙集[22]设计考虑了代价敏感的三支决策边界域处理模型,MCTM (MixedNeighborhood Rough set based Cost-sensitive Threeway Decision Boundary Region Processing Model)代表本文基于混合邻域粗糙集的代价敏感三支决策边界域处理模型。在 PCTM 模型中对数据集进行离散化预处理,在 NCTM 和 MCTM 模型中对数据集进行了归一化预处理,另外,为了使距离处于同一量纲下,在 NCTM 模型中采取平均距离度量,同时 ACC、F、Cost 和 Time 的值均为数据集所有决策类的平均值。实验结果如表 4 7 所示,其中,符号表示度量指标的值越大越好,符号表示度量指标的值越小越好,加粗字体表示算法在所对应的数据集上的最优值。

  如表 4 所示,使用本文模型的分类准确率高于其他 2 种模型,例如,其在数据集 Credit Approval 上的准确率比 NCTM 和 PCTM 模型分别提高了 4.8%和 2.9%,由于 MCTM 能够针对不同的数据类型采取不同的分类方法,且具有更低的错误率,因此其划分准确率能整体上高于 NCTM 和 PCTM。此外,在数据集 Ionosphere 上,PCTM 模型的优势更加明显,而在数据集 Speaker Accent 上,本文模型和 NCTM 模型的准确率相同,由此可知,本文模型能有效的提高分类准确率,且在数据集上整体表现良好。

  如表 5 所示,对权衡因子而言,由其度量公式可知,权衡因子由准确率和覆盖率共同决定,由于本文中的三支决策最终转换成二支决策,因此覆盖率 Cov=1,在本文中权衡因子 F 很大程度上取决于准确率 Acc 的值。对比表 4 和表 5 的实验结果可知,权衡因子 F 的值略高于准确率 Acc 的值,但是整体上的变化趋势和 Acc 相同。

  如表 6 所示,使用本文模型的误分类损失整体上明显低于其他 2 种模型,例如,在数据集 Student Evaluation 中,本文模型的误分类损失比 NCTM 和 PCTM 分别降低了 478.1 和 287.0。从不同的模型角度分析,针对混合邻域决策系统,PCTM 对划分的要求较为苛刻,而 NCTM 对划分的要求较于放松,容错率低,导致划分错误率提高;本文模型 MCTM 可灵活应用于不同类型的决策系统,容错率高,所以具有更低的误分类代价。

  如表 7 所示,从整体上看,三种粗糙集粒计算模型所消耗的时间较少且随着数据规模的增大而增多;从部分上看,NCTM 模型耗时相对较长,主要是由于 NCTM 是用邻域关系计算邻域类,每两个对象之间都要计算,导致其时间复杂度较高。而 PCTM 模型和 MCTM 模型在耗时方面差异性不大,且差异性随数据规模的增大而减小。

  综上所述,与其他 2 种不同的粗糙集模型进行实验对比和分析可知,本文模型总体上具有较高的分类准确度和较低的误分类损失,因此,用其对混合邻域决策系统进行划分较为合理。

  4.3.3 本文模型和序贯三支决策模型的边界域分类方法对比

  为了进一步验证本文模型的有效性,本小节将本文模型与序贯三支决策的方法进行实验对比和分析。其中,MSTM (Mixed-Neighborhood Rough set based Sequential Three-way Decision Boundary Region Processing Model) 是基于经典序贯三支决策 [8]改造的基于混合邻域粗糙集的序贯三支决策边界域处理模型。实验结果如表 8 所示,分别给出了 MCTM 和 MSTM 的分类准确度、权衡因子、误分类损失和时间的对比。

  由表 8 的实验结果可知,在数据集 Ionosphere 和 Audit Data 上,本文模型 MCTM 的分类性能与 MSTM 相同,而在另外 8 个数据集上,本文模型 MCTM 的分类性能要优于序贯三支决策模型 MSTM。从理论上分析,由于 MSTM 直接由代价矩阵计算的阈值划分边界域对象,而本文在此基础上进一步考虑条件概率和误分类代价来划分边界域中的对象,因此本文模型 MCTM 在 Acc、F、Cost 和 Time 上表现较优。为此,在同等条件下,对于混合邻域决策系统,本文基于属性约简的混合代价敏感三支决策边界域分类方法为处理边界域对象提供了一种可借鉴的分析方法。

  5 结束语

  近年来三支决策理论成为热点研究问题,其研究对象多为单一型决策系统,然而,在许多的应用领域中,数据往往呈现混合类型的特点,目前三支决策对混合数据边界域样本处理的研究相对较少。为划分混合决策系统中的边界域对象,本文提出了基于混合数据的属性约简方法;并在此基础上,提出了一种基于核属性的代价敏感三支决策边界域分类方法。通过在不同的数据集上进行实验对比与分析,验证了本文方法的可行性和有效性,获得了一种相对合理的边界域对象的划分方法。由于序贯三支决策更加符合现实生活中的决策过程及人类的认知,下一步工作将研究基于代价敏感的序贯三支决策的粒化问题。

获取免费资料

最新文章