不确定性的度量方法是人工智能研究的重要课题之一,受到国内外专家学者的广泛关注,相关研究成果已经成功的应用于数据挖掘,决策分析,模式识别与人工智能领域中。通过二元关系与熵,对连续值信文章引用: 许鑫. 连续值信息系统的不确定性度量[J]. 计算机科学与应用, 2017, 7(4): 388-397.
由于客观世界中广泛存在不确定性, 不确定性问题的研究工作一直备受关注[1]-[8]。
某些应用背景中, 知识库中的数据以连续值形式呈现,例如某季节的气温范围、某公司中员工的年龄区间、以及工业批量产品制造的误差范围。连续值决策系统的知识库中描述的知识的属性并非同等重要,其中有些属性是冗余的。冗余的属性不利于对知识的泛化与规则的提取,同时也加大了系统存储的负担,造成了资源的浪费。
度量不确定性的程度称为不确定性度量, 最早的度量方法是由Kolmogorov 于1933 年提出的概率论。
随着通信技术的发展,Shannon 于1948 年提出信息熵的概念,解决了对信息量的度量问题。近些年来, 随着粗糙集理论研究的不断深入,粗糙集理论中的不确定性研究成为热点问题。国际上,Düntsch 等[1]利用Shannon 熵提出了三个模型选择准则,这些标准用于指导人们如何挑选最优条件属性集合来描述一个决策值,并用于刻画粗糙集预测的质量。Wierman [2]从公理化角度出发,给出了一种不确定性度量, 称为粒度度量, 在五条公理约束下, 可以证明其提出的粒度度量与Shannon 熵具有相同的形式。
Beaubouef [3]应用Shannon 熵分别研究了粗糙集中概念的粗糙度和关系数据库中的粗糙度。国内,1997 年,苗夺谦[9]将信息熵的概念引入粗糙集理论研究中。文献[10]提出了知识的粗糙性、信息熵与互信息等概念,并讨论了知识粗糙性与信息熵之间的关系。2002 年,苗夺谦在文献[11]中通过等价关系的基数定义了知识粒度与分辨度的概念。作为两个概念的应用,分别介绍了重要度在求最小约简、协调度在构造决策树方面的应用。王国胤[12]提出了代数观点与信息观点下的粗糙约简。黄兵等人于2004 年在文献[13]中基于一般二元关系提出了信息系统的广义粗糙熵概念。
2006 年,Liang 等在文献[14]中将完备信息系统中的知识粒度、分辨度与信息熵等概念扩展到不完备信息系统中,分别提出了知识粒度、信息熵与粗糙熵等概念, 用来度量不完备信息系统中的不确定性。
冯琴荣在文献[15] [16]中提出了基于数学期望的知识粒度定义,将每个知识粒看作是一个一维对象,粒的基数看作是其长度,从而针对信息系统定义了知识粒度的测度,该测度定义为划分中粒长度的数学期望。类似于不完备信息系统中的不确定性度量[17],Xu 等人于2009 年在文献[18]中提出了序信息系统中的知识粒度、知识熵与知识的不确定性度量。2011 年,王国胤等在文献[19]中综述了知识不确定性问题的粒计算模型, 从粒计算模型的角度分析了模糊集、粗糙集以及商空间理论模型中的不确定性问题,并对知识不确定性问题的研究工作进行了讨论和总结,对有待研究的重要问题进行了展望。基于扩展的条件信息熵,Dai 等[20]在2013 年对区间值信息系统中的不确定性度量的进行了相关研究。
389