在以支持向量分类机(Support Vector Classifier, SVC)为分类器的图像通用密写分析中,离群样本对最优分类面判别的影响成为导致分析性能不高的原因之一。文中提出一种新的密写分析算法。该算法首先在小波域上提取噪声信号的特征,然后利用遗传算法(Genetic Algorithm, GA)搜索最优类特征,最后将样本特征与最优类特征的灰色关联度参与到SVC的训练中,构造一个灰色支持向量机作为分类器。与采用
密写分析的目的在于揭示媒体中秘密信息的存在性。目前有很多针对特定隐藏方法的密写分析法, 然而随着密写的不断发展,方法多样性使得对隐藏信息的检测变得非常困难,其结果是密写分析的发展永远落后于密写。显然,仅持有可能含密的图像、对可能使用的密写算法全然不知的完全盲分析是密写分析的重要研究内容。这种密写分析方法不局限于单一的密写算法,通常对几种密写算法都适用,所以又称通用密写分析。
著名的通用密写分析技术,例如I. Avcibas 等[1]提出的利用图像最低位平面和次低位平面的多项二值相似性测试作为特征空间,采用SVC 分类的算法。Siwei 等[2]进一步采用QMF 分析图像小波系数及其预测误差的高阶统计量,对一类支持向量机进行训练。T. Holotyak 等[3]提出一种新的在图像小波域上提取噪声成分特征,用两类SVC 进行分类的方法。这些技术的相同之处是都用支持向量机作为分类器, 但是在支持向量机方法中,确定最优分类超平面的支持向量位于类边缘,而离群样本往往也位于类边缘附近,就这个问题,线性不可支持向量分类机引入松弛变量来容许一定数量的错分类样本的存在,这些错分样本会影响最优分类面的判别,从而影响分类器的性能,成为分析性能不高的原因之一。
文中将提出一种新的以GSVM 为分类器的图像通用密写分析方法。首先选取T. Holotyak 通用密写分析中的33 个噪声高阶统计量作为特征向量, 利用遗传算法对训练样本进行搜索, 得到最优类特征向量, 然后运用灰色关联分析求出不同训练样本的特征向量与最优类特征向量的关联程度,将其参与到支持向量机的训练中,以减小离群样本的分类误差在支持向量机目标函数中的影响,称经过这样训练的支持向量机为GSVM,最后运用训练好的GSVM 进行分类检测。
2. 遗传算法和灰色关联分析 最早系统地提出GA 的是J. H. Holland [4]. GA 将问题的可能解集通过基因编码构成初始种群(父代)开始迭代,计算父代个体的适应度,如果满足优化准则,就跳出迭代;否则,通过选择、交叉或基因重组、变异等操作形成新的个体(子代),将子代插入到父代中,重新开始循环,直到满足优化准则,使种群进化到包含近似最优解的状态。
找到最优解后, 可运用灰色关联分析(Grey Relational Analysis, GRA)计算父代中可能解与其的灰色关联度。灰色关联度的计算描述如下[5]: 设参考序列 ( )( )( )()00001 , 2 , , xxxxn= (1) 其中n 表示数组中元素的个数。待比较序列