作为一种常见的骨科疾病,骨肉瘤属于恶性程度甚高、预后极差且转移较快的骨原发性恶性肿瘤。由于该病多发于青少年且危害很大,因此,早期发现、早期诊断和早期治疗便成为治疗骨肉瘤的关键。将机器学习中的基于近邻的局部分类器引入到骨肉瘤的数据分类中来,极大的提高了分类的自动性以及效果。然而由于骨肉瘤数据可能存在稀疏、噪声和非平衡等问题,如此算法的效果往往不佳。本文根据认知的相对性规律提出了基于相对变换的局部均值分类算法,通过相对变换将数据的原始空间变换到相对空间,在相对的空间中度量数据的相似性更符合人们的直觉,从而提高了数据之间的可区分性,同时在一定条件下相对变换还能抑制噪声的影响。实验结果表明,相对局部均值算法具有非常好的分类效果,可以有效地辅助临床医生。
作为一种常见的骨科疾病,骨肉瘤属于恶性程度甚高、预后极差且转移较快的骨原发性恶性肿瘤。
由于该病多发于青少年且危害很大,因此,早期发现、早期诊断和早期治疗便成为治疗骨肉瘤的关键。
在机器学习,计算机视觉,图像处理等领域中,将事物按照一定的特征或者规律进行分类是非常重要的一个步骤。
将机器学习中的分类器引入到骨肉瘤的数据分类中来, 极大的提高了分类的自动性以及效果。
过去的数十年间,产生了大量的分类算法,经典的比如k 近邻算法(k nearest neighbors, KNN)及其各种变体[1] [2] [3] [4] [5]。由于理论上极其简单,也不需要对数据的分布做任何的假设,且只需要一个参数, 因此KNN 成为非常实用并且高效的分类器。然而,KNN 在分类的时候,由于将每个样本同等看待,因此,当近邻间的信息不可以忽略并且在高密度区域外变得越来越大时,KNN 分类器的效果往往比较差。
另外一方面,当遇到非平衡数据的情况下,比如一类的数据明显比另一类多且分界线明显倾向于数据比较少的类的时候,KNN 算法的分类效果也比较差。为了解决这个问题,Y. Mitani 等人[6]设计了局部均值中心分类算法(Local mean center classifier, LMC), 即将每一类的k 个近邻计算其局部均值中心, 然后将待分样本分给距离该中心比较近的类;Boyu Li 等提出了一种基于局部概率中心的分类算法(Local prob-ability center classifier, LPC) [7],该方法关注于寻找最优分类面两侧具有代表意义的局部概率中心;P.
Vincent 等提出了一种局部超平面的分类器算法(K-local hyperplane nearest neighbor classifier, HKNN) [8]。
考虑到生活中存在大量稀疏,噪声和非平衡数据,这些将极大地影响到分类器的性能。本文根据认知的相对性规律提出了基于相对变换的局部均值分类算法,通过相对变换将数据的原始空间变换到相对空间,在相对的空间中度量数据的相似性更符合人们的直觉,从而提高了数据之间的可区分性,同时在一定条件下相对变换还能抑制噪声的影响。基于相对变换的局部均值分类算法的主要优点如下:1) 将善于区分噪声,稀疏和非平衡数据的相对变换引入到分类器中来,极大地提升了分类器的性能;2) 将基于相对变换的局部均值分类器应用到骨肉瘤的分类中来,表明机器学习在临床辅助方面具有一定的作用。