基于张量低管道秩的图像多分类模型

发布日期:2024年5月31日
基于张量低管道秩的图像多分类模型 基于张量低管道秩的图像多分类模型

本内容试读结束

下载后可阅读完整内容,立即下载

传统机器学习方法在对高阶张量数据进行分类时,往往将其转化为低阶格式,由此会产生过拟合问题并且破坏张量的结构。针对上述问题提出一种基于张量低管道秩的多分类模型(LRTMLR)。该模型可以直接对张量格式的图像进行分类,使用由张量–张量积诱导的张量管道秩及相应的张量核范数来处理低秩张量,更好地利用张量结构特点,提高张量格式图像的多分类准确性。在三分类仿真数据集上,LRTMLR的分类准确率较无结构信息(MLR)、带矩阵结构信息(LRMLR)的方法均提升9.6个百分点,在五分类仿真数据集上则分别提升23.2和25.2个百分点。在加州理工大学的101类彩色图像识别数据集的三分类、五分类和十四分类子集上,LRTMLR的分类准确率较MLR分别提升了10.01、25.61和40.78个百分点,较LRMLR分别提升了10.68、25.61和40.78个百分点,与基于CP分解的方法(MCPLR)相比提高了6.47、13.37和27.73个百分点,与基于Tucker分解的方法(MTuLR)相比提高了1.79、12.38和13.71个百分点。并在消融实验中证明了创新的有效性。

分类问题是机器学习的核心问题之一,也是日常生活中最为常见的问题,在银行业务、网络安全、手写识别、互联网搜索以及图像处理等领域[1]都有着广泛的应用。许多传统的机器学习方法都可以用来解决多分类问题,如支持向量机[2]、k 近邻法[3]、逻辑回归模型[4] [5]等。除此之外,近年来兴起的深度学习方法,如BP 神经网络[6]和卷积神经网络[7],也在分类问题上有着优异表现。虽然深度学习方法因其高分类精度为人所知,但其训练数据量大、参数学习耗时长、输入输出间不具有可解释性。在一些数据采集难度大, 对分类器的可解释性要求较高的场合(如医疗影像数据分析)很难使用深度学习方法。

因此本文依旧关注传统机器学习分类方法及其推广。

在众多分类问题中,图像分类作为计算机视觉的基本问题之一扮演着极其重要的角色。传统的机器学习算法大都基于向量,很难处理矩阵数据。但一些灰度图像以矩阵数据形式呈现,用基于向量的方法来处理会产生高维向量增加计算复杂度,也会损失矩阵数据的结构信息[8] [9]。因此,为了更好地利用结构信息, 众多学者提出许多将向量模型推广到矩阵的方法。

Gabriel 等[10]基于矩阵图像数据的低秩特点, 使用双线性回归模型代替传统的回归模型,提出了广义双线性回归模型(A Generalized Bilinear Regression Model, GBR)。但由于GBR 压缩信息过多导致拟合误差太大,无法用于数据集建模,Hou 等[11] [12]便在此基础上提出了多秩回归模型来进行矩阵图像数据分类。然而该模型是一个非凸优化问题,很难找寻全局解。于是受多秩模型思想构造低秩投影矩阵的启发,Yuan 等[13]提出了低秩矩阵回归模型(Low-rank Matrix Regression, LRMR),利用最小二乘损失加分类器的两步方法对矩阵数据进行分类。但是最小二乘



相关标签