基于太赫兹时域光谱数据的柴胡鉴别多分类器比较

发布日期:2023年8月24日
基于太赫兹时域光谱数据的柴胡鉴别多分类器比较 基于太赫兹时域光谱数据的柴胡鉴别多分类器比较

本内容试读结束

下载后可阅读完整内容,立即下载

随着机器学习领域的发展,研究人员不断探索新的分类算法模型,使得可供选择的机器学习算法种类更加丰富。然而,许多研究仅使用有限的分类算法,这导致综合比较分类器性能变得困难。为此,本实验利用柴胡太赫兹(THz)时域光谱数据,使用多个评价指标,评估了支持向量机(SVM)、KNN、决策树(Decision Tree, DT)、随机森林(Random Forest, RF)、Logistic回归(LR)、多层感知(MLP)、伯努利朴素贝叶斯(Bernoulli Naive Bayes, BNB)、AdaBoosting、梯度提升决策树(Gradient Boosting Decision Tree, GBDT)、极端随机树(Extremely Random Forest, ERF)、极致梯度提升(eXtreme Gradient Boosting, XGB)和轻量梯度提升机(Light Gradient Boosting Machine, LGBM)等12种分类器的分类性能。结果表明,LR、MLP、SVM和KNN分类效果最好,其中,MLP的批次内投票准确率达100%,且召回率和F2得分都较为优异;此外,GBDT、AdaBoosting和LGBM等算法的柴胡鉴别准确度也普遍超过80%。本文为基于THz的柴胡鉴中的分类器选择提供了重要参考。

据报道,目前全球有柴胡属植物200 种,我国已报道的有43 种。尽管1963 年版《中国药典》就规定柴胡或狭叶柴胡干燥根为柴胡正品供用药,但有研究者实际考察发现,我国药材市场流通的商品柴胡竟达十多种,多地柴胡用药不符合规定,实际应用繁乱,因此研究柴胡鉴别技术对规范柴胡市场、加强药材质量控制和促进中药产业可持续发展具有重要意义。

近年来,太赫兹光谱技术作为一项在线检测技术[1],在农业、医学、食品安全、航天等领域应用广泛。基于太赫兹光谱技术的分类方法有很多,但如何选取一种适合数据集的分类器才是关键。基于太赫兹时域光谱数据的分类研究中使用较多的方法有SVM、KNN 等。如在文献[2]中基于太赫兹光谱技术, 结合均值偏移算法(MeanShift)和主成分分析法(PCA),提出以支持向量机(SVM)为基础,通过改进步长和平衡全局搜索与局部搜索的策略优化布谷鸟算法(SPCS),得到SPCS-SVM 分类模型,提供了一种太赫兹中草药数据快速识别的方法。文献[3]中针对黄连、掺杂牛黄和天然牛黄等的太赫兹时域光谱数据,分别构建随机森林(RF)模型和三种参数优化的支持向量机(SVM)模型,对六种物质的太赫兹吸收光谱进行分类鉴别,结果表明,RF 模型和SVM 模型均可达到95%左右的分类准确率。文献[4]中利用三组相似中药炙甘草和生甘草、南柴胡和北柴胡、山豆根和北豆根的太赫兹光谱数据,构建三种不同的SVM,并建立误差反向传播神经网络(BP 神经网络),结果表明,SVM 是实现太赫兹光谱技术对中药快速、精确分类的有效方法之一。文献[5]中基于相关向量机(RVM)理论,提出了改进的多分类相关向量机(ImRVM)分类模型,实现了八种转基因棉花种子的有监督分类识别。另外,为使太赫兹光谱技术应用于鉴别时准确率更



相关标签