本文基于2022年高教杯C题,首先将数据集行one-hot编码,对化学成分数据进行填补缺失值,并使用Person相关系数对数据相关性进行分析。后基于奇异值分解的PCA算法对数据降维。通过随机森林、支持向量机、Xgboost、Logistic回归对降维后的数据进行分类并求得决策边界,基于软分类器预测出了各个文物的风化程度,得到在文物信息数据的验证集分类准确度达到了86.7%,化学成分数据达到了94.1%。之后利用召回率、f1值、精度、ROC曲线等评价指标对模型进行了评价与选择。最终得到了各特征的相关性以及各文物的风化概率,同时得出了Xgboost在该数据集中预测的优越性。
古代玻璃玻璃制品是研究早期丝绸之路各国贸易往来的重要文物,具有非常宝贵的研究意义[1]。但由于各国制造玻璃制品的取材不同致其化学成分各不相同,且受掩埋环境影响大,容易风化,内部与环境元素进行大量交换,玻璃制品的成分比例发生变化,故影响对其真实类别的判断[2],因此,如何对风化后的玻璃制品进行成分分析与鉴别,从而还原其研究价值是较有意义的研究课题。姜中宏、张勤远[3]利用同位素标记法分析铅钡玻璃的化学成分;赵凤燕、陈斌等人[4]利用PXRF 分析研究文物成分;李鹏艳、谢承利[5]等人利用激光诱导击穿光谱法分析玻璃成分。本文提出使用Person 相关系数对数据相关性进行分析, 后基于奇异值分解的主成分分析算法对数据降维。
通过随机森林、支持向量机、Xgboost、Logistic回归对降维后的数据进行分类并求得决策边界,通过一系列指标得出最优模型,并基于软分类器预测出了各个文物的风化概率。
2. 数据处理 2.1. One-Hot 编码 One-Hot 编码,又称为一位有效编码,主要是采用N 位状态寄存器来对N 个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效,其数学的本质在于将文本或字符串映射到 n 维二进制空间上words→Rn [6]。
One-Hot 编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1。则:对于纹饰A、B、C 有:() () (){}1,0,0 , 0,1,0 , 0,0,1y ∈其中A、B、C 分别对应集合当中的三行向量。对于玻璃类型高钾类、铅钡类,可以把特征映射到以下集合:() (){}1,0 , 0,1y ∈其中铅钡玻璃对应,高钾玻璃对应。同理,对于玻璃颜色,一共有浅绿、浅蓝、深绿、深蓝、紫、绿、蓝绿、黑共8 种颜色,可以将其映射到对应编码为: