随着高校对电子图书采购需求的明显增加,为提升采购决策效能,文章提出了一种深度森林融合算法,即LightGBM和CatBoost融合为LHGCAT-XDF的优化模型。该模型兼具LightGBM低内存消耗、和CatBoost低时间复杂度的特点。通过实验结果显示,LHGCAT-XDF相较传统机器学习模型在综合性能上更为卓越,有效克服了传统采购模型在精准性和效率方面的限制,为高校图书馆电子图书采购提供可靠的决策支持。
在信息化社会迅猛发展和移动设备普及的背景下,纸质图书的借阅量逐年下降,与此同时,读者对电子图书的需求不断增加。这一趋势不仅推动了对电子图书种类的增长需求,也对电子图书的质量和服务提出了更高要求。
高校图书馆建设的根本目标在于满足读者对更加便捷、多样化学术资源的需求,提升服务水平,以适应信息化社会的发展趋势。这不仅包括硬件设施更新和空间优化,还需提升文献资源的数量和质量, 以及全面提高图书馆服务水平的[1]。在这一过程中,图书馆必须不断转型,从传统服务模式向更智能、更符合读者需求的服务模式演变。然而,目前大多数国内高校图书馆仍采用传统的图书采购模式,主要依赖年度经费、采购者经验、师生建议和商家推荐等因素制定采购清单[2]。
虽然一些高校图书馆已经开始使用信息技术构建图书采购决策支持系统,但大多数系统仍以馆藏书目、借阅信息和读者信息为数据源,通过统计分析来指导采购决策[3]。然而,这些数据信息是动态变化的,存在一定的不确定性。如何深入了解读者的阅读需求并以有限的经费购买最符合这些需求的图书, 成为图书采购过程中的一个关键问题。
为了提升高校图书馆电子图书采购的效率和质量,挖掘图书属性与读者需求之间复杂多变的潜在关系,文章选择了混合深度森林作为高校图书馆电子图书采购预测的模型。该模型不仅显着提升了预测的精度,相较于传统机器学习模型,还减少了模型预测的时间复杂度和超参数调整的难度,使其能成为图书采购预测领域中更为准确和高效的算法。
2. 深度森林理论模型 深度森林(Deep Forest, DF)是由周志华和冯杰于2017 年提出的一种基于判定树的集成方法[4],属于决策树集成方法的一种。
相较于深度神经网络(Deep Neural Networks, DNN), 深度森林具有更强的竞争力, 主要体现在需要调整较少的超参数,从而降低了超参数调整的时间成本,适应各种大小的数据集以及展现出良好的泛化性等优势,使得深度森林在多个领域得到广泛应用,证明了其在分类和预测任务中的鲁棒性[5] [6]。深度森林主要由两个部分构成,即多粒度扫描(Multi-Grained Scanning)和级联森林(Cascade Forest)。
2.1. 多粒度扫描 多粒度扫描是对输入的特征进行分析,以挖掘特征之间的顺序关系为目的。其具体流程如下: 1) 输入数据:初始时,输入具有p 维特征的数据。