基于Spark的层次聚类算法的研究与应用

发布日期：2020年4月29日

预览
摘要

本内容试读结束

下载后可阅读完整内容，立即下载

信息化高速发展的时代，信息数据大量产生，如没得到较好的整理归类，就无法满足对数据查找和使用上的快捷便利与准确性。随着信息安全科学技术的发展，这些数据在整理分类上的需求日益增长，但是在传统的聚类算法上，已经不能满足现在信息数据处理的需要。因此，对原算法的优化改进或重建新的算法成为现在最为迫切的事情。同时，在海量的数据处理上，单台计算机的硬件设施也无法满足对数据处理分类的需求。针对上述情况，基于Spark在分布式计算框架的基础上，本文对聚类算法进行了优化改进。利用Apache Spark的大数据处理框架，扩展了对计算模型的使用，并在内存上提供可以并行的计算框架，利用借着中间结果缓存在内存中，减少磁盘I/O的重复操作次数，从而可以更好地为迭代式计算、交互式查询等多种计算需求服务。通过对聚类算法的优化提高对数据分析处理归类的计算效率，实现本文研究的意义。

随着科学技术尤其是信息化技术的蓬勃发展，信息大数据如雨后春笋的增长。近十年以来，互联网一直处于社会发展的风口浪尖上，各大电商网络平台也在政府的大力支持帮助下，得到了快速成长。产业发展，不但拉动了经济的增长，也促使信息数据大量的产生。这些海量的数据在短时间内涌现，产生了数据混乱无序、杂乱无章的结果。因此，数据处理分析与分类管理就显的尤为重要，就目前的数据管理技术，对一般的基础数据尚能管理，但是无法满足海量大数据的管理分类要求，达到快速、高时效性的要求。

通过对数据基本分类划分，可分为结构化数据和非结构化数据。结构化数据处理分析技术已经比较成熟，但非结构化数据因其信息种类繁多、结构复杂以及数量巨大等原因，以现在的技术无法满足数据管理分析的要求，因此在技术开发处理上也亟待解决。通过利用对大数据处理工具的层次聚类算法的研究，将其应用于对海量大数据的信息处理分析，高效快速地分析整理出结果，实现数据的时效价值。

现在主流的大数据处理框架，比如Spark 与Hadoop 等工具。这些可扩展、分布式以及并行化的大数据处理工具渐渐进入政府、学校与企业中，取代之前相对落后的技术计算框架。基于内存计算的Spark框架是一款性能较好的数据处理工具。最早于2009 年Spark 大数据并行化处理框架被提出，并于下一年宣布开源。通过数个大数据公司的开发研究，Spark 的生态系统越来越完善，在性能提高的同时也简化其代码可读性和开发的难度。