信息化高速发展的时代,信息数据大量产生,如没得到较好的整理归类,就无法满足对数据查找和使用上的快捷便利与准确性。随着信息安全科学技术的发展,这些数据在整理分类上的需求日益增长,但是在传统的聚类算法上,已经不能满足现在信息数据处理的需要。因此,对原算法的优化改进或重建新的算法成为现在最为迫切的事情。同时,在海量的数据处理上,单台计算机的硬件设施也无法满足对数据处理分类的需求。针对上述情况,基于Spark在分布式计算框架的基础上,本文对聚类算法进行了优化改进。利用Apache Spark的大数据处理框架,扩展了对计算模型的使用,并在内存上提供可以并行的计算框架,利用借着中间结果缓存在内存中,减少磁盘I/O的重复操作次数,从而可以更好地为迭代式计算、交互式查询等多种计算需求服务。通过对聚类算法的优化提高对数据分析处理归类的计算效率,实现本文研究的意义。
随着科学技术尤其是信息化技术的蓬勃发展,信息大数据如雨后春笋的增长。近十年以来,互联网一直处于社会发展的风口浪尖上,各大电商网络平台也在政府的大力支持帮助下,得到了快速成长。产业发展,不但拉动了经济的增长,也促使信息数据大量的产生。这些海量的数据在短时间内涌现,产生了数据混乱无序、杂乱无章的结果。因此,数据处理分析与分类管理就显的尤为重要,就目前的数据管理技术,对一般的基础数据尚能管理,但是无法满足海量大数据的管理分类要求,达到快速、高时效性的要求。
通过对数据基本分类划分,可分为结构化数据和非结构化数据。结构化数据处理分析技术已经比较成熟,但非结构化数据因其信息种类繁多、结构复杂以及数量巨大等原因,以现在的技术无法满足数据管理分析的要求,因此在技术开发处理上也亟待解决。通过利用对大数据处理工具的层次聚类算法的研究,将其应用于对海量大数据的信息处理分析,高效快速地分析整理出结果,实现数据的时效价值。
现在主流的大数据处理框架,比如Spark 与Hadoop 等工具。这些可扩展、分布式以及并行化的大数据处理工具渐渐进入政府、学校与企业中,取代之前相对落后的技术计算框架。基于内存计算的Spark框架是一款性能较好的数据处理工具。最早于2009 年Spark 大数据并行化处理框架被提出,并于下一年宣布开源。通过数个大数据公司的开发研究,Spark 的生态系统越来越完善,在性能提高的同时也简化其代码可读性和开发的难度。