基于Hadoop的产品大数据分布式存储优化

发布日期:2021年5月27日
基于Hadoop的产品大数据分布式存储优化 基于Hadoop的产品大数据分布式存储优化

本内容试读结束

下载后可阅读完整内容,立即下载

研究产品相关大数据资源组织存储与检索查询技术,提出在Hadoop平台基础上对产品大数据资源进行分块存储。基于MapReduce并行架构模型,提出多副本一致性Hash数据存储算法,算法充分考虑了数据的相关性和时空属性,并优化了Hadoop平台的数据划分策略和数据块规格调整。通过对数据的优化存储布局,采用多源并行连接检索方法和多通道数据融合特征提取技术实现产品大数据信息检索,提高了数据资源管理效率。实验表明和标准Hadoop方案比较,多源并行连接数据检索的执行时间为其31.9%。

计算机的发展和网络通信技术日趋成熟,数据规模的增长在给人们带来便利生活的同时也让从大量数据中汲取有用信息变得困难,如何从中检索到有用数据是目前需要面对的重要问题[1] [2] [3]。其中有产品相关的数据资源包含生产车间监测视频图像及产品相关数据及文档、物料跟踪数据、加工数据、生产流通数据等,其存在着数据资源规模大,种类多,来源不同且分散分布的特点[4] [5] [6]。传统的分布式数据库受数据库存储能力限制,存在着架构存储能力有限,对数据的管理与发布支持相对较弱,管理效率低的问题[7] [8] [9]。

目前,针对传统分布式数据库存在的问题,庞书杰[10]提出了一种基于Hash 的关联规则并行优化算法(HP-AR),通过对数据库统计频繁项集部分的并行处理结合辅助Hash 表简化挖掘过程满足了面对大规模数据集时挖掘隐藏关联规则的需求。潘俊辉等学者[11]针对基本算法Apriori 的改进,提出了一种基于压缩矩阵的优化算法,该算法使用MapReduce 计算模型对数据库进行分块,之后对数据库的关联规则的挖掘结果进行合并, 得出频繁项集。

Aisha Siddiqa 等学者[12]为了评估不同存储架构的性能, 使用Brewer的CAP 定理比较和分析了现有方法,提出了一种定义明确的大数据存储技术分类法。

本文针对目前存在的数据管理效率低、检索速度慢等问题基于Hadoop 平台, 结合分布式、分层结构的存储优化和并行处理等技术, 提出了一种多副本一致性Hash 数据存储算法, 将数据集中的数据按照相关性以及时空属性进行分块处理,提高了数据处理的效率。同时在Hadoop MapReduce 并行框架的基础上,设计了一种多源并行连接数据检索算法,实验结果表明,同传统Hadoop 方案相比,多源并行连接数据检索算法的运行速度明显加快。

2. 产品大数据存储优化研究 2.1. 数据存储及数据分布策略 基于数据相关性的多副本一致性Hash 数据存储算法(Multi-copy Consistency Hash Algorithm Based on Data Correlation, CMCHA),进行Hadoop 的数据布局优化,优化技术路线:尽可能集中存储相关联的数据,数据检索和分析时在映射阶段完成主要工作,使由映射端到约减端数据通信负载消耗降低,系统整体数据检索和分析性能得到提高。每种跟踪过程数据的类型和格式不同,可将数据的具体采集位置和时间作为数据检索和分析时的关键字。



相关标签