基于Hadoop作战试验异构数据平台的数据治理研究

发布日期:2022年10月27日
基于Hadoop作战试验异构数据平台的数据治理研究 基于Hadoop作战试验异构数据平台的数据治理研究

本内容试读结束

下载后可阅读完整内容,立即下载

目前构建作战试验异构数据平台用以存储作战试验相关数据,然而装备作战试验的各项数据相对分散杂乱,缺乏对试验数据的有效管理与应用研究。针对平台建设使用过程中出现信息孤岛、数据质量低下、数据来源重复繁杂等不同程度的数据问题,进行数据治理的方法研究。本文分析了作战试验数据特点及治理需求,提出一套基于Hadoop作战试验异构数据平台的数据治理框架,构建了面向作战试验异构数据的HAO治理模型。有效解决大数据平台建设及使用、数据分析及可视化探索等大规模数据使用场景中可能遇到的数据问题,实现了大数据平台数据规范统一管理,极大地提高了数据质量,实现更加高效地发挥和挖掘作战试验数据的价值。

随着作战试验任务的频繁开展,加之被试装备类型各异、种类繁多,测试设备种类多样、手段复杂, 随之产生的作战试验数据与日俱增,呈指数型爆炸增长[1]。随着军队信息化建设的逐步发展,数字化高清视频、音频、图像等检测设备在装备作战试验中得到普遍应用[2],大量的半结构化数据和非结构化数据占据整个作战试验数据的主体部分[3]。多年来,海量的试验数据以纸质文档、电子文档、数据表格、音频视频等形式保存。

基于Hadoop 构建的作战试验异构数据平台, 存储作战试验过程中各测试设备采集的数据和被试装备数据,为试验鉴定人员评估分析提供数据基础,实现了作战试验数据的储存管理一体化,但同时也存在许多问题。

作战试验异构数据平台可以将积累的海量试验数据进行有效存储, 但是,异构数据存储系统的使用, 也导致各类装备试验数据类型和含义驳杂, 整个大数据存储平台显得混乱不堪。

伴随着系统的长期运转, 信息孤岛、数据质量低下、数据来源重复繁杂等不同程度的数据问题日益凸显。大规模试验数据的不断涌入、数据基数的逐渐增大,使得数据预处理的工作量和复杂程度呈指数增长,也导致后续的作战试验综合评估和分析挖掘工作难以有效开展。这些工作仅靠数据管理和试验评估人员是远远不够的,不仅需要花费大量的时间成本,也可能因为缺少规范和流程化的操作带来新的数据问题,进而陷入不停地进行数据处理操作和解决突发问题的恶性循环中。

因此, 本文针对作战试验数据特点,分析数据治理需求, 提出了提出一套基于Hadoop 作战试验异构数据平台的数据治理框架, 构建了作战试验异构数据HAO 治理模型, 实现了大数据平台数据规范统一管理,有效解决试验异构数据平台建设及使用、数据分析及可视化探索等大规模数据使用场景中可能遇到的数据问题,极大的提高了数据质量,更加高效地发挥和实现作战试验数据的价值,也为武器装备作战试验数据治理方法提供一些思路。

2. 作战试验背景下的数据治理需求分析 2.1. 作战试验数据特性分析 试验鉴定的发展日趋完善以及对常规武器装备的作战试验的理论和技术深入研究,多地域、多种战



相关标签