大数据方法及其应用

发布日期:2019年9月19日
大数据方法及其应用 大数据方法及其应用

本内容试读结束

下载后可阅读完整内容,立即下载

随着信息爆炸时代的到来,信息数据本身所具有的大量性、高速性、多样性为数据科学和大数据技术带来了天然的应用场景。本文通过研究大数据的特点、相关理论和技术,剖析了大数据实践应用及发展现状,给出了大数据相关的几个重要方法及其应用的简要全景图,为大数据的推广和应用提供参考。 *通讯作者。

“大数据”的概念已经提出了很多年。从一开始的神秘到如今的快速发展,对人们的生活产生了巨大的影响。从当初在巴士站、的士站人们的久久等待到如今随手滴滴打车的迅速接驾,从起初淘宝购物大海捞针似地寻找心仪的商品到如今淘宝主页精准的商品推荐,从当初为了美食一家一家店的尝试到如今根据美团推荐随心所欲挑选心仪饭店,可以说“大数据”已经渗入到生活的方方面面,为人们的生活提供了巨大的便利。

从二十世纪八十年代进入信息时代以来,信息爆炸和互联网的普及使得数据量呈指数级增长,数据量及类型的增长速度也早已超越了摩尔定律的限制。只2015 年每天就有4.7 个万亿字节的数据产生。据IBM 研究指出目前大概90%的数据是近两年产生的。百度产生数PB 的用户搜索数据,八亿八千万在线交易产生的20 TB 的数据发生在淘宝平台。马云曾在第五届阿里巴巴技术论坛说:“我们正在从IT 时代走向DT 时代(数据时代)。IT 和DT 之间,不仅仅是技术的变革,更是思想意识的变革,IT 主要是为自我服务,用来更好地自我控制和管理,DT 则是激活生产力,让别人活得比你好。”这一切都说明,大数据时代已经到来。

2. 大数据的特点 “大数据”的概念起始于二十世纪九十年代,由John Mashey 提出并将其发扬光大[1]。该概念通常是指那些传统统计分析软件无法在可容许的时间内抓取、处理的数据集。“大数据”的数据规模不仅仅是一个静态的数值,它可能是一个不断积累的量,所以对其处理所使用的技术手段提出了新的要求。传统的数据分析更多的是采用随机抽样调查的方法,而大数据则是运用所有相关数据来进行挖掘分析。

2001 年, META 集团(Gartner)分析师Doug Laney 在其报告中从三个维度定义了数据增长:Volume (大量),Velocity (高速),Variety (多样)。随后工业界逐渐沿用“3V”模型来描述大数据[2]。2012 年,META集团对该理论提出了改进指出:大数据是通过新数据科学处理模式才能具有更强决策力、洞察发现力及流程优化能力的海量和多样化的信息资产。海量且多样化的数据为具体问题提供了更多的信息,充分利用海量数据中的信息来解决问题,这就是大数据的价值。2015 年以来,随着深度学习的快速发展,卷积神经网络处理高维空间数据、循环神经网络处理高维序列数据以及深度置信网络实现数据生成模型为大数据产业的升级转化提供了新的技术温床;同时一定程度上实现了真正意义上的大数据高维性(˃108)突破[3] [4] [5] [6]。

研究大数据,需要从理论、技术和实践三个方面来展开。具体框架如图1 所示。

3. 大数据相关的理论 理论是认知的必经途径,是任何技术方法被广泛认同和传播的基线。通过大数据的特征定义理解各行各业对大数据的整体描绘和定性;通过基于机器学习算法的大数据科学建模,实现大数据信息精准导



相关标签