随着互联网技术的发展,大数据时代已经来临,对大数据的研究受到世界范围的关注。本文针对国内外学术界计算领域对大数据的研究,分析该领域的研究现状与发展趋势。本文采用文献计量方法和可视化文献分析软件,通过自动和手动相结合的文献检索方式,筛选了2000~2015年国内外大数据领域的研究文献,对论文增长与分布、期刊和会议分布、作者合作等进行分析,特别分析了大数据研究的热点和趋势,为研究者的进一步研究工作提供了有价值的依据和参考。
大数据是继云计算、物联网之后IT 产业又一次颠覆性的技术革命[1]。
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据一般是指“海量数据”+“复杂类型的数据”,大数据的特性包括4 个“V”(Volume, Variety, Velocity, Value) [2],即数据量大,PB 级以上数据;种类多,包括文档、视频、图片、音频、数据库数据等;速度快,数据生产、处理和I/O 速度快;价值大,对国民经济和社会发展有重大影响。
早在1980 年, 著名未来学家托夫勒在其所著的《第三次浪潮》[3]中就热情地将“大数据”称颂为“第三次浪潮的华彩乐章”。美国的麦肯锡公司2011 年6 月在其报告《大数据:创新、竞争和生产力的下一个新领域》[4]中提到“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”2012 年3 月美国政府发布《大数据研究与开发计划》[5],投资2 亿美元发展大数据,旨在提高从大型复杂数字数据中抽取知识与观点的能力,以帮助解决国家在科学与工程中最紧迫的诸多挑战问题。
数据量的指数级增长不但改变了人们的生活方式、企业的运营模式, 而且改变了科研范式。
2007 年, 已故的图灵奖得主Jim Gray 在他最后一次演讲描绘了数据密集型科研“第四范式”The Fourth Paradigm)的愿景[6]。2008 年9 月《自然》杂志[7]出版了一期专刊——“Big Data”,2011 年2 月,《科学》[8]期刊联合其姊妹刊推出了一期关于数据处理的专刊——“Dealing With Data”,从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面介绍了海量数据所带来的技术挑战。
大数据的发展已经得到了世界范围内的广泛关注,如何将巨大的原始数据进行处理、存储、分析和利用,并转化为知识和价值,成为国内外共同关注的重要研究课题。鉴于此,本文针对国内外学术界计算领域对大数据的研究,分析该领域的研究现状与发展趋势。本文采用文献计量方法,借助可视化文献分析软件, 通过自动和手动相结合的文献检索方式, 筛选了2000~2015 年国内外大数据领域的研究文献, 对论文增长与分布、期刊和会议分布、作者分布等进行分析,特别分析了大数据研究的热点和趋势,为研究者的进一步研究工作提供了有价值的依据和参考。
2. 数据来源和研究方法 2.1. 数据来源 大数据研究领域涉及面广,为了能够完整体现计算领域对大数据的研究现状,论文选取了CNKI (中