泥岩是一种常见的沉积岩,它在油气勘探中有着重要的价值。首先它可以作为盖层来保留沉积盆地中的流体,其次它也能在一定的乏氧环境中堆积大量的浮游生物及有机胶体从而转化为生油层。本文以松辽盆地4766块岩石样品的主量元素数据为基础,采用大数据分析软件RapidMiner对其进行快速的处理和
从20 世纪60 年代以来,数学地质开始迅速的发展。它是地质学与数学和计算机科学相互渗透、紧密结合而逐步形成的一门地质学的边缘科学[1]。随着全球地质勘探的积累以及分析仪器的发展,海量地质数据迎面而来。鉴于大数据是大容量 、多样性、高速增长、低价值密度的数据集合,传统手段已难于管理和有效发挥其价值[2],如何快速的处理这些数据并得到其在地质上所表示的一般规律成了科研工作者的难题。
松辽盆地是中国东北部的一个大型中、新生代沉积盆地,地跨黑龙江省、吉林省、辽宁省和内蒙古自治区,是当今世界上最大的典型陆相沉积盆地之一,也是我国最主要的含油气盆地。泥岩作为一种典型的沉积岩, 遍布于松辽盆地。
而它在地质上也有很重要的存在意义, 一是可以作为盖层来保存流体[3], 二是在一定的还原环境中也可以堆积大量的浮游生物等有机体从而转变为生油层。泥岩是沉积岩中数量最多分布最广的岩石, 大多数泥岩是在静水环境中沉积的, 其颜色和成分常能反映沉积时的介质条件[4]。
本文借助RapidMiner 软件来对松辽盆地泥岩的主量元素数据进行快速的处理和分析。
2. RapidMiner 简介 RapidMiner 是世界领先的数据挖掘解决方案,数据挖掘过 程简单,强大和直观。它提供数据挖掘和机器学习程序, 其中包括数据加载和转换, 数据的预处理和可视化, 预测分析和统计建模, 评估和部署。
它是用Java 编程语言的。而且提供图形用户界面,用户可以不用编程,通过简单拖拽算子来设计和执行工作流程分析,易于学习和掌[5]。其解决方案覆盖了各个领域,包括汽车、银行、保险、生命科学、制造业、石油和天然气、零售业及快消行业、通讯业、以及公用事业等各个行业。2015 年在KDnuggets 第16 届年度数据挖掘大会分析软件投票位中位居第2,仅次于R 语言。因为其具备GUI 特性,所以很适合于数据挖掘的初学者入门。
RapidMiner 中的功能均是通过连接各类算子(operator)形成流程(process)来实现的,整个流程可以看做是工厂车间的生产线,输入原始数据,建造模型,输出结果。其建模的一般流程是:新建一个库(Repository),选择需要的算子(operator)放入主流程(mainprocess)中,设置算子的相关参数(parameter),进行算子连接,最后执行流程以得到结果。
3. 松辽盆地泥岩数据处理和分析 3.1. 数据准备 在地质勘探中,常会使用X 荧光光谱仪对岩石样品进行元素的定性定量分析,然后利用这些数据大