大数据的世界是一个由大量活动构件与多元参与者元素所构成的生态系统,终端设备提供商、基础设施提供商、网络服务提供商、网络接入服务提供商、数据服务使能者、数据服务提供商、触点服务、数据服务零售商等一系列的参与者共同构建的生态系统。数据的资源化、与云计算的深度结合、高效的数据管理及数据生态系统复合化程度的加强将是大数据研究的趋势。
基于大数据分析技术,大数据分析应包括以下几方面的基本内容。
1. 数据挖掘
大数据分析的理论核心就是数据挖掘算法。不同的数据类型和格式,需要不同的数据挖掘算法,以更加科学地呈现数据本身具备的特点。各种多元统计方法,由于能通过相关关系挖掘出深度价值,因此是重要的数据挖掘分析工具。
2. 预测性分析
大数据表征的是过去,但可以用来预测未来的变化。预测性分析是大数据分析最终应用的重要领域之一,它从大数据中挖掘出特点,通过科学建模型,代入新数据,即可预测未来。
3. 数据可视化分析
大数据可视化是大数据分析的基本要求,它可以直观地呈现大数据特点,同时能够非常容易地被人类所接受。常见的可视化技术包括基于集合、图标、图像的技术,面向像素的技术和分布式技术等。
4. 语义引擎构建
由于数据采集的多元化,数据类型的非结构化,如何将多样的信息转化成计算机可以识别和计算的语言是进行大数据分析的基础。
5. 数据管理
在地质时空大数据模型构建中,数据融合是基础性的研究课题,它贯穿于矿床与地质研究对象认知模型、矿床与地质时空数据感知模型、矿床与地质时空数据分析模型、矿床与地质时空数据挖掘模型、矿床与地质时空数据预测模型及地质时空数据决策模型的研究中。
各类专题的地质时空大数据链组织与实现,有赖于地质时空大数据平台的系统解决方案和整体架构,以及数据融合方法和技术研究,有赖于超算环境下矿床与地质时空大数据索引、调度机制和大数据引擎,有赖于建立统一的运行云平台及智能监测、预警与管控的数据链,发展矿床与地质时空大数据的安全存储、检索与隐蔽传输方法和技术。
未来的大数据研究,将严重依赖于大数据平台的建设。平台建设需要从以下几方面着力。
1. 建立一套运行机制
大数据建设是一项有序的、动态的、可持续发展的系统工程,必须建立良好的运行机制,以促进建设过程中各个环节的正规有序,实现统合,搞好顶层设计。
2. 规范一套建设标准
没有标准就没有系统。应建立面向不同主题、覆盖各个领域、不断动态更新的大数据建设标准,为实现各级各类信息系统的网络互连、信息互通、资源共享奠定基础。
3. 搭建一个共享平台
数据只有不断流动和充分共享,才有生命力。应在各专用数据库建设的基础上,通过数据集成,实现各级各类指挥信息系统的数据交换和数据共享。
4. 培养一支专业队伍
大数据建设的每个环节都需要依靠专业人员完成,因此,必须培养和造就一支懂指挥、懂技术、懂管理的大数据建设专业队伍。
其中,大数据平台是基础数据平台,用于统一组织、存储和管理相关部门的全部工作数据,实现基础数据、地理信息数据和业务数据的共享,提高业务管理、应急处理、服综合管理和分析决策能力。
矿床与地质大数据研究前景
矿床与地质时空数据除拥有一般大数据的“4V”共性特征外,也有自己显著的个性特点,突出体现在其专业背景特点上。对矿床与地质领域的不同来源、不同获取方式、不同结构及不同格式的离散数据,开展结构化重建、关联分析、地学建模,将加速地学知识的融汇,深化对地球系统的认识和理解,有望引发地球科学研究方式的变革。
大数据理念和分析技术应用将是成矿规律研究的重要内容。成矿规律研究将更充分地利用与“矿”有关的各种数据,包括在一定的地质历史时期或构造运动阶段,在一定的地质构造单元及构造部位,与一定的地质成矿作用有关的时间、空间、成因及矿床产状的数据,还包括庞大的矿床成因方面的数据信息(如成矿温度、成矿压力、流体包裹体、同位素、微量元素等矿床地球化学数据)。
地质调查大数据研究,将针对以往解决的不理想的地质问题入手,充分利用新一代信息技术,更新当前数据处理环境,着重进行地质数据的智能分析与深度挖掘。在大数据处理方法上,将建立基于统一基础地理空间的多源数据集成与管理系统,将地质、构造、矿点、地球物理、地球化学、遥感钻孔等各类数据整合到统一的数据库中,利用云计算、大数据等方法,对多源综合数据进行集成、展示、分析和挖掘,由此建立数据驱动的成矿远景图件。同时,开展有效的三维模拟(主要是反演),目前已有的三维地质建模软件(如国外的GOCAD、MVS、MicroStation、Surpac,国内的QuantyView、GeoView、GeoMo3D、Titan3DM 等)将得到进一步的优化和功能拓展。
矿床与地质大数据研究已有一定的基础。例如,加拿大Diagnos 公司在过去10年中为不同矿产勘查公司完成了数百个大数据分析、挖掘,进而圈定靶区的项目。这些项目位于加拿大魁北克、安大略、新不伦瑞克、纽芬兰,美国内华达州,多米尼加共和国,墨西哥,布基纳法索,以及坦桑尼亚等地。2011 年,Diagnos 公司编制了加拿大魁北克西北地区金、铜、银、锌和镍的成矿远景图,覆盖面积33.09万km2。2012 年便取得了总计5242个矿权(占地2335km2),覆盖了最有远景和未勘查的目标。
深部找矿靶区的预测是未来5~10 年矿床学研究的新热点,大数据分析成为不可或缺的技术。多元数据的集成,以及不同学科、不同尺度的数据在三维空间的对比分析是其重要途径。这方面的研究基础包括澳大利亚以找矿为目的开展的四维地质填图;荷兰建立的全国1000m 以浅的3D 地层框架模型;加拿大将三维地质填图用于盆地地下水调查;英国建立的全国4 个尺度的三维地层框架模型;法国在地质调查等诸多领域开展三维地质建模;德国在北部多个盆地进行跨界三维地质建模;美国针对资源与环境评价开展三维地质框架研究等。
我国长期地质调查和探测取得的海量地质基础调查数据,将是超级计算机服务的重点对象之一。六年蝉联世界第一的“天河二号”超级计算机落户中山大学,并委托中山大学管理,可以成为强大的技术支撑平台。“天河二号”系统集高性能计算、大数据分析和云计算于一体,能高效地处理普通云计算不能处理的计算密集型问题,并能满足对复杂大数据开展精准、实时分析的需求。