大數據的世界是一個由大量活動構件與多元參與者元素所構成的生態系統,終端設備提供商、基礎設施提供商、網絡服務提供商、網絡接入服務提供商、數據服務使能者、數據服務提供商、觸點服務、數據服務零售商等一系列的參與者共同構建的生態系統。數據的資源化、與雲計算的深度結合、高效的數據管理及數據生態系統複合化程度的加強將是大數據研究的趨勢。
基於大數據分析技術,大數據分析應包括以下幾方面的基本內容。
1. 數據挖掘
大數據分析的理論核心就是數據挖掘算法。不同的數據類型和格式,需要不同的數據挖掘算法,以更加科學地呈現數據本身具備的特點。各種多元統計方法,由於能通過相關關係挖掘出深度價值,因此是重要的數據挖掘分析工具。
2. 預測性分析
大數據表徵的是過去,但可以用來預測未來的變化。預測性分析是大數據分析最終應用的重要領域之一,它從大數據中挖掘出特點,通過科學建模型,代入新數據,即可預測未來。
3. 數據可視化分析
大數據可視化是大數據分析的基本要求,它可以直觀地呈現大數據特點,同時能夠非常容易地被人類所接受。常見的可視化技術包括基於集合、圖標、圖像的技術,面向像素的技術和分佈式技術等。
4. 語義引擎構建
由於數據採集的多元化,數據類型的非結構化,如何將多樣的信息轉化成計算機可以識別和計算的語言是進行大數據分析的基礎。
5. 數據管理
在地質時空大數據模型構建中,數據融合是基礎性的研究課題,它貫穿於礦牀與地質研究對象認知模型、礦牀與地質時空數據感知模型、礦牀與地質時空數據分析模型、礦牀與地質時空數據挖掘模型、礦牀與地質時空數據預測模型及地質時空數據決策模型的研究中。
各類專題的地質時空大數據鏈組織與實現,有賴於地質時空大數據平台的系統解決方案和整體架構,以及數據融合方法和技術研究,有賴於超算環境下礦牀與地質時空大數據索引、調度機制和大數據引擎,有賴於建立統一的運行雲平台及智能監測、預警與管控的數據鏈,發展礦牀與地質時空大數據的安全存儲、檢索與隱蔽傳輸方法和技術。
未來的大數據研究,將嚴重依賴於大數據平台的建設。平台建設需要從以下幾方面着力。
1. 建立一套運行機制
大數據建設是一項有序的、動態的、可持續發展的系統工程,必須建立良好的運行機制,以促進建設過程中各個環節的正規有序,實現統合,搞好頂層設計。
2. 規範一套建設標準
沒有標準就沒有系統。應建立面向不同主題、覆蓋各個領域、不斷動態更新的大數據建設標準,為實現各級各類信息系統的網絡互連、信息互通、資源共享奠定基礎。
3. 搭建一個共享平台
數據只有不斷流動和充分共享,才有生命力。應在各專用數據庫建設的基礎上,通過數據集成,實現各級各類指揮信息系統的數據交換和數據共享。
4. 培養一支專業隊伍
大數據建設的每個環節都需要依靠專業人員完成,因此,必須培養和造就一支懂指揮、懂技術、懂管理的大數據建設專業隊伍。
其中,大數據平台是基礎數據平台,用於統一組織、存儲和管理相關部門的全部工作數據,實現基礎數據、地理信息數據和業務數據的共享,提高業務管理、應急處理、服綜合管理和分析決策能力。
礦牀與地質大數據研究前景
礦牀與地質時空數據除擁有一般大數據的“4V”共性特徵外,也有自己顯著的個性特點,突出體現在其專業背景特點上。對礦牀與地質領域的不同來源、不同獲取方式、不同結構及不同格式的離散數據,開展結構化重建、關聯分析、地學建模,將加速地學知識的融匯,深化對地球系統的認識和理解,有望引發地球科學研究方式的變革。
大數據理念和分析技術應用將是成礦規律研究的重要內容。成礦規律研究將更充分地利用與“礦”有關的各種數據,包括在一定的地質歷史時期或構造運動階段,在一定的地質構造單元及構造部位,與一定的地質成礦作用有關的時間、空間、成因及礦牀產狀的數據,還包括龐大的礦牀成因方面的數據信息(如成礦温度、成礦壓力、流體包裹體、同位素、微量元素等礦牀地球化學數據)。
地質調查大數據研究,將針對以往解決的不理想的地質問題入手,充分利用新一代信息技術,更新當前數據處理環境,着重進行地質數據的智能分析與深度挖掘。在大數據處理方法上,將建立基於統一基礎地理空間的多源數據集成與管理系統,將地質、構造、礦點、地球物理、地球化學、遙感鑽孔等各類數據整合到統一的數據庫中,利用雲計算、大數據等方法,對多源綜合數據進行集成、展示、分析和挖掘,由此建立數據驅動的成礦遠景圖件。同時,開展有效的三維模擬(主要是反演),目前已有的三維地質建模軟件(如國外的GOCAD、MVS、MicroStation、Surpac,國內的QuantyView、GeoView、GeoMo3D、Titan3DM 等)將得到進一步的優化和功能拓展。
礦牀與地質大數據研究已有一定的基礎。例如,加拿大Diagnos 公司在過去10年中為不同礦產勘查公司完成了數百個大數據分析、挖掘,進而圈定靶區的項目。這些項目位於加拿大魁北克、安大略、新不倫瑞克、紐芬蘭,美國內華達州,多米尼加共和國,墨西哥,布基納法索,以及坦桑尼亞等地。2011 年,Diagnos 公司編制了加拿大魁北克西北地區金、銅、銀、鋅和鎳的成礦遠景圖,覆蓋面積33.09萬km2。2012 年便取得了總計5242個礦權(佔地2335km2),覆蓋了最有遠景和未勘查的目標。
深部找礦靶區的預測是未來5~10 年礦牀學研究的新熱點,大數據分析成為不可或缺的技術。多元數據的集成,以及不同學科、不同尺度的數據在三維空間的對比分析是其重要途徑。這方面的研究基礎包括澳大利亞以找礦為目的開展的四維地質填圖;荷蘭建立的全國1000m 以淺的3D 地層框架模型;加拿大將三維地質填圖用於盆地地下水調查;英國建立的全國4 個尺度的三維地層框架模型;法國在地質調查等諸多領域開展三維地質建模;德國在北部多個盆地進行跨界三維地質建模;美國針對資源與環境評價開展三維地質框架研究等。
我國長期地質調查和探測取得的海量地質基礎調查數據,將是超級計算機服務的重點對象之一。六年蟬聯世界第一的“天河二號”超級計算機落户中山大學,並委託中山大學管理,可以成為強大的技術支撐平台。“天河二號”系統集高性能計算、大數據分析和雲計算於一體,能高效地處理普通雲計算不能處理的計算密集型問題,並能滿足對複雜大數據開展精準、實時分析的需求。