大數據創新任重道遠
本文轉自【人民郵電報】;
“數據融合需要標準規範先行,實現數據可見性、數據易理解性、數據可鏈接性、數據可信性、數據互操作性和數據安全性。”中國工程院院士鄔賀銓在近期舉辦的“永不落幕的數博會”2020系列活動——“大數據產業生態創新發展高峯會”上表示。
那麼,什麼是數據可見性、數據易理解性、數據可鏈接性、數據可信性、數據互操作性和數據安全性?
鄔賀銓通過舉例來解釋,數據可見性方面,在以色列特拉維夫,把城市內所有交通攝像頭拍攝的視頻在實時合成完整的城市交通視頻之後,看到這個視頻就像城市的領導坐着直升機俯視這個城市一樣,能夠看到不同時間用不同顏色標註交通管制、交通事故的情況,並實時通過5G、4G網絡發送給行人、駕駛員,優化城市交通情況;數據易理解性方面,在抗擊新冠肺炎疫情期間,肺部CT影像是新冠肺炎確診的重要手段,但疑似病例的肺部往往需要拍300多張CT,而大數據可以把300多張CT照片還原為一個肺,這樣醫生就可以看到肺部有沒有纖維化,瞭解肺周邊情況;數據可鏈接性方面,要展示去年和今年的歐洲航空情況,可以把所有航空公司的飛行數據鏈接起來,形成整個區域飛行情況的數字孿生的交通鏡像;數據互操作性方面,很多古羅馬的遺址散落在現代建築之中,如果想看古羅馬的情況,可以把這些遺址照片合成一個視頻,把時空分散的照片組合起來,生成一個反映古羅馬街景的視頻。對於數據可信性,鄔賀銓認為,如果數據本身是不全面的或存在很多差錯,那這個數據挖掘是沒有價值的,這就需要數據質量管理技術,按照規定程序適當標記、保存和記錄數據,在壽命週期內保護數據。而數據安全性,需要實現精細化權限管理和審計,定期評估分類標準並測試合規性。
“數據挖掘首先要建數據模型,而建數據模型需要了解模型開發背景和用途,以及誰來訓練模型、這些數據從哪來、模型運用的效果如何,需要關注算法的完整性、可解釋性、公平性和適應能力。同時,模型開發完成後還需要不斷地檢驗、迭代和完善。”鄔賀銓表示,目前,人工智能的算法經歷了兩次迭代,經歷了從知識驅動到數據驅動的變革,但仍然不夠完善,因為目前很多大數據應用仍然處於“大數據、大算力、小任務”的情況,而最好的情況應該是“小數據、小算力、大任務”,這就需要人工智能向第三代發展,實現知識與數據雙驅動。
鄔賀銓認為,當前“大數據、大算力、小任務”的情況主要是指有非常多的數據和非常強的計算能力,但最後只完成了一件很小的事情,而且穩定性不夠、可解釋性差、應用場景窄。要想實現“小數據、小算力、大任務”,不僅需要提升人工智能算法,還需要提升大數據分析能力。而大數據分析不能只靠中心雲,還要使用邊緣雲,因為邊緣雲可以就近處理數據,能夠適用於對數據試驗敏感的業務。
“智慧城市管理和工業互聯網應用中有很多需要數據融合的應用場景,多元異構的數據融合能夠盤活數據,通過數據挖掘提升數據的價值,發揮數據作為生產要素的作用。”鄔賀銓表示,數據只有融合才有價值,但融合就涉及隱私和商業秘密保護問題。
“每個企業都希望利用其他企業的數據,卻不一定願意把自己的數據共享,因為覺得是商業秘密。那數據怎麼融合?怎麼做到既融合又不泄露每個企業的商業秘密?”鄔賀銓表示,目前有很多解決方案,比如採用多方計算方式。此外,大數據分析有很多軟件,其中有很多開源軟件,但開源軟件漏洞多,而且版本升級頻繁,需要檢查軟件的安全性。
“大數據創新任重道遠。”鄔賀銓最後強調,數據挖掘和人工智能分析要面對海量處理能力、雲邊端協同、建模、小數據、人與數據融合、數據自身安全、隱私和商密保護等挑戰,因此需要從基礎理論跟工程實踐多方面研究數據價值挖掘的問題,開發出更高效的大數據和人工智能分析技術。