人工智能將“吞噬”數據

2020-05-22 由嶽洪秀發佈於科技

那些從事機器學習（ML）項目的人都知道機器學習需要大量數據來訓練算法。有的人會説數據永遠不嫌多。數據量和生成的機器學習模型的複雜程度之間通常存在着正相關性。隨着人工智能向着新的領域發展，用到的人工智能功能變得愈加複雜，這種對數據的飢渴只會變得更加強烈。除了人工智能的複雜性，其他一些趨勢也在加劇這一問題，因此組織面前就出現了這樣一個問題：“他們是否擁有適當的數據以成功推動人工智能項目？”如果他們沒有足夠的資源，他們是否應該為人工智能盛宴做更多的準備？

圖1：人工智能/數據連續性

組織已經收集的所有大數據不太可能都是正確的數據，但是瞭解人工智能的發展方向能夠讓組織獲得“立足點”，在未來幾十年人工智能的發展過程中篩選和收集更多正確的數據。

人工智能的發展改變了數據遊戲

雖然機器學習需要大量數據對自身行為進行修正，但隨着人工智能功能複雜程度的提高，人工智能對數據的需求量也會迅速增加。從機器學習到深度學習（DL）更是向前邁出了一大步，而深度學習比機器學習需要的數據要多得多。原因在於深度學習通常只能識別神經網絡各層之間的概念差異。當暴露在數百萬個數據點之下時，深度學習可以確定概念的邊界。深度學習讓機器像人的大腦一樣能夠通過神經網絡表示概念，從而能夠解決更復雜的問題。人工智能還可以解決更為模糊的問題，這些問題的答案通常更加不確定或者是模稜兩可的。這通常是判斷或者識別類的問題，可以擴展到創作或者其他的右腦活動。這又導致對數據的更多需求，在某些情況下，從本質上而言，這些需求可能是迫切或者實時的。

從數據驅動到結果驅動的轉變

人工智能在協助或解決的複雜問題中不斷髮展，隨着這一趨勢，它將成為數據驅動和目標/結果驅動。這意味着人工智能可能會在解決特定問題或者進行特定推斷過程中即時請求數據，從而使數據管理變得更加複雜。它可能涉及解決方案的歸納數據驅動部分與為了達到目標假設的數據演繹需求的交互。以結果為導向的問題需要這種類型的動態交互。這與僅僅檢索數據以尋找感興趣的事件或模式的做法有很大的不同。決策驅動的方式則正好落在這兩種截然不同的模式之間。通過將數據和結果進行匹配，可以聚焦一些決策的運行狀況並加以改進。無論是歸納還是演繹都會出現更多的戰略決策。這只是推動數據使用量需求的源動力之一。

不斷變化的問題範圍影響數據需求

人工智能解決方案的範圍通常會從狹窄的領域開始，並隨着時間的流逝而擴大到更大的範圍，因此也就會需要更多數據。複雜的解決方案通常瞄準了多個答案，並且需要更多的數據來支持支路解決方案集，從而產生複雜/混合的結果。隨着決策、行動和結果的範圍跨越組織內部和外部的更多場景，將需要獲取更多的數據以瞭解每種場景及其相互作用。這些場景中的每一個都可能以不同的速率變化和變形，因此，也就會需要更多的數據。

總結

顯然，更多數據將成為人工智能輔助解決方案的標誌。對數據的渴求可能來自於更具挑戰性的問題、對高級人工智能/分析的更好利用或者是端到端價值鏈的增長。只有一點是確定無疑的。組織最好為“人工智能/數據交互”的新世界做好準備。它將改變或拓展數據管理策略、方法和技術。

轉載請註明：人工智能將“吞噬”數據 - 楠木軒