數字孿生彌合了深度學習的資料鴻溝

隨著企業開始使用可將其資料投入使用的深度學習(DL)專案，他們必須保護這些資料，而數字孿生是成功的關鍵。

在當今世界，資料為王。無論是亞馬遜、蘋果、Facebook、谷歌、沃爾瑪還是Netflix，世界上最有價值的公司都有一個共同點：資料是他們最有價值的資產。所有這些公司都使用深度學習(DL)將這些資料投入使用。

無論您從事什麼業務，資料都是您最寶貴的資產。您需要透過執行自己的DL保護這些資產。深度學習成功的最重要因素是擁有足夠的正確種類的資料。那就是數字孿生的由來。

數字孿生是實際物理過程、系統或裝置的數字副本。簡單說，數字孿生就是在虛擬世界中再造一個現實世界。最重要的是，數字孿生可能是深度學習專案成功的關鍵，尤其是涉及危險、昂貴或耗時的過程的深度學習專案。

深度學習的希望

到目前為止，包括半導體制造在內的幾乎每個行業都已經意識到DL創造戰略優勢的潛力。深度學習使用神經網路來執行高階模式匹配。深度學習已應用於面部和語音識別、醫學影象分析、生物資訊學和材料檢查等各種領域。

在半導體制造中，深度學習已經應用於產品缺陷分類等領域。大多數領先的公司都爭先恐後地在這個充滿希望的新競爭環境中獲得優勢。

隨著企業開始探索深度學習及其如何為他們提供幫助，許多企業發現了兩點：第一，獲得深度學習原型很容易;其次，從“好的原型”到“生產質量”的結果很難。

如今，有了所有從低成本到免費的深度學習平臺、工具和套件，與常規應用程式開發相比，深度學習應用的初始開發非常快速且相對容易。但是，產品化深度學習應用並不比產品化傳統應用更容易，甚至更難。

原因在於資料。在沒有提供生產質量結果的深度學習應用和徹底改變您解決特定問題方式的深度學習應用之間，通常有足夠的資料以及足夠的正確型別的資料。

深度學習的資料缺口

深度學習基於模式匹配，它是透過向神經網路呈現表示要匹配的目標的資料來進行“程式設計”的。大量資料訓練網路以識別目標(並知道何時不是目標)。

深度學習具有強大的功能，可快速生成原型並提供概念驗證。但是深度學習的真正優勢不是開發速度。這是事實，它釋放了資料的力量來做其他任何方式都做不到的事情。

任何深度學習應用的成功都取決於訓練中使用的資料集的深度和廣度。如果訓練資料集太小、太狹窄或太“正常”，那麼深度學習方法將不會比標準技術做得更好。實際上，它可能會做得更差。重要的是，用足夠多的資料來訓練網路，以表示所有重要狀態或演示的資料，以使網路學會掌握當前問題的正確本質。

對於某些領域(例如自動駕駛或半導體制造)而言，困難之處在於(非常幸運地)很少發生某些最嚴重的異常情況。但是，如果您想讓深度學習應用識別出在汽車前面跑來跑去的孩子(或致命的光罩錯誤)，則必須使用大量這些情況來訓練網路，而在實際情況是現實世界中並沒有太多這些資料。而數字孿生是建立足夠的異常資料以正確訓練網路識別這些條件的唯一方法。

上圖為帶有標準偏差的正態分佈曲線圖。在半導體制造中，與駕駛一樣，“異常”事件非常少見，但是必須對神經網路進行儘可能多的訓練，因為最壞的事件會導致晶片故障。使得整體平均效果還不夠好。

數字孿生縮小了差距

數字孿生，也就是實際過程、系統和裝置的虛擬表示，是用於建立正確數量以及正確型別的資料以成功訓練深度學習網路的關鍵工具。

使用數字雙胞胎建立DL訓練資料有以下幾個原因：

理想情況下，要保持對資料的完全控制，您需要三個數字孿生：生產流程中先於您的過程/裝置的數字孿生子，以提供用於模擬您自己的過程的輸入資料;您自己的過程/裝置的數字孿生;以及在生產流程中跟隨您的過程/裝置的數字孿生，以便您可以將輸出饋送到下游進行驗證。

在2019年SPIE光罩技術會議上，D2S展示了一篇論文，展示了使用深度學習技術建立的兩個數字孿生，即掃描電子顯微鏡(SEM)數字孿生子和曲線反光刻技術(ILT)數字孿生(圖2顯示了SEM數字孿生的輸出)。雖然數字孿生的輸出通常不足以用於製造，但這些數字孿生已被用於訓練深度學習神經網路和驗證。重要的是，這些數字孿生是由深度學習而不是透過模擬生成的。

這是一個使用深度學習作為生成其他DL所需資料的工具的示例，它展示了投資深度學習的複合收益。

上圖由SEM數字孿生生成的掩模SEM影象和真實SEM影象的兩個示例。還顯示了在同一位置的水平切割線上的影象強度。不僅影象看起來非常相似，而且邊緣的訊號響應也相似。

深度學習成功的路線圖

所有這些聽起來都像是有很多工作要做。為什麼不使用諮詢公司為您做深度學習?因為，記住，資料為王!保護資料並自己執行深度學習。值得慶幸的是，我們可以遵循一條成功的既定道路。

首先，您需要確定將對深度學習產生影響的專案。您確實需要謹慎選擇，深度學習是模式匹配，因此您需要選擇屬於該領域的內容。基於影象的應用，例如缺陷分類是比較匹配的。晶圓廠中的所有裝置都會建立大量的執行資料，除非出現問題，否則很少引用這些資料。

您不僅可以事後將這些寶貴的資料僅用作診斷工具，還可以持續監控整個Fab上的資料，並訓練深度學習應用程式以標記出問題之前的模式，這樣您就可以在問題產生影響之前識別和糾正問題，節省停機時間。

例如，Mycronic在2020 SPIE Advanced Lithography Conference上的eBeam Initiative午餐時間演講中披露，該公司如何利用其機器日誌檔案中的資料來使深度學習正常工作，以預測像“mura”之類的異常(不均勻的亮度影響，使人煩惱)，但是眾所周知，這對於影象處理演算法來說很難在平板顯示器(FPD)掩模上檢測到。

通常，操作員執行的是非常乏味且容易出錯的過程，但是很難使用傳統演算法實現自動化，因此這是深度學習的不錯選擇。無論是透過目視檢查還是其他方式，檢查特定情況的專業人員都會非常有可能正確執行任務。但是面對許多類似情況的例子，人類會犯錯並變得越來越不可靠。

在特定情況下，深度學習可能不如人類所能做的那樣好。但是它在一些情況下卻做得比人類要好。隨著執行任務時間的增加，人類會犯更多的錯誤;而深度學習的成功機率不會隨著數量或時間的增加而降低。

幫助縮小與深度學習成功之間的差距

一旦確定了深度學習專案，就會有多種可用資源，可帶您邁向成功之路，同時仍然使您能夠嚴格控制自己的資料。如果您是深度學習的新手，並希望為深度學習試點專案提供全面支援，則可以加入電子製造深度學習中心(CDLe，www.cdle.ai)，這是一個旨在聯合起來的行業領導者聯盟人才和資源來提升深度學習在我們獨特的問題空間中的先進水平，並加快深度學習在我們企業的每種產品中的採用，從而改善我們為客戶提供的產品。

如果您已經開始進行深度學習專案，但是由於深度學習資料缺口而遇到了問題，那麼D2S可以幫助您構建數字雙胞胎，您需要對它們進行擴充和調整才能使DL成功。(編譯/蒙光偉)