數字孿生彌合了深度學習的數據鴻溝

隨着企業開始使用可將其數據投入使用的深度學習(DL)項目,他們必須保護這些數據,而數字孿生是成功的關鍵。

在當今世界,數據為王。無論是亞馬遜、蘋果、Facebook、谷歌、沃爾瑪還是Netflix,世界上最有價值的公司都有一個共同點:數據是他們最有價值的資產。所有這些公司都使用深度學習(DL)將這些數據投入使用。

無論您從事什麼業務,數據都是您最寶貴的資產。您需要通過執行自己的DL保護這些資產。深度學習成功的最重要因素是擁有足夠的正確種類的數據。那就是數字孿生的由來。

數字孿生是實際物理過程、系統或設備的數字副本。簡單説,數字孿生就是在虛擬世界中再造一個現實世界。最重要的是,數字孿生可能是深度學習項目成功的關鍵,尤其是涉及危險、昂貴或耗時的過程的深度學習項目。

深度學習的希望

到目前為止,包括半導體制造在內的幾乎每個行業都已經意識到DL創造戰略優勢的潛力。深度學習使用神經網絡來執行高級模式匹配。深度學習已應用於面部和語音識別、醫學圖像分析、生物信息學和材料檢查等各種領域。

在半導體制造中,深度學習已經應用於產品缺陷分類等領域。大多數領先的公司都爭先恐後地在這個充滿希望的新競爭環境中獲得優勢。

隨着企業開始探索深度學習及其如何為他們提供幫助,許多企業發現了兩點:第一,獲得深度學習原型很容易;其次,從“好的原型”到“生產質量”的結果很難。

如今,有了所有從低成本到免費的深度學習平台、工具和套件,與常規應用程序開發相比,深度學習應用的初始開發非常快速且相對容易。但是,產品化深度學習應用並不比產品化傳統應用更容易,甚至更難。

原因在於數據。在沒有提供生產質量結果的深度學習應用和徹底改變您解決特定問題方式的深度學習應用之間,通常有足夠的數據以及足夠的正確類型的數據。

深度學習的數據缺口

深度學習基於模式匹配,它是通過向神經網絡呈現表示要匹配的目標的數據來進行“編程”的。大量數據訓練網絡以識別目標(並知道何時不是目標)。

深度學習具有強大的功能,可快速生成原型並提供概念驗證。但是深度學習的真正優勢不是開發速度。這是事實,它釋放了數據的力量來做其他任何方式都做不到的事情。

任何深度學習應用的成功都取決於訓練中使用的數據集的深度和廣度。如果訓練數據集太小、太狹窄或太“正常”,那麼深度學習方法將不會比標準技術做得更好。實際上,它可能會做得更差。重要的是,用足夠多的數據來訓練網絡,以表示所有重要狀態或演示的數據,以使網絡學會掌握當前問題的正確本質。

對於某些領域(例如自動駕駛或半導體制造)而言,困難之處在於(非常幸運地)很少發生某些最嚴重的異常情況。但是,如果您想讓深度學習應用識別出在汽車前面跑來跑去的孩子(或致命的光罩錯誤),則必須使用大量這些情況來訓練網絡,而在實際情況是現實世界中並沒有太多這些數據。而數字孿生是創建足夠的異常數據以正確訓練網絡識別這些條件的唯一方法。

上圖為帶有標準偏差的正態分佈曲線圖。在半導體制造中,與駕駛一樣,“異常”事件非常少見,但是必須對神經網絡進行儘可能多的訓練,因為最壞的事件會導致芯片故障。使得整體平均效果還不夠好。

數字孿生縮小了差距

數字孿生,也就是實際過程、系統和設備的虛擬表示,是用於創建正確數量以及正確類型的數據以成功訓練深度學習網絡的關鍵工具。

使用數字雙胞胎創建DL訓練數據有以下幾個原因:

理想情況下,要保持對數據的完全控制,您需要三個數字孿生:生產流程中先於您的過程/設備的數字孿生子,以提供用於模擬您自己的過程的輸入數據;您自己的過程/設備的數字孿生;以及在生產流程中跟隨您的過程/設備的數字孿生,以便您可以將輸出饋送到下游進行驗證。

在2019年SPIE光罩技術會議上,D2S展示了一篇論文,展示了使用深度學習技術創建的兩個數字孿生,即掃描電子顯微鏡(SEM)數字孿生子和曲線反光刻技術(ILT)數字孿生(圖2顯示了SEM數字孿生的輸出)。雖然數字孿生的輸出通常不足以用於製造,但這些數字孿生已被用於訓練深度學習神經網絡和驗證。重要的是,這些數字孿生是由深度學習而不是通過仿真生成的。

這是一個使用深度學習作為生成其他DL所需數據的工具的示例,它展示了投資深度學習的複合收益。

上圖由SEM數字孿生生成的掩模SEM圖像和真實SEM圖像的兩個示例。還顯示了在同一位置的水平切割線上的圖像強度。不僅圖像看起來非常相似,而且邊緣的信號響應也相似。

深度學習成功的路線圖

所有這些聽起來都像是有很多工作要做。為什麼不使用諮詢公司為您做深度學習?因為,記住,數據為王!保護數據並自己執行深度學習。值得慶幸的是,我們可以遵循一條成功的既定道路。

首先,您需要確定將對深度學習產生影響的項目。您確實需要謹慎選擇,深度學習是模式匹配,因此您需要選擇屬於該領域的內容。基於圖像的應用,例如缺陷分類是比較匹配的。晶圓廠中的所有設備都會創建大量的運行數據,除非出現問題,否則很少引用這些數據。

您不僅可以事後將這些寶貴的數據僅用作診斷工具,還可以持續監控整個Fab上的數據,並訓練深度學習應用程序以標記出問題之前的模式,這樣您就可以在問題產生影響之前識別和糾正問題,節省停機時間。

例如,Mycronic在2020 SPIE Advanced Lithography Conference上的eBeam Initiative午餐時間演講中披露,該公司如何利用其機器日誌文件中的數據來使深度學習正常工作,以預測像“mura”之類的異常(不均勻的亮度影響,使人煩惱),但是眾所周知,這對於圖像處理算法來説很難在平板顯示器(FPD)掩模上檢測到。

通常,操作員執行的是非常乏味且容易出錯的過程,但是很難使用傳統算法實現自動化,因此這是深度學習的不錯選擇。無論是通過目視檢查還是其他方式,檢查特定情況的專業人員都會非常有可能正確執行任務。但是面對許多類似情況的例子,人類會犯錯並變得越來越不可靠。

在特定情況下,深度學習可能不如人類所能做的那樣好。但是它在一些情況下卻做得比人類要好。隨着執行任務時間的增加,人類會犯更多的錯誤;而深度學習的成功概率不會隨着數量或時間的增加而降低。

幫助縮小與深度學習成功之間的差距

一旦確定了深度學習項目,就會有多種可用資源,可帶您邁向成功之路,同時仍然使您能夠嚴格控制自己的數據。如果您是深度學習的新手,並希望為深度學習試點項目提供全面支持,則可以加入電子製造深度學習中心(CDLe,www.cdle.ai),這是一個旨在聯合起來的行業領導者聯盟人才和資源來提升深度學習在我們獨特的問題空間中的先進水平,並加快深度學習在我們企業的每種產品中的採用,從而改善我們為客户提供的產品。

如果您已經開始進行深度學習項目,但是由於深度學習數據缺口而遇到了問題,那麼D2S可以幫助您構建數字雙胞胎,您需要對它們進行擴充和調整才能使DL成功。(編譯/蒙光偉)

版權聲明:本文源自 網絡, 於,由 楠木軒 整理發佈,共 2784 字。

轉載請註明: 數字孿生彌合了深度學習的數據鴻溝 - 楠木軒