41頁PPT深入解析高通量計算在大規模視頻處理中的特點、挑戰及應用實踐「附PPT下載」

41頁PPT深入解析高通量計算在大規模視頻處理中的特點、挑戰及應用實踐「附PPT下載」

出品 | 智東西公開課

講師 | 郭南 中科睿芯的應用創新研發總監

導讀:

中科睿芯的應用創新研發總監郭南去年8月曾在智東西公開課進行了計算機視覺應用合輯第一講的直播講解,主題為《高通量計算在大規模視頻處理中的應用》。

在本次講解中,郭南老師首先從高通量計算的特點入手,之後分析了大規模視頻處理面臨的挑戰及市場需求,最後從樣例匹配、場景檢測、目標識別、內容鑑偽四個方面深入講解大規模視頻處理的應用。

本文為此次課程主講環節的圖文整理:

正文:

大家好,我是中科睿芯AI應用開發負責人郭南,很榮幸能在智東西平台和大家一起分享今天的課題。今天分享的主題為《高通量計算在大規模視頻處理中的應用》,主要分為以下3個部分:

1、高通量計算應用開發特點

2、大規模視頻處理面臨的挑戰及市場需求

3、大規模視頻處理在網絡內容安全和安防中的應用

高通量計算應用開發特點

據統計,我們每天創造約2.3萬億的數據,而當前的網絡流量中有70%以上都是視頻。這些視頻規模龐大,有24小時不斷更新的監控視頻,還有移動智能終端的拍攝和分享數據,比如傳統的媒體和自媒體抖音等。這些視頻不僅規模龐大,還具有高併發大容量的顯著特性,高併發意味着單位時間內產生的任務數量大,無論對國家公共安全還是日益增長的互聯網經濟,對這些具有高併發性的海量視頻數據進行分析和處理,為視頻內容監管和應用服務提供關鍵技術支持,已成為一個亟待解決的問題,我們需要從並行計算硬件支撐和圖像視頻計算模型優化兩個方向來解決這類問題。

硬件方面就需要高通量計算機。從上世紀40年代,人類第一台計算機誕生開始,信息基礎設施經歷了70多年的發展,萬物互聯所產生的巨大數據流量,要求大型數據中心能夠在提供一級以上併發請求訪問能力的同時,還可以有效的保障質量,這對計算機系統提出了巨大的挑戰,僅靠計算設備的堆積將無法完全解決上述問題,因為計算設備的堆積會產生大量的電力或者功率方面的消耗,而高通量計算機適應是適應新興應用負載特徵,在強時間約束下能夠全局可控處理高吞吐量請求的一種高性能計算機,其設計目標也相應的從追求傳統單個任務的“快”,轉變為追求單位時間內處理任務數量的“多”。 傳統的高性能計算的特點是計算密集型,追求的目標是高速度,主要用於科學計算。而高通量計算的特點是請求密集型,追求的目標是高通量,即單位時間內算的多,適用於互聯網新興應用負載特徵,關注高併發環境下的系統吞吐能力。在強時間約束下處理高吞吐量請求,所謂系統的吞吐量指的是計算機系統單位時間內可處理的服務請求數,它的計算特點是需要挖掘算法本身的可並行性,計算任務是基於一系列學習子任務的一個較大任務,這些子任務之間使用相同的數據或者關聯數據,如果能充分利用子任務間的相關性和數據的相關性,就能提高計算的並行度和計算效率。另外一個特點就是多任務多特徵學習,在多個特徵表示上構建圖像分析模型,或者在單個特徵上進行模型學習,最後融合多個特徵統計模型的判別結果。

隨着移動互聯網技術和智能終端的普及,海量的諮詢娛樂、音視頻內容分佈在傳統互聯網和移動互聯網上,使得視頻內容服務成為互聯網主要服務之一。面向視頻信息處理的應用越來越多,包括視頻轉碼服務、視頻會議、視頻版權鑑定、內容檢索服務、場景識別服務等。其中有一些違規內容,如色情暴力、政治有害也充斥其間,有必要採取對應的監管策略和手段,進行網絡視頻內容安全檢測與促進網絡的安全。

大規模視頻處理面臨的挑戰及市場需求

伴隨着巨大的市場需求,視頻處理面臨着一系列挑戰,比如説數據處理量大,訓練數據獲取困難,我們將詳細介紹這些挑戰的具體表現形式,對應的市場需求以及相應的解決方法。

41頁PPT深入解析高通量計算在大規模視頻處理中的特點、挑戰及應用實踐「附PPT下載」

上圖是網絡視頻處理的整個流程。首先對網絡流量進行粗拼裝,提取音視頻數據,經過音視頻編解碼、內容分析處理,返回結果,解碼和視頻分析的計算量都很大,需要進行相應的硬件加速。其中解碼對應的有解碼卡之類的專用硬件加速單元,一般的顯卡上即NVIDIA的GPU上面也會有這個單元,內容分析從AI加速卡算法優化軟硬件同時加速,分析的內容可以歸類為壓力匹配、目標識別、場景檢測和偽造識別。

41頁PPT深入解析高通量計算在大規模視頻處理中的特點、挑戰及應用實踐「附PPT下載」

上圖是對上面視頻處理過程的一個細化過程,包括拓撲鏈接邏輯,數據處理邏輯和軟硬件層方面。拓撲鏈接邏輯方面,包括分光器,前後端捕包機,後端服務器等一些設備,中間是併發數據的處理邏輯,體現了數據量的處理量比較大。最下面的軟硬件部分展示了視頻處理中常用的服務器和處理平台。比如TensorFlow,還有數據大數據處理平台,FPGA等。

對應上述流程音視頻是解碼設計方面主要包括4個模塊,繪畫管理模塊進行繪畫的上下文管理,解複用模塊的調度,解複用模塊是從視頻容器中提取碼流的信息,解碼模塊,就是實現解碼的整個過程,IO模塊來實現音視頻解碼模塊與外部的數據交互,來實現內存的緩存管理。

要實現對大規模網絡視頻的解碼工作,還需要考慮以下方面:

首先是有模塊之間的調度,以提高系統的運行效率,還需要統一的內存管理,避免內存頻繁的拷貝,需要優化現成的調度和同步,減少線程休眠和Cache失效引起的性能損耗。針對不同的視頻格式需要進行解複用優化,提取解碼所需要的關鍵信息,以減少內存的佔用量。

解碼技術的難點一是需要建立非常強的容錯機制,在視頻流數據缺失的情況下可以保證穩定性,防止死鎖與崩潰。針對不同的格式特點進行優化解碼,在視頻傳輸有錯的情況下,解碼出盡量多的數據量。難點二是需要維護大量併發路數,以保持滿負載,並且控制內存用量。網絡實時流媒體數據的重要特點有統一,時間流媒體傳輸的數據量大,同一路流媒體在用户觀看過程中持續活躍,數據間歇性傳輸等。我們的解決方法是可配置的cavhe系統、節目超時淘汰算法、針對常用格式的內存優化等。

解碼還需要支持網絡中多種多樣的封裝格式和編碼格式。睿芯也有自己的專用的音視頻解碼卡,在解碼能力、功耗、性價比方面有很大的優勢,在國家一些部門以及企業也具有了批量的應用,能夠支持網絡中所有常見的編碼格式。

剛才我們提到的是解碼方面的內容,視頻應用分析方面也是計算量消耗比較大的一個方面。在網絡內容安全以及安防方面,視頻分析的市場需求可以概括為以下4個方面:

第一是內容審查,實時檢測和分析網絡流中傳輸的音視頻數據內容,對涉暴、涉恐等有害內容進行實時審查,來保證網絡中傳輸內容的健康、安全性。第二個是目標識別,目標識別主要是實現對網絡視頻流中台標、人臉、車輛、敏感設施以及音頻中的多語種敏感語音進行檢測識別。第三是樣例匹配,是通過實時分析視頻數據進行管控。樣例匹配除了安全方面,還可以實現平時的視頻推薦的功能。第四是內容鑑偽的應用,主要是檢測偽造的圖像、音視頻,來防止敏感內容被濫用到非法渠道。

大規模視頻處理在網絡內容安全和安防中的應用

對應前面市場需求所提出的4個類別,樣例匹配、場景檢測、目標識別、內容鑑偽,將逐一介紹技術以及應用場景。

41頁PPT深入解析高通量計算在大規模視頻處理中的特點、挑戰及應用實踐「附PPT下載」

– 樣例匹配

樣例匹配面向圖片、視頻、音頻三個方向,通過實時分析網絡數據,對匹配的音視頻內容進行監管,我們自研的多媒體檢索系統也能夠實現百萬級別視頻的快速檢索,在一定程度上解決了特徵提取速度,數據內存耗費以及檢索效率等一系列問題。現在圖像、視頻、音頻它的準確率和召回率都已經能夠滿足實際應用當中的需求,並且能夠根據客户的需求來做到秒級響應或者是毫秒級的響應。

視頻用例匹配具有廣泛的應用場景,它可以應用於版權保護的問題來阻止盜版視頻的傳播,還可以解決非法內容檢測問題,一些用户和團體藉助網絡平台惡意傳播非法視頻,以擾亂社會秩序,導致多類問題視頻在各個視頻網站、交友社區、聊天工具等平台中不斷傳播危害社會,而依靠人力在網絡海量數據中找出這些視頻是不現實的。還有的應用是視頻監控處理的問題,一些用户、商家希望知道某視頻片段在網絡流媒體中某個時間段內出現的次數。還有視頻推薦,個性化的推薦服務是各大平台促進用户體驗的重要手段。依據文本標籤匹配外聯合視覺內容進行視頻推送,可以達到更準確的推送效果。

前三個應用場景主要使用近重複檢索技術,而視頻推薦會使用到基於內容的檢索,對於樣例匹配設計的兩種具體技術即近重複視頻檢索和基於內容的檢索,近重複視頻是基於已有的原視頻,在海量數據中尋找與之相同或近似的視頻。

41頁PPT深入解析高通量計算在大規模視頻處理中的特點、挑戰及應用實踐「附PPT下載」

以上這些圖片就展示了我們經常能夠看到的一些近重複視頻片段,這些近似變換的方式有插入圖標,模擬錄像,尺度改變和畫中畫這些方式,一般來説插入圖標、字幕的複製變化比較容易檢測,而模擬錄像、畫中畫和後期加工等變換在視覺上變化相對較大,檢測比較困難。基於內容的視頻檢索則是主要查詢語義相似的視頻,語義相似的程度會與我們給他的訓練數據有關係。目前對於樣例匹配這兩種方式都使用基於深度學習的方法,兩者之間是沒有明確的技術界限。

41頁PPT深入解析高通量計算在大規模視頻處理中的特點、挑戰及應用實踐「附PPT下載」

樣例匹配的基本框架主要包括4個步驟,首先是特徵提取,建立索引,特徵匹配和時間對齊。圖像中虛線是表示離線的步驟,實現在線檢測步驟。對於數據庫視頻的建模是離線,對於查詢視頻需要進行在線檢測,無論對於視頻庫中的視頻還是查詢視頻,首先都需要進行特徵提取。視頻描述特徵,我們可以分為視頻幀級別的特徵和整體描述特徵,視頻有大量的圖片幀以及關於不同幀的時間和空間的概念。因此導致了視頻幀級別特徵數據量很大,視頻整體描述特徵提取也需要較大的計算量。

在傳統方法中,視頻幀特徵中有顏色直方圖,尺度不變特徵SIFT。為了提高匹配效率,採用視覺詞袋模型,把一個幀內的眾多局部描述字合成一個單一特徵來表徵視頻幀,具有較好的擴展性和準確率。視頻整體描述特徵則是關聯了中間的時域信息,在獲得特徵之後進行建立索引的操作。對於海量數據庫視頻的複製檢測問題,使用直接的特徵一一匹配方式十分耗時。為了達到更高效的檢索,建立索引是一種非常有必要的手段,索引結構不僅需要提高檢索速度,還應控制因建立索引而產生的量化誤差,對於查詢視頻進一步進行特徵匹配的操作。

41頁PPT深入解析高通量計算在大規模視頻處理中的特點、挑戰及應用實踐「附PPT下載」

上圖是我們對幾種特徵提取方法進行比較,在檢測方面取得了不錯效果的傳統特徵,有指紋特徵、SIFT、BOW特徵,還有現在的深度學習特徵。其中指紋特徵一般是指視頻幀的均勻感知哈希,這種特徵佔用內存少,提取速度快,方便使用哈希檢索,效率比較高,但是對各種變化的支持會比較弱一些。SIFT、BOW磁帶模型特徵它對旋轉變形等干擾的魯棒性較好,但是計算較複雜,並且與深度學習特徵相比,沒有語義表達能力。使用深度特徵具有優良的泛化能力和魯棒性,特徵表達緊湊,語義表達能力強,缺點是深度學習模型的計算量相對較大,需要AI硬件加速,應該加速的硬件現在也很多,所以深度學習現在不是一個問題,計算量方面是大家共同關注的問題。

對於更高數量級的視頻檢索,比如説百萬級的千萬量級的,一般都需要使用哈希二進制特徵,便於在檢索的時候使用層次聚類樹等二進制檢索方式,以提供比較快的檢索速度,但是浮點特徵向二進制特徵進行轉換,會造成一定的信息損失,所以準確度會略有下降。

41頁PPT深入解析高通量計算在大規模視頻處理中的特點、挑戰及應用實踐「附PPT下載」

上圖是之前使用傳統方法進行視頻樣例匹配的一種方法的框架圖。這種方法當中針對傳統方法的一些特點,然後提取了提出了一些模塊來改善它的效果。比如提取顯著區域來提高人為添加字幕,加黑邊,這些視頻檢測的魯棒性,後面還有一個消除幀間信息冗餘來減少數據量,提高檢索效率。

再介紹一種我們自己開發的一種基於深度學習的視頻整體描述特徵:RLH。RLH特徵是從4個層次來提取特徵,因為它涉及到了ResNet、LSTM和Hash網絡,所以我們將它簡稱為RLH,首先是採用ResNet獲取視頻幀的空間特徵,ResNet在圖像分類任務中表現卓越,能夠獲取很魯棒的特徵,然後用LSTM進行時空特徵融合,保留視頻空間特徵的同時,進行降維處理,在對時空特徵進行大福降維處理,進行二次編碼,得到視頻的哈希碼。RLH網絡能夠對特徵進行大幅的降維同時保留視頻幀空間信息以及視頻幀中間時序信息,具有很好的視頻描述能力。

在訓練過程當中,首先對視頻以秒為單位,進行小片段分割,保留其幀間的時序信息,並且基於三元組的數據輸入方式,設計了對比損失函數,用迭代的方式對RLH網絡進行訓練,使網絡快速收斂。在組織訓練數據時,從點雲數據集中挖掘不相似點對,再現online和offline的挖掘方式,可以有效的進行哈希訓練。因此我們採用類似的方式,從視頻特徵中挖掘三元組來進行快速有效的訓練,我們經過實驗大量的實驗對比證明,相比於其他的特徵提取方法,我們提出的RLH特徵能夠有效的提高近重複視頻檢索的精度,並同時降低時間和空間複雜度。

對於角度問題,如果商品的特徵集中在頂部,可直接採用一個垂直向下的角度,而且這種角度,遮擋的可能基本消除。但在便利店的場景中,需要識別很多瓶子類的商品,它的特徵集中在側面,就須架起一定的角度。以我們的經驗,大概是用到70-80度的角度,既能夠看到側面,又不會增加太多的前後遮擋。

– 場景檢測

場景檢測我們一般分為公共安危害行為檢測和色情內容檢測。公共危害行為檢測網絡流傳輸的視頻數據是否包含公共危害行為內容。這種檢測廣泛應用於直播平台或者是社交網絡平台的實時內容審查,可以識別常見的暴力行為場景。色情內容檢測是檢測網絡流傳輸的視頻數據是否包含色情內容。對於場景檢測在視頻安全領域當中,我們應用的時候一般需要較快的響應時間,因為你要在用户感知到它的危害性之前,將其進行一定的控制和管理,所以我們一般需要10毫秒以內的單幀響應時間,並且對整個視頻要在三秒或者是5~10秒這些時間內給出判斷,這樣才能控制不良視頻在網絡上的播放

公共危害行為,我們一般指的是暴恐、火災、搶劫、破壞公共財物等,這種檢測用於突發公共危害行為的報警和直播平台社交網絡中的內容審查,場景檢測的技術實現方式包括兩類,一般包視頻幀、圖像分類和視頻分類相結合來應用。圖像分類是視頻深度學習能解決的最基本問題,視頻分類有處理的方式,需要處理時域之間的關聯,關聯有LSTM 3DCNN等解決方案。目前問題的關注點是數據源的獲取以及標註,這些數據比較難以獲得。

色情檢測的應用場景也會比較廣泛,網絡內容的監管,非法色情傳播源頭的監管,還有運用在校園裏面,保護青少年的成長。這一個問題的主要實現方式也是以圖像分類為主,視頻分類為輔,因為圖片分類已經是很準,準確度很高,而視頻分類存在一定誤檢的情況,但是圖片分類可能會漏掉一些場景,或者是對一些場景進行誤檢,需要視頻分類做一些輔助。

– 目標識別

(1)人臉識別

識別是計算機視覺應用的非常廣泛的應用,因為我們一般是分類識別檢索等一系列應用,識別目前準確度也比較高。人臉識別也是計算機視覺落地的熱點應用,尤其是近幾年對動態人臉識別的要求會更多一些。人臉識別主要關注的功能是檢測視頻流中的人臉,並與人臉數據庫進行匹配識別。瀏覽信息是重要的身份識別標誌,在網絡內容安全和公安機關各警種業務中都取得舉足輕重的作用。以前我們人臉信息可能用於閘機,現在攝像頭採集的數據會更廣泛一些。 人臉識別的應用方面,在網絡內容安全方面,需要對關鍵人物進行視頻關鍵人物的視頻進行管控。對於公安這方面在刑事案件調查時,會由於大量的視頻錄像,造成時間和精力的浪費。同時在日常巡邏、户籍調查、出入境管理等業務中,幹警都會通過辨識人臉來核實相關人員的身份,有了人臉識別之後,我們就可以加快整個過程,並且降低對人員和時間的消耗。

檢測到人臉之後,在進行人臉關鍵點的分析,人臉對齊的處理,然後採用人臉識別模型來提取人臉特徵,對提取出的人臉特徵與庫中的人臉進行檢索匹配,根據匹配結果進行相似性排序,然後再結合閾值來判定是否會同一個人。人臉檢測和識別都是基於深度學習的卷積網絡,是用大量數據訓練出的人臉特徵模型,並且準確率已經提升到了人類的水平。人臉識別作為一個應用廣泛的計算機視覺方面的應用。網絡中介紹人臉識別的資料也有很多,我們上面對基礎的人臉識別的流程做了簡單的介紹。下面我們説一下高併發條件下的處理,對應我們的高通量處理。

41頁PPT深入解析高通量計算在大規模視頻處理中的特點、挑戰及應用實踐「附PPT下載」

上圖是高併發人臉的檢測效果。我們這是做的一個展示demo,我現在是併發12路,12路其實是一個比較少的路數,我們在實際使用當中可能併發的路數會更多,併發意味着我們要不僅要實現實時的檢測,還要實現超實時的檢測,也就是説在實時的條件下,我們需要同時實時檢測30路、50路或者是更高的路數。

對於高併發的人臉識別,首先我們必須具備基本的人臉識別功能,準確率要高,準確度要高,能夠滿足用户對準確性的要求。接下來要處理的難點是處理來源多樣的視頻源,來適應低質量的人臉圖片,通過融合多種規整技術改善圖像。因為人臉識別,我們現在對閘機的識別準確度還是相對來説比較高的,但是對於攝像頭識別就存在一定的問題。首先是各個攝像頭並不一定是統一規格的,並且攝像頭本身也具有一些參數調整,需要手動調整或者一些問題,那就會存在光照不統一,或者是清晰度不統一,然後還有一些聚焦的問題,對於高併發的識別,同時解決這些問題,就需要算法有一定的自己的選擇能力。

在處理這種不同質量的圖片,不同曝光的圖片以及不同清晰度這種圖片處理的方式,一種方式是我們改善算法進行一些預處理,另外還是要從因為對於深度學習,從數量數據方面入手,需要比較來源廣泛的訓練數據,必要時可能需要使用GNN、3D模型來製作各種應用場景下的人臉數據,比如説模糊的圖像,我們可能會通過GAN來生成,有些多個角度的會通藉助3D模型,然後或者是佩戴一些口罩或者是眼鏡之類的,都需要我們這些數據僅僅靠自己人工採集的數據可能是,當然這些是必要的,但是還不足夠使用,所以要製作的數據和人工打標註的數據同時使用。

(2)台標識別

台標識別是一種很傳統的應用,在90年代以來就一直在用台標識別,這是一個看起來很簡單,但是要做的好是很難的一件事情。因為台標它不同於自然結構,它有些結構可能變化多樣,有些可能比較複雜,有些可能是大家設計的logo會比較簡單,同時它的數據量可能會比較少,還有一些半透明的或者是旋轉的台標,這樣都給台標識別造成了很大的難度。但是台標識別又是一個非常有用的應用,它可以運用在各種電視台的監管,有對境外敏感電台的監管,分級電視台的監管,還有電視台內容盜用監管等一系列內容安全方面的應用。

台標識別的流程與整體檢測的流程都是類似的,它是提取視頻幀中的台標區域,在使用特徵提取與分類算法,對提取出的台標區域進行識別,判斷出屬於哪一類台標。同樣的與高併發的人臉識別一樣,高併發的台標識別也要處理更多的挑戰,在基本的台標識別功能能夠實現的前提下,還要處理數據來源複雜的問題,以及數據管理的問題。

來源複雜與我們剛才提到的清晰度會有很大差別。尤其是網絡中傳輸的數據,它的碼流不同,就算分辨率很高,它的清晰度可能很差,這是一種非常廣泛的現象。另外還有一些數據管理問題,因為併發多路對數據ID的控制以及內存的消耗、內存的控制,而且因為台標存在動態台標,還要從視頻的角度來判斷它屬於哪種台標。另外因為台標識別它一般是結合其他應用一起作為一種綜合的應用來實現的,並不是一個部門只是在做台標識別,往往情況下我們可能將台標識別和視頻檢索等一系列或者是其他物體的識別放在一起來應用,在這種條件下留給台標識別的計算環境可能會更少,並且我們可能在單幀上面下的功夫就會少一些,來降低它的計算消耗。網絡視頻流中同一視頻數據到達接收端,從視頻的角度來處理台標識別問題的時候,需要對每一路視頻管理來進行管理,結合幀間識別統計策略,準確的説出每路視頻的台標檢測結果。

41頁PPT深入解析高通量計算在大規模視頻處理中的特點、挑戰及應用實踐「附PPT下載」

上圖是對檢台標檢測的傳統算法和深度學習算法進行效果的對比。因為台標檢測和今天檢測一樣,作為一個從90年代就開始,然後既有傳統算法長期的發展,以及深度學習算法長期發展的兩種應用。這裏介紹的是一種傳統的機器學習方法,使用HOG特徵和SVM分類算法。HOG特徵是具有一定魯棒性的邊緣特徵。SVM支持向量機在深度學習之前是機器學習算法當中,綜合性能會比較好的一種分類方式。我們這種方法是通過輪廓的快速定位,來從視頻級別來選擇台標區域,並且使用滑塊與輪廓結合的便利的方式,來識別以準確檢測台標這種方法的檢測速度和視頻偵監變化量相關,身份變化量較大,它的檢測速度會更快一些。我們這個方案對大部分視頻的測試效果都很好,已經獲得商業應用。

同時我們通過視頻數據統計來進行參數優化,避免了檢測對幀間變化的依賴。另外就是遷移學習來檢測台標,因為台標的數據不可能做到非常大,所以就需要使用到遷移學習方式,使用遷移方法來訓練分類器,來識別台標,特別是一些較高難度的台標,這個難度就是體現在視頻複雜多樣性,然後台標的間斷性出現,還有台標的動態台標等,深度學習的識別的準確率會較高。它主要是在處理一些複雜的背景下面,具有非常強的魯棒性。同時我們使用千億模型在一定程度上降低了對數據量的要求,但是與傳統方法相比較,它對數據的消耗還是要多一些的。

在傳統方法和深度學習方法當中應該如何選擇呢?傳統方法它的數據量要求較低,深度學習方法的魯棒性更好。我們選擇的時候就要根據用户能夠提供的數據量,數據量大的話可以選擇深度學習方法。是否可有可能做數據增強?如果數據本身就比較相似,做數據增強也沒有太大的意義,然後還有標誌的變換程度,變換程度,然後還有硬件的功率的要求,當然還有併發路數與其他程序軟件平台的兼容性等。

下面介紹一個更通用的檢測,以敏感設施檢測為代表,敏感設施檢測就是檢測視頻流中設施與敏感設施庫進行匹配識別,應用場景有保護軍事設施影像資料,防止涉密、涉密設施的泄密及查詢宗教信仰設施等。同時這類方法也支持于飛機、軍艦以及其他一些通用的建築物的檢測。與前面人臉識別和台標識別的區別在於一般提到敏感設施檢測,它的數據量就會更少一些,並且會更具有特色。比如飛機它可能更注重輪廓信息,而建築物可能有些時更關注它的紋理信息,這樣在深度學習訓練的時候就要有一定的特殊性。雖然是檢測問題,需要結合檢索和檢測多種方式來同時處理,因為數據是一個比較大的問題。解決方式有我們現在正在研究的一些 few-shot learning或者是online learning,也就是説在檢測過程當中同時進行在線的學習,來提高這類檢測的一些效果,這類檢測在應用過程當中是相比於人臉、車牌還有台標,它的準確率都是相對來説比較低的,但是現在也有一定的優化方式能夠讓它達到市場上應用的水平,我們也有相關的優化方法。

前面我們對識別是講的比較細的,然後下面我們就是來解釋一下,就是識別這些遇到的問題,我們應該如何處理,就在於數據的問題,常見的目標識別、車牌摩托車各種車船的檢測,交通標誌的檢測、旗幟的檢測,廣泛使用的目標識別,有開源的數據集,比如説小汽車就有非常廣泛的數據集,更多的我們提到敏感物體檢測之類的檢測,它的數據是需要開發者自己標註數據的,而一般的目標檢測方法,需要人工標註,目標矩形,這一過程往往需要耗費大量的人力和時間成本,因為它比標圖片要難多了,你標每一張圖片,可能我們現在已經有一些標註工具,但它的速度還是相對較慢。

目前有一種技術是弱監督目標檢測,這種技術是在僅僅利用圖像分類標註的數據下,學習目標檢測模擬模型僅適用於圖像級別的標註,不利用任何關於位置的信息,這樣能夠大量的節約標註成本,在標註數據相對昂貴的場景下有着重要的應用價值,還包括一些醫學的應用場景,我們是用我們針對弱監督物體識別,然後設計了基於耦合的檢測框架。

現有的弱監督的目標檢測方法的主要問題是容易收斂到目標最具區分性的局部,也就是説它可能只能檢測到顯著性區域比較大的目標。我們通過將兩個以互補方式工作的弱監督檢測分支的定位信息進行耦合,來提高檢測性能,多個檢測器的信息進行耦合,就可以避免網絡收斂到局部最優,同時召回多個檢測目標。

41頁PPT深入解析高通量計算在大規模視頻處理中的特點、挑戰及應用實踐「附PPT下載」

網絡結構圖如上圖所示,其中CMIDN是我們提出的 cascade multiple instance detection network,就是説級聯度多實例檢測網絡,網絡結構當中的ODR指的是online detector refinement,就是指的是在線檢測優化,還有SGPR指的是segmentation guided proposal removal,分割引導的建議區域移除。

在這個框架中,我們提出了利用候選框移除的方法,來讓兩個弱監督檢測分支以互補的方式工作,引入弱監督分割信息,來提高候選框移除的魯棒性。同時我們還提出一種量化弱監督檢測器不穩定性的指標,並且利用這種不穩定性來提高弱監督檢測器的性能。我們的弱監督檢測方法是也發表在了計算機視覺頂會上面,然後同時這種檢測方式運用到我們的項目當中,降低了我們標註的工作量,然後也能讓我們的每一種識別的算法能夠儘快的應用,就是用户提供少量數據的情況下,我們就可以儘快標註數據,然後儘快進行一個落地的應用。

下面説下網絡輿論上比較關注的偽造內容識別,其實偽造視頻一直都存在,比如説你找個演員扮演一下,然後就能造成一定的社會影響。在使用就是深度學習之前,偽造的視頻是比較假,然後高仿真的視頻偽造代價也比較大,人工智能流行之後偽造視頻變得容易,比如Deep Fake和Face to Face是用於生成超逼真偽造視頻的兩種技術,這種技術可能普通學生就能夠實現。那麼對於深度學習生成的偽造視頻,人的肉眼也無法識別真偽的區別,偽造視頻被用到非法渠道里面,就會對社會造成一定的危害。

對於人工智能生成的偽造視頻,就用人工智能來對抗人工智能,來檢測偽造的視頻和圖像。我們這裏使用的是Xception model能夠自動檢測偽造的人臉和圖像識別,辨別敏感人羣的視頻是否存在合成濫用到非法渠道。視頻是包括語音和圖片兩種,一般情況下我們在以前圖片和語音會單獨的處理,因為語音會產生更大的干擾,來減少對圖片這方面的干擾性。現在我們也進行多模態的研究,將圖片語音文字進行同時處理,然後這樣的精確度會比較高。當然它的計算消耗量計算量消耗也會比較大。

下面簡單説下音頻方面的一些傳統的處理方式。首先説下音頻方面,因為對應偽造視頻識別,它肯定裏面的音頻也是造假的,那麼偽裝語音就是通過某種技術手段生成和系統中已有的用户聲音特點相似語音,從而欺騙過鑑別系統。偽裝語音的生成過程也有特點獲取和特點對應的一些相應的步驟。在右邊的框架當中也顯示了我們檢測偽造語音識別的一些步驟,因為生成的偽造語音,他其實如果是誤認為是由真人發出,就會認為合成語音是合法用户的聲音,也會對系統的對整個安全性造成一定的危害。

目標識別也會包括語音檢測,有可能用户傳來一段視頻,讓你同時檢測視頻當中的物體以及對一些語音當中的關鍵詞的檢測。語音的目標識別就是根據語義進行及時地告警和管理,應用場景主要是對音頻的一些輿情分析,或者是配合視頻剪視頻當中物體的目標檢測在一起進行應用。

41頁PPT深入解析高通量計算在大規模視頻處理中的特點、挑戰及應用實踐「附PPT下載」

上面是高通量音視頻一體機基礎架構示意圖,最上面是我們剛才介紹的4類應用場景和中間應用場景,剛才也主要是從4個類別來介紹,並且對識別做了詳細介紹,就是為了展開我們在深度學習或者是人工智能在視頻處理方面遇到的一些問題,還有其他一些應用,中間使用的是編解碼加速平台和是深度學習的加速平台。硬件方面有使用到高通量服務器和音視頻加速卡,AI加速卡,還有加解密加速卡。因為網絡數據是加密的,是加密信息,在應用當中還需要使用加解密方面的加速設備,來提高整個系統的處理速度。

41頁PPT深入解析高通量計算在大規模視頻處理中的特點、挑戰及應用實踐「附PPT下載」

上圖是高通量音視頻一體機的硬件形態,對應用的支持,數據處理量,還有功率消耗體積都可以定製,體積方面1U、2U都是有的。我們致力於提供能耗比、性價比和應用效果都最佳的解決方案,上面是我們設計的,可以看到我們的音視頻解碼加速,深度學習加速,還有加密數據處理加速這些硬件設備也在很多領域都進行了非常大批量的落地應用。

版權聲明:本文源自 網絡, 於,由 楠木軒 整理發佈,共 11214 字。

轉載請註明: 41頁PPT深入解析高通量計算在大規模視頻處理中的特點、挑戰及應用實踐「附PPT下載」 - 楠木軒