楠木軒

【專利解密】字節跳動如何使用深度學習處理視頻?

由 卯秀珍 發佈於 科技

【嘉德點評】字節跳動發明的視頻處理方法,通過深度學習模型準確分割目標視頻中的每個目標視頻幀圖像中的屬於字符區域的目標像素點,從而精確得到每個目標視頻幀圖像中屬於字符區域的佔比,進而就能根據該目標視頻中的所有目標視頻幀圖像中屬於字符區域的比例來確定該目標視頻是否為文字類視頻。

集微網消息,目前在很多行業中,例如廣告行業,會有控制視頻類廣告中的字符與圖像的比例的要求,目的是為了滿足客户要求或者為了追求廣告效果,為了達到不同的廣告效果。

這種場景會需要將字符在視頻類廣告中的佔比進行不同的控制,例如,通常會要求視頻類廣告中的字符內容的佔比要低於圖像內容的佔比,也可能會要求視頻類廣告中的字符內容的佔比大於圖像內容的佔比等。

目前在對視頻類廣告中字符內容與圖像內容的比例進行判斷時,通常還是會根據人工的主觀判斷來對視頻類廣告中的字符佔比進行判斷,在這樣的情況下,判斷同一個視頻類廣告中的字符佔比是否滿足預定的條件時的判斷結果通常會根據不同的人的主觀感覺的不同而不同,無法達到對視頻類廣告中的字符內容的佔比與圖像內容的佔比之間關係的精確判斷。

因此,為了解決如何通過對視頻內容的處理來精確地確定視頻中字符內容與圖像內容之間的佔比關係,字節跳動在19年9月3日申請了一項名為“視頻處理方法、裝置、介質和設備”的發明專利(申請號:201910829463.1),申請人為北京字節跳動網絡技術有限公司。

根據目前該專利公開的資料,讓我們一起來看看這項視頻處理方法吧。

如上圖所示為視頻處理方法的流程圖,首先,獲取目標視頻中的目標視頻幀圖像,目標視頻即為需要根據字符面積佔比來進行處理的視頻文件,可以是視頻類廣告,也可以為短視頻平台上傳的各類短視頻或者電影等長視頻。

目標視頻幀圖像為目標視頻中的所有視頻幀或者一部分具有代表性的視頻幀,即根據預設的提取方法所得到的關鍵幀,例如在目標視頻中的每一秒內選取第一幀作為該秒的關鍵幀等。實際應用時可以根據實際情況來確定目標視頻幀圖像,例如,當目標視頻的時長過長時,可以將關鍵幀作為目標視頻幀圖像,以加速視頻的處理。

其次,將目標視頻幀圖像輸入預設深度學習模型中,以確定目標視頻幀圖像中屬於字符區域的目標像素點。在確定該目標視頻幀圖像之後,利用已預先訓練好的預設深度學習模型來對每一張目標視頻幀圖像進行處理,以確定每一張目標視頻幀圖像中屬於字符區域的目標像素點。

最後,根據目標視頻幀圖像的目標像素點在目標視頻幀圖像的所有像素點中的佔比,確定目標視頻是否為文字類視頻。例如,若目標視頻幀圖像中一共有50萬像素點,其中目標像素點共有20萬像素,則進而就可以根據該佔比來確定目標視頻是否為文字類視頻。

這樣,無需再通過人工判斷的方式對目標視頻中的字符內容的佔比多少進行判斷,利用這種通過對視頻中字符內容佔比精確識別從而對視頻進行分類的視頻處理方式,大大提高了對視頻處理的精確性。

如上圖所示為視頻處理方法中確定目標視頻幀圖像中屬於字符區域的目標像素點的方法的流程圖,首先,確定目標視頻幀圖像中每個像素點屬於字符區域的概率,其次再將目標視頻幀圖像中屬於字符區域的概率大於第一預設閾值的像素點確定為目標像素點。

例如第一預設閾值可以為60%,當確定目標視頻幀圖像中的某一個像素點屬於字符區域的概率大於60%時,則確定該像素點為目標像素點,即將該像素點確定為屬於字符區域的像素點。

當確定該目標視頻幀圖像中的某一個像素點屬於字符區域的概率小於60%時,則將該像素點確定為不屬於字符區域的像素點。

如上圖為視頻處理裝置的結構框圖,該裝置包括:獲取模塊10,用於獲取目標視頻中的目標視頻幀圖像;第一確定模塊20,用於將目標視頻幀圖像輸入預設深度學習模型中,以確定目標視頻幀圖像中屬於字符區域的目標像素點;第二確定模塊30,根據目標視頻幀圖像的目標像素點在目標視頻幀圖像的所有像素點中的佔比,確定目標視頻幀圖像是否為文字類視頻。

以上就是字節跳動發明的視頻處理方法,通過深度學習模型準確分割目標視頻中的每個目標視頻幀圖像中的屬於字符區域的目標像素點,從而精確得到每個目標視頻幀圖像中屬於字符區域的佔比,進而就能根據該目標視頻中的所有目標視頻幀圖像中屬於字符區域的比例來確定該目標視頻是否為文字類視頻。無需再通過人工判斷的方式對目標視頻中的字符內容的佔比多少進行判斷,大大提高了對視頻處理的精確性!

關於嘉德

深圳市嘉德知識產權服務有限公司由曾在華為等世界500強企業工作多年的知識產權專家、律師、專利代理人組成,熟悉中歐美知識產權法律理論和實務,在全球知識產權申請、佈局、訴訟、許可談判、交易、運營、標準專利協同創造、專利池建設、展會知識產權、跨境電商知識產權、知識產權海關保護等方面擁有豐富的經驗。