楠木軒

AI能讓視頻更智能嗎?

由 戚國慶 發佈於 科技

編輯導語:2016年,AI被人們所熟知並且快速發展,同時短視頻也慢慢進入了人們的視野,AI與視頻相結合已經不是新鮮事。在視頻製作的每一個階段,都有AI的參與。目前的AI+視頻雖然已經有了不錯的業績,但是仍有不少可以優化改進的地方,我們看到的只是AI應用在視頻行業的冰山一角,背後仍有不少關鍵地帶待我們去發掘和探險。

2016年,AlphaGo打敗世界圍棋冠軍李世石,將強化學習送上了新的研究高潮,同時也推動着人工智能(Artificial Intelligence, AI)進入新的發展階段——不少人也因此稱2016年為人工智能元年。

同樣在2016年,短視頻行業興起,抖音快手巨頭領跑,各大廠商積極佈局,硬生生將我們送入一個全民視頻的時代。

如今四年過去了,兩個行業在經過了各自的火爆、泡沫、與沉澱之後,進入了新的發展時期。無論是人工智能,抑或是長短視頻,不少人稱這兩個行業均已進入了各自的下半場。

圖 人工智能和視頻行業的下半場

“下半場”這個詞總讓人產生一種危機感,彷彿這個行業已經日薄西山,窮途末路。然而在我看來,下半場反倒是推動一個行業前進的關鍵時期。

所謂上半場的紅利,下半場的能力,經過了上半場的大浪淘沙,少了些盲從與抄襲、多了些沉澱與堅守的下半場很有可能會為整個行業帶來新的探索與提升。

當AI和視頻這兩個被雙雙認為進入下半場的行業碰撞在一起時,又產生了、或即將又會產生什麼新的火花呢?

一、視頻生命週期與AI概述1. 視頻生命週期

一個視頻,從無到有到被觀眾看到,大概會經過視頻採集、生產製作、分發播放與被用户體驗四個階段。

視頻行業發展至今,從PGC到UGC到日益增多的PUGC,越來越多的大眾參與到了視頻的拍攝製作與播放觀看當中。在這個過程中,視頻生命週期的每一個階段也發生了相應的變化。

在視頻採集階段,得益於手機相機性能的提升,越來越多的人開始用手機來記錄拍攝生活。

專業的攝像機、錄像機等設備固然能拍攝出畫質更好的視頻,然而對於大多數人來説,手機所拍攝出的畫面質量足以滿足他們的要求,再加上手機雲台、無人機等消費級設備的出現,彷佛人人都有成為自媒體生產者的可能性。

所謂三分拍七分剪,拍攝完畢後的視頻剪輯製作也是關鍵的一步。

然而傳統的視頻製作過程往往較為繁瑣,一個高質量視頻的製作,往往需要在如PS、PR、AE等諸多重量級視頻編輯軟件間反覆切換,視頻的修剪、調色、配音和渲染更是要花費大量時間。

而如今幾乎每個人的手機裏都有系統自帶的視頻編輯工具,特效、濾鏡、美顏等功能也成了幾乎所有短視頻APP的標配,手機上的各種第三方輕量級視頻剪輯APP更是能讓一個從未做過視頻的小白快速製作出屬於自己的作品。

可以發現,視頻的採集與生成階段都伴隨着從專業人員到大眾普適參與的轉變。而相較於視頻的採集和製作,視頻分發播放的改變則更為劇烈。

十幾年前,我們觀看視頻的方式多是守在電視機前,被動地接受各大電視台制定好的節目單。

時至今日,網絡視頻已經成為中國人最主要的休閒娛樂方式,優愛騰芒同題競爭,抖快B站超車入局,人人可以在手機等移動設備上看到自己喜愛的內容。

用户體驗在互聯網領域備受關注,早期的電視視頻時期,我們只能進行單向觀看。如今,在各大網絡視頻平台上,我們可以進行評論、點贊、彈幕等等一系列互動操作,網絡視頻平台的熱烈反響更是一度讓傳統衞視感受到了危機。

可以看到,整個視頻生命週期的變化,是一個生產者逐漸變多、觀看者越發積極、以及雙方的交流互動越發充分的過程。

2. AI簡述

人工智能是一個非常廣泛的領域。藉助於計算機運算能力的提升和數據存儲容量的增大,人工智能在幾年前掀起了新的討論及研究熱潮。

我們聽到的幾乎所有跟“學習”有關的,如有無半監督、強化、機器、深度學習等,均是人工智能領域下的分支,而諸如CV、NLP、RS、OCR等諸多方向更是讓AI小白眼花繚亂。

我們暫不討論它們的關係如何,算法又是怎樣。有時從應用場景的角度來看AI,往往能讓AI多一點地氣,少一點高深。

視頻行業中可能會用到的AI技術,大致包含圖像、聲音、文本處理及大數據分析等幾個方向:

  1. 在視頻採集階段:主體識別與跟隨拍攝、AI防抖等功能均得益於圖像識別及處理技術的發展。
  2. 製作階段:內容及語音識別促進了AI剪輯、智能字幕、實時翻譯等應用的逐漸出現。
  3. 分發播放階段:內容識別等技術協助視頻審核、分類與編目;基於用户、客户、視頻等海量數據的分析更是促進了推薦系統的誕生。
  4. 體驗階段:視頻內容、主體識別等技術催生了如彈幕防擋、實時視頻人物識別等一系列應用。

人工智能下半場,AI勢必會加速向各個行業的融入。視頻行業的下半場,大概也是如此。而AI+視頻,兩個積累了數年沉澱的行業,很有可能會碰撞出新的火花。

過去是未來最好的預言家,AI+視頻的未來究竟會怎樣?我們不妨看一看AI+視頻的過去。

二、AI如何幫助視頻變智能1. 視頻採集

視頻採集階段,AI主要用來協助提升視頻拍攝質量、提高視頻拍攝效率。

案例1:愛豆直拍

2020年初,《青春有你2》和《創造營3》相繼播出,讓“愛豆直拍”火了一把。

所謂直拍,指的是男女團表演的時候單獨只拍攝某一個人的全程表演。在青你和創3的女團選秀中,就需要十幾乃至幾十台攝像機同時對準藝人進行拍攝。

圖 創造營3徐藝洋直拍

有消息稱,創3的直拍方式是系統自動識別舞台上的藝人人臉,然後機器自動跟蹤人體軌跡進行拍攝。這種拍攝方式在實際中使用的比例有多大,我們暫且未知,但這的確是一個AI輔助視頻拍攝的絕佳應用場景。

通過人臉識別利用機器自動跟蹤拍攝,從而解放大量攝影師的雙手,極大地降低了人力成本。然而,同樣有不少粉絲髮現直拍有藝人跟丟的情況,若非攝影師開小差,那就是這項技術仍有不少的提升空間。

案例2:拍攝防抖

不少人在利用手機進行視頻拍攝時都會遇到拍攝抖動的問題,而手抖可以説是手機拍攝視頻時最常見的”敵人”。想要拍出高質量的視頻,防抖是亟需解決的關鍵問題之一。

圖 OPPO的視頻超級防抖

站在短視頻的風口浪尖,各大手機廠商也開始在防抖上紛紛發力。

OPPO的視頻防抖3.0,VIVO的微雲台,魅族的全場景視頻防抖,華為的EIS智能防抖,無不顯示出各大手機廠商對於視頻防抖的巨大關注。

視頻防抖算法的背後,是大量的圖像採集、分析及處理的過程,或許AI技術的發展為視頻拍攝的防抖做出了巨大的貢獻。

案例3:無人機跟隨拍攝

自動跟蹤模式多年來一直是航拍無人機的標準功能:通過識別鏡頭畫面中的主體,自動跟蹤人物、車輛等進行拍攝。同時,通過攝像頭、傳感器等設備瞭解周圍環境,進行拍攝過程中的自動避障。

圖 大疆無人機的跟隨拍攝功能

無人機的跟隨拍攝,集視頻主體識別、跟蹤拍攝和視頻防抖等多種技術於一體,讓無人機可以捕捉到如電影般的自動跟蹤畫面。

儘管這項功能相對比較常見,但是由於實際拍攝場景的複雜,跟蹤拍攝的效果有時會不如人意。跟蹤丟失、避障失敗成了不少炸機黨永遠的痛。而未來AI等技術的發展,很有可能會促進這些問題的逐漸解決。

2. 生產製作

視頻生產階段,AI主要用來協助減小人力負擔,提高視頻製作效率。

案例1:視頻濾鏡

愛美之心,人皆有之,每個人都願意向世界展示自己美麗的一面。

不知何時起,美顏彷佛成為了一個剛需。不論是各大短視頻軟件,抑或是廣大視頻直播平台,甚至疫情期間上線的各大視頻會議軟件,都上線了美顏功能。

圖 釘釘視頻會議美顏功能

美顏、瘦臉、貼紙、濾鏡是圖像識別及處理技術在視頻領域常見的應用。至於未來的美顏會是怎樣,當看慣了磨皮與瘦臉之後,或許自然又健康的美顏處理,會是另一個發展方向。

案例2:AI剪輯

AI在識別圖像內容與提供標籤這些方面已經獲得的成效,已經可以幫助用户以前所未有的速度與效率剪輯視頻。

AI基於圖像識別,可以從各個渠道搜索並提取切分出包含特定關鍵詞內容的視頻片段,彙總在一起,從而節省人來搜索和切分素材的時間。

圖 阿里雲利用AI快速生成2018世界盃精彩集錦

目前的AI剪輯可以識別出視頻畫面中的對象,比如這段視頻中有某個明星,那段視頻裏某幾秒種有長城的鏡頭;可以將人物出現的時間線連接起來,自動生成人物集錦;可以識別經典的體育賽事瞬間,進行前期的素材整理工作。

在理解了視頻內容之後,就可以利用AI學習剪輯規則去組接視頻。在大型視頻拍攝場景中,如何從幾十台機位中找到最終剪輯需要的鏡頭,又該如何將這些鏡頭以合適的方式拼接起來,還需要未來AI技術的不斷髮展和探索應用。

案例3:字幕製作

字幕製作是視頻編輯領域的另一大關鍵步驟,傳統字幕製作耗時耗力,需要進行語音轉文字、時間軸校對、甚至多語言場景下的翻譯等一系列工作。

利用AI技術,可以實現自動語音轉文本、文本的多語種翻譯等工作。這項技術除了可以應用於離線視頻之外,也可以運用於會議直播的實時字幕及翻譯。

AI技術的發展,甚至一度危機到字幕組的生存。從技術原理上來講,AI取代人工進行視頻翻譯,合情合理。而這種邏輯僅僅在理論上行得通,但在實際應用時還有諸多問題。

圖 Youtube視頻翻譯

視頻的翻譯,應該是結合了語境理解、文化理解以及對內容熟稔之後的綜合工作。

而在不少情況下,純粹的機器翻譯結果,往往漏洞百出,很多雙關、暗示之類的內容無法翻譯出來,而這或許將成為未來AI翻譯發展的一個方向。

3. 分發播放

視頻分發播放階段,AI主要用來提高視頻資源管理效率,減小人力成本,提升用户體驗。

案例1:視頻審核

無論是優愛騰芒,抑或是抖快B站,乃至微信公眾平台中,視頻的審核是視頻被觀眾看到前的最後一步。

目前大部分視頻公司都是採取技術+人工的審核模式,技術的審核可以清除大部分明顯違規的內容,而剩下的模糊內容則留給人工進行審核。

據網易易盾稱,其內容安全服務智能識別精準率超過99.8%,能提供黃政暴恐廣告等數十大類上千小類的有害內容智能識別過濾服務。

阿里雲、騰訊雲、百度雲等也都有自己的智能審核引擎。

圖 騰訊雲官網的智能鑑黃

AI雖然不能完全替代審核師,卻能幫助審核人員減少超99%的工作量。

但AI幫助審核人員的,可不僅如此。一些視頻中會出現一些超出大家想象的高清無碼變態圖,比如亂倫、變性、虐殺等。它們帶來的視覺衝擊力非常大,讓人猶如身臨其境,造成心理崩潰,甚至懷疑人生。

AI帶來的不僅僅是視頻審核工作量的降低,更是一個過濾後乾淨美好的世界。

案例2:視頻編目分類

我們之所以能夠根據自己不同興趣的組合搜索到需要的視頻,是因為有一羣看不見的英雄每日瀏覽無數視頻內容且對它們進行分類和標記,而AI的出現也大大減小TA們的工作量。

此前Pornhub曾宣佈,其推出的新AI 模型可以利用計算機視覺技術檢測和識別成人明星的名字,自動生成相應標籤和分類。

圖 Pornhub利用AI進行視頻的打標籤與分類

阿里雲也稱,其可以利用AI技術進行視頻自動分類打標、人物識別、語音和OCR識別等工作,自動生成源數據信息,進入媒資庫,並結合NLP、分詞、語義分析、詞性過濾等場景,進入到後續的搜索和推薦的領域。

智能編目的方案組合,可以快速生成最基礎的源數據,極大提升了創作和生產效率,節省了內容和人力成本。

案例3:推薦系統

推薦系統(RS)是AI領域的熱門方向之一,視頻領域的推薦主要包含視頻推薦和廣告推薦兩大類。

為什麼抖音那麼容易上癮?為什麼百度從起初的只做搜索到如今的“搜索+信息流”雙引擎?為什麼各大視頻、音樂、新聞應用中都有了一欄叫做“推薦”的區域?

圖 筆者之前對Youtube推薦系統的一份調研

所謂推薦,其實就是將合適的內容在合適的場景下以合適的方式送達到合適的人手中。視頻推薦系統作為AI領域較為成熟的應用,如今已經為字節系等不少廠商帶來了豐厚的收益。

可以預測,未來的推薦系統仍會繼續發展。如何為用户推薦更加多樣化、更加有價值的內容,避免用户走進信息繭房,可能是未來亟需解決的問題。

4. 用户體驗

用户體驗的好壞是一款產品能否成功的關鍵因素之一,視頻領域更是如此。視頻的用户體驗,大致可以從三個方面來看:觀看體驗、交互體驗和視頻源質量。

案例1:彈幕防擋

如今,彈幕已成為觀看視頻中不可缺少的元素之一。

特別是當視頻網站全面開啓彈幕模式之後,越來越多的網友可以邊看劇邊實時發表評論,劇透、點評、爭論甚至聊天。甚至在直播中,也有大量的彈幕。

彈幕,成了一種文化現象。它形成了新的“抱團”觀看模式,也真正實現了無時空距離的社交。

熱鬧歸熱鬧,彈幕炸屏確實影響了不少用户的觀看體驗,堆滿整個屏幕的彈幕着實讓人是不知該看視頻還是該看彈幕。

圖 B站《海賊王》的炸屏彈幕

慶幸的是,不少視頻平台也上線了彈幕屏蔽、防擋彈幕等功能。

B站通過對視頻畫面中的主體進行識別,自動隱藏視頻主體區域的彈幕,既不影響視頻的觀看體驗,又保障廣大網友之間互動的樂趣。

圖 B站防擋彈幕,人物主體部分未被遮擋

但據筆者體驗,該項技術目前的識別準確度還有待提升,特別是在畫面突然進行切換時會出現彈幕防擋失效的現象,期待未來B站及其他視頻廠商在此方向上的的改進探索與發展。

案例2:智能彈幕

彈幕文化的盛行,逐漸讓視頻平台看到了新的機會。彈幕不僅僅再是網友們用來交流的途徑,更成了視頻平台的一種營銷及商業變現手段。

利用輿情監測系統識別彈幕中的關鍵詞,捕捉廣大用户的興趣點,從而篩選出備受觀眾歡迎的彈幕詞條內容併發送,可以達到非常好的營銷效果。

除此之外,智能彈幕更是可以放出和視頻場景高度相關的廣告彈幕,幫助廣告主創造出既符合用户體驗、又打動消費者的營銷體驗。

圖 愛奇藝999感冒靈的彈幕上牆廣告

2020年在愛奇藝上播出的電視《幸福觸手可及》中,999感冒靈作為劇中彈幕上牆廣告的首次合作客户,憑藉着貼合年輕用户的彈幕語境和發彈幕贏百元現金的創新互動進入了大眾視野,成功塑造起了在年輕用户圈層中的活力品牌形象。

圖 愛奇藝《幸福觸手可及》中999感冒靈的彈幕上牆廣告

彈幕,不僅僅是網友間交流互動的方式,更成了集輿論引導、商業變現為一體的新營銷方式。彈幕文化做一種從年輕人中逐漸興起的新興文化,頗有成為新的“社交工具”的趨勢。

未來的彈幕,是否會更加社交化?是否能營造出更多話題?又是否能更加促進商業變現?讓我們拭目以待。

案例3:視頻內容識別/交互式視頻

不知各位有無這樣的體驗:

  • 初看一部新劇,特別是美/英劇時,往往會記不住大多數人的臉;
  • 有時候覺得視頻中某個角色很眼熟,但總是想不起TA演過什麼角色;
  • 初看一個男女團選秀節目,一時間難以記住一大批藝人的信息;
  • 視頻中出現的某一件衣服/某一款產品很想要,但卻不知道該如何獲取它們的購買鏈接……

視頻播放時,讓用户通過點擊、框選等各種操作獲取視頻畫面中的特定內容,從而通過內容識別技術給出用户需要的附加信息,在一定程度上可以幫助這些問題的解決。

伴隨着2020《青春有你2》的播出,愛奇藝上線的“奇觀”應用為用户提供了一鍵解鎖“她是誰”的互動新方式,用户通過奇觀就能夠邊看邊瞭解訓練生的基本信息、相關作品。

圖 愛奇藝奇觀

未來是否會出現更多類似的產品呢?

答案是肯定的。

我在上篇文章中説到,交互性很有可能會是未來信息傳播形式的一個關鍵特點。通過播放頁面上的交互操作,讓用户可以不經應用的跳轉,直接在視頻播放界面上獲取到其想了解的關鍵信息,從而極大提高信息傳達獲取的效率。

三、未來的AI+視頻

視頻的採集製作分發播放,是一條較為完整的產業鏈,而AI更像是一個幫助解決問題的強有力工具。AI只是手段,並非目的,AI+視頻的關鍵,在於如何發現、並利用AI去解決視頻行業中的難題。

未來的AI+視頻,會在提高視頻生產製作效率、規避監管風險、解放人力、降低成本、提升用户視頻體驗等各個方面進行新的優化。

可以看到,當前的AI+視頻仍有不少可以優化改進的地方。我們僅僅看到了AI在視頻行業落地的冰山一角,它的背後,仍有不少關鍵地帶等待我們去發掘和探險:

  • 視頻拍攝的防抖算法已經足夠優秀了嗎?
  • 無人機的跟隨拍攝能做到決不跟丟嗎?
  • 視頻拍攝時能給出實時的取景和構圖建議嗎?
  • AI剪輯能做出面向普適大眾的消費級產品嗎?
  • 視頻編輯時可以自動聯網搜索出匹配畫面的聲音庫?
  • 視頻審核、分類的準確率可以進一步提升嗎?
  • 推薦系統能讓用户走出信息繭房嗎?
  • 彈幕可以少一些打擾,多一些科普及有意義的信息嗎?
  • 交互式視頻未來可以做的更加易用好用嗎?

種種問題,都在等待着未來的探索與解決。期待未來的AI與視頻,能夠雙雙攜手,邁上新的台階。

本文由 @FergusNie 原創發佈於人人都是產品經理,未經許可,禁止轉載

題圖來自 Unsplash,基於 CC0 協議