近日,阿里雲天池重磅發佈“天池科研加速計劃”。該計劃將面向國內外科研人員,提供在線訓練的天池實驗室工具以及免費AI算力資源,賦能學術科研相關創新工作全面提速,加快科研成果落地進程。
作為大賽場景的重要升級,天池這一舉措將幫助TOP高校及科研院所實現在線使用阿里雲的算力資源,進一步賦能高校開展人工智能學科建設,助力學術研究和科研創新快速發展,夯實技術創新升級基礎,進一步賦能我國相關技術領域培養AI進階人才。
聚焦認知智能領域,天池首發兩大熱門課題
“天池科研加速計劃”初期聚焦於“短視頻highlight檢測”與“電商搜索相關性”兩大首發課題,圍繞當下互聯網熱門課題進行深入研究。
近幾年,短視頻內容形態快速崛起,相比傳統長視頻,短視頻更符合移動化、社交化的趨勢,用户規模迅速擴大。此次天池開展的“短視頻highlight檢測”課題正是通過對電商場景的短視頻(10s-5min)進行深度語義內容理解,結合深度學習、多模態融合分析、機器學習等手段,代替原本手動操作截取視頻的繁瑣,自動為用户截取並生成時長在5s左右的視頻highlight片段作為視頻動態封面,有效幫助用户在有限時間內全方位展現商品信息,提升用户體驗,促進點擊等關鍵業務指標。
而“電商搜索相關性”課題將更為深入的研究電商搜索引擎相關性模塊,通過人工智能算法從商品標題文本計算與查詢文本的語義相關性,判斷查詢文本和商品標題語義是否相關。一般採用深度模型,以查詢和商品標題文本作為輸入,輸出0/1的相關類別標籤或者0-1之間的相關性分數,從評估商品和查詢的語義相關性層面,提升用户使用過程中的體感。
該課題涉及計算查詢文本和商品標題文本語義匹配程度,在學術界也有類似的研究方向。但不同之處在於,除了人工標註樣本以外,通常的方案是採用搜索日誌中的點擊數據訓練相關性模型。但在電商搜索領域,用户的點擊行為受到相關性、商品價格、展現位置、用户個性化偏好等多方面因素的綜合影響,其推算過程與結果更為複雜。“電商搜索相關性”課題是一個有價值並且有挑戰的研究課題,其研究結果也將對整個電商領域的搜索推薦算法有深遠影響。
隨着短視頻、直播等各種新模式的出現,消費者對於推薦系統有着更多元化以及更高的要求,對於消費者需求的認知推理工作也就必須獲得更系統化的解決方案。正是基於此,天池在全球月活用户和流量最大的電商平台手機淘寶的推薦系統上,不斷打磨和落地第二代AI系統認知智能計算平台。
該平台主要包括三個模塊:基礎數據層、推理引擎層和用户交互層。數據基礎層專注跨領域知識圖譜的構建,打通跨域跨場景各類行為數據,全方位建模經濟體內行為,差異化理解多模態行為數據背後的含義,在意圖感知的實時性與認知深度間做平衡,層次化強化消費者理解。推理引擎層則聚焦多模態預訓練和理解,對商品理解和進行全域召回,加強手淘生態建設,利用超大規模圖神經網絡系統進行消費者意圖推理。用户交互層,則會通過用户交互的視覺智能和文本智能,通過短視頻改變和引導購後消費者心智,理解消費者意圖,助力消費者決策,同時填補目前學界和業界空白的基於用户交互的弱監督內容理解方向。
以科研加速計劃為契機,逐步上線數據集開放計劃
雲計算的逐步普及為各高校和科研院所大大降低了計算能力的成本負擔,優質數據的稀缺成為了科研機構和個人開發者在研究過程中的較大阻礙,很大程度上影響了學術研究的前瞻性與先進性。
作為一名研二海洋遙感領域研究生,越天驕在疫情期間除了上網課,還需要完成畢業論文初步研究。但目前能夠搜索到的開源數據在精度和實效性上,顯然不能滿足越天驕的研究需要。如何獲取數據成為越天驕論文完成階段的最大問題。在天池平台上活躍着大量類似越天驕這樣的學生。他們希望能夠有優質的開源數據集幫助他們論文的完成與發表。
為了更好的滿足開發者科研場景需求,天池將在未來推出三方合作的垂類數據集開放,陸續推出海洋、天文、醫療、農業、工業、交通、新零售等垂類開放入口,致力於打造業界數量和質量雙領先的AI數據集開放門户。告別過去數據滯後單一等問題,為各科研機構和AI開發者們提供海量優質數據集。通過深層次的資源共享開放,推進人工智能相關學科的建設與研發,吸引各環境中的潛在AI開發者,賦能AI領域人才培養,進一步加速我國人工智能領域相關工作向更高層次發展。
當然,優質的數據集離不開大量用户共同參與內容生成共享。未來,天池還將聯合數據合作方發佈數據集創新大賽、數據集長期英雄榜等活動,通過一系列賽事活動,號召全球AI領域人才關注加入,豐富數據集的數據多樣性與準確性,同時為各開發團隊提供數據助力,在更廣範圍內形成人工智能領域的共贏生態效應。