楠木軒

WAIC 開發者日Daniel Povey:在中國,打造新一代的「Kaldi」

由 習國防 發佈於 科技

機器之心發佈

參與:蛋醬

Daniel Povey 來到中國半年多了,微博中最常出現的地點是小米科技園。在簽下 offer 之前,他曾表示計劃在中國打造新一代的「Kaldi」。

Daniel Povey 這個名字為人們所熟知,前前後後大概因為三件事。

一是語音識別開源工具 Kaldi 之父的身份;

二是對約翰霍普金斯大學內的學生抗議提出抗議,之後乾脆離開學界並怒辭 Facebook;

三是漂洋過海來到中國,加入小米,同時被記住的還有他那雙一年四季都在穿的涼拖鞋。

語音識別領域的天才

Daniel Povey 是語音界赫赫有名的人物,他從 1999 年起陸續發表關於語音識別和處理方面的研究成果,迄今為止被引用次數接近 25000 次。

2003 年,Daniel Povey 從英國劍橋大學拿到了語音識別方向的博士學位,此後近十年間,他一直在工業界做語音方面的研究,先後加入了 IBM 研究院和微軟研究院。

在 IBM 研究院的時候,Daniel Povey 推出了特徵空間的判別訓練方法,這一方法已成為當前語音識別領域 SOTA 系統的標配。

他還設計了「子空間高斯混合模型框架」,這是一種後來被廣泛應用的建模技術,原理是通過類似説話者識別中的子空間思想來增強高斯混合模型框架。

但 Daniel Povey 最著名的研究是「Kaldi」。2008 年,Daniel Povey 進入微軟研究院,次年開始主導這款語音識別工具包的搭建工作。Kaldi 集成了多種語音識別的模型,包括隱馬爾可夫和最新的深度學習神經網絡,在語音識別方面有着不可撼動的地位。

2011 年,Daniel Povey 和他的團隊在一篇論文中向大家介紹了 Kaldi,並公開了所有代碼。而 Daniel Povey 不僅是 Kaldi 的主要開發者,也是該論文的第一作者,後來也被稱為「Kaldi 之父」。

實際上,Kaldi 的工作最初也是在 2009 年約翰霍普金斯大學的一場 workshop 上啓動的。後來,Daniel Povey 從工業界退出,在 2012 年進入約翰霍普金斯大學擔任助理教授。

這篇關於 Kaldi 的論文引用次數現在已經達到了 3000 多次,在 GitHub 上的項目 Star 量也已經超過了 8k。在這九年裏,Daniel Povey 一直是 Kaldi 主要開發和維護者。

漂洋過海,加入小米

但由於捲入去年的一場校園抗議事件,Daniel Povey 的研究生涯發生了意外轉折。

2019 年 4 月,約翰霍普金斯大學校內出現了抗議事件,學生們佔領了學校的行政大樓。不幸的是,CLSP(語音語言處理中心)的機房就處在被佔領的樓中。因為缺乏維護,機器和數據都面臨着被損壞的風險。為了保護機器和數據,Daniel Povey 在 5 月 8 日夜晚試圖用斷線鉗絞開封鎖大樓的鐵鏈,從學生手中奪回機房,但未能成功。

之後 Daniel Povey 就離開了約翰霍普金斯大學,又因為 Facebook 的「六星期審查事件」直接拒絕了 offer。在一系列事件後,他決定來到中國。

「如果任何人想知道後續的話,我的計劃是去一家中國公司任職,並可能在中國高校找一份兼職工作。」

與幾家中國公司見過面之後,Daniel Povey 最終選擇了小米。

北京時間 2019 年 11 月 18 日,Daniel Povey 在 Twitter 上宣佈,他將很快與小米簽訂一項工作協議,工作地點位於北京,所以自己也會在 2019 年底或者之前搬去北京。在小米的工作內容是打造新一代的「Kaldi」。

隨後,小米的幾位聯合創始人也都在微博確認了這一消息。很快,Daniel Povey 就以小米集團語音首席科學家的身份出席了 2019 小米開發者大會。

來到中國後,他也擁有了自己的微博賬號:

工作之餘,他也會在微博分享在中國的新生活:

拍下這張照片的理由是:「我感覺自己穿這件襯衫的時候,看起來很像大佬的心腹。」

如果足夠關注 Daniel Povey 的動態,還會發現他幾乎每天穿着同一雙「涼拖鞋」,即使在冬季下雪的日子也是如此。(當然,也許是買了很多雙同款)

打造新一代的「Kaldi」

對於熟悉 Daniel Povey 的人來説,他的確是個有些「古怪」的人,與此同時又不得不承認,他是既有天分又足夠勤奮的那種人。

在離開美國的半年裏,Daniel Povey 筆耕不輟。大約在近半年的時間裏,他的谷歌學術主頁就更新了 7 篇論文。

在最近上傳的一篇論文中,他和約翰霍普金斯大學的研究人員共同提出了 PyChain。對於 Kaldi 自動語音識別(automatic speech recognition, ASR)工具包中鏈式模型的端到端無網格最大交互信息(lattice-free maximum mutual information, LF-MMI)訓練,PyChain 可以實現完全並行化 PyTorch 實現。

此外,打造新一代的「Kaldi」也是他來到中國的初心。

在不久之後的 2020 年世界人工智能大會雲端峯會開發者日專場,Daniel Povey 也會親自分享他在語音識別領域的最新思考。

世界人工智能大會雲端峯會開發者日(以下簡稱為 WAIC 開發者日)作為 WAIC 雲端峯會主題論壇及特色活動,是 WAIC 期間唯一面向 AI 開發者的專業活動,旨在打造人工智能領域年度最高規格、最專業、最具影響力的開發者盛會。

WAIC 開發者日將在 7 月 9 日 - 11 日舉辦 1 場主論壇、多場分論壇、及高峯對話、黑客松等活動,呈現人工智能技術分享盛宴。期間也將進行上海白玉蘭開源開放研究院揭牌,發佈《人工智能開源開放報告》、WAIC 人工智能青年技術人才獎。

Daniel Povey 本次將要分享的主題是 《可差分的有限狀態機在語音識別及其他序列問題中的應用(Differentiable Finite State Acceptor (FSA) Operations for Speech Recognition and other Sequence Problems)》,同時參會分享還有多位重磅嘉賓,包括 2017 年圖靈獎得主、計算機體系結構宗師 David Patterson,2007 年圖靈獎得主、歐洲科學院院士、法國科學院院士、美國文理科學院院士、美國國家工程院院士 Joseph Sifakis,悉尼大學教授、優必選 AI 首席科學家陶大程,百度集團副總裁、深度學習技術及應用國家工程實驗室副主任吳甜,多倫多大學助理教授 David Duvenaud,Julia 語言創始人之一 Viral B. Shah 等。