對話出門問問 CTO:在中國做個技術公司,你要面對哪些現實
出門問問「翻滾跳躍」的 8 年背後,特別真實地寫下了,在中國做一家影響世界的技術公司,就要真的相信技術,不能怕「自虐」和「腳上沾泥」。
用前沿科技推動新時代的到來,往往是先爆發於 B 端,看似潤物細無聲。背後的技術型公司,通常也不像 To C 的互聯網公司,那麼快速地被用户記住。
他脱胎於硅谷科技,深受巨頭青睞,卻因一心要推動人機交互的新時代,在過去八年把頭埋得越來越深。
他在 C 端保有一定的知名度,卻被誤以為是家智能可穿戴公司。實際上,大眾鮮少看到的 B 面,才是這家技術型公司的真面貌。
你可以説他出道即巔峯,也甚至説他沒有存在感。可越來越多的人變為他的用户。在中國,新車佔比四分之一的大眾汽車集團,搭載着他的車載語音交互系統;在新浪新聞 App,AI 虛擬主播每天為用户語音播報當日時訊,背後的技術也是來自於他;疫情期間,你接到的防控登記電話可能是他旗下的語音機器人打來的。
客觀來看,中國真正的技術型公司並不多,因為從商業變現的簡單程度上看,做技術的比不上做產品的,做產品比不過做用户的,而做用户的比不過做流量的。
作為中國的科技獨角獸企業之一,技術型創業公司「出門問問」區別於搭上安防浪潮的那些機器視覺 AI 公司,用某種技術去切入一個具體的市場。他要做的事情,不是一種簡單的工具替代,而是親自去定義下一代人機交互。
正是這樣的宏大願景,讓出門問問在過去 8 年,看起來總是在不同領域翻滾跳躍,同時也做到了產品和技術的全球落地。產品類型從 ToC 的可穿戴到 ToB 的車載,不再聚焦於某一個具體行業和產品形態上,成為技術公司中,少有的兼具品牌、電商、銷售、toB 解決方案能力於一身的創業公司。因此也顯得挺另類。
顯然,真正用技術推動一種普適性的改變,挑戰必定是全方位的。不過,當出門問問每一代產品置於交互場景之中,沉澱下來的不只有技術,還有在 2B 領域的商業落地。
最近,極客公園和出門問問 CTO 雷欣進行了一次深度的交流。雷欣這個硬核技術派,講述了很多關於「在中國做技術公司」真實的思考,在這裏分享給大家。以下是極客公園對話 CTO 的訪談內容:
出門問問 CTO 雷欣|企業供圖
車載是出門問問在 To B 領域開闢的第一個落地場景。從今年開始,出門問問的車載語音交互系統已在奧迪 A4L、新邁騰、帕薩特、捷達等多個全新車型應用,預計今年內總共裝載 100 萬輛車。
看到了智慧出行的趨勢後,出門問問在 2016 年開始探索的新業務線,起始於一款帶有語音交互功能的智能車載後視鏡——「問問魔鏡」。
彼時,大眾汽車集團正好也在謀求從傳統的車輛製造商,向車聯網和自動駕駛方面轉型。當他們看到「問問魔鏡」背後可信賴的語音交互技術,最終向出門問問出資 1.8 億美元,並促成了更深度的戰略合作——車載語音合資企業大眾問問的成立。
至此,出門問問完成了 D 輪融資,估值超過了 10 億美金,躋身中國的科技獨角獸企業。團隊投入 100 多人花了近三年的時間,打磨出一套車載語音解決方案,達到了車規級極高的語音交互標準和安全要求。
實際上,出門問問的成長道路不乏巨頭的關注和支持。2015 年,Google 希望把可穿戴引入到中國市場,推廣其可穿戴操作系統 Android Wear。恰好出門問問當時已經針對 Moto 360 這樣的智能手錶開發了 TicWear 操作系統,為 Google Glass、Android Wear 推出了本土化的語音搜索交互應用。
極客公園:車載是你們轉向 2B 領域的第一條賽道,為什麼能跟大眾牽手,還獲得了 1.8 億美元的 D 輪融資?
雷欣:智能車載被公認為是語音交互重要的落地場景之一。我們當時認為,當汽車朝智能化的方向發展,語音交互肯定是構建車輛智能閉環的重要一部分。你可以看到,出門問問一直是把技術置於場景之中的,因為只有在大場景下推動新交互從初生走向成熟,我們才能在其中成為下一代交互的主要推動者。
出門問問的車載語音交互系統已經在眾多中國市場的主力車型中落地|企業供圖
極客公園:做車載語音交互系統,挑戰大不大?
雷欣:挑戰特別大。我們最開始做車載項目,不僅需要從頭做起,而且初期投入遠大於項目營收。
同時在工程上,我們要為大眾汽車集團做深度定製化的解決方案,這也跟行業中已有的標準化產品很不相同。
但這是下一代交互的典型場景,你如果不參與進去,就不會理解其中的 Knowhow,等你真的實現了技術和場景的匹配落地之後,後續項目投入產出比的效率模型也就越來越好了。
極客公園:你們做車載語音系統的路徑有什麼獨特之處嗎?
雷欣:我們的團隊性格一直是不怕「自虐」,這樣才能真正用產品來提升技術和場景的匹配,達到預定的性能指標。整個過程我們幹滿了三年,最終也實現了車載語音交互技術能力的行業領先。
極客公園:智能後視鏡的項目現在好像已經不做了,所以獲得了大眾的投資是不是唯一的意義?
雷欣:當然不是。其實車載交互這件事,冷啓動是最難的。大家都知道出門問問的 TicWatch 智能手錶,但車載系統不能按手錶的思路去做,因為手錶是 2C 的產品,是一個大閉環,很容易做到標準化,但車載還需要跟車企緊密合作,具體的車型對應到技術參數都有不同的要求,所以這給我們的技術和落地的複雜性帶來了巨大考驗。我們做後裝的智能後視鏡,是在車載語音交互上的技術及數據積累,是做好車載前裝的有益沉澱。
出門問問為奧迪 A4L 提供了車載語音交互技術|企業供圖
極客公園:2C 和 2B 的產品交付標準不同,車載又是你們 B 端業務的開始,你們在這個項目裏最大的收穫是什麼呢?
雷欣:大眾汽車集團的項目是一個非常好的落地案例。它的新車產量佔全國的四分之一,同時在質量把控方面有業界公認的口碑。我覺得贏得了大眾的認可後,問問在智慧出行的趨勢下,在嵌入式語音交互領域,建立了行業領先的技術優勢和壁壘。這對於後續在車載及其它市場的拓寬很有幫助。
極客公園:最早投資你們的巨頭不是大眾,而是 Google。你跟李志飛都是 Google 的技術流,Google 投你們,是因為他是你的老東家,你們恰好又把硅谷文化搬到中國來了嗎?
雷欣:一半對一半不對吧。Google 投我們,其實跟之前我們是什麼背景沒太大關係,但我們跟他們的文化的確非常像,都是推崇硅谷文化,並且都是一幫有技術信仰的人。
Google 看中的更多是我們的技術優勢和對他們可穿戴業務的技術補充。當時,我們已經建立了相對完備的軟件算法團隊和技術積累,同時擁有出色的硬件設計、研發團隊,並對供應鏈具備穩定的把控能力。我們被他們認為是 Google Assistant 在中國最好的替代品,Google 願意投我們。
技術公司要拿着「錘子」找「釘子」在 C 端用户眼中,出門問問跟智能可穿戴可以畫上等號。因為他做過手錶、音箱、耳機在內的一系列的消費級產品。但實際上,AI 語音技術才是其核心命脈。當然,技術必須要依附於實體產品,才能推動下一代人機交互的到來。
這也就很好解釋,出門問問在語音 APP 後,為何把自研的操作系統 TicWear 刷到 Moto 360 智能手錶裏面;為何在發佈會一口氣推出多款產品,因為技術是離不開產品的。出門問問做手錶及其他硬件,都是為了更好更快地通向下一代人機交互這個終極目標。
智能手錶只是第一個陣地。不光是 To C 的智能可穿戴,出門問問也在非硬件產品中,強化用户對人機交互的感知。例如近期推出的小問秘書和魔音工坊,也在緊盯用户價值和商業化進展。
當然,出門問問也在越來越聚焦。如果把技術看作錘子,落地場景當成釘子,出門問問需要聚焦幾個關鍵賽道,強有力地把「釘子」錘進去。例如在智能可穿戴的場景中,出門問問圍繞語音交互推出了幫用户代接電話的小問秘書,讓語音機器人對所有未接電話進行智能接聽並分析來電意圖,解決大量騷擾、重複性電話的問題。
近期升級後的小問秘書,上線了個性化聲音製作功能,根據出門問問的個性化 TTS,支持多層級的定製,用户最少錄入 15 句人聲音頻內容,即可生成頗像真人的專屬合成效果。這樣一來,用户就可以用自己的聲音代接來電,避免因 AI 助理產生的熟人社交隔閡。
在改變人機交互的體驗上,出門問問還基於第四代語音合成系統 MeetVoice 技術,上線了專業 AI 音頻內容生產一站式解決方案——魔音工坊。用户能夠高效便捷地以 AI 語音技術模擬具有清晰性格特徵的真人語音,進行 AI 音頻內容創作,讓文字隨聲音躍出紙面。目前,用户可通過點擊新浪新聞 App 頻道內的「音頻」圖標,就能收聽海內外各領域的新聞。
為了解決配音的專業性問題,出門問問對多音字模型進行了升級,多音字整體準確率達到 99.52% 以上。針對新聞、官方文件、法律條文等,對準確率有着更高要求的文章類型,魔音工坊設計了創新的交互形態,成為 AI 音頻時代的 word 編輯器。同時出門問問在 AI 配音、公眾號音頻化、歌唱合成、情感合成等方面也在引領着業界步伐。
出門問問基於第四代語音合成系統 MeetVoice 上線的魔音工坊|企業供圖
極客公園:你覺得資本對技術人的誘惑力是不是不夠強?
雷欣:我一直覺得,真正的技術公司不應該是投機的,你不投機,才會有人相信和支持你做更有價值的事情。這也是問問看待技術的一種價值觀吧。
極客公園:但你有沒有覺得,你們作為一家技術公司,產品線越來越多,業務越做越重了?
雷欣:首先我們肯定是要做一家語音交互技術公司,其實在中國做技術公司需要越過的溝溝坎坎特別多,而且越做越難。我們的產品和業務之所以覆蓋面得這麼廣,其實很大程度上是在中國獨有的環境裏不得已而為之。
極客公園:怎麼講?
雷欣:其實我們也想只用算法和軟件技術去定義下一代人機交互,不做的那麼重,就像公司剛成立的時候,我們在微信公眾號開發的語音助手小程序。但我們很快就明白,光靠軟件和算法顯然不能讓我們抵達那個遠大的未來。
極客公園:但 AI 領域其實不乏只做軟件、做算法的公司啊?
雷欣:我們跟他們的定位不一樣。從成立的第一天起,我們就是要去定義下一代人機交互,並讓新交互深入人心。
雖然做 AI 算法或軟件解決方案的模式很輕,也能讓公司獲得一定的現金流,還能保持輕資產的運作模式。但如果你只有算法和技術,沒有落地到場景中的產品,我們就受制於人,很難把控下一代的人機交互體驗。
極客公園:你們近期又發佈了 TicWatch Pro 2020、TicPods ANC 等產品,可穿戴對問問來説,現在扮演怎樣的一個角色?
雷欣:我們的主要考慮是做更好的人機交互。唯一的辦法,就是在一些可能落地的場景裏去做催熟,讓新交互成為主流。如果想推動交互技術的普及,硬件載體很重要。
可穿戴業務是問問的立命之本,所以外界會聲稱我們是智能可穿戴公司。我們最早做智能手錶也是看到了非手機的終端設備慢慢改變了用户的交互習慣,而交互技術的發展趨勢也和我們的判斷基本一致。尤其是手錶和語音交互的結合,我們覺得很有很大的機會。
2020年5月25日,出門問問發佈了新一代智能手錶 TicWatch Pro 2020|企業供圖
極客公園:老用户都知道你們最早在 TicWear 這個系統裏內置了自研的語音識別和分析引擎,給用户提供了語音搜索和交互的功能。在非常短的時間內,吸了不少極客粉。有了這個基礎,後續做了智能手錶的自有品牌 TicWatch?
雷欣:是。我們一直覺得不想做硬件的軟件,算不上好軟件。軟件和硬件的結合,才能達成一套極致完整的體驗。
因為只有你真正進入到場景中,你才能夠去真正推動這件事,而不是隻有一個技術待嫁閨中,沒幾個人知道該怎麼用,註定無法形成趨勢。如果我們只是被動等待,那就失去了創立這家公司的意義。
極客公園:所以你的意思是説,科技公司不能只抱着自己擅長的東西去等待時機成熟?
雷欣:我們的技術追求是把自身擅長和認同的事情,用一切可推動的辦法去實現。TicWatch 為我們贏得了銷量和口碑,打開了 C 端市場的認知度。我覺得每賣出一台手錶,都會離即將到來的時代越近。
你與其等着別人去推動市場成熟,自己只做最得心應手的事情,等着別人來欣賞你,不如自己去開始創造。這件事不是「手不粘泥」就輕鬆實現的。
極客公園:你們後來嘗試了很多比如智能後視鏡、智能音箱、智能耳機這些產品,也是這個思路嗎?
雷欣:是的。比如耳機對我們來説,是一款非常有挑戰的產品。因為我們最大的創新還是語音交互,耳機這麼小的設備,續航會受到非常大的限制,所以必須做出超低功耗的語音交互。
圍繞這一塊,我們第一要做好信號處理,聲音進來了之後要降噪。第二是語音喚醒,在低功耗芯片上長時間去監聽這個喚醒詞,我們默認用「嗨小問」來喚醒手機語音助手。第三是我們獨家創新的「快捷口令」,比如音量調節、播放暫停等,不用説喚醒詞就能用語音控制設備。連蘋果的耳機也還都沒有上這個功能。
極客公園:想過為什麼蘋果沒有這樣做嗎?
雷欣:其實大型企業都相對偏保守。有些技術沒有做到 99%,他可能就不太敢用。我們創業公司是不能太保守的,在創新思路方面的話,相對來説比較開闊,在一些創新的落地上面,我們也更激進。像我剛才提到的快捷口令這個功能的話,我們覺得技術上我們能做到不錯的體驗,並且對於用户來説,他們覺得這個功能是非常有用的,也是高頻需求,所以我們率先去吃螃蟹,把創新的技術率先用在可穿戴 TWS 耳機上。
我覺得技術公司都面對着「拿着錘子找釘子」,那就必須敢去摸釘子,就算有些事錘子不對,有些事釘子不對,嘗試一下對技術公司的核心能力成長都非常重要。
極客公園:每一次摸釘子都是有成本的,創業公司資源有限,怎麼同時保持核心技術的成長和領先呢?
雷欣:每一次嘗試都是圍繞着語音交互技術來展開,目標是推進核心語音技術的性能,嘗試之後要能沉澱下來一些有價值的技術及數據,能夠共享給其它的業務和產品。
極客公園:其實語音領域的競爭一直特別激烈,以至於大家純靠技術,根本賺不了錢。你們也有栽跟頭的時候吧?
雷欣:其實教訓還是蠻多的,尤其面對國內巨頭的免費開放和補貼搶入口,在這麼惡劣的環境下,所有技術人説實話都很難夢想着通過某個獨有技術,能一直讓客户趨之若鶩。
但其實很多事情都不是絕對的黑和白,對和錯。有時候沒路的時候就要趟路,最重要的是對自己坦誠。
説到教訓的話,其實是我們應該更聚焦。這個聚焦不是説不應該去根據環境變化,積極地嘗試新場景。而是要更堅定地要麼不做,要做的話就要全力以赴,把這個技術和業務能夠做到業界的數一數二。
同時,我們更希望也推動行業夥伴和我們一起。譬如我們不光推出自己的 TicPods 智能耳機,還把我們的 TWS 耳機算法和解決方案 TicHear、熱詞喚醒、快捷口令等技術,商業落地到像 vivo、一加等品牌的 TWS 耳機上。
TWS 耳機市場激戰正酣,出門問問推出了真無線耳機算法 TicHear 為同類產品提供技術解決方案|企業供圖
智能音箱的國內 C 端戰場雖然失利,但出門問問基於軟硬結合的能力找到了一條獨屬於自己的發展之路。他們和台灣遠傳等運營商達成了合作,為企業級客户提供高度定製化的智能音箱產品,出貨量遠高於過去的 ToC 市場。憑藉 AI 語音技術的積累和沉澱,出門問問幫助這類客户建立了 AI 大腦,打造端到端的智能音箱和智能手錶等產品。
在此過程中,軟硬結合的能力發揮着不小的優勢。技術和產品團隊只用了四個月時間,為遠傳打造了一套本地化的生態系統,並提供軟件、硬件、AI、用户運營平台和統計工具,幫助他們可以在自建渠道銷售,甚至把產品再次 ToB,讓銀行、保險公司成為他們的客户。
To B 市場對 AI 語音交互敞開了大門。在出門問問看來,人機交互的時代正在到來。在 B 端的很多場景裏,語音交互跟智能硬件的結合,正在改變組織的生產力。比如在餐廳,員工無需攜帶手機,一塊出門問問的 TicWatch 智能手錶就能通過語音交互,幫助他們解決倉儲、出勤等很多問題。
眼下,出門問問 B 端業務佔比已經相當可觀,而且還在快速增長。或許,C 端用户還沒有明顯感受到新交互時代的腳步臨近,因為太多的前沿領域,都是從 B 端率先爆發,然後才慢慢向 C 端市場普及。或許有朝一日,用户才突然發覺,原來人機交互早已無處不在。
極客公園:你覺得這 8 年作為 CTO,什麼事情讓你最有成就感?
雷欣:最讓我有成就感的,是出門問問過去 8 年,沉澱下來了一套完整的語音交互技術棧和軟硬結合的能力,我覺得我們能做到「業界一流」真心不容易。
極客公園:出門問問為什麼多次強調軟硬結合的優勢?
雷欣:因為軟硬結合的優勢,給我們帶來了軟件、硬件、算法快速結合的產品創新效率。這在具備軟硬結合能力的蘋果、谷歌、微軟等企業實現都是很有挑戰的,畢竟大體量的企業在跨部門協作上相對不夠靈活。所以這對創業公司來説,反而是個可以快速創新突破的點。
極客公園:出門問問「軟硬結合」的獨特之處是什麼?
雷欣:它其實需要企業擁有完整的軟件算法團隊及技術積累,同時擁有出色的硬件設計、研發團隊,並對供應鏈具備穩定的把控能力。
我們的技術研發團隊現在有將近 300 人,一般會以 3 人為一個開發單位,保持敏捷的開發流程。工程技術方面,也以谷歌規範為標準,保持自由的硅谷工程師氛圍。
極客公園:這 8 年創業,怎麼評估你們推動「下一代人機交互」這件事的進展?有什麼根本性的變化嗎?
雷欣:從公司創立到現在,出門問問對於 AI 語音交互的時代越來越篤定了。但你也發現未來產業的發展和行業風口的形成,不一定先爆發於 C 端。
很多時候 C 端的產品體驗好 5 倍,才能成為爆款,而在 B 端只要好 50%,就已經有了絕對的價值。所以,B 端的認同讓我們看到了這個必然趨勢正在到來,只不過我們期盼的時代不會瞬間在 C 端市場引爆。
極客公園:我知道你們在海外一直有不少忠實粉絲,創業公司衝出大陸,向全球化做佈局不是件容易的事情,你們是怎麼做到的?
雷欣:首先我對我們的技術是自信的,技術國際化要做的事情很多,包括海外市場不同標準的認證,本地化服務,語言支持等等。與技術創新並重的,是對語音交互使用場景的不斷探索。
從接受度來看,海外市場更加歡迎具備創新能力和前沿技術的產品,國內市場則更加傾向於有競爭力的價格和優秀的基礎體驗。
極客公園:你覺得理想狀態應該是怎樣的?
無論是 2C 的可穿戴還是 2B 車載,問問一直在做全球化的 AI 公司。比如和 Insta360 的合作,我們幫助他們打造了首款聲控模塊化運動相機,解決了長期困擾廣大視頻創作者的攝影風噪問題與操作方式痛點。
所以多年在技術層面上堅持迭代優化 AI 語音技術,目的是不斷地提升核心技術壁壘。在不同硬件及不同的場景裏參與進去,其實反而讓我們在面對 B 端的需求的時候,具備了多方面的能力,能夠快速地去解決問題,提升生產力。
極客公園:在這家公司工作了 8 年,經歷的種種困難和不確定挺苦逼的吧?你是怎麼挺過來的?
雷欣:我覺得技術人應該把手插進土裏去, 去真的推動和促進產業向人機交互的方向發展,所以「敢幹、願意幹」挺重要的。
雖然過去 8 年道阻且長,但我們收穫很多成果,拿下了難啃的車載市場。我覺得做個技術公司最幸福的,可能不是拿一個技術直接變現「出道即巔峯」,而是看着你的技術越來越強,越來越普世化,技術在更多場景,更多領域得到應用,是一個滿足感不斷提升的過程。
所以一家真正的技術公司,就要對目標負責,甚至不惜為這個目標改變所謂的理想路徑,哪怕過程有「之」字形的曲折,也要往那兒去走。這過程肯定挺苦逼的,但也是很有成就感的。
同時, 我們信仰科技向善, 希望用我們的技術讓人類生活更美好, 比如我們涉及健康醫療、社會公益、科技戰疫等領域, 這也是問問的科技情懷和初心。
極客公園:從 CTO 的視角來看,未來十年的人工智能或者説語音技術的發展和應用會有哪些值得行業和用户期待的地方?
雷欣:作為 CTO,我希望能帶領團隊做有挑戰性的技術和產品,力爭做到業界第一,這樣才得讓大家得到成長和成就感。除了持續做出具備創新功能的軟硬結合產品之外,我們也需要開拓更多渠道來實現業務增長。
雖然在未來的兩三年之內,AI 發展的瓶頸期還會存在,但是從未來五到十年的維度上來看,應該會有飛躍性的進步。
如果要做大做強,必須將技術進行標準化、模塊化、工具化,才能實現高效率的規模化落地。下一個十年,問問會重點圍繞着語音交互技術,聚焦車載、可穿戴場景持續打磨,並將核心技術應用到新的人機交互系統和設備中,實現定義下一代人機交互的願景。
題圖來源:視覺中國
本文首發於極客公園,轉載請聯繫極客君微信geekparker