智能語音系統爭奪戰
AI是風口,終須落地。一款讓大眾可用的AI產品,哪裏是最好切入口?上週,百度AI開發者大會氣勢洶洶,但焦點被無人駕駛吸睛,就在同一天,阿里巴巴也拿出首款消費級AI產品天貓精靈,背後AliGenie的露面,讓人豁然領會百度也在推介同級別的DuerOS——從智能手機為載體的觸屏,到智能硬件萬物互聯的語音,下一代人機交互底層智能語音操作系統,才是巨頭直接對壘的舞台。
01技術必然
移動互聯網在便捷民眾生活,卻又在製造麻煩。年輕人每天離開家之前,都要囑咐年長的媽媽,電視這麼多的按紐別按錯了,因為智能電視通常按錯了一個按鍵,一天都可能看不了電視。
智能手機因為觸屏而變得操作簡單,但在電視、空調、洗衣機⋯⋯更多的硬件家居,仍然是按鈕為王,一旦加上智能聯網屬性,操作反而更加複雜。即便是智能手機,對未曾接受系統互聯網教育的“50後”、“60後”老年人,依舊是個複雜的事情。
阿里巴巴人工智能實驗室負責人淺雪坦言,“雖然今天手機這麼普及,但是我的父母用手機的時候主要用手機的交流功能,而手機之外,80%的App老年人不會使用。這説明我們的交互方式可能還不是最好的,觸屏發展到今天,一定還有更好的替代方法”。
在百度度秘事業部總經理景鯤看來,這樣的需求不僅存留在老年人心中,也存留在每一個人心中。每個人都曾幻想過着動口不動手的生活,每天回家對電視説,電視打開調到上次看的節目,睡覺前想放鬆一下,想和牀頭的智能音響説,能不能播放舒緩的音樂。冬天很冷,想對電燈説,電燈關燈。
人和設備自由溝通是科技進步的重要標誌,在多數產業人士看來,如同Windows圖形界面取代DOS命令系統,蘋果觸屏交互取代鼠標鍵盤輸入。巨頭瞄準了下一代人機交互方式就是語音交互。在國外,亞馬遜、谷歌、蘋果、微軟都已經投入巨大的人力來推動這個時代的變革,來自eMarketer的數據顯示,在今年一季度美國語音助手市場中,Amazon Echo的市場份額達到70.6%,Google Home則佔到23.8%,而其他廠商(包括蘋果、聯想、LG等)分食剩下的市場份額,為5.6%。自2014年發售以來,亞馬遜Echo音箱及另外兩種語音產品累計銷售量接近1000萬-1100萬台,銷售額達到8億-10億美元。市場研究機構Strategy Analytics預計,到2022年,北美1/3的家庭會配備智能音箱。
在中國,京東2015年聯合科大訊飛研發推出叮咚音箱,小米2016年聯合科大訊飛推出小米音箱。而現在阿里巴巴的天貓精靈X1來了,背後則是智能語音操作系統AliGenie對壘百度DuerOS的更大野心。
02巨頭對壘
天貓精靈X1,面向家庭用户,定價只有499元。在多數業內人看來,一台硬件設備並不是最終目的,阿里的想法在於支撐天貓精靈的中文人機交流系統AliGenie。
阿里巴巴人工智能實驗室介紹,AliGenie目前涵蓋包括音樂音頻、家居控制、購物充值、兒童教育、技能市場的功能。可以或正在拓展的行業解決方案包括兒童領域、酒店領域、家庭場景下、toB其他商業場景、線下零售場景與其他顯示設備結合的場景。
這看起來與App或者操作系統所謂的開放平台並無太大區別,蘋果iOS和安卓皆成名於此,微信甚至也想用小程序,打造輕模式的開放生態。區別的重點依舊是語音,這是阿里能夠掌握的“核心科技”。按照淺雪的構想,依靠阿里雲的機器學習技術和計算能力,AliGenie能夠不斷進化成長,越用越聰明,成為人類貼心的智能助手。
淺雪説,語言是人與人之間最主要的溝通方式,也應該是人與另外一種智能進行交流的主要方式。雲端一體化帶來的趨勢是高度智能化,智能終端需要一個比手機觸屏更強大的人機交互方式。
競爭門檻在細節處,阿里表示,針對聲音環境的多變性,X1還具備一定的自我學習功能,可以根據環境噪音進行優化,適應不同家庭環境噪音。經過一週左右的使用,X1會更加適應所在環境,語音識別準確率達到業界最高水平。
據悉,考慮到中文語義環境的複雜性,阿里人工智能實驗室通過眾包平台等方式,針對生活中的各種生活場景所需要用到的語義問法進行了徵集,僅天氣預報就能夠理解786種中文問法,通過深度機器學習,天貓精靈X1已覆蓋20個領域的中文自然語義理解,能夠理解人類80%的意圖。
百度DuerOS不遑多讓。讓一個只會説英文的音箱學會説中國話需要多久?答案是1分鐘。在百度AI開發者大會上,百度工程師僅用17行代碼,1分鐘時間,就讓搭載了Alexa系統的Anker音箱,從只會講英文變成聽得懂且説得好中國話。
景鯤認為,喚醒萬物最核心的三要素是聽清、聽懂、滿足。百度的語音識別率達到97%以上,百度的Deep Speech是2016年MIT十大突破性技術之一。
“只做好這些還不夠,人工智能時代要與場景結合,放在家庭條件、家庭小房間,放在車上,把技術真正放在場景裏解決問題。所以我們研發了遠場相關的語音技術包括麥克風陣列、回聲消除、波束成形、語音喚醒、遠場識別。”景鯤説。
03合縱連橫
是操作系統,就不是一個人在戰鬥。阿里人工智能實驗室藉着發佈天貓精靈公佈了首個硬件開放合作伙伴——將與國際玩具巨頭美泰合作探索其旗下主要核心IP如費雪、芭比、托馬斯和朋友等智能玩具的合作開發機會。
北京商報記者瞭解到,目前AliGenie支持100多個品牌,包括接入阿里智能聯盟、塗鴉科技、broadlink等智能家居方案的產品,更多智能家電也正在接入中。
百度DuerOS則與中信國安廣視、聯想、美的、海爾、HTC、小魚在家等合作伙伴展開廣泛合作。景鯤稱,依託三款DuerOS開發套件和一款硬件參考設計,“只要接一個電源,接一個麥克風,就可以讓你身邊的家電設備‘説話’了。”
而面對巨頭遞出的橄欖枝,中小企業做出了兩手準備。喜馬拉雅是百度DuerOS的合作伙伴,該公司副總裁、硬件事業部總經理李海波認為,喜馬拉雅擁有非常優質的互聯網音頻內容資源,極大地豐富了DuerOS的內容體系。同時,音頻內容與智能語音技術有着天然的相似點,雙方都希望通過聲音的形式與人進行互動。
就在不久前,喜馬拉雅不久前剛剛聯合獵户天空(獵豹移動投資的語音人工智能公司)推出了智能音箱小雅。
TCL多媒體科技控股有限公司也是DuerOS的合作伙伴,該公司副總裁李昕認為,DuerOS在人工智能領域的優勢與TCL在電視領域的積累相結合,一定會打造出與眾不同的電視產品,聯合DuerOS一起共建TV生態。
7月3日,TCL公告稱,旗下互聯網品牌雷鳥與騰訊簽訂股權合作合同,騰訊4.5億元投資互聯網電視雷鳥,獲得16.67%的股權,成為雷鳥第二大股東。
分析人士指出,互聯網企業和硬件企業的關係已經不能單純用“站隊”來描述,作為產業鏈的上下游,互聯網企業逐漸成為底層平台方,提供多種接口,而硬件企業依賴製造和供應鏈優勢,可以在多個平台做出選擇,甚至可以不同型號不同選擇。
運營人員: 唐駿 MX002
AI+智能硬件+雲計算齊齊到位,點燃新一代人機交互界面革新
語音為王
文 | 財新記者 張而弛 特派西雅圖記者 張遠岸
6月的硅谷,蘋果開發者大會像往年一樣受到市場關注,今年格外聚焦的是——音箱。
直到發佈會即將結束時,蘋果公司CEO蒂姆·庫克(Tim Cook)才揭開了語音智能音箱HomePod的“面紗”:“我們將重新發明家中的音樂播放體驗。”
HomePod承載了蘋果複製數字音樂播放器iPod成功的夢想。不過,類似iPod的開創性意義,已被三年前面世的亞馬遜智能音箱Echo奪走。過去兩年,Echo引發的智能家居熱潮席捲北美和中國,大科技公司紛紛跟進。2017年5月,市場出現48小時內三家同類產品競相亮相的盛況:微軟攜手三星旗下音響品牌哈曼卡頓,發佈智能音箱Invoke;聯想集團發佈中國版本智能音箱;亞馬遜在美國發布帶7英寸觸摸屏的Echo Show,這個6月28日上市的新品類是音箱與平板電腦的結合。
市場研究機構Strategy Analytics預計,到2022年,北美三分之一的家庭會配備智能音箱。表面上這是一場圍繞智能音箱的“卡位戰”,但從更深層角度看,科技公司只是藉此進入家居場景,目標是切入未來更大的人工智能(AI)市場,因為硬件背後的語音平台,有機會成為物聯網時代的“操作系統”,連接全新的產業生態。
財新記者今年5月造訪亞馬遜西雅圖總部時,主管設備及硬件業務的全球高級副總裁戴維·林普(Dave Limp)表示:“亞馬遜所創造的不僅是設備,還有服務。語音助手Alexa上的這些服務與過去平板電腦或手機上的完全不同。”
……
精彩內容節選:
Echo探路
2014年11月6日,亞馬遜在官網悄然上線了第一款智能音箱Echo。與其他音箱不同的是,用户只需對待機的Echo喊一聲“Alexa”,就能把它喚醒。
Echo採用了遠場交互技術。在2011年和2012年,蘋果和谷歌先後推出自己的語音助手,並內置於手機。用户需要按Home鍵,對手機説話,才能完成語音交互。遠場交互可讓人們在幾米外與機器直接對話,無需用手,整個過程更自然流暢。
巨頭連鎖反應
直到2014年底,貝索斯才意識到Echo可以具備入口級屬性,控制其他家居設備。亞馬遜決定加大馬力投入。
“從智能家居的角度來看,這是在合適的時間出現了合適的產品。”美國市場研究機構Consumer Intelligence Research Partners(下稱CIRP)合夥人邁克·列文(Michael Levin)對財新記者解釋,在Echo之前,美國市場已經有了Nest恆温器、智能插座、飛利浦智能燈泡等系列家居產品,完成了最初的消費者教育,而這些設備也構成了Echo早期的硬件生態。
“三國殺”的兩種模式
亞馬遜很清楚,自己在人工智能的技術儲備上不及谷歌和微軟,在硬件生態上的佈局不及蘋果和谷歌,必須全力以赴才能保住Echo的先發優勢。
京東的對標策略
在過去三年,所有想複製Echo經驗的中國公司中,京東無疑是先行者。當亞馬遜2014年孕育着Echo時,這家中國公司也在考慮打造中國家庭的控制中心。
從車載語音切入
過去幾年,與出門問問有類似觀點的語音企業還有很多,它們紛紛涉足車載語音市場。科大訊飛2015年起與奇瑞汽車合作,開發智能語音互聯繫統,至今已發展至第二代。美國語音技術巨頭Nuance 2012年正式推出類似Siri的車載語音平台,並在2016年1月發佈了汽車語音助手,該系統已被上汽集團和阿里巴巴採用,裝載於榮威2016年上市的互聯網汽車中。
巨頭入局
對所有國內語音企業來説,有一家公司無法繞過,那就是百度。過去幾年,百度在移動互聯網領域頻頻佈局失誤,從BAT(百度、阿里、騰訊)中漸漸掉隊。2016年,在主營業務遭遇增長瓶頸的背景下,百度創始人李彥宏孤注一擲,希望借人工智能這個“新風口”,帶百度重回中國互聯網行業之巔。
通往智能之路
微軟人工智能與研究事業部負責人沈向洋在2016年9月接受財新記者專訪時就表示,語音的徹底主流化已經“不是一個需要討論的問題,只是一個時間和習慣轉移的問題”。他當時預計,計算機語音識別在噪音和非噪音環境下,最多五年便可超越人類的識別率,視覺識別可能要十年左右。只是他提醒,現在人工智能的發展更多是在語音識別和視覺識別等感知層面,在自然語言理解、知識的獲取、情感等認知層面,業內還沒有“搞得很清楚”,人們需要抱有一顆平常心。
……
本文為2017年7月3日出版的《財新週刊》封面文章
財小新提示:
想閲讀全文?有兩種方式可選。
1,註冊財新網通行證,每月即可免費閲讀五篇《財新週刊》文章。
2,點擊左下“原文鏈接”,長按下方二維碼購買《財新週刊》閲讀權限,一個月僅售40元,超值尊享!
未經許可,禁止進行轉載、摘編、複製及建立鏡像等任何使用。如需轉載,請通過向本公眾號後台申請並獲得授權。歡迎轉發朋友圈
運營人員: 唐駿 MX002
(2017-07-03)
在迎接即將到來的萬物互聯的人工智能時代,語音毋庸置疑地成為了下一代主流人機交互方式。近日,中國電信旗下翼支付APP上線“智能語音助手”,用户可通過語音快速進入交水電費、點外賣、買理財等功能。
語音交互變革人類生活
最近,曾經戰勝李世石的AlphaGO又打敗了柯潔,讓“人工智能”再次站在了輿論的風口浪尖。正如柯潔所説,“我的改變只是小小的改變,但DeepMind團隊是在改變世界。”確實,DeepMind在AlphaGo上投入如此大精力,目標是想做“通用人工智能”,並非僅能在某個領域發揮作用。
“在過去75年裏,每10年就有一次人機交互的重大革新。”互聯網女皇Mary Meeker曾説,“人類對機器的操作,經歷了從物理手柄按鍵,到物理鍵盤鼠標,再到觸摸屏的過程,而現在輪到了語音。未來,語音將從根本上優化人們與機器的交互方式。”
隨着語音識別準確率的不斷提升,語音將從根本上改變我們的生活。在2013年,國內語音助手類產品的用户滲透率僅為31.2%,而到今年滲透率已達到近70%。除了專門的語音助手產品外,在垂直應用中包含語音功能的應用數量也在不斷增長。
語音助手的最大優勢,來自“人工智能”的超級大腦與人性化的語音交互方式的結合。與傳統的交互方式相比,它能把傳統APP上一步步瀏覽、選擇、輸出、操作全部簡化為兩步:提出-完成。至於中間的每一個步驟是怎麼選擇、操作的,用户完全不用考慮。
語音助手讓支付更智能
點擊翼支付APP上的“麥克風”按鈕、按住“麥克風”説出“我要交電費”、幾秒鐘後即跳轉到繳費頁面。翼支付語音助手操作簡潔而方便。
為了給予用户更有價值的反饋與幫助,翼支付產品團隊結合自身情況,打造了一款定位於幫助用户快速導航、辦理業務或解答業務問題的語音助手。
語音助手功能的實現,需要機器學習、數據挖掘算法、語音識別、自然語言理解等多種技術能力支持,其中最主要的就是語音識別與自然語言理解。前者將人類的語音中的詞彙內容轉換為計算機可讀的輸入,這決定了語音交互可應用到多大範圍;後者將語音識別結果進行進一步處理理解,對應到某一具體的命令意圖,是語音助手能否準確瞭解用户的意圖的核心點與難點。
翼支付產品團隊並非讓語音助手自行通過對話或是魚龍混雜的互聯網學習問答,而是聚焦用户使用翼支付時最常見的30個意圖,設立了對應的知識點,然後人工進行大量的語料編寫,編寫出近萬條問句,並通過與擁有成熟自然語言理解技術的小i機器人合作,運用算法對這近萬條語句進行擴展,得出十幾萬條語料庫進行語義訓練。
然而,這遠不是翼支付語義理解訓練的終點。語音助手上線後,隨着真實用户的不斷使用,系統通過對每日用户的聊天日誌的檢查,對錯誤反饋進行更正,不斷有新的語句納入語料庫。通過日誌,語音助手不斷挖掘瞭解用户對語音助手的需求點,更有針對性地增加知識點,滿足更多有強烈用户需求的意圖。隨着用户使用時間的增長,語料庫的語句量級會繼續增長,語音助手會越來越聰明越懂用户。
一句話完成支付或將實現
當前階段,翼支付語音助手比較成熟的作用是幫助用户在翼支付APP中快速找到需要的功能,同時,用户常見的客服問答的語料庫也正在不斷建設與完善中。
然而,翼支付語音助手的“野心”絕不止於此。“未來,當你需要購買火車票時,你不必首先在眾多應用和功能中找到買火車票,也不必一步步選擇時間、車輛類型、出發地、目的地、座位類型等信息,然後選擇搜索,從搜索結果中再進行選擇,然後點擊確認支付購買。”翼支付產品團隊負責人展望了未來語音助手的應用場景,“你只要點開語音助手,説一句‘我要買一張明天到北京的高鐵二等座位票’,然後進行最後的確認支付即可完成。”
接下來,翼支付的目標是實現語音對話完成真正業務辦理。例如,只要對它説,“幫我充50元話費”,然後確認即能充值成功。除此之外, 還有更多語音場景也非常值得期待。
(2017-06-26)
語音,就是説話的聲音。人們在講話的時通過發音器官的運動,發出音高、音長、音強或音質都不相同的聲音。這些聲音在人們長期的勞動實踐中被賦予了一定的意義,以此來傳達和接受信息,就形成了語音。
現場講話,語音訓練的基本要求如下:
1、掌握正確的發聲方法
語音是人體發聲器官運動的結果,聲帶發出聲音後,口、鼻、喉、咽、胸產生共鳴傳出聲音,唇、舌控制氣流得到了各種不同的話音,而每個音素都有自己固定的發音方法。因此,我們必須準確地牢記每個音素的發音特點,掌握正確的發音方法。
2、吐字清晰,乾脆利落
吐字時由於時間短促,不可能把每一個音素都發得那麼徹底,一般在唸字時口形主要落在韻母的元音上,聲音處理應是字頭短而有力,字腹圓潤飽滿,字尾和緩漸弱。整個音節乾脆利落,不拖泥帶水、含糊不清。
3、聲調準確,注意區別
漢語的音節少,加上聲調才使許多同音節字得以區別,因此,口語表達不可忽略聲調的準確性,否則會造成表達不準確,甚至完全相悖的結果。
4、口齒靈活,自然流暢
説一段話需要連續發許多個音節,要使語言自然流暢,又使每個音節清晰準確,需要我們訓練口齒的靈活性。鍛鍊口齒的靈活性可以通過朗讀規範文字作品的訓練方式來實現,由慢到快,經常練習。
5、養成良好的發聲習慣
音色的美感能產生強烈的吸引力,使語言更富有魅力。要做到這一點,就必須養成良好的發聲習慣。發聲時的正確姿勢是:挺胸、收腹、提氣、頸背腰部自然伸直,胸肌放鬆,用力適中,便於氣流通暢運行,以達到良好的共鳴效果,使聲音渾厚有力、輕鬆自然、清晰悦耳。
(2017-06-02)
【IT168 評測】智能語音技術的爆發,讓眾多智能電視廠商看到了“新春”,全新的操控體驗,簡單又方便。
老年人和小孩動動嘴,説出自己想要看的內容,想看的節目便會推送到你的眼前,大大提升了用户體驗。而良好的操控體驗讓越來越多的電視廠商搭載了智能語音操控技術,但技術卻千差萬別,誰才是最聽話的智能語音呢?接下來我們通過實際對比給出答案。
我們選擇市面上銷量比較好的四款智能電視,他們分別是小米、長虹、樂視和微鯨,通過不同語音輸出,看看電視的真實反映效果。
一語音替代手動
連接WIFI功能,説出密碼“lalalaz8782”,結果長虹和微鯨沒有給出令人折服的結果,兩款電視連接失敗。
二初級語音播放控制
連接WIFI只是一個初級測試,接下來才是進入主題,通過深層的語音問答,查看誰才是真正的智能語音。當我們説出“我今天心情不好”其他三款電視給出應答,樂視並未有識別這句“我今天心情不好”。
更長語句的問答會是怎樣的結果呢?“我4級沒考過,給我推薦幾部美國電影吧”樂視和微鯨未能檢測出如此長的提問,小米和長虹給出了美國電影的結果。
三複雜的多輪組合搜索
多輪遞進式的問答,我想看張翰的電視劇,這麼簡單的問答,四款電視都能給出良好的結果,但是接下來的才是真正的拷問。和趙麗穎一起演的,結果長虹、樂視和微鯨並沒能給出張翰和趙麗穎一起演的電視劇。
更為智能的考驗我想看某部電視劇的第幾集,當我們説出播放《人民的名義》第五集,結果小米和長虹直接進入第五集進行播放,樂視和微鯨則沒有進入第五集進行播放。進入播放界面後,直接説出快進到10分31秒,這個表現還是不錯的,小米、長虹和微鯨都實現快進效果,由於樂視只能會員才能觀看,所以樂視並沒有測試此功能。
組合條件的提問,“給我推薦一些影片嗎,我不想看國外的不想看恐怖片,更不要付費的要最火的”可以説這麼一長段落得提問,正常人都需要反映下一會兒,你到底需要什麼呢?而小米電視卻給出了答案,沒有國外的沒有恐怖的更沒有付費的內容。
四影視百科搜索
影視百科問題則有些搶百度百科的飯碗,語音説出“劉詩詩的老公是誰”結果只有小米將吳奇隆檢索出來,並將吳奇隆的簡介以及影視作品推送出來。
更為喪心病狂的提問來了,“鄭爽的舊愛的舊愛的舊愛的舊愛的男友的舊愛的舊愛的乾女兒是誰”六個舊愛的,一個男友的乾女兒,這句話到底主要問的是誰呢?結果小米電視給出了答案“徐嬌”,如果不懂這層關係的可以百度鄭爽的舊愛的舊愛的舊愛的舊愛的舊愛的舊愛的男友是誰,然後再百度男友的乾女,你會找到答案,但小編可以很負責任的告訴你,小米電視給出的結果就是準確的。
總結:真的是不比不知道啊,綜合評比之後我們發現,小米電視在四款電視中脱穎而出,無論是語音識別的準確率還是內容搜索的包容性上來看,小米電視的語音操控才是更智能更準確。
運營人員: 董敏 MZ011
以下為網友評論:
網友“D2V”:
實話,買了小米4a後,退貨了,後來買了微鯨!
(2017-05-15)