智能语音系统争夺战
AI是风口,终须落地。一款让大众可用的AI产品,哪里是最好切入口?上周,百度AI开发者大会气势汹汹,但焦点被无人驾驶吸睛,就在同一天,阿里巴巴也拿出首款消费级AI产品天猫精灵,背后AliGenie的露面,让人豁然领会百度也在推介同级别的DuerOS——从智能手机为载体的触屏,到智能硬件万物互联的语音,下一代人机交互底层智能语音操作系统,才是巨头直接对垒的舞台。
01技术必然
移动互联网在便捷民众生活,却又在制造麻烦。年轻人每天离开家之前,都要嘱咐年长的妈妈,电视这么多的按纽别按错了,因为智能电视通常按错了一个按键,一天都可能看不了电视。
智能手机因为触屏而变得操作简单,但在电视、空调、洗衣机⋯⋯更多的硬件家居,仍然是按钮为王,一旦加上智能联网属性,操作反而更加复杂。即便是智能手机,对未曾接受系统互联网教育的“50后”、“60后”老年人,依旧是个复杂的事情。
阿里巴巴人工智能实验室负责人浅雪坦言,“虽然今天手机这么普及,但是我的父母用手机的时候主要用手机的交流功能,而手机之外,80%的App老年人不会使用。这说明我们的交互方式可能还不是最好的,触屏发展到今天,一定还有更好的替代方法”。
在百度度秘事业部总经理景鲲看来,这样的需求不仅存留在老年人心中,也存留在每一个人心中。每个人都曾幻想过着动口不动手的生活,每天回家对电视说,电视打开调到上次看的节目,睡觉前想放松一下,想和床头的智能音响说,能不能播放舒缓的音乐。冬天很冷,想对电灯说,电灯关灯。
人和设备自由沟通是科技进步的重要标志,在多数产业人士看来,如同Windows图形界面取代DOS命令系统,苹果触屏交互取代鼠标键盘输入。巨头瞄准了下一代人机交互方式就是语音交互。在国外,亚马逊、谷歌、苹果、微软都已经投入巨大的人力来推动这个时代的变革,来自eMarketer的数据显示,在今年一季度美国语音助手市场中,Amazon Echo的市场份额达到70.6%,Google Home则占到23.8%,而其他厂商(包括苹果、联想、LG等)分食剩下的市场份额,为5.6%。自2014年发售以来,亚马逊Echo音箱及另外两种语音产品累计销售量接近1000万-1100万台,销售额达到8亿-10亿美元。市场研究机构Strategy Analytics预计,到2022年,北美1/3的家庭会配备智能音箱。
在中国,京东2015年联合科大讯飞研发推出叮咚音箱,小米2016年联合科大讯飞推出小米音箱。而现在阿里巴巴的天猫精灵X1来了,背后则是智能语音操作系统AliGenie对垒百度DuerOS的更大野心。
02巨头对垒
天猫精灵X1,面向家庭用户,定价只有499元。在多数业内人看来,一台硬件设备并不是最终目的,阿里的想法在于支撑天猫精灵的中文人机交流系统AliGenie。
阿里巴巴人工智能实验室介绍,AliGenie目前涵盖包括音乐音频、家居控制、购物充值、儿童教育、技能市场的功能。可以或正在拓展的行业解决方案包括儿童领域、酒店领域、家庭场景下、toB其他商业场景、线下零售场景与其他显示设备结合的场景。
这看起来与App或者操作系统所谓的开放平台并无太大区别,苹果iOS和安卓皆成名于此,微信甚至也想用小程序,打造轻模式的开放生态。区别的重点依旧是语音,这是阿里能够掌握的“核心科技”。按照浅雪的构想,依靠阿里云的机器学习技术和计算能力,AliGenie能够不断进化成长,越用越聪明,成为人类贴心的智能助手。
浅雪说,语言是人与人之间最主要的沟通方式,也应该是人与另外一种智能进行交流的主要方式。云端一体化带来的趋势是高度智能化,智能终端需要一个比手机触屏更强大的人机交互方式。
竞争门槛在细节处,阿里表示,针对声音环境的多变性,X1还具备一定的自我学习功能,可以根据环境噪音进行优化,适应不同家庭环境噪音。经过一周左右的使用,X1会更加适应所在环境,语音识别准确率达到业界最高水平。
据悉,考虑到中文语义环境的复杂性,阿里人工智能实验室通过众包平台等方式,针对生活中的各种生活场景所需要用到的语义问法进行了征集,仅天气预报就能够理解786种中文问法,通过深度机器学习,天猫精灵X1已覆盖20个领域的中文自然语义理解,能够理解人类80%的意图。
百度DuerOS不遑多让。让一个只会说英文的音箱学会说中国话需要多久?答案是1分钟。在百度AI开发者大会上,百度工程师仅用17行代码,1分钟时间,就让搭载了Alexa系统的Anker音箱,从只会讲英文变成听得懂且说得好中国话。
景鲲认为,唤醒万物最核心的三要素是听清、听懂、满足。百度的语音识别率达到97%以上,百度的Deep Speech是2016年MIT十大突破性技术之一。
“只做好这些还不够,人工智能时代要与场景结合,放在家庭条件、家庭小房间,放在车上,把技术真正放在场景里解决问题。所以我们研发了远场相关的语音技术包括麦克风阵列、回声消除、波束成形、语音唤醒、远场识别。”景鲲说。
03合纵连横
是操作系统,就不是一个人在战斗。阿里人工智能实验室借着发布天猫精灵公布了首个硬件开放合作伙伴——将与国际玩具巨头美泰合作探索其旗下主要核心IP如费雪、芭比、托马斯和朋友等智能玩具的合作开发机会。
北京商报记者了解到,目前AliGenie支持100多个品牌,包括接入阿里智能联盟、涂鸦科技、broadlink等智能家居方案的产品,更多智能家电也正在接入中。
百度DuerOS则与中信国安广视、联想、美的、海尔、HTC、小鱼在家等合作伙伴展开广泛合作。景鲲称,依托三款DuerOS开发套件和一款硬件参考设计,“只要接一个电源,接一个麦克风,就可以让你身边的家电设备‘说话’了。”
而面对巨头递出的橄榄枝,中小企业做出了两手准备。喜马拉雅是百度DuerOS的合作伙伴,该公司副总裁、硬件事业部总经理李海波认为,喜马拉雅拥有非常优质的互联网音频内容资源,极大地丰富了DuerOS的内容体系。同时,音频内容与智能语音技术有着天然的相似点,双方都希望通过声音的形式与人进行互动。
就在不久前,喜马拉雅不久前刚刚联合猎户天空(猎豹移动投资的语音人工智能公司)推出了智能音箱小雅。
TCL多媒体科技控股有限公司也是DuerOS的合作伙伴,该公司副总裁李昕认为,DuerOS在人工智能领域的优势与TCL在电视领域的积累相结合,一定会打造出与众不同的电视产品,联合DuerOS一起共建TV生态。
7月3日,TCL公告称,旗下互联网品牌雷鸟与腾讯签订股权合作合同,腾讯4.5亿元投资互联网电视雷鸟,获得16.67%的股权,成为雷鸟第二大股东。
分析人士指出,互联网企业和硬件企业的关系已经不能单纯用“站队”来描述,作为产业链的上下游,互联网企业逐渐成为底层平台方,提供多种接口,而硬件企业依赖制造和供应链优势,可以在多个平台做出选择,甚至可以不同型号不同选择。
运营人员: 唐骏 MX002
AI+智能硬件+云计算齐齐到位,点燃新一代人机交互界面革新
语音为王
文 | 财新记者 张而弛 特派西雅图记者 张远岸
6月的硅谷,苹果开发者大会像往年一样受到市场关注,今年格外聚焦的是——音箱。
直到发布会即将结束时,苹果公司CEO蒂姆·库克(Tim Cook)才揭开了语音智能音箱HomePod的“面纱”:“我们将重新发明家中的音乐播放体验。”
HomePod承载了苹果复制数字音乐播放器iPod成功的梦想。不过,类似iPod的开创性意义,已被三年前面世的亚马逊智能音箱Echo夺走。过去两年,Echo引发的智能家居热潮席卷北美和中国,大科技公司纷纷跟进。2017年5月,市场出现48小时内三家同类产品竞相亮相的盛况:微软携手三星旗下音响品牌哈曼卡顿,发布智能音箱Invoke;联想集团发布中国版本智能音箱;亚马逊在美国发布带7英寸触摸屏的Echo Show,这个6月28日上市的新品类是音箱与平板电脑的结合。
市场研究机构Strategy Analytics预计,到2022年,北美三分之一的家庭会配备智能音箱。表面上这是一场围绕智能音箱的“卡位战”,但从更深层角度看,科技公司只是借此进入家居场景,目标是切入未来更大的人工智能(AI)市场,因为硬件背后的语音平台,有机会成为物联网时代的“操作系统”,连接全新的产业生态。
财新记者今年5月造访亚马逊西雅图总部时,主管设备及硬件业务的全球高级副总裁戴维·林普(Dave Limp)表示:“亚马逊所创造的不仅是设备,还有服务。语音助手Alexa上的这些服务与过去平板电脑或手机上的完全不同。”
……
精彩内容节选:
Echo探路
2014年11月6日,亚马逊在官网悄然上线了第一款智能音箱Echo。与其他音箱不同的是,用户只需对待机的Echo喊一声“Alexa”,就能把它唤醒。
Echo采用了远场交互技术。在2011年和2012年,苹果和谷歌先后推出自己的语音助手,并内置于手机。用户需要按Home键,对手机说话,才能完成语音交互。远场交互可让人们在几米外与机器直接对话,无需用手,整个过程更自然流畅。
巨头连锁反应
直到2014年底,贝索斯才意识到Echo可以具备入口级属性,控制其他家居设备。亚马逊决定加大马力投入。
“从智能家居的角度来看,这是在合适的时间出现了合适的产品。”美国市场研究机构Consumer Intelligence Research Partners(下称CIRP)合伙人迈克·列文(Michael Levin)对财新记者解释,在Echo之前,美国市场已经有了Nest恒温器、智能插座、飞利浦智能灯泡等系列家居产品,完成了最初的消费者教育,而这些设备也构成了Echo早期的硬件生态。
“三国杀”的两种模式
亚马逊很清楚,自己在人工智能的技术储备上不及谷歌和微软,在硬件生态上的布局不及苹果和谷歌,必须全力以赴才能保住Echo的先发优势。
京东的对标策略
在过去三年,所有想复制Echo经验的中国公司中,京东无疑是先行者。当亚马逊2014年孕育着Echo时,这家中国公司也在考虑打造中国家庭的控制中心。
从车载语音切入
过去几年,与出门问问有类似观点的语音企业还有很多,它们纷纷涉足车载语音市场。科大讯飞2015年起与奇瑞汽车合作,开发智能语音互联系统,至今已发展至第二代。美国语音技术巨头Nuance 2012年正式推出类似Siri的车载语音平台,并在2016年1月发布了汽车语音助手,该系统已被上汽集团和阿里巴巴采用,装载于荣威2016年上市的互联网汽车中。
巨头入局
对所有国内语音企业来说,有一家公司无法绕过,那就是百度。过去几年,百度在移动互联网领域频频布局失误,从BAT(百度、阿里、腾讯)中渐渐掉队。2016年,在主营业务遭遇增长瓶颈的背景下,百度创始人李彦宏孤注一掷,希望借人工智能这个“新风口”,带百度重回中国互联网行业之巅。
通往智能之路
微软人工智能与研究事业部负责人沈向洋在2016年9月接受财新记者专访时就表示,语音的彻底主流化已经“不是一个需要讨论的问题,只是一个时间和习惯转移的问题”。他当时预计,计算机语音识别在噪音和非噪音环境下,最多五年便可超越人类的识别率,视觉识别可能要十年左右。只是他提醒,现在人工智能的发展更多是在语音识别和视觉识别等感知层面,在自然语言理解、知识的获取、情感等认知层面,业内还没有“搞得很清楚”,人们需要抱有一颗平常心。
……
本文为2017年7月3日出版的《财新周刊》封面文章
财小新提示:
想阅读全文?有两种方式可选。
1,注册财新网通行证,每月即可免费阅读五篇《财新周刊》文章。
2,点击左下“原文链接”,长按下方二维码购买《财新周刊》阅读权限,一个月仅售40元,超值尊享!
未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。如需转载,请通过向本公众号后台申请并获得授权。欢迎转发朋友圈
运营人员: 唐骏 MX002
(2017-07-03)
在迎接即将到来的万物互联的人工智能时代,语音毋庸置疑地成为了下一代主流人机交互方式。近日,中国电信旗下翼支付APP上线“智能语音助手”,用户可通过语音快速进入交水电费、点外卖、买理财等功能。
语音交互变革人类生活
最近,曾经战胜李世石的AlphaGO又打败了柯洁,让“人工智能”再次站在了舆论的风口浪尖。正如柯洁所说,“我的改变只是小小的改变,但DeepMind团队是在改变世界。”确实,DeepMind在AlphaGo上投入如此大精力,目标是想做“通用人工智能”,并非仅能在某个领域发挥作用。
“在过去75年里,每10年就有一次人机交互的重大革新。”互联网女皇Mary Meeker曾说,“人类对机器的操作,经历了从物理手柄按键,到物理键盘鼠标,再到触摸屏的过程,而现在轮到了语音。未来,语音将从根本上优化人们与机器的交互方式。”
随着语音识别准确率的不断提升,语音将从根本上改变我们的生活。在2013年,国内语音助手类产品的用户渗透率仅为31.2%,而到今年渗透率已达到近70%。除了专门的语音助手产品外,在垂直应用中包含语音功能的应用数量也在不断增长。
语音助手的最大优势,来自“人工智能”的超级大脑与人性化的语音交互方式的结合。与传统的交互方式相比,它能把传统APP上一步步浏览、选择、输出、操作全部简化为两步:提出-完成。至于中间的每一个步骤是怎么选择、操作的,用户完全不用考虑。
语音助手让支付更智能
点击翼支付APP上的“麦克风”按钮、按住“麦克风”说出“我要交电费”、几秒钟后即跳转到缴费页面。翼支付语音助手操作简洁而方便。
为了给予用户更有价值的反馈与帮助,翼支付产品团队结合自身情况,打造了一款定位于帮助用户快速导航、办理业务或解答业务问题的语音助手。
语音助手功能的实现,需要机器学习、数据挖掘算法、语音识别、自然语言理解等多种技术能力支持,其中最主要的就是语音识别与自然语言理解。前者将人类的语音中的词汇内容转换为计算机可读的输入,这决定了语音交互可应用到多大范围;后者将语音识别结果进行进一步处理理解,对应到某一具体的命令意图,是语音助手能否准确了解用户的意图的核心点与难点。
翼支付产品团队并非让语音助手自行通过对话或是鱼龙混杂的互联网学习问答,而是聚焦用户使用翼支付时最常见的30个意图,设立了对应的知识点,然后人工进行大量的语料编写,编写出近万条问句,并通过与拥有成熟自然语言理解技术的小i机器人合作,运用算法对这近万条语句进行扩展,得出十几万条语料库进行语义训练。
然而,这远不是翼支付语义理解训练的终点。语音助手上线后,随着真实用户的不断使用,系统通过对每日用户的聊天日志的检查,对错误反馈进行更正,不断有新的语句纳入语料库。通过日志,语音助手不断挖掘了解用户对语音助手的需求点,更有针对性地增加知识点,满足更多有强烈用户需求的意图。随着用户使用时间的增长,语料库的语句量级会继续增长,语音助手会越来越聪明越懂用户。
一句话完成支付或将实现
当前阶段,翼支付语音助手比较成熟的作用是帮助用户在翼支付APP中快速找到需要的功能,同时,用户常见的客服问答的语料库也正在不断建设与完善中。
然而,翼支付语音助手的“野心”绝不止于此。“未来,当你需要购买火车票时,你不必首先在众多应用和功能中找到买火车票,也不必一步步选择时间、车辆类型、出发地、目的地、座位类型等信息,然后选择搜索,从搜索结果中再进行选择,然后点击确认支付购买。”翼支付产品团队负责人展望了未来语音助手的应用场景,“你只要点开语音助手,说一句‘我要买一张明天到北京的高铁二等座位票’,然后进行最后的确认支付即可完成。”
接下来,翼支付的目标是实现语音对话完成真正业务办理。例如,只要对它说,“帮我充50元话费”,然后确认即能充值成功。除此之外, 还有更多语音场景也非常值得期待。
(2017-06-26)
语音,就是说话的声音。人们在讲话的时通过发音器官的运动,发出音高、音长、音强或音质都不相同的声音。这些声音在人们长期的劳动实践中被赋予了一定的意义,以此来传达和接受信息,就形成了语音。
现场讲话,语音训练的基本要求如下:
1、掌握正确的发声方法
语音是人体发声器官运动的结果,声带发出声音后,口、鼻、喉、咽、胸产生共鸣传出声音,唇、舌控制气流得到了各种不同的话音,而每个音素都有自己固定的发音方法。因此,我们必须准确地牢记每个音素的发音特点,掌握正确的发音方法。
2、吐字清晰,干脆利落
吐字时由于时间短促,不可能把每一个音素都发得那么彻底,一般在念字时口形主要落在韵母的元音上,声音处理应是字头短而有力,字腹圆润饱满,字尾和缓渐弱。整个音节干脆利落,不拖泥带水、含糊不清。
3、声调准确,注意区别
汉语的音节少,加上声调才使许多同音节字得以区别,因此,口语表达不可忽略声调的准确性,否则会造成表达不准确,甚至完全相悖的结果。
4、口齿灵活,自然流畅
说一段话需要连续发许多个音节,要使语言自然流畅,又使每个音节清晰准确,需要我们训练口齿的灵活性。锻炼口齿的灵活性可以通过朗读规范文字作品的训练方式来实现,由慢到快,经常练习。
5、养成良好的发声习惯
音色的美感能产生强烈的吸引力,使语言更富有魅力。要做到这一点,就必须养成良好的发声习惯。发声时的正确姿势是:挺胸、收腹、提气、颈背腰部自然伸直,胸肌放松,用力适中,便于气流通畅运行,以达到良好的共鸣效果,使声音浑厚有力、轻松自然、清晰悦耳。
(2017-06-02)
【IT168 评测】智能语音技术的爆发,让众多智能电视厂商看到了“新春”,全新的操控体验,简单又方便。
老年人和小孩动动嘴,说出自己想要看的内容,想看的节目便会推送到你的眼前,大大提升了用户体验。而良好的操控体验让越来越多的电视厂商搭载了智能语音操控技术,但技术却千差万别,谁才是最听话的智能语音呢?接下来我们通过实际对比给出答案。
我们选择市面上销量比较好的四款智能电视,他们分别是小米、长虹、乐视和微鲸,通过不同语音输出,看看电视的真实反映效果。
一语音替代手动
连接WIFI功能,说出密码“lalalaz8782”,结果长虹和微鲸没有给出令人折服的结果,两款电视连接失败。
二初级语音播放控制
连接WIFI只是一个初级测试,接下来才是进入主题,通过深层的语音问答,查看谁才是真正的智能语音。当我们说出“我今天心情不好”其他三款电视给出应答,乐视并未有识别这句“我今天心情不好”。
更长语句的问答会是怎样的结果呢?“我4级没考过,给我推荐几部美国电影吧”乐视和微鲸未能检测出如此长的提问,小米和长虹给出了美国电影的结果。
三复杂的多轮组合搜索
多轮递进式的问答,我想看张翰的电视剧,这么简单的问答,四款电视都能给出良好的结果,但是接下来的才是真正的拷问。和赵丽颖一起演的,结果长虹、乐视和微鲸并没能给出张翰和赵丽颖一起演的电视剧。
更为智能的考验我想看某部电视剧的第几集,当我们说出播放《人民的名义》第五集,结果小米和长虹直接进入第五集进行播放,乐视和微鲸则没有进入第五集进行播放。进入播放界面后,直接说出快进到10分31秒,这个表现还是不错的,小米、长虹和微鲸都实现快进效果,由于乐视只能会员才能观看,所以乐视并没有测试此功能。
组合条件的提问,“给我推荐一些影片吗,我不想看国外的不想看恐怖片,更不要付费的要最火的”可以说这么一长段落得提问,正常人都需要反映下一会儿,你到底需要什么呢?而小米电视却给出了答案,没有国外的没有恐怖的更没有付费的内容。
四影视百科搜索
影视百科问题则有些抢百度百科的饭碗,语音说出“刘诗诗的老公是谁”结果只有小米将吴奇隆检索出来,并将吴奇隆的简介以及影视作品推送出来。
更为丧心病狂的提问来了,“郑爽的旧爱的旧爱的旧爱的旧爱的男友的旧爱的旧爱的干女儿是谁”六个旧爱的,一个男友的干女儿,这句话到底主要问的是谁呢?结果小米电视给出了答案“徐娇”,如果不懂这层关系的可以百度郑爽的旧爱的旧爱的旧爱的旧爱的旧爱的旧爱的男友是谁,然后再百度男友的干女,你会找到答案,但小编可以很负责任的告诉你,小米电视给出的结果就是准确的。
总结:真的是不比不知道啊,综合评比之后我们发现,小米电视在四款电视中脱颖而出,无论是语音识别的准确率还是内容搜索的包容性上来看,小米电视的语音操控才是更智能更准确。
运营人员: 董敏 MZ011
以下为网友评论:
网友“D2V”:
实话,买了小米4a后,退货了,后来买了微鲸!
(2017-05-15)