同时,值得注意的一点是Echo早早的开放了自己的语音系统,系统开放带来更多的第三方应用。Echo的目标不仅仅打造一个智能音箱而是一个平台,越来越多的第三方应用接入、越来越多的用户使用智能音箱连接并控制家中的设备。
智能音箱2.0时代
在本期《封面故事》采访中,全志科技智慧家居事业部总经理陈风表示,现阶段的技术基本满足了人们对智能语音的需求,而最大的问题就是性价比。
声智科技副总裁李智勇恰提出了利用第二代智能音箱架构大幅提升性价比的方案,他表示:小米智能音箱之前的各种智能音箱软硬架构上都和Amazon Echo高度相似,也就是说整个智能音箱行业都在学习亚马逊五六年前为智能音箱设定的架构(特征是麦克风阵列板和主控板是分离的),而小米+声智的方案与此不同,可看作智能音箱第二代架构,此变化推动了终端产品性价比的大幅提升。据业内消息,亚马逊第二代产品也将采用同种架构,此架构很可能一统未来智能音箱的天下,其它类方案(比如导入单独DSP做信号处理的)将失去生存空间。
智能语音有哪些大山要跨越
前面也提到智能语音背后是硬件、算法、内容三大要素的支撑。
硬件
硬件部分芯片与麦克风阵列是核心部件。市场上支持语音交互与识别的芯片很多。然而,全志科技陈风却表示:市场上没有一款专为智能语音而生的芯片。因此,当下的语音技术还只在算法阶段。一类是成本较低的传统语音模式识别技术,通过波形比较、波形匹配以及特征化实现;另一类是基于AI技术的,由于适应性好,可做到更加精准地识别。只要芯片支持音频输入功能和对应的运算性能即可,比如CPU能够达到ARM双核1.2G就可满足语音识别的要求,但称之为专用的智能语音芯片并不严谨。
全志R16、意法半导体STM32通用控制系列就被应用到了智能语音的方案中。当然,行业里面正在研发专用的语音芯片。
麦克风阵列是声音的物理入口,技术包括噪声抑制、混响消除、回声抵消、声源测向、波束形成、阵列增益、模型匹配等,发展趋势是小型化、低成本化和多人识别模式。
算法
算法方面,主要包括语音检测、降噪、去混响和回声消除等传统音箱和通讯工具也需要具备的基本算法。智能音箱的关键算法是唤醒、语音识别、自然语言理解、对话管理、自然语言生成和文语转换等算法。
语音识别的目的是将语音信号转化为文本,目前,语音识别技术相对成熟。基于近场信号的、受控环境(低噪声、低混响)下的标准语音识别能够达到很高的水平。然而在智能音箱开放性的真实环境或者说收众多因素影响的远场环境,需要结合前端信号处理一起来优化。
声纹识别是根据语音波形反映出的个人生理和行为特征的语音参数,并以此来识别说话者的身份。现实中,该识别的准确率并不如指纹、虹膜识别。这也是智能语音更高“智能”形态的表现特征。
综合而言,智能语音技术的瓶颈在于以下两点 :
第一个问题是远场环境复杂,夹杂噪音、混响、自噪声等,容易导致机器端“听不清”,从而影响后续一系列操作。解决了这个问题,偏命令控制的终端便能带来良好的用户体验;
第二个问题是更深层次的智能问题,真正的智能需要实现语义的突破、需要声音与视觉的融合,这样的方案才更适合做拟人形态的机器人。
目前,各硬件厂商都停留在如何解决第一个瓶颈并做到更好用户体验的阶段。ADI在硬件中嵌入了机器学习与深度学习算法,因此可以高效而准确地捕获语音命令;意法半导体将SNR提高到65~67dB、 AOP提高到135dBSPL,以及在麦克风ASIC电路中加入抗干扰的设计等;CEVA通过降噪、麦克风阵列波束成形、扬声器跟踪、回声消除器、始终聆听唤醒词和嵌入式(非基于云端)语音指令实现。
未来,智能语音无处不在
探其究竟,智能语音落地背后的驱动力是什么?与非《封面故事》在采访调查中也找到了这个问题的答案:
- 解放双手
- 实现了功能入口扁平化
- 趣味性
我们不妨先来看看智能语音的发展历程。
第一阶段,20世纪50-70年代,技术萌芽阶段。贝尔实验室、普林斯顿大学等科研机构做了大量的研究,进行技术开发;
第二阶段,20世纪80年代,技术突破阶段;
第三阶段,20世纪80年代至21世纪初,进入产业化阶段;
第四阶段,2010年至今,快速应用阶段。智能语音技术已经深入用户生活之中。
智能语音技术的发展并非一朝一夕,所以在技术层面已具有根基,正如《封面故事》调查,现有的硬件与方案是可以满足当下智能语音要求的,但若在性能、成本、智能程度上更进一层,仍需继续深耕,因为产品的逐级落地自然就有一个不断完善的过程。
智能语音市场是一个高速增长的市场,2014年为仅为45.6亿美元的规模,2017年市场规模预计将达到105亿美,较2016年增长30%。而中国市场的增速要高于全球市场,2015年中国智能语音产业规模达到40.3亿元,较2014年增长41.0%,2016年中国语音产业规模达到59亿元,预计2017年中国语音产业规模将超过100亿元。远远高于全球市场增速。
随着人工智能的发展和深度学习技术的使用,语音识别准确率已经达到了95%以上。计算机和智能终端的界面正在从“键盘+鼠标”变为“麦克风+按钮”,智能语音带来的交互新体验正在渗透。
纵观“Touch 1.0(键盘)——Touch 2.0(鼠标)——Touch 3.0(触屏)——Touch 4.0(语音)”交互发展史,每一次交互模式的变革都是产业的重新洗牌。
如今,智能语音首先在智能音箱生根落地,而未来,智能语音必将以交互的形式出现在各个领域,家电、家居、汽车、工业等等。据调研机构数据,预计到2019年,智能语音在市场规模超1500亿美元的智慧家庭领域的渗透率将达12%。
那么,除了智能音箱,语音交互会首先在哪些领域落地呢?