芝能智芯出品
语音交互正从“产品”走向“基础设施”,嵌入日常设备成为默认功能。过去苹果的Siri和亚马逊的Alexa奠定了语音计算的基础,但其受限于云计算延迟、隐私担忧及用户体验,未能兑现“语音即平台”的承诺。
边缘AI推理能力的提升,语音处理正从云端迁移至终端设备(如遥控器、恒温器、耳机和汽车中控)。这对SoC(系统级芯片)设计提出了全新挑战——在极低成本(低于10美元)和功耗限制下,实现毫秒级语音唤醒与自然语言理解。
RISC-V 架构正凭借开放性、矢量处理优势和确定性执行模型,在AI加速市场中挑战 ARM 的主导地位。未来,支持语音的 SoC 将成为智能设备的基础设施,其影响将远超当前的“语音助手”时代。
Part 1
从“助手”到“基础设施”:
语音的角色转换
2011年Siri首次登场时,是一种无需动手即可与技术世界交互的全新方式,一个声音即命令的未来——语音成为环境感知、无缝对话的智能门户。
然而现实却远不如此。Siri的进化速度远不及公众的期待,始终未能摆脱“脚本式回应”的限制,局限于苹果封闭的生态内。
Alexa则代表了另一条路径。亚马逊将语音定义为产品,通过Echo系列硬件构建了一个以语音交互为中心的智能家庭生态,全球销量超过5亿台,成功将语音“商业化”地推出市场。但即使是Alexa也未能实现其野心。
消费者乐于用语音控制家居、查询天气、设置计时器,却迟迟不愿信任语音进行购物。缺乏反馈机制、不够上下文智能以及隐私顾虑,使得语音商业模型的可持续性受到质疑。
这两条路径最终殊途同归——语音并非最佳的“显性产品”,它更适合成为一种“无形能力”。
随着用户对语音交互的期望转向“嵌入式”和“默认交互”,语音计算的技术重心也从云端下沉至边缘,从面向平台的助手转为物联网设备中不可见但至关重要的功能层。
智能音箱不过是个开始。如今,耳机、电视、遥控器、恒温器,甚至汽车的中控系统,语音都开始像“按钮”一样成为标配。
这种普及的背后,是对设备端语音处理能力的全新需求——快速、准确、低功耗地在本地完成推理与响应,不依赖云端。
Part 2
SoC的重塑:
RISC-V与确定性架构的崛起
语音计算的云转边缘转变并非简单的部署方式调整,而是对芯片设计模式的颠覆。
在消费电子设备中,SoC必须在极低成本(常见为3至10美元)下提供数据中心级别的推理性能。
这要求SoC具备几个关键能力:毫瓦级常开监听、100毫秒内完成唤醒词检测与语义解析、无缝对接输入/输出模块,以及与主控逻辑实时协同。
简单来说,它们既要“聪明”,又要“节俭”。与高端智能手机不同,大多数语音设备无法容纳一个完整的神经网络加速引擎。因此,SoC必须采用更加模块化和高效的设计方式。
在这一背景下,传统的标量计算核心(如ARM)固然仍负责操作系统管理和外围控制逻辑,但AI加速的“主力战场”已经由矢量/矩阵引擎主导。
RISC-V的崛起正是搭上了这一波边缘AI语音浪潮。相比ARM的Neon SIMD架构,RISC-V具备更灵活的矢量扩展能力,可支持可变长度指令、更强的功率效率和定制化能力。
在语音SoC中,其矢量核心面积虽然是标量核心的2至3倍,但功耗比与吞吐量的比值却远高于传统CPU架构,成为“低功耗+高性能”的绝佳解决方案。
Simplex Micro推出的Axelon架构,是这类混合设计的代表。
它将ARM或RISC-V标量核心与RISC-V矢量引擎以柔性接口方式集成,并引入基于时间的执行模型(deterministic scheduling),从架构层避开传统CPU中的推测执行机制所带来的功耗上升与验证复杂性。
通过消除时间不可预测性,这一架构不仅提升了语音任务的实时性和稳定性,还极大降低了芯片开发和验证周期。
这种“确定性调度”模型非常适用于持续在线(always-on)的语音场景——例如唤醒词检测、降噪、关键词提取、意图解析等推理任务。这些任务如今占据语音SoC超过80%的计算周期和90%的动态功耗,成为决定芯片能效的关键变量。
SoC不再是一个以通用CPU为中心的设计结构,而是围绕AI推理负载重构的异构计算平台。RISC-V的开放性、模块化、以及对未来AI指令集的高度可定制性,使其在这一代语音SoC的崛起中站上了舞台中心。
小结
当大家对着产品说话的时候,在遥控器、耳机甚至冰箱上使用语音时,一个时代的技术正在从显性走向隐性。语音,正在成为基础设施。
触摸屏从最初的iPhone炫技功能,演变为每台设备的默认输入方式,语音也在经历类似的技术归化过程,是AI SoC在边缘设备中的静默革新。
原文标题 : “语音即基础设施”——AI SoC改变交互