为什么写这边文章?作为开发过不少语音在线识别和离线识别不少产品的嵌入式软件工程师来说,有不少同事和粉丝对于嵌入式端语音开发,经常问我:怎么做?怎么选芯片?有哪些厂家有芯片可以选择?
所以决定写下这边科普文章。
在知乎上看到一位很牛的销售龙洋,很早之前就写了国产离线语音芯片的对比,真的是一位很称职的销售。
本文重点只是介绍下芯片和厂家,不做开发方面的描述。
博主在专栏中在不断更新嵌入式语音开发工作的文章,目前还在更新中。
以下排名不分先后,文章内容没有褒谁贬谁,客观描述。
具体资料可以去查看。
芯片简介
蜂鸟芯片(US526U5/US527U5 )(是云知声最新一代专门为离在线远场语音交互场景设计的高性能,高集成度, 低成本的智能语音芯片,可广泛且快速应用于智能家居,智能家电,86 盒,灯具等产品。
蜂鸟L(US513U6) 是一颗亚毫瓦级超低功耗面向带电池和便携式产品以及对功耗有严苛要求的 各类产品推出的智能纯离线语音识别芯片,依托于云知声在语音识别技术上的积累和算法的 不断优化和创新,将离线识别算法与芯片架构深度融合,为客户提供 Turnkey 语音识别方案, 可广泛且快速应用于各类带电池的小家电,可穿戴,玩具以及单火线供电 86 盒等需要语音 操控的产品。
蜂鸟M(US516P6) 是云知声针对大量纯离线控制场景和产品最新推出的低成本纯离线语音识别 芯片,依托于云知声在语音识别技术上的积累和算法的不断优化和创新,离线识别算法与芯 片架构深度融合,为客户提供超低成本的离线语音识别方案,可广泛且快速应用于智能家居, 各类智能小家电,86 盒,玩具,灯具等需要语音操控的产品。
截止目前时间,总共五个系列芯片,针对不同产品形态。即使各种参数最低的蜂鸟L,单Mic语音识别也非常优秀。
高性能
AI加速架构,以及硬件与算法的深度耦合联合确保芯片远超通用芯片的性能。
功耗低
专用ASI以及面向AI的设计使得功耗大幅降低。
可定制
根据产品类型,设定离线命令词,云端服务可定制。
代码开源
支持批量导入更快捷,方案代码开源。
快速落地
使用参考方案,适度定制,一个月内软件达到量产标准。
如果你是开发者,可以去找云知声公司申请开发板来进行体验和项目开发。离线语音可以支持中文版和英文版。
百度鸿鹄语音芯片(DU1906)是专门为智能家居语音交互、智能车载语音交互、以及智能物联等场景设计的超低功耗远场语音交互芯片,具有远场阵列信号实时处理、高精度超低误报语音唤醒、离线语音识别等核心能力。
百度鸿鹄语音芯片提供基础的信号处理和唤醒能力,提供完整的语音处理硬件模组方案或参考设计输出,通过SDK输出包括远场信号处理、语音唤醒、语音识别、语义理解和语音合成等完整的智能家居语音解决方案,支持RTOS、Linux和Android等主流操作系统,支持音箱、电视、空调等多种家居场景需求。
低功耗
平均功耗低于100mW,可支持远场语音交互必须的实时信号处理和唤醒能力,满足国家绿色家电3C认证标准。
支持百度领先的Deep Peak和Deep CNN语音唤醒技术,实现复杂内外噪场景下的高精度唤醒,单日误报次数不大于1次。
暂时无。
百度这颗芯片,能拿到的资料不多,很多信息都不详。仅从官方描述的支持Linux,Andriod操作系统来看,芯片针对的市场比较单一。目前市场上有小度智能音箱2红外版搭载了这颗芯片,C12量子点Mini LED智屏首次搭载百度鸿鹄语音芯片。
从19年发布到目前未知,百度对外发布的信息并不多。作为开发者的我们,想体验这颗芯片,还需要些时间。
芯片手册可以去其官方。
芯片简介
NRK330X 系列语音识别芯片是广州市九芯电子有限公司推出的一款32位高性能、低成本语音识别IC,其具有具有识别精准、远场降噪等优势,最多可支持不超过100条离线指令,现已广泛用于智能家电、智能卫浴、智能照明、智能机电、智能家居、 智能玩具 等领域。
芯片参数
内核和存储
- 高性能 32 位 RISC 内核,主频 240MHz,支持硬件浮点运算
- 内置 1MB SPI FLASH
AI算法
- 离线语音识别,采用最新的神经网络(TDNN)算法,具有识别精准,误判率低等优势,5 米远场可靠识别
- 语音降噪算法:过滤掉稳态噪声、对动态噪声也有很好的抑制作用,噪音下也可准确识别
- 音频解码:
- 支持 MP3,WAV,WMA,APE,FLAC, AAC,MP4,M4A,AIF,AIFC 音频解码
- BT 支持 SBC,AAC 音频解码音频
- BT 电话支持 mSBC 语音编解码器
电源
- VBAT 为 2.2V 至 5.5V
- VDDIO 为 2.2V 至 3.6V
蓝牙
- 符合蓝牙 V5.1 + BR + EDR + BLE 规范
- 满足 Class1 class2 和 class3 传输功耗需求
- 支持 GFSK 和 π/ 4 DQPSK 所有包装类型
- 提供+ 6dbm 发射功率
- 具有-90dBm 灵敏度的接收器
- 快速 AGC 可增强动态范围
- 支持a2dp avctp avdtp avrcp hfp spp smp att gap gatt rfcomm sdp l2ca 配置文件
外设
- 一个全速 USB 2.0 OTG 控制器
- 一个 I2S 数字音频接口,支持主机和从机模式 四个多功能 16 位定时器,支持捕获和 PWM 模式
- 三个用于电机的 16 位 PWM 驱动发生器
- 三个全双工基本 UART,UART0 和 UART1 支持 DMA 模式
- 两个 SPI 接口支持主机和设备模式 一个 SD 卡主机控制器
- 一个硬件 IIC 接口支持主机和从机模式
- 内置 Cap Sense Key 控制器
- 10 位 ADC 用于模拟采样
- 所有GPIO上的外部唤醒/中断
芯片简介
NRK10 为广州九芯电子自主研发的一款高性能、低成本的离线语音识别芯片,具有语音识别及播 报功能,需要外挂 SPI-Flash,存储词条或者语音播内容。他具有识别率高,工业级性能、简单易用, 更新词条方便等优势。广泛应用在智能家居、AI 人工智能、玩具等多种领域。
具体资料可以去官网查看。
从芯片的介绍和开发方式,九芯的语音识别芯片属于传统型厂商研发生成。
注意,这里不是芯片是模块。
科大讯飞的CSK4002组合顺芯的ES7210音频ADC芯片的模组,支持200条语音识别指令,语音识别支持红外插座、风扇、云台、音响、扫描笔、取暖桌、集成灶、会议宝、空调、投影仪等设备。
为端侧提供前端声学能力。
讯飞的芯片更多的不是一个单芯片呈现,它是通过一个降噪芯片搭载一个其他主芯片来完成方案。优点:识别率高,性能好;缺点:成本高。
芯片简介
太行TH1520是思必驰旗下芯片公司深聪智能 的AI芯片,搭载思必驰全链路人工智能语音技术,低功耗算法的优势使其广泛地应用于智能家居、智能车载领域。
太行TH2608配置了一个Cortex-M CPU子系统,一个信号处理器DSP子系统,一个高效的NPU子系统,一个语音音频编码子系统,支持六路模拟麦克风与六路数字麦克风和外设单元,使得新一代太行芯片具备快速赋予各类产品语音交互和设备控制能力的同时,升级了对智能产品显示部分控制的支持,持续拓展智能产品支持类型和应用场景。TH2608还集成了指令识别能力,情绪识别能力,声纹识别能力以及语音合成能力,在用户体验方面得到了进一步的优化。同时,也增加了多场景的适应能力,如多路语音采集能力,丰富灵活的接口配置,显示能力,超低功耗唤醒能力等。
- 高达400+MHZ的双Tensilica DSP核
- 具体说明。设置音频算法
- 3. 3/ 1.8v可选输入输出电压
- 多音频配置
- 最多支持6通道DMICS/AMICS
- 大容量内存
- 2xI2S
- 2xi2c
- 2xUART
- 1XSPI
- 1XUSB1.1
- PWM
芯片优势
芯片离线方案
芯片在线方案
资料暂无
异构双核AI语音芯片 SC5654是一颗高度集成的音频SoC,集成了低功耗高性能的玄铁803作为系统主控,配以高性能音频专用DSP处理音频编解码和音效处理,同时还集成了SAR-ADC,USB、SDIO等控制器,以及音频Codec和I2S音频接口。
SC5654支持AliOS-Things操作系统、YOC语音应用框架,提供MP3、AAC、OPUS等音频编解码组件,集成了语音唤醒、降噪芯片、识别等算法。
智能音箱、故事机、智能家电等领域。
低功耗高性能音频SOC芯片 基于阿里平头哥嵌入式CPU设计的低功耗高性能智能人机交互/音频处理SoC芯片,芯片集成带DSP增强功能及浮点加速的CK804内核,内置128KB的SRAM;芯片集成高性能Audio CODEC、USB、ADC、QSPI、PMU等模块/设备及SPI、IIS、IIC、UART等外设I/O接口。采用SMIC 55nm工艺制程,并支持多种低功耗模式。
开发板
应用领域
电竞耳麦、TYPE-C转接器、K歌麦克风、语音车载支架。
LS416芯片参数
DSP
- 5 级流水线,最高工作频率 160MHz;
- 32bit/16bit 乘法:MAC16,MUL16,MUL32;
- 32bit 整数除法;
- 单精度浮点运算;
- 专用硬件音频加速引擎;
- 32KB 指令 Cache,32KB 数据 Cache,支持 WB/WT;
- 集成 Local SRAM
MCU
- 高性能 Cortex-M0,最高工作频率 80MHz;
- 内建 8KB Cache,分四个地址区域,独立配置是否 Cache;
- 支持降频工作,最高总线频率四分之一
SPI Flash 控制器
- 支持 SPI Flash 1/2/4 线模式;
- 支持核心直接在 SPI Flash 上运行;
- 内部叠封 16Mbit SPI NorFlash;
SRAM
- 内置 240K SRAM,系统 32KB+16KB,DSP 192KB;
- 支持 Byte,Half-word,Word 读写;
封装
- QFN-48
LS416应用领域
可用于玩具、家电等领域
互问W02x芯片 是一款高度集成的本地语音系统级芯片(SoC),自研基于神经网络深度学习的本地唤醒和前端降噪算法,无需额外license。支持多级唤醒和多个本地固定词命令词,支持多通道/多麦克回声消除功能,可作为AEC前端处理+本地唤醒,支持I2S作为super codec使用。内置深度定制的神经网络处理单元、逻辑控制单元,无需MCU处理简单逻辑。
W03内置深度定制的神经网络处理单元、逻辑控制单元、RSIC和大容量内存。内置互问远场拾音降噪、本地语音识别和唤醒打断技术,只需外接WiFi收发单元,即可实现IOT和云端交互功能。可用于智能音箱、智能机器人、智能家电等领域。
截止目前,华振的语音识别芯片主要6个系列:
A550芯片是华振公司第三代语音识别芯片,支持MP3音频文件的解码播放。可用于智能识别等诸多领域。A550芯片可以通过多个接口与其它MCU进行通信。
A550支持非特定人中文、英文语音的识别,通过双麦克风降噪收音,并允许用户通过USB接口对关键词和关键句的更新。
A550可以支持多达1000词条的语音识别,对于非易混词表,系统给出的识别率达到97%以上,系统支持在噪音环境下的语音识别,芯片中加入了专门的滤波模块。
芯片架构
A550芯片作为一颗主控处理器,内含8052核和DSP核,可以外扩SD卡或者TF卡。
开发环境
windows下keil c5。
开发板
6291平台基于MIPS芯片,运行Linux系统,支持单麦/双麦远讲识别。运行算法有:基于深度神经网络算法的本地语音识别、语音增强、语音降噪、声源定位、波束成型、本地语音合成。
6291平台单麦版本采用高灵敏度数字麦克风录音,利用稳态、动态噪音过滤算法,动态调整录音音量,录音降噪后通过语音增强,将高信噪比的语料数据送到识别引擎去做识别,保证了不同距离(远讲)识别的高精准度和抗噪能力。
6291平台双麦版本在单麦版本的基础上,增加了双麦声源定位(180度)、波束成型,利用麦克风的空域滤波特性,通过对唤醒人的角度定位,形成定向拾音波束,并对波束以外的噪声进行抑制,以保证较高的录音质量,再将录音数据做本地识别,最适合真实复杂场景下的语音控制。
6291平台支持中文普通话识别,同时也支持方言识别,用户可以自定义学习训练唤醒词、控制指令,学习训练的内容不限制语种,不限制说话内容。学习训练成功后,语音大脑既支持已有的普通话识别,也支持学习训练的方言识别。
更多资料可以直接去这里。
语音大脑DM 6292平台基于MI PS芯片,运行Linu x系统 ,支持四麦克风阵列,支持远讲识别。运行算法有:基于深度神经网络算法的本地语音识别、云端识别,语音增强、回声抑制,波束成型、声源定位、本地语音合成。
DM6292平台前端采用四麦克风阵列,利用四麦克风阵列的空域滤波特性通过对唤醒人的角度定位,形成定向拾音波束,并对波束以外的噪声进行抑制,以保证较高的录音质量,再将录音数据做本地识别或者云端识别,在嘈杂环境下同样可以识别。
语音大脑平台VB580是华镇电子推出的一款语音识别软硬件一体解决方案,具有低成本、高可靠性、通用性强的特点。在语音技术上实现了高可靠的唤醒识别率、更远距离的唤醒、更低误唤醒率、更丰富的语音控制指令条数、更强的抗噪音能力、更快的响应识别时间,免联网的纯离线识别。
VB580平台采用了高性能 32位音频处理器,软件采用了华镇第五代的语音识别算法、降噪算法、麦克阵列等前端处理算法,能够为智能设备提供远场环境下语音控制、语音交互能力,使硬件能听懂用户的说话内容、语音指令来完成设备控制操作等功能,并通过语音播报,完成与操作人员的全语音交互,带来简单快捷的使用体验。
VB590平台是华镇推出的一款离线语音识别AI软硬件一体解决方案,具有超低成本、高可靠性、通用性强的特点。在语音识别技术上实现了高可靠的唤醒识别率、更远距离的唤醒、更低误唤醒率、更强的抗噪音能力、更快的响应识别时间,免联网的纯离线识别。
VB590平台采用了高性能32位处理器,芯片内置语音识别神经网络计算所需要的DSP指令增强单元以及MCA算法硬件加速器,AI算法与芯片架构深度融合,搭载公司第五代AI算法(语音识别算法,语音增强、降噪等声学前端处理算法),为智能设备提供良好的远场环境下语音控制、语音交互能力。
VB590芯片在AI计算能力、存储性能、集成度做了全方面深度优化,为开发者提供了真正低成本的完整语音AI解决方案,提高差异化竞争力。 VB590平台具有丰富的外围接口,包括 UART/I2C/PWM,以及简单、友好的二次开发工具, 方便客户实现单芯片的语音控制应用场景方案。
应用领域
智能家电、智能卫浴、智能照明、智能机电、智能玩具、智能家居等。
VB6824平台是华镇电子推出的一款AI离线语音识别+双模蓝牙的解决方案,具有超低成本、高可靠性、通用性强的特点。在语音技术上实现了高可靠的唤醒识别率、更远距离的唤醒、更低误唤醒率、更丰富的语音控制指令条数、更强的抗噪音能力、更快的响应识别时间,免联网的纯离线识别。
VB6824平台采用了高性能 32位音频处理器,软件采用了华镇第五代的语音识别算法、语音降噪算法,能够为智能设备提供远场环境下、稳态噪音环境下语音控制、语音交互能力,使硬件能听懂用户的说话内容、语音指令来完成设备控制操作等功能,并通过语音播报,完成与操作人员的全语音交互,带来简单快捷的使用体验。
VB6824平台集成了双模蓝牙,符合蓝牙V5.1 + BR + EDR + BLE规范。支持BLE接入手机蓝牙app或小程序,支持BR/EDR连接手机做蓝牙音乐播放。
注意:这里的TX1不是芯片,是麦克风的形式存在。
功能
- 支持常用麦克风的使用
- 支持语音唤醒和命令词识别
- 持声纹识别
功耗
- 工作功耗低,实时唤醒,识别率高
- 睡眠模式功耗:
- 50 uWVAD模式功耗:
- 0.1mW唤醒模式(工作模式):2mW
超低功耗
高度集成的SOC,包含音频ADC和AI语音识别功能
远距离语音唤醒和命令词识别
规格参数
音频
- 支持模拟麦克风
- 支持数字麦克风
电源、时钟和复位
DC 3.3V,1.8V和1.1V/0.9V电源供电
- 支持32KHz时钟输入,内置 PLL 时钟源
- 内置Watchdog
- 多种低功耗模式
- VAD低功耗模式
性能参数
- 低功耗
- VAD功耗: <100uW
- WAKEUP : < 2mW
- 延迟:实时唤醒
- 识别率: > 95%
- 误识率:<=1次/24小时
- 唤醒距离:3m(car,office, home)
- 芯片DIE面积:2.0x2.3 mm
博主用过这颗芯片,tx210的烧录固件是放在主控芯片的flash里面。每次上电需要有读出来,给tx210升级,升级之后可以使用。
这颗芯片优点功耗低,便宜;
缺点:不带codec,i2s,如果你的开发项目中有codec的你不想得选择一个codec芯片加TX210来使用。
仅仅只是当做有一个唤醒芯片,命令词识别芯片,不需要有codec,可以根据自己的项目需要来选择。
启英泰伦的语音AI平台有丰富的资料和教程供开发者使用,无代码开发。所以配置都可以用在线生成固件。和云知声的平台很类似。这对于不是大公司,缺少技术支持的公司来说,很适合选择。
开发者们最喜欢就是少问,或者不问,不写代码,就能把项目做完了,云知声和启英泰伦的这种平台化模式非常优秀。
启泰的几个芯片开发板,我都体验过,单麦的,3到5米,办公室环境,识别率,只能说一般。3米内,安静环境,识别率还可以。
缺点:误唤醒率高(博主体验的时候,有时候会突然唤醒,吓人啊。绝对不是官网的数据24小时内一次,至少我体验的版本是这样的,不知道现在算法有没有改进)。
优点:平台化开发方便。
(1) ARM Cortex-M4F,最高运行频率200MHz;
(2)内置 512KB SRAM ,ASR 硬件加速引擎;
(3)语音活动检测引擎(VAD),支持 VAD 参数可调;
(4)语音特征提取引擎(FE);
(5)支持本地语音识别解码,低功耗语音唤醒,回音消除功能;
(6)内置1路UART接口,1路SPI 接口,2通道, PLL,上电及欠压复位电路,支持外接晶体和有源晶振;
(7)IO 供电:3V ,内核供电:1.2V,支持睡眠待机模式 ,内置独立看门狗和窗口看门狗,支持超时产生中断或复位。WTK6900FA-56N 是一颗专用于语音处理的人工智能芯片。该芯片基于目前最先进的深 度神经网络(DNN-HMM)语音识别技术,实现了高识别率、高实时性、本地和云端结合、高度 一体化的语音识别及处理功能;可以实现语义识别等特定智能语音交互效果。同时该芯片具 备常规 MCU 的控制及计算处理能力,可以实现各类需要通信及控制的应用。
该芯片从语音输入开始,语音检测,语音特征提取及 DNN 运算完全采用硬件架构设计, 软件主要进行语音解码和语音播报。该芯片具有较高的运算性能及低成本、低功耗、小尺寸 等优势。
在应用方面,该芯片可以支持本地语音检测、唤醒,以及一百多条离线命令词条的识别。 芯片可通过 UART 将命令推送到设备原有的上位机,实现简单的语音交互接口。
功能描述
1.ARM Cortex-M4F,最高运行频率200MHz
2.内置 512KB SRAM ,ASR 硬件加速引擎:
3.语音活动检测引擎(VAD),支持 VAD 参数可调
4.语音特征提取引擎(FE)
5.支持本地语音识别解码,低功耗语音唤醒,回音消除功能
6.内置1路UART接口,1路SPI 接口,2通道, PLL,上电及欠压复位电路,支持外接晶体和有源晶振
7.IO 供电:3V ,内核供电:1.2V,支持睡眠待机模式 ,内置独立看门狗和窗口看门狗,支持超时产生中断或复位。WTK6900CS-48L 为本地语音触发引擎的辨识芯片,具有识别及播报功能,需 要外挂 SPI Flash 来存储词条或者语音播内容。在音频输入端可以直接连接麦克 风使用,在音频输出端,可以直接驱动 8 欧 1W 的扬声器,运算速度更快识别效 果更佳。本芯片具有简单的 UART 发送功能,语音辨识引擎会根据实际的运行结 果,反馈辨识成功后的数据,数据通过 UART 发送,可配合 MCU 使用;简化了产 品开发流程,提高了产品开发效率。可应用在台灯、多功能小家电、理疗产品(按 摩椅,头部按摩仪等)、对讲机、办公用品、高端玩具等等。
功能概述
1.-工作电压:2.8V 到 5.5V
2.- 内部提供 3V 的 LDO,用于外部 3V 工作电压的设备使用,比如 SPI 存储器、上拉电阻等。
3.-固定词条,非特定人识别
4.-可识别20个词条(每个词条四字)
5.-识别环境:安静无回声
6.-识别效果:安静无回声环境,3米内识别率可达90%及以上
7.-识别语种:可识别32种语种,如英语,中文,日语,粤语等等(不可同时识别多种语种,即一个芯片无法同时识别中文,英文,日语)
8.-音频输出格式为PWM
9.-可直接驱动8欧1W喇叭
10.-支持16kHz采样率
11.-音频输出的内容需要放置在外挂的SPI_Flash中
12.-能够提供 25mA 的负载电流
13.- 8 个 GPIO(GPIOA)工作电压从 LDO 获取,允许接口直接和 3V 工作电压器件连接,比如 3V 的 SPI 闪存WTK6900B-28SS 是一个带有本地语音触发引擎的辨识芯片,可实现语音辨识 功能以及语音播放解码功能。本芯片具有简单的 UART 发送功能,语音辨识引擎 会根据实际的运行结果,反馈辨识成功后的数据,数据通过 UART 发送,可配合 MCU 使用;内置两路 PWM 输出,只需接上 LED 驱动电路即可控制 LED 的开关、亮 暗变化;简化了产品开发流程,提高了产品开发效率。
功能概述
1.-工作电压:2.8V~5.5V,一般为3.3V
2.-工作电流: <13ma
3.-唤醒方式:语音唤醒
4.-固定词条,非特定人识别
5.-可识别6~9个词条(每个词条建议三~四字),出厂词条固定
6.-识别环境:安静无回声
7.-识别效果:安静无回声环境下,2米内识别率可达90%及以上
8.-识别语种:可识别32种语种,如英语,中文,日语,粤语等等(不可同时识别多种语种,即一个芯片无法同时识别中文,英文,日语)
9.-支持DPWM输出,可直接驱动8欧0.5W喇叭@5V
10.-音频输出的内容需要放置在外挂的SPI_Flash中,可播放的音频总容量由外置SPI_Flash的大小决定
11.-支持8-32KHz采样率
12.低电压复位:1.6V
13.内置低压差稳压器(LDO)
14.-在3.3V可提供25ma负载电流
15.工作温度:-100C~+700C唯创的芯片识别近场,加上没有降噪功能,大概都在两三米内。识别率大概在90%左右,远低于行业要求的95%以上。这些都是一颗低成本的芯片,项目要求不高的玩具行业,可以考虑。
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.