分享好友 最新动态首页 最新动态分类 切换频道
百度语音识别入门
2024-12-25 18:37

1.FFmpeg:

链接:https://pan.baidu.com/s/1jonSAa_TG2XuaJEy3iTmHg

密码:w6hk

2.baidu-aip:

终于进入主题了,此篇是人工智能应用的重点,只用现成的技术不做底层算法,也是让初级程序员快速进入人工智能行业的捷径

目前市面上主流的AI技术提供公司有很多,比如百度,阿里,腾讯,主做语音的科大讯飞,做只能问答的图灵机器人等等

这些公司投入了很大一部分财力物力人力将底层封装,提供应用接口给我们,尤其是百度,完全免费的接口

既然百度这么仗义,咱们就不要浪费掉怎么好的资源,从百度AI入手,开启人工智能之旅

开启人工智能技术的大门 : http://ai.baidu.com/

看看我大百度的AI大法,这些技术全部都是封装好的接口,看着就爽

接下来咱们就一步一步的操作一下

首先进入控制台,注册一个百度的账号(百度账号通用)

开通一下我们百度AI开放平台的授权

然后找到已开通服务中的百度语音

走到这里,想必已经知道咱们要从语音入手了,语音识别和语音合成

创建语音应用App

就可以创建应用了,回到应用列表我们可以看到已创建的应用了

这里面有三个值 AppID , API Key , Secret Key 记住可以从这里面看到 , 在之后的学习中我们会用到

好了 百度语音的应用已经创建完成了 接下来 我会用Python 代码作为实例进行应用及讲解

一.安装百度的人工智能SDK:

首先咱们要 pip install baidu-aip 安装一个百度人工智能开放平台的Python SDK实在是太方便了,这也是为什么我们选择百度人工智能的最大原因

安装完成之后就来测试一下:

在工程目录下,就可以看到 s1.mp3 这个文件了,来听一听

上面咱们测试了一个语音合成的例子,那么就从语音合成开始入手

技术上,代码上任何的疑惑,都可以从官方文档中得到答案

baidu-aip Python SDK 语音合成技术文档 : https://ai.baidu.com/docs#/TTS-Online-Python-SDK/top

刚才我们做了一个语音合成的例子,就用这个例子来展开说明

先来看第一段代码

这是与百度进行一次加密校验 , 认证你是合法用户 合法的应用

AipSpeech 是百度语音的客户端 认证成功之后,客户端将被开启,这里的client 就是已经开启的百度语音的客户端了

再来看第二段代码:

 

用百度语音客户端中的synthesis方法,并提供相关参数

成功可以得到音频文件,失败则返回一段错误信息

重点看一下 synthesis 这个方法 , 从 https://ai.baidu.com/docs#/TTS-Online-Python-SDK/top 来获得答案吧

从参数入手分析:

按照这些参数,从新发起一个语音合成

这次声音是不是与一点点萝莉了呢?

这都是语音语调的作用 0 - 9 其实就是 御姐音 - 萝莉音

这就是人工智能中的语音合成技术,调用百度的SDK,只用了5分钟,完成了1年的开发量,哈哈哈哈

一定要自己练习一下语音合成, 别把它玩儿坏了

哎,每次到这里,我都默默无语泪两行,声音这个东西格式太多样化了,如果要想让百度的SDK识别咱们的音频文件,就要想办法转变成百度SDK可以识别的格式PCM

目前DragonFire已知可以实现自动化转换格式并且屡试不爽的工具 : FFmpeg 这个工具的下载地址是 : 链接:https://pan.baidu.com/s/1jonSAa_TG2XuaJEy3iTmHg 密码:w6hk

FFmpeg 环境变量配置:

首先你要解压缩,然后找到bin目录,我的目录是 C:ffmpegbin

然后 以 windows 10 为例,配置环境变量

如果没搞明白的话,我也没有办法了,这么清晰这么明白

尝试一下,是否配置成功

看到这个界面就算配置成功了,配置成功有什么用呢, 这个工具可以将wav wma mp3 等音频文件转换为 pcm 无压缩音频文件

做一个测试,首先要打开windows的录音机,录制一段音频(说普通话)

现在假设录制的音频文件的名字为 audio.wav 放置在 D:DragonFireAudio

然后我们用命令行对这个 audio.wav 进行pcm格式的转换然后得到 audio.pcm

命令是 : 

然后打开目录就可以看到pcm文件了

pcm文件已经得到了,赶紧进入正题吧

百度语音识别SDK的应用:

前提是你的audio.pcm 要与你当前的文件在同一个目录,还是分段看一下代码

读取文件的内容,file_context 是 audio.pcm 文件打开的二进制流

asr函数需要四个参数,第四个参数可以忽略,自有默认值,参照一下这些参数是做什么的

第一个参数: speech 音频文件流 建立包含语音内容的Buffer对象, 语音文件的格式,pcm 或者 wav 或者 amr。(虽说支持这么多格式,但是只有pcm的支持是最好的)

第二个参数: format 文件的格式,包括pcm(不压缩)、wav、amr (虽说支持这么多格式,但是只有pcm的支持是最好的)

第三个参数: rate 音频文件采样率 如果使用刚刚的FFmpeg的命令转换的,你的pcm文件就是16000

第四个参数: dev_pid 音频文件语言id 默认1537(普通话 输入法模型)

再来看下一段代码,打印返回结果:

成功的dict中 result 就是我们要的识别文本

失败的dict中 err_no 就是我们要的错误编码,错误编码代表什么呢?

如果err_no不是0的话,就参照一下错误码表

到此百度AI语音部分的调用就结束了,是不是感觉很简单

 

转载 https://www.cnblogs.com/DragonFire/p/9208195.html

最新文章
短视频带货源码搭建,短视频开发app,短视频商城系统
一、云豹短视频带货源码的主要功能1、短视频带货:短视频在发布时可以添加商品链接,短视频播放即弹出该链接2、直播带货:开通店铺的主播在开播时可以开启带货直播间,直播间内可展示店铺内商品3、广告视频:在短视频开发app后台可以添加广
荣耀,红米,vivo那个品牌的手机比较好?
荣耀、红米和vivo都是知名的手机品牌,各自有其优势和特点。下面我将分别对它们进行评价。荣耀是华为旗下的子品牌,主打性价比高且配置较强的手机。荣耀手机在市场上具有良好的口碑,拥有出色的摄影能力和稳定的系统性能。同时,荣耀还注重
海康智能云DS-A5000-S36/AB,DS-A5000-S36/A,DS-A5000-S40
产品简介DS-A5000系列是视频云存储的基础上,结合新的AI智能技术、大数据技术和云计算技术,通过系统优化整合在一起融合存储产品,在一套存储平台架构上,提供了存储、计算、智能分析、大数据查询、平台应用一系列的功能,集成了基于深度学
【R8麒麟(全网通)应用宝下载】长虹R8麒麟 全网通应用宝8.8.6免费下载
(Android)是腾讯应用中心倾力打造的手机应用商店,致力于为用户丰富、优质、个性化的安卓软件资源和一站式的下载管理体验,全方位覆盖用户的下载、管理、收藏、分享、等多样化需求应用宝2024更新内容1、修复了一些已知的bug应用宝6.7更新
万能种子搜索器_万能种子搜索器v2.5云播版(穿透)
万能种子搜索器是是一款用于下载搜索下载种子的软件,支持云播放,是一款没有搜索限制的的种子搜索工具,有着超快的搜搜速度!我们使用万能种子搜索器可以轻松的搜索到自己想要的电影、音乐、MP3、电子书、视频、教程啊等等内容,获取到文
轻松入门,个人博客搭建全攻略
轻松搭建个人博客,只需遵循以下步骤:选择合适的(如WordPress、Hexo等),购买域名和,安装并配置相关软件,设计布局,撰写并发布文章。掌握SEO优化、内容创作技巧,可提客质量和访问量。本文将详细解析每一步,分享实用技巧。确客主题挑
猎豹浏览器32位8.0
猎豹浏览器是一款功能强大的浏览器,软件采用双内核,拥有着极速稳定的浏览体验,支持各类插件的扩展,让浏览的功能更加丰富,并且对金山自家的BIPS进行整合,还对Chrome内核进行优化,让页面访问速度更快更稳定,有喜欢的小伙伴快来下载吧
遗传算法原理及应用_单纯形优化法在汽车滑行试验中的应用
为了更精确地测量整车动力性和经济性,需要通过汽车滑行试验获得更精确的车辆道路行驶阻力系数。说明了滑行试验的整车受力分析原理,建立道路阻力平衡方程;推导滑行过程中时间和车速的关系函数,建立道路阻力系数
推荐一款“微乐麻将万能开挂器免费”(确实是有挂)-知乎优质
亲,微乐麻将万能开挂器免费这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这款游戏是不是有挂,实际上这款游戏确实是有挂的,添加
相关文章
推荐文章
发表评论
0评