推荐专题：

100字范文 > 手把手教你语音识别（四）

手把手教你语音识别（四）

时间：2024-04-12 17:22:43

相关推荐

手把手教你语音识别（四）

朋友们，今天继续讲解语音识别，前面讲到了进入模型的初步操作，这个模型的层数是非常多的，后面还要经过非常多的层，可以说是一个deep+deep 网络，所以，咱们今天继续跟着网络层forward！

1、网络展示

(self_attn): RelPositionMultiHeadedAttention((linear_q): Linear(in_features=512, out_features=512, dtype=float32)(linear_k): Linear(in_features=512, out_features=512, dtype=float32)(linear_v): Linear(in_features=512, out_features=512, dtype=float32)(linear_out): Linear(in_features=512, out_features=512, dtype=float32)(dropout): Dropout(p=0.0, axis=None, mode=upscale_in_train)(linear_pos): Linear(in_features=512, out_features=512, dtype=float32))

如上，之前我讲到数据经过层Conv2dSubsampling4后，shape变成了（1，90，512），然后，这个维度的数据还得继续往下forward，接下来的层变成了上面的名字：RelPositionMultiHeadedAttention，这一层也就是多头注意力机制，下面咱们往下forward。

2、网络提取

网络展示的是上面的结构，但是构建这个结构是非常复杂的，需要一点点构建，本次构建attention就不详细讲了，后文中咱们再讲，本次还是从架构和总体层面forward。

import picklewith open("cls.pkl", "rb") as tf: cls = pickle.load(tf)

import picklewith open("configs.pkl", "rb") as tf:configs = pickle.load(tf)

model0 = cls(configs)model_attn=model0.sublayers()[0].sublayers()[11][0].sublayers()[0]

可以看到，之前我们加载的模型，通过层层去找，就可以找到我们现在需要forward的模型，那么，这个模型我需要把数据怼进去，下面咱们先用随机数据试试。

3、forwad

前面咱们经过了网络Conv2dSubsampling4，下面是输出的结果。

然后，模型要看怎么输入，下面是输入参数，很明显，需要query、key、value、pos-embed和mask参数，那咱们用x输入，然后随机初始化一些数值输入试试。

model_attn(x,x,x,x,paddle.randn([1,1,90]))

好了，我们假设了一些数据，然后怼入网络层，实现了上面的效果，相当于又走了一层，但是这样很难看出细节，下面咱们通过pycharm进行debug再看看。

4、debug

前面的代码可以看到，通过一个for循环挨个forward每一层的layer，咱们目前进入的是ConformerEncoderLayer，然后这里面包括很多，我们只要RelPositionMultiHeadedAttention这一个，下面继续走。

这一层的输入参数可以看到，可以认为是三个x+pos-emb+mask，至于pos-emb之前文章讲过了，mask先不讲，咱们看后面的。

到了forward里面，又来了一个qkv，下面继续走。

这里就简单了，实际上是计算q、k和v三个值，函数是一样的，咱们只进入第一个看看。

linear层，实际上就是一个矩阵计算，这部分就是一个算子，算子基本上都是cpp实现的，就不详细讲了，想了解的请看：

.cn/projects/680/repository/revisions/develop/entry/paddle/fluid/operators/

完成这一步，后面都是常规操作，计算scores，这个自己看。

socres完成后，其实就是计算相关性了，如上代码，到了这里其实这一层的forward就完成了，后面其实还有concate等，就不讲了。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

相关阅读

从零开始手把手教你打造语音识别系统

2022-02-12

实现语音识别系统：手把手教你使用STM32C8T6和LD3320（SPI通信版）实现语音识别

2021-09-09

手把手教你用JAVA实现“语音识别”功能（声音转文字）标贝科技

2022-05-25

手把手教你实现基于RT-Thread的百度语音识别（一）

2018-12-17

扩展阅读

: 语音识别基础：（二）语音识别方法

: 单句语音识别功能

: 如何关闭win7系统语音识别功能 win7关闭语音识别功能方法【详解】

: 语音识别调查报告范文

: 语音识别调查报告范文

: 实测：语音识别大用处！语音转文字让学习更高效

最近发布

小学生我想过年作文100字

2024-08-09

初三少年的抒情哲思：短歌行

2024-08-09

小学一年级生活趣事：我的假期日记100字大全

2024-08-09

出纳个人工作总结100字(汇总14篇)

2024-08-09

父与子的读后感100字看完父与子的读后感100字(五篇)

2024-08-09

跟眼睛的对话100字

2024-08-09

推荐专题

足球征文100字想象日记100字秋的作文100字童话故事100字三年级美团评价100字万能万圣节英文简介100字交通安全读后感100字月季花的作文100字下课了写一段话100字赏花日记100字亲子读后感100字英语小短文100字心理描写的作文100字身边的人作文100字钢铁是怎样炼成的梗概100字