深度学习

26篇文章
SqueezeNet 论文标题:SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and< 0.5 MB model si…
转载自Wenet网络设计与实现,这个文章是Wenet团队对Wenet比较全面的介绍,也在很多地方解答了我在看wenet源码时的疑惑,会时不时翻出来再看的文章,但是这个文章是托管在Github上的,所以…
1 Wenet中的CTC Prefix Beam Search Decode的实现 下面是Wenet网络的流程图 上图来自于:http://placebokkk.github.io/wenet/202…
1 为什么要进行网络模型权值初始化? Pytorch中设计好网络结构,并搭建完成之后通常一个重要的步骤就是需要对网络模型中某些层的权值进行初始化,如下代码所示,我们搭建了一个三维卷积网络C3D,并使用…
如果深度学习的源数据为图像数据时,首先需要对图像做数据预处理,最常用的图像预处理方法有两种,正常白化处理又叫图像标准化处理,另外一种方法为图像归一化处理,本文将对这两种预处理方法进行简要介绍。 1 图…
1 wenet的非流式与流式混合训练机制 wenet实现了语音识别非流式与流式混合训练的机制。通过细读源码,其主要是通过动态修改网络的Encoder层(在wenet中主要使用了TransformerE…
在阅读工业级语音识别框架wenet的源码的过程中,wenet/utils/mask.py中提供的各种mask函数非常重要,其实现了wenet论文Unified Streaming and Non-st…
转载自: 链接:https://www.ylkz.life/deeplearning/p10770524/ 作者:空字符 少量行文修改 1 引言 经过此系列上一篇文章Transformer - 理解T…
转载自: 链接:https://www.ylkz.life/deeplearning/p10553832/ 作者:空字符 修改文章少量行文 1 引言 今天要和大家介绍的一篇论文是谷歌2017年所发表的…
转载自: 原文链接:https://zhuanlan.zhihu.com/p/360343417 作者:Algernon 少量行文修改。 Transformer并没有特别复杂,但是理解Transfor…
转载自https://zhuanlan.zhihu.com/p/410776234 之前我对Transformer中的Self-Attention的机制也是看了很多遍论文,看了很多博文的解读,直到看到…
在语音识别、OCR文字识别领域,我们在推理的最后一步就是从预测的概率矩阵中使用CTC解码算法找到可能性最大的序列。而常用的CTC解码算法一般有Greedy Search Decode(贪心搜索)、Be…

关注我们的公众号

微信公众号