本文作者:StubbornHuang
版权声明:本文为站长原创文章,如果转载请注明原文链接!
原文标题:深度学习 – NLP自然语言处理与语音识别中常用的标识符
原文链接:https://www.stubbornhuang.com/2288/
发布于:2022年08月01日 15:43:37
修改于:2022年08月01日 16:07:10

1 NlP自然语言处理与语音识别中常用的标识符的含义
在NLP进行文本处理以及语音识别处理语音对应标签时我们经常会看到一些特殊的标识符,一些常见的标识符及其含义如下
<blank>
/<BLANK>
:表示空白符号;<unk>
/<UNK>
:低频词或未在词表中的词;<pad>
/<PAD>
:补全字符,我们进行网络训练时,通常一个batch中的文本或者语音对应的文本的序列长度是不一样的,这个时候需要将同一个batch中的数据长度进行统一,经常是以当前batch中序列长度最长的数据作为统一长度,这个时候其他序列需要使用<pad>
字符进行补齐;<sos>
/<SOS>
:句子起始标识符<go>
/<GO>
:句子起始标识符<eos>
/<EOS>
:句子结束标识符[SEP]
:两个句子之间的分隔符[MASK]
:填充被掩盖掉的字符[CLS]
:句子开头,以[CLS]
开头,随后跟句子的第一个单词
在工业级的流式实时语音识别框架wenet中,使用
<blank>
:表示CTC的空白符号,一般指定id为0;unk
:表示未在词表中的符号;<sos>
和<eos>
:表示语音开始符号和语音结束符号,两个共享同一id;
示例的词表如下
<blank> 0
<unk> 1
' 2
▁ 3
A 4
▁A 5
AB 6
▁AB 7
▁YOU 4995
▁YOUNG 4996
▁YOUR 4997
▁YOUTH 4998
Z 4999
ZZ 5000
<sos/eos> 5001
2 实际的数据处理过程
2.1 <unk>
替换低频词汇
在实际的数据处理过程中,我们首先需要将所有序列出现的单词符号整合成一个词汇表(单词和符号不重复),然后统计每一个单词和符号出现的次数,根据我们所设置的低频词汇的标准,比如只出现过一次的单词和词汇可以看作为低频词汇,那么我们首先需要从词汇表中使用<unk>
替换低频词汇(低频词汇从总的词表中删除,标签中的低频词汇使用unk
替换)。
2.2 标记标签开始和结束
在处理机器翻译数据时,需要在句子第一个单词符号钱加入句子起始符<sos>
,以及在句子换行,逗号或者结尾处加入句子结束符号<eos>
。
参考链接
当前分类随机文章推荐
- 深度学习 - 图解Transformer,小白也能看懂的Transformer处理过程 阅读721次,点赞0次
- 深度学习 - 经典的卷积神经网络(CNN)模型结构 阅读407次,点赞0次
- 深度学习 - Transformer详细注释 阅读421次,点赞0次
- 深度学习 - 在大数据集下,内存容量与磁盘IO速度影响模型训练速度的问题 阅读48次,点赞0次
- 深度学习 - 深度学习中的多维数据存储方式NCHW和NHWC 阅读1166次,点赞0次
- 深度学习 - Transformer详解 阅读658次,点赞0次
- 深度学习 - CNN中卷积层、池化层、全连接层的输出参数大小的计算 阅读610次,点赞1次
- 深度学习 - 语音识别框架wenet源码wenet/utils/mask.py中的mask机制 阅读696次,点赞1次
- 深度学习 - 图像标准化与归一化方法 阅读486次,点赞0次
- 深度学习 - CTC解码算法详解 阅读681次,点赞0次
全站随机文章推荐
- 资源分享 - ShaderX2 - Introductions and Tutorials with DirectX9.0 英文高清PDF下载 阅读2245次,点赞0次
- 资源分享 - Vulkan学习指南 , Learning Vulkan 中文版PDF下载 阅读1602次,点赞0次
- 工具软件 - 解决从Onenote复制文字到QQ变成图片的问题,2023年最新解决方案 阅读87次,点赞0次
- C++ - 字节数组byte[]或者unsigned char[]与long的相互转换 阅读800次,点赞0次
- Python3爬虫 - 下载反盗链图片的方式 阅读2714次,点赞1次
- 资源分享 - Mathematics for Computer Graphics , Fifth Edition 英文高清PDF下载 阅读1226次,点赞0次
- UnrealEngine4 - 获取UE4最后的渲染缓存数据BackBuffer 阅读4928次,点赞3次
- C++11 - 构建一个符合实际应用要求的线程池 阅读1046次,点赞0次
- 资源分享 - Mathematics for 3D Game Programming and Computer Graphics, Third Edition英文高清PDF下载 阅读2786次,点赞0次
- 资源分享 - WebGL Programming Guide - Interactive 3D Graphics Programming with WebGL 英文高清PDF下载 阅读1320次,点赞0次
评论
168