轻量级目标检测模型和算法整理
1 轻量级目标检测模型 目标检测(Object Detection)的任务是找出图像中所有感兴趣的目标(物体),确定它们的类别和位置,是计算机视觉领域的核心问题之一。目前目标检测算法发展和更新非常快,各种改进的目标检测算法不仅在精度上越来越高,体积越来于晓,并且推理速度越来越快。许多考虑在边缘设备和…
- 目标检测
- 2023-12-06
目标检测 – 使用labelimg制作自定义目标检测数据集
1 下载labelimg标注工具 labelimg github地址:https://github.com/HumanSignal/labelImg 进入Release页面,为了避免需要创建Python环境,这里直接下载Windows的二进制exe包。 本文以Windows二进制包windows_v…
- 目标检测
- 2023-11-23
目标检测 – VOC数据格式和Yolo数据格式
在使用labelimg标注图片时,lable提供了两种标注信息保存格式,一种是VOC,另一种则是Yolo。 1 VOC数据格式 在labelimage中,对一个图片完成标注之后,如果默认选择的是PascalVOC格式 则会将标注信息保存为以下的xml文件,主要的信息包括: filename:图片名称…
- 目标检测
- 2023-11-23
词汇手语识别、连续手语识别、连续手语翻译开源数据集整理
1 Word-level Sign Language Recognition/Isolated Sign Language Recognition 手语词汇识别数据集 1.1 CSL-500 国家:中国 官方网站:https://ustc-slr.github.io/datasets/2015_cs…
- 深度学习
- 2023-11-15
语音识别的RTF和RTX评价指标
语音识别除了衡量语音识别的准确度之外,另外一个重要的指标就是处理的速度和延迟。其中RTF为衡量实时语音识别处理速度的重要指标,RTX为衡量离线语音识别处理速度的重要指标。 1 RTF RTF(Real Time Factor),为实时语音识别的处理速度评价指标,其计算公式如下 RTF=\frac{A…
- 深度学习
- 2023-10-30
yolov5 – 导出onnx模型教程
1 yolov5导出onnx模型 yolov5 Github:https://github.com/ultralytics/yolov5 yolov5 导出模型官方文档:https://docs.ultralytics.com/yolov5/tutorials/model_export/ 1.1 配…
- 深度学习
- 2023-10-25
深度学习 – 监督学习、半监督学习、无监督学习、自监督学习、强化学习等机器学习方式的概念、区别、优缺点
在机器学习中,有几种主要的学习方式:监督学习、无监督学习、半监督学习、自监督学习和强化学习等,本文将详细介绍这几种学习方式的概念和优缺点。 1 机器学习方式 1.1 监督学习 监督学习(Supervised Learning)利用大量的标注数据来训练模型,通过对已有标记数据进行学习,训练模型可以对未…
- 深度学习
- 2023-06-25
深度学习 – 归纳轻量级神经网络(长期更新)
SqueezeNet 论文标题:SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and< 0.5 MB model size 论文: Iandola F N, Han S, Moskewicz M W, et al. S…
- 深度学习
- 2023-03-17
深度学习 – 在大数据集下,内存容量与磁盘IO速度影响模型训练速度的问题
1 模型训练时出现的问题 内存容量和磁盘IO速度影响GPU利用率,进而影响模型训练速度 如果要想在模型训练时利用GPU,提高GPU的利用率,不受限于IO瓶颈,一般常用的方式是: 数据预加载,将所有数据都预加载到内存中,内存的读写速度很快,从内存传递数据到GPU速度也很快 数据预先离线处理,然后存储在…
- 深度学习
- 2023-03-16
深度学习 – 语音识别框架Wenet网络设计与实现
转载自Wenet网络设计与实现,这个文章是Wenet团队对Wenet比较全面的介绍,也在很多地方解答了我在看wenet源码时的疑惑,会时不时翻出来再看的文章,但是这个文章是托管在Github上的,所以为了防止某些不可控的原因导致无法阅读原文,所以在本站对原文进行完整备份,仅用于个人阅读,如果原作者认…
- 深度学习
- 2023-01-13
深度学习 – 语音识别框架wenet中的CTC Prefix Beam Search算法的实现
1 Wenet中的CTC Prefix Beam Search Decode的实现 下面是Wenet网络的流程图 上图来自于:http://placebokkk.github.io/wenet/2021/06/04/asr-wenet-nn-1.html 语音特征数据在经过Encoder后会使用CT…
- 深度学习
- 2023-01-13
深度学习 – 动作识别Action Recognition最重要的问题
1 动作识别Action Recognition最重要的问题 引用一下Human Action Recognition and Prediction: A Survey中一段话,我觉得总结的比较到位。 The first and the foremost important problem in a…
- 深度学习
- 2022-09-05