深度学习 – 动作识别Action Recognition最重要的问题
1 动作识别Action Recognition最重要的问题
引用一下Human Action Recognition and Prediction: A Survey中一段话,我觉得总结的比较到位。
The first and the foremost important problem in action recognition is how to represent an action in a video. Human actions appearing in videos differ in their motion speed, camera view, appearance and pose variations, etc, making action representation a really challenging problem. A successful action representation method should be efficient to compute, effective to characterize actions, and can maximize the discrepancy between actions, in order to minimize the classification error.
One of the major challenges in action recognition is large appearance and pose variations in one action category, making the recognition task difficult. The goal of action representation is to convert an action video into a feature vector, extract representative and discriminative information of human actions, and minimize the variations, thereby improving the recognition performance.
动作识别中的首要的也是最重要的问题是如何表示视频中的动作。视频中出现的人类动作在运动速度、摄像机角度、外观和姿势变化等方面有所不同,这使得动作表示成为一个极具挑战性的问题。一个成功的动作表示方法应该能够高效地计算、有效地描述动作,并且能够最大化动作之间的差异,以最小化分类误差。
动作识别的主要挑战之一是一个动作类别中的诸多外观和姿态变化,这使得识别任务变得困难。动作表示的目标是将动作视频转换为特征向量,提取人类动作的代表性和区分性信息,并最小化变化,从而提高识别性能。
确实,与视频对应的多媒体数据就是语音了,语音识别在特征提取上进行了诸多的研究,直到出现被大家都接受的MFCC和Fbank特征提取方法,这种符合语音数据特征提取方法使得语音识别深度学习模型端到端训练成为可能,并成功实现了语音识别工业化以及产品应用落地,并日渐影响我们的日常生活。
所以对于近几年新兴的Video Recognition、Action Recognition任务,如何从多变背景的视频准确提取人物背景特征,对实现识别任务的高准确率非常重要。希望通过不断的研究可以出现类似于语音识别比较公认的快速并准确的视频运动特征提取方法。
本文作者:StubbornHuang
版权声明:本文为站长原创文章,如果转载请注明原文链接!
原文标题:深度学习 – 动作识别Action Recognition最重要的问题
原文链接:https://www.stubbornhuang.com/2341/
发布于:2022年09月05日 11:05:59
修改于:2023年06月21日 18:08:14
当前分类随机文章推荐
- 深度学习 - Transformer详细注释 阅读704次,点赞0次
- 深度学习 - 我的深度学习项目代码文件组织结构 阅读1830次,点赞3次
- 深度学习 - CTC算法原理详解 阅读927次,点赞0次
- 深度学习 - 图解Transformer,小白也能看懂的Transformer处理过程 阅读1068次,点赞0次
- 深度学习 - 深度学习中的多维数据存储方式NCHW和NHWC 阅读1891次,点赞0次
- 深度学习 - 基础的Greedy Search和Beam Search算法的Python实现 阅读1146次,点赞0次
- 深度学习 - 理解LSTM网络[翻译] 阅读567次,点赞0次
- 深度学习 - NLP自然语言处理与语音识别中常用的标识符
阅读1451次,点赞0次等的含义 - 深度学习 - 深度学习中的术语/专有名词归纳 阅读981次,点赞0次
- 深度学习 - 语音识别框架中wenet最大动态chunk大小为什么取值为25? 阅读1552次,点赞0次
全站随机文章推荐
- 资源分享 - Computational Geometry - An Introduction Through Randomized Algorithms 英文高清PDF下载 阅读1856次,点赞0次
- 资源分享 - The Algorithms and Principles of Non-photorealistic Graphics - Artistic Rendering and Cartoon Animation 英文高清PDF下载 阅读1695次,点赞0次
- 资源分享 - 交互式计算机图形学:基于WebGL的自顶向下方法(第七版),Interactive Computer Graphics - A top-down approach with WebGL(Seven 7th Edition)中文版PDF下载 阅读936次,点赞0次
- 资源分享 - Game Programming Gems 6 英文高清PDF下载 阅读2467次,点赞0次
- 资源分享 - Jim Blinn's Corner - Notation, Notation, Notation 英文高清PDF下载 阅读2365次,点赞0次
- 怎么样正确的读科研论文? 阅读432次,点赞0次
- Python - 使用flask_sockets库构建websocket服务器 阅读4414次,点赞0次
- C++ - 字节数组byte[]或者unsigned char[]与int的相互转换 阅读8417次,点赞2次
- 书籍翻译 – Fundamentals of Computer Graphics, Fourth Edition,第5章 Linear Algebra中文翻译 阅读2088次,点赞6次
- Pytorch - torch.topk参数详解与使用 阅读538次,点赞0次
评论
169