1 Word-level Sign Language Recognition/Isolated Sign Language Recognition 手语词汇识别数据集

1.1 CSL-500

国家:中国

官方网站:https://ustc-slr.github.io/datasets/2015_csl/

野生数据集:http://home.ustc.edu.cn/~hagjie/

The Chinese Sign Language Dataset(CSL-500)由50个不同的人参与数据采集,每个参与者对每个类别重复录制5次,该数据集包含了5个不同的手语词汇,每个手语词汇有250个视频,共25000个视频。

在采集视频时使用Microsoft Kinect记录,所有包含了三种数据类型:

  1. RGB视频,分辨率为1280x720,帧率为30fps
  2. 深度视频,分辨率为512x424,帧率为30fps
  3. 每帧25个关节位置信息

1.2 DEVISIGN-L

国家:中国

官网:https://vipl.ict.ac.cn/homepage/ksl/data_ch.html

DEVISIGN中国手语数据库是在微软亚洲研究院的资助下由中国科学院计算技术研究所视觉信息处理和学习研究组(VIPL)构建的。创建该数据库的目标包括:

(1)为世界各地手语识别研究人员进行算法训练和评价提供大规模中国手语数据库

(2)推动先进的手语识别技术向可实用化的应用方向发展,尤其是针对未知用户的情况

目前,DEVISIGN数据库覆盖全部4414个标准中国手语词汇,共包含来自于30个对象(13名男性,17名女性)的331,050个词汇数据。每一个词汇数据由RGB视频(“avi”格式)和深度及骨架信息(“bin”格式)构成。数据库包含词汇类内和词汇类间的变化。对于15个采集对象,对所有4414个词汇采集了4遍;对其余15个采集对象,仅采集1遍。

目前对DEVISIGN数据库的三个子集进行公开发布。第一个子集包含26个字母和10个数字,简称为DEVISIGN-G。第二个子集包含500个日常常用的词汇(包含DEVISIGN-G中的36个词汇),简称为DEVISIGN-D。第三个子集是一个大词汇量的数据集,包含2000个中国手语词汇(包含DEVISIGN-D中的500个词汇),简称为DEVISIGN-L。

上面三个数据集合中,只是词汇规模不同,被采集手语人员和采集的次数都是一致的。数据覆盖8个不同的手语示范人员,对于其中4名被采集对象,记录两遍所有词汇的数据;对于其他4名被采集对象,仅记录一遍。下表对DEVISIGN的三个子集内容进行了总结。

1.3 AUTSL Dataset

国家:土耳其

网址:http://cvml.ankara.edu.tr/datasets/

数据集下载地址:https://chalearnlap.cvc.uab.es/dataset/40/description/

安卡拉大学土耳其手语数据集 (AUTSL) 是一个大规模、多模式数据集,其中包含孤立的土耳其手语视频。它包含 226 个手语词汇,由 43 个不同的人录制,包含20种不同的自然背景,总共有 38,336 个视频样本。样本使用 Microsoft Kinect v2 以 RGB、深度和骨架格式录制。我们对 RGB 和深度数据进行一些裁剪和调整大小操作,并为它们提供 512×512 的分辨率。骨架数据包含与512×512数据对齐的签名者身体上的25个连接点的空间坐标,即(x,y)。

挑战数据集已分为三个子数据集,用于用户独立的模型评估:train、validation和test。我们选择 31 名签名者进行训练,6 名签名者进行验证,其余 6 名签名者进行测试。

1.4 WLASL

国家:美国

网址:https://dxli94.github.io/WLASL/

WLASL 是最大的单词级美国手语 (ASL) 识别视频数据集,其中包含 2,000 个 ASL 中常见的不同单词。

2 Continuous Sign Language Recognition and Translation 连续手语识别数据集

2.1 RWTH-PHOENIX-Weather

国家:德国

网址:

RWTH-PHOENIX-Weather是德国公共电视台Phoenix在2009年-2011年三年期间录制的配有手语翻译的每日新闻和天气预报节目中采集的数据,总共有9个手语翻译人员,所有录制的视频帧率为25fps,帧大小为210x260。

RWTH-PHOENIX-Weather 2014包含了1081个手语词汇,训练集包含5672个样本,验证集包含了540个样本,测试集包含了629个样本。

RWTH-PHOENIX-Weather 2014 T是RWTH-PHOENIX-Weather 2014的扩展,训练集包含了7096个样本、验证集包含了519个样本、测试集包含了642个样本。

2.2 SLR-100

国家:中国

网址:https://ustc-slr.github.io/datasets/2015_csl/

SLR-100与CSL-500一样,包含100句中文句子,每个句子包含250个视频,由50名采样人员录制5次。

在采集视频时使用Microsoft Kinect记录,所有包含了三种数据类型:

  1. RGB视频,分辨率为1280x720,帧率为30fps
  2. 深度视频,分辨率为512x424,帧率为30fps
  3. 每帧25个关节位置信息

2.3 CSL-Daily

国家:中国

网址:https://ustc-slr.github.io/datasets/2021_csl_daily/

CSL-Daily是一个大规模连续SLT数据集。它提供口语翻译和注释级别注释。话题围绕人们的日常生活(例如旅行、购物、医疗),是最有可能的SLT应用场景。训练集包含了18401个样本,验证集包含了1077个样本,测试集包含了1176个样本。

参考