史上最详细唇语识别数据集综述

原创

已于 2022-12-10 11:16:24 修改 · 置顶 · 2.7w 阅读

159

于 2020-09-01 15:58:57 首次发布

更新：VIPL官网网页格式更改，导致旧的LRW1000链接无法访问，现已更新LRW1000数据集链接，内部包含申请需要的文件

推荐一个大佬的综述,关于实现唇语识别的多种途径。

说明：本文包括经常用语唇语识别的数据集，以及各个数据集的官方网地址和下载方法，以及英文网站的翻译和一些说明

这是目前唇语识别最高精度的项目解析Lipreading Using TCN

这是目前常用的几个大型数据集的介绍史上最详细LRW、LRW-1000和OuluVS2数据集介绍

唇读（Lip Reading），也称视觉语音识别（Visual Speech Recognition），通过说话者口
型变化信息推断其所说的内容，旨在利用视觉信道信息补充听觉信道信息，在现实生活中有重要应用。例如，应用在医疗领域辅助听力受损的病人提高沟通交流能力，在军事领域提高情报获取和处理能力，在多媒体领域提高人机交互的多样性和鲁棒性等。随着深度学习技术的发展，以及数据集规模的不断完善，基于深度学习的框架方法已经逐渐取代传统方法，成为唇读的主流方法。本文对构建自动唇读系统过程中常用到的数据集进行总结介绍。根据自动唇读系统解决的目标任务不同，可将现有数据集分为字母、数字数据集，单词、短语数据集和语句数据集三大类。

AVLetters
XM2VTS 数据集
BANCA 数据集
GRID 数据集
OuluVS 数据集
LRW 数据集
LRW-1000 数据集
AVICAR 数据集
MOBIO 数据集
IO 数据集样本
LRS 数据集
Multi-PIE

一、字母、数字数据集

1.AVLetters 数据集

数据集地址
在这里插入图片描述

AVLetters 数据集由英国东英吉利大学、曼彻斯特大学团队于 1998 年创建，是第一个视听
语音数据集。数据集初始包含 10 个说话人，每个人分别 3 次独立的陈述 26 个英文字母，总计780 个话语实例。由于提出年份较早，拍摄条件有限，视频分辨率较低，仅为 376 像素288 像素，每秒 25 帧。在手动定位每张图像中嘴唇的位置之后，将整个图像裁剪至 80 像素60 像素，形成最终的数据集。

2. XM2VTS 数据集

数据集地址
在这里插入图片描述
############################ start ###########################

这是XM2VTSDB多模式面部数据库项目的主页。在这个项目中，一个大型多模式数据库被捕获到高质量的数字视频。XM2VTSDB包含了四个月的295个受试者的四段录音。每一段录音包括一个讲话头部射击和一个旋转头部射击。从这个数据库获得的数据包括高质量的彩色图像，32 KHz 16位的声音文件，视频序列和一个3d模型。有关该数据库的更多信息以及如何对其进行排序，请点击本页旁边的链接。
该数据库是M2VTS项目(远程服务和安全应用的多模式验证)所需的，该项目是欧盟法令计划的一部分，通过使用人脸的多模式识别来处理访问控制。使用多模态识别方案的目的是通过结合单一模式，即人脸和语音特征来提高识别效率。
XM2VTSDB是按成本价格提供的——不期望从发行版获得任何好处——我们要求终端用户在使用该数据库时承认M2VTS项目(参见用户协议)。

########################### end ##############################
XM2VTS 数据集是从 M2VTS 项目(Multi ModalVerification for Teleservices and Securi
ty applications)中获得，由英国萨里大学、瑞士 IDIAP 研究所团队于 1999 年提出，该数据集创建的初衷是为研究团队提供高质量数据来测试多模态人脸验证算法。共 295 名志愿者参加了该数据集的记录，每个志愿者以正常语速读两个数字序列和一个语音平衡的句子（10 个数字、7个单词），这个过程进行两次。此外，考虑到志愿者自然变化的影响，在五个月时间内平均进行4 次记录，总计 7080 个话语实例。值得一提的是，该数据集考虑了头部姿态变化因素，并记录了志愿者在不同角度的头部图像（头部姿态变化的过程中未说话）。

3. BANCA 数据集

数据集地址
在这里插入图片描述
###################### start #####################

BANCA数据库是一个新的大型、现实和具有挑战性的多模态数据库，旨在培训和测试多模态验证系统。BANCA数据库以四种欧洲语言的两种模式(面部和声音)被捕获。为了记录，使用了高质量和低质量的麦克风和照相机。研究对象被记录在三个月内的12个不同阶段的三种不同情景中，分别为受控、降级和不良反应。总共有208人被捕，一半是男人，一半是女人。
与数据库相关联的是BANCA协议。协议规定了用于培训、评估和测试的数据集。根据该协议进行实验可以使各机构轻松地将其结果与其他机构进行比较。2004年将举行两场针对BANCA数据库和相关协议的图像的人脸验证比赛。第一次会议与ICBA联合举行，第二次会议与ICPR 2004联合举行。
通过这个网站，BANCA数据库的一部分可以提供给研究社区。随着更多的数据可用，它将在这里发布。目前，已提供了完整的英文图像。
BANCA数据库为研究社区提供了在一个大型、现实且具有挑战性的数据库上测试其多模态验证算法的机会。希望这个数据库和协议能够成为一个标准，就像XM2VTS数据库一样，这样机构就可以轻松地将自己的算法的性能与其他算法进行比较。

##################### end ######################

BANCA 数据集是由瑞士 IDIAP 研究所、西班牙卡洛斯三世大学、英国萨里大学团队于2003年创建，旨在训练和测试

标签