唇读说话人日志化挑战赛概述

一、赛事背景

唇读技术,即通过分析说话者的唇部运动来识别口语内容,是一个新兴且具有挑战性的领域。它位于计算机视觉和自然语言处理的交叉点,并在公共安全、人机交互、医疗健康等领域有着广泛的应用。会议场景的唇读研究是该领域最有价值和最具挑战性的内容之一。

二、赛事任务

唇读说话人日志化挑战赛旨在通过多演讲者的视频数据来标记语音时间戳,解决“谁在何时说话”的问题。比赛提供了训练和开发集,包含音频、视频和相应的基础真相分段时间戳。评估集则不包括近场语音或转录,要求参赛者在每个时间点确定说话者。

三、评审规则

1. 数据说明

比赛提供了MISP-Meeting数据集,包含125小时的视频数据,分为训练集、开发集和评估集。数据集包括视频文件、音频文件、文本时间戳标注文件等。

2. 评估指标

模型依据提交的结果文件,采用DER(说话人混淆错误率)进行评价。

3. 评测及排行

选手在本地进行算法调试,提交结果。排行榜将选择团队的历史最优成绩进行排名。

四、作品提交要求

文件格式:rttm格式,UTF-8编码。

文件大小:无要求。

提交次数限制:每支队伍每天最多3次。

排行榜更新结束后,前三名选手需要提交代码、模型和说明文档。

五、赛程规则

赛程周期:7月11日至9月15日。

现场答辩:最终前三名团队将受邀参加总决赛并进行答辩。

六、奖项设置

奖项激励:设立一、二、三等奖,奖金分别为5000元、3000元、2000元。

资源激励:提供讯飞开放平台优质AI能力个人资源包、讯飞AI全链创业扶持资源等。

七、其他重要细节

赛事材料基本使用要求:视为科大讯飞的保密信息,未经允许不得使用、传播、披露。

选手参赛基本原则:作品必须健康、合法、无不良信息,保证原创性,不侵犯第三方知识产权。

作弊行为界定及处罚:取消作弊选手成绩,保留赛事解释权。

数据集使用基础规范:选手需按照赛事要求下载官方数据集进行比赛。

数据集使用限制:只允许开源集,使用前需通知主办方。

预训练模型使用限制:允许开源预训练模型,使用前需通知主办方。

数据集用于科研或论文发表:允许用于科研和论文发表。