分类：CVPR导读

冯大仙 3月前 CVPR导读

一种轻量化的讲话人检测模型

原文：A Light Weight Model for Active Speaker Detection什么是讲话人检测（active speaker detection) ASD任务是实现在任意视频中从一群候选者中找到正在说话的人，该任务是一种多模态任务，其输入为视频和声音信号。故可以归类为音频-视频任务。当前比较有名的大数据集是AVA-ActiveSpeaker。目前主流的方法为，将一系列候选者的人脸序列输入到3D卷积神经网络中提取特征，再通过复杂的注意力模块建模跨模态信息。这类方法的缺点是内存消耗大，计算负担大。这大大限制了在实时场景下的应用。Let's go！进入正文本...

261 0 0

针对视频时序行为识别的大规模鲁棒性分析

冯大仙 4月前 CVPR导读

针对视频时序行为识别的大规模鲁棒性分析

原文：A Large-scale Robustness Analysis of Video Action Recognition Models什么是视频时序行为识别（VAR）？ VAR就是理解视频中人(或其他)的行为，涉及到识别、定位和预测行为等任务。目前相关的研究可以理解为图像分类的进阶版本：视频分类。其可以应用场景包括：行为分析，视频检索，人机交互，游戏娱乐等等。数据集：Kinetics和something系列。其构建流程如下：定义action list, 即一系列行为的标签，如骑车、跳舞、爬山等等通过网络爬取各个行为相关的视频手动标注每个行为类别在视频中的起止时间数据清洗O...

201 1 0

分类：CVPR导读

一种轻量化的讲话人检测模型

针对视频时序行为识别的大规模鲁棒性分析

最近评论

博客文章RSS订阅

博客评论RSS订阅

登录

分类：CVPR导读

一种轻量化的讲话人检测模型

针对视频时序行为识别的大规模鲁棒性分析

最近评论

博客文章RSS订阅

博客评论RSS订阅