针对视频时序行为识别的大规模鲁棒性分析
原文:A Large-scale Robustness Analysis of Video Action Recognition Models
什么是视频时序行为识别(VAR)?
VAR就是理解视频中人(或其他)的行为,涉及到识别、定位和预测行为等任务。目前相关的研究可以理解为图像分类的进阶版本:视频分类。其可以应用场景包括:行为分析,视频检索,人机交互,游戏娱乐等等。
数据集:Kinetics和something系列。其构建流程如下:
- 定义action list, 即一系列行为的标签,如骑车、跳舞、爬山等等
- 通过网络爬取各个行为相关的视频
- 手动标注每个行为类别在视频中的起止时间
- 数据清洗
OK,那么我们进入正文!!!
此处内容已隐藏回复后方可阅读。
版权申明
本文系作者 @冯大仙 原创发布在Hello World站点。未经许可,禁止转载。
暂无评论数据