原文:A Large-scale Robustness Analysis of Video Action Recognition Models

1

什么是视频时序行为识别(VAR)?

​ VAR就是理解视频中人(或其他)的行为,涉及到识别、定位和预测行为等任务。目前相关的研究可以理解为图像分类的进阶版本:视频分类。其可以应用场景包括:行为分析,视频检索,人机交互,游戏娱乐等等。

数据集:Kinetics和something系列。其构建流程如下:

  1. 定义action list, 即一系列行为的标签,如骑车、跳舞、爬山等等
  2. 通过网络爬取各个行为相关的视频
  3. 手动标注每个行为类别在视频中的起止时间
  4. 数据清洗

OK,那么我们进入正文!!!

此处内容已隐藏回复后方可阅读。

分类: CVPR导读 标签: 暂无标签

评论

暂无评论数据

暂无评论数据

目录