基于骨架的动作识别 Skeleton Based Action Recognition

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 79 天前的主题，其中的信息可能已经有所发展或是发生改变。

最近在尝试做一个基于骨架的动作识别，目标是想识别出校园里的打架、霸凌行为，因为视频画面是采集的热成像，所以考虑用骨架信息做行为检测，同时也是考虑可以降低算力需求。

目前采集了一些数据集，直接 2 分类，基于 mmaction2 的 STGCN++ 预训练模型做迁移学习，但是效果不是很好，甚至训练时的验证集都上不去 90%。

现在有几个问题想问下大佬

是不是打架的行为模式太复杂了，skeleton based 的模型没办法识别区分出来
把复杂的打架行为拆分，比如踢腿、推搡、扇耳光，这样多分类，增加数据集是不是合理些
skeleton based 的模型输入是关节点数据，第一步识别到的关节点数据准确率对后续影响很大么？因为考虑到性能和并发，用的事 yolov8s-pose 的关节点预测模型，但是感觉准确率比较差，帧与帧之间波动太大了，有必要更换准确率更高的模型么

本人机器学习菜鸡，还处于是只会用不会写的阶段，请教站内大佬

第 1 条附言 · 79 天前

我猜测是在处理骨架数据时，人数波动和关节点波动啥的导致时序信息已经丢失了，需要骨架的匹配跟踪和滤波，这样事情就复杂了，先尝试下直接视频分类，看下算力需求，因为是多路视频同时处理，如果算力满足不了考虑用队列延时处理了

7 条回复 • 2024-09-13 10:22:55 +08:00

erquren

79 天前

方向错了，别用骨架，检测+分类就行

takeit

79 天前

楼上正解，检测在+分类，去网上找几个预训练的模型微调就行了

rming

79 天前

@takeit
@erquren 检测加分类，是说检测到人的时候对帧图片进行分类？但是这样缺少时序信息，比较容易误判

takeit

79 天前

@rming 你把人在的视频帧扣出来，然后丢入到 X3D 这种 3DCNN 里面就行了，不是图片分类，是视频分类，模型的话不一定是我说的这种，这个比较老了，看看新的或者去 GitHub 上面找就行

rming

79 天前

@takeit 明白了，最初没有考虑这个是有点怕算力需求太高

SantuZ

79 天前

@rming #5 时序检测在蛮久之前就出了轻量化 backbone 的算法了，OP 可以去看看

rming

79 天前

@SantuZ 嗯，我找个轻量模型直接分类试试