智慧安防异常行为系列之毫秒级精准打架识别，PP-Human实现360度安全保障

智慧安防异常行为系列之毫秒级精准打架识别，PP-Human实现360度安全保障

2024-12-29 22:06

监控摄像头覆盖场景范围越来越广泛，2020年全球安防摄像头出货量就高达3.75亿。而在摄像头监控场景中，通过人工24小时监控每个摄像头的方式不仅大量消耗人力，也会存在疏漏的情况，造成异常情况无法及时报警，导致难以挽回的损失。AI视觉技术的高速发展为安全防范提供了全新的解决方案，以模型替代人力，24小时360度的全方位监控下，还可实现毫秒级的精准识别与预警，用最低的成本带来最完善的安全保障。

在实际应用中，打架、摔倒、异常闯入等异常行为的发生率高、后果严重，使得其成为了安防领域中重点监控的场景。飞桨目标检测套件PaddleDetection中开源的行人分析工具PP-Human提供了五大异常行为识别、26种人体属性分析、人流计数、跨镜ReID四大产业级功能，其中异常行为识别功能覆盖了对摔倒、打架、打电话、抽烟、闯入等行为的检测。

本次将选择打架这一类典型的异常行为，全流程示范如何利用PP-Human以AI视觉的方式实现监控预警。

PP-Human链接

https://github.com/PaddlePaddle/PaddleDetection/tree/release/2.5/deploy/pipeline

本范例提供两种使用方案：

方案一：即开即用，使用一行代码快速预测
基于PP-Human工具，直接利用开源的打架识别模型进行快速推理；
方案二：定制开发，为不同场景需求提供个性化模型训练方法。基于PaddleVideo套件，用自己的数据进行迁移学习或扩展新行为的识别。

项目链接

https://github.com/PaddlePaddle/PaddleDetection

所有源码及教程均已开源欢迎大家使用，star鼓励

打架识别难点

在连续视频、密集人员和复杂环境的干扰下，为准确快速地识别监控画面中的打架行为带来巨大挑战，难点如下：

行为的动态性：打架是一种连续性动作，需要依赖时序信息；
人员的密集性：在诸如火车站、商场等公共区域，人员较密集，增加了识别难度；
环境的复杂性：白天晚上、室内室外、拍摄角度、光线变化等对算法的泛化能力要求较高。

方案一：即开即用

使用一行代码快速预测

PP-Human工具为大家提供了快速上手部署模型实现推理的方案。针对打架识别任务，仅通过一条命令就可以判断预测视频中是否存在打架行为：

其中：config：模型推理相关配置，包括推理模型路径，默认自动从网络上下载，用户也可手动指定；video_file：推理视频路径；device：推理设备。

PP-Human 全功能快速体验

https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.5/deploy/pipeline/docs/tutorials/PPHuman_QUICK_STARTED.md

方案二：定制开发

为不同场景需求提供个性化模型训练方法

技术选择

对于行为识别，有众多的解决方案。下表展示了常用技术方案的优劣势和适用的场景。针对本案例的打架行为识别，需要依赖时序信息，且存在人员密集场景，受监控摄像头角度距离等影响，画面中人有大有小，监控画面背景复杂多变。综合上述因素，最终选择基于视频分类的解决方案完成打架识别功能。

优化方案

目前视频分类模型发展迅速，综合考虑速度和精度，最终选取具有飞桨特色的PP-TSM模型来完成打架识别任务。PP-TSM模型应用了众多优化tricks，具体如下表：

技术选型完整文档

https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.5/docs/advanced_tutorials/customization/action_recognotion/README.md

数据集选择及调优

数据是模型的“食粮”，这里整理了开源的6个与打架相关的公开数据集，如表3所示。这些数据中有些是经过裁剪的视频片段，也有大段未裁剪的视频，有些视频是监控视角视频，有些则是非真实场景。为了能够更加客观地评估模型性能，验证集仅从真实场景视频中选取。

本案例借助PaddleVideo视频开发套件完成打架识别模型的训练和优化。具体研发流程如下：

1.视频裁剪：对于未裁剪的视频，需要先进行裁剪才能用于模型训练；
2.视频抽帧：为了加快训练速度，将视频进行抽帧；
3.训练集和验证集划分：如8:2比例；
4.模型训练：加载与训练模型，修改配置文件中数据集路径、学习率等信息；
5.模型评估：在验证集上评估模型精度；
6.模型优化：分析badcase，对baseline进行优化；
7.模型导出：将训练好的模型导出为Inference模型。

Baseline模型最终的分类精度为87.53%。考虑到训练数据有限，为了提升模型泛化能力，采用数据增强的方式扩充数据，本方案采用VideoMix数据增强方法，模型精度提升至88.01%。由于监控摄像头角度距离问题，为了识别小目标行为，增大输入图像的分辨率，模型精度从88.01%提升至89.06%。

打架识别训练与部署Pipeline

模型训练好之后，在服务端进行部署应用。具体应用流程如下：

对于输入的视频，为了提高推理效率，按照事先指定的采样频率进行采样，当采样得到的视频帧达到一定数目后，输入到视频分类模型中判断是否存在打架行为。在T4机器上，开启TensorRT FP16的环境，端到端推理速度为19.7ms。如果需要将模型部署到端侧设备，可考虑更加轻量化的视频分类模型，或应用以MobileNet作为backbone的PP-TSM模型等。

精彩课程预告

为了让小伙伴们更便捷地实践和应用打架识别技术方案，飞桨开发者将于9月21日20:30为大家深度解析从数据准备、方案选型到模型优化部署的开发全流程，手把手教大家进行打架识别的代码实践。

欢迎小伙伴们扫码进群，免费获取直播课和回放视频链接，更有机会获得覆盖智慧城市、工业制造、金融、互联网等行业的飞桨产业实践范例手册！也欢迎感兴趣的企业和开发者与我们联系，交流技术探讨合作。

扫码报名直播课，加入技术交流群

关注【飞桨PaddlePaddle】公众号