分享好友 最新动态首页 最新动态分类 切换频道
智慧安防异常行为系列之毫秒级精准打架识别,PP-Human实现360度安全保障
2024-12-29 22:06

监控摄像头覆盖场景范围越来越广泛,2020年全球安防摄像头出货量就高达3.75亿。而在摄像头监控场景中,通过人工24小时监控每个摄像头的方式不仅大量消耗人力,也会存在疏漏的情况,造成异常情况无法及时报警,导致难以挽回的损失。AI视觉技术的高速发展为安全防范提供了全新的解决方案以模型替代人力,24小时360度的全方位监控下,还可实现毫秒级的精准识别与预警,用最低的成本带来最完善的安全保障

在实际应用中,打架、摔倒、异常闯入等异常行为的发生率高、后果严重,使得其成为了安防领域中重点监控的场景。飞桨目标检测套件PaddleDetection中开源的行人分析工具PP-Human提供了五大异常行为识别、26种人体属性分析、人流计数、跨镜ReID四大产业级功能,其中异常行为识别功能覆盖了对摔倒、打架、打电话、抽烟、闯入等行为的检测。

本次将选择打架这一类典型的异常行为,全流程示范如何利用PP-Human以AI视觉的方式实现监控预警。

PP-Human链接

https://github.com/PaddlePaddle/PaddleDetection/tree/release/2.5/deploy/pipeline

本范例提供两种使用方案

  • 方案一即开即用,使用一行代码快速预测

    基于PP-Human工具,直接利用开源的打架识别模型进行快速推理

  • 方案二定制开发,为不同场景需求提供个性化模型训练方法。基于PaddleVideo套件,用自己的数据进行迁移学习或扩展新行为的识别。

项目链接

https://github.com/PaddlePaddle/PaddleDetection

所有源码及教程均已开源欢迎大家使用,star鼓励

打架识别难点

在连续视频、密集人员和复杂环境的干扰下,为准确快速地识别监控画面中的打架行为带来巨大挑战,难点如下

  • 行为的动态性:打架是一种连续性动作,需要依赖时序信息;    

  • 人员的密集性:在诸如火车站、商场等公共区域,人员较密集,增加了识别难度;    

  • 环境的复杂性:白天晚上、室内室外、拍摄角度、光线变化等对算法的泛化能力要求较高。

方案一:即开即用

使用一行代码快速预测

PP-Human工具为大家提供了快速上手部署模型实现推理的方案。针对打架识别任务,仅通过一条命令就可以判断预测视频中是否存在打架行为

其中config:模型推理相关配置,包括推理模型路径,默认自动从网络上下载,用户也可手动指定video_file:推理视频路径device:推理设备。

PP-Human 全功能快速体验

https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.5/deploy/pipeline/docs/tutorials/PPHuman_QUICK_STARTED.md

方案二:定制开发

为不同场景需求提供个性化模型训练方法

  • 技术选择

对于行为识别,有众多的解决方案。下表展示了常用技术方案的优劣势和适用的场景。针对本案例的打架行为识别,需要依赖时序信息,且存在人员密集场景,受监控摄像头角度距离等影响,画面中人有大有小,监控画面背景复杂多变。综合上述因素,最终选择基于视频分类的解决方案完成打架识别功能。

  • 优化方案

目前视频分类模型发展迅速,综合考虑速度和精度,最终选取具有飞桨特色的PP-TSM模型来完成打架识别任务。PP-TSM模型应用了众多优化tricks,具体如下表

技术选型完整文档

https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.5/docs/advanced_tutorials/customization/action_recognotion/README.md

  • 数据集选择及调优

数据是模型的“食粮”,这里整理了开源的6个与打架相关的公开数据集,如表3所示。这些数据中有些是经过裁剪的视频片段,也有大段未裁剪的视频,有些视频是监控视角视频,有些则是非真实场景。为了能够更加客观地评估模型性能,验证集仅从真实场景视频中选取。

本案例借助PaddleVideo视频开发套件完成打架识别模型的训练和优化。具体研发流程如下

1.视频裁剪:对于未裁剪的视频,需要先进行裁剪才能用于模型训练
2.视频抽帧:为了加快训练速度,将视频进行抽帧
3.训练集和验证集划分:如8:2比例
4.模型训练:加载与训练模型,修改配置文件中数据集路径、学习率等信息
5.模型评估:在验证集上评估模型精度
6.模型优化:分析badcase,对baseline进行优化
7.模型导出:将训练好的模型导出为Inference模型。

Baseline模型最终的分类精度为87.53%。考虑到训练数据有限,为了提升模型泛化能力,采用数据增强的方式扩充数据,本方案采用VideoMix数据增强方法,模型精度提升至88.01%。由于监控摄像头角度距离问题,为了识别小目标行为,增大输入图像的分辨率,模型精度从88.01%提升至89.06%。

  • 打架识别训练与部署Pipeline

模型训练好之后,在服务端进行部署应用。具体应用流程如下

对于输入的视频,为了提高推理效率,按照事先指定的采样频率进行采样,当采样得到的视频帧达到一定数目后,输入到视频分类模型中判断是否存在打架行为。在T4机器上,开启TensorRT FP16的环境,端到端推理速度为19.7ms。如果需要将模型部署到端侧设备,可考虑更加轻量化的视频分类模型,或应用以MobileNet作为backbone的PP-TSM模型等。

精彩课程预告

为了让小伙伴们更便捷地实践和应用打架识别技术方案,飞桨开发者将于9月21日20:30为大家深度解析从数据准备、方案选型到模型优化部署的开发全流程,手把手教大家进行打架识别的代码实践。

欢迎小伙伴们扫码进群,免费获取直播课和回放视频链接更有机会获得覆盖智慧城市、工业制造、金融、互联网等行业的飞桨产业实践范例手册也欢迎感兴趣的企业和开发者与我们联系,交流技术探讨合作。

扫码报名直播课,加入技术交流群

关注【飞桨PaddlePaddle】公众号

最新文章
Ai人工智能助手安卓版APP v1.6.2 中文破解版
Chat-AI安卓版(智能助手)是一款AI人工智能软件APP,AI智能助手app破解版采用AI人工智能模型API提供支持,通过Chatbot AI聊天助手提出任何问题并获得即时聊天对话答复.ai智能助手安卓版最新破解版.新版变化AI Chatbot Assistant – Google Pla
AI 面试流行,求职者开始讨好算法
疫情刺激下,越来越多的企业采用 AI 面试来对求职者进行初筛。AI 面试的优点显著 —— 低成本、高效率、无接触。不过对于求职者而言,如何才能在面试中获得人工智能的青睐,正成为求职者一门需要掌握的新技能。“过去半年里,请举例说明你
AI入侵播客圈!比真人配音还逼真?实测爆火的微软AI语音角色“晓晓”
作者 | 石濑‍‍编辑 | 松露AI语音再进化,人耳还能听出AI和真人的差别吗?以上两段音频demo来自微软最近更新的AI语音角色“晓晓”。逼真、情绪到位、语气自然、断句近乎完美,是绝大多数网友听到“晓晓”声音时给出的评价。在播客App小宇
ai音频生成工具哪里找及如何使用教程
在数字化时代的浪潮中人工智能技术的飞速发展为咱们带来了多便利。其中音频生成工具的出现让音频制作变得更加高效和便捷。无论是内容创作者、播客还是音乐制作人都能通过这些工具轻松地生成高品质的音频内容。本文将为您详细介绍怎样寻找音
Appium 移动端自动化测试,触摸(TouchAction) 与多点触控(MultiAction)(3)
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。 需要这份系统化的资料的朋友,可以戳这里获取 一个人可以走的很快,但一群人才
AI人工智能软件的优化与设计推动各行业的变革
在当今迅速发展的科技环境中,软件的优化与设计正在引领各行各业的变革。根据最近的一项调查,超过70%的企业表示,AI技术的引入极大提升了他们的运营效率。例如,一家知名的金融机构通过实施深度学习算法,大幅提高了风险评估的准确性,从
2024 年微信收入和使用情况统计
微信搜索关注公众号:网络研究观,了解更多信息。  微信于 2011 年推出微消息,现已成为著名的社交媒体平台。它最初是作为一个简单的消息应用程序开始的。这是 WhatsApp 的中文版。    微信是由中国科技巨头腾讯开发
AI办公软件,如何颠覆我们的工作方式
在快速发展的技术趋势中,AI办公电脑软件正如一场商业革命,改变着我们工作的方式和思维。想象一下,一款能够优先处理工作任务的软件,它的出现不仅提高了效率,还有助于减轻我们的压力。一些业界人士甚至称之为“工作助手”的未来。以Slac
cim: 【专注10年,从未刷星】(http://farsunset.com)。CIM是一套基于netty框架下的推送系统,或许有一些企业有着自己一套即时通讯系统的需求,那么CIM为您提供了一个解决方
Apache License Version 2.0, January 2004 http://www.apache.org/licenses/ TERMS AND CONDITIONS FOR USE, REPRODUCTION, AND DISTRIBUTION 1. Definitions. Licen
ai文字转换语音
AI文字转换语音是一种人工智能技术,它可以将文本内容转换成自然流畅的语音音频。通过使用AI文字转换语音技术,用户可以将文本信息转化为可听的语音,从而实现更加直观、便捷的信息传递方式。AI文字转换语音技术的分类主要有两种:文本转语
相关文章
推荐文章
发表评论
0评