ISSN 1009-5624 CN 10-2021/TQ 主管:中国乐凯集团有限公司 主办:北京乐凯科技有限公司
【摘要】基于密度图回归的传统人群计数方法需要像素点级别的人物对象头部标注与图像级别的计数标注,然而在回归预测值时仅使用计数标注,点标注的利用不足,相比之下,不依赖于点级标注的弱监督人群计数方法更有效率。主流弱监督人群计数模型通常使用Transformer 架构,然而其计算复杂度与模型参数量不够理想。基于此,本文引入VMamba 主干网络,使模型获取全局人群信息达到线性复杂度,并设计一种随机Mask 自监督训练策略用于增强训练效果。结果表明:该方法在ShangahiTech 数据集上表现出有效性与先进性。本文方法一方面可以有效避免因像素级标注产生的人工成本,另一方面轻量的参数与较高的精度也能使其直接应用于交通检测、人流管理等现实任务,具有较高的性价比和实用性。