近日,由我院肖阳教授带领的本科生研究团队与同济医学院护理学院田翀副教授展开合作,在生物医学与健康信息学领域权威期刊IEEE Journal of Biomedical and Health Informatics(J-BHI)上发表了题为《Towards Unconstrained Fall Detection Using Vision Language Model: Dataset, Theory and Practices》的非受限跌倒检测相关研究论文。该论文的第一作者为团队中的本科生吴世满同学,肖阳教授为通讯作者。
IEEE Journal of Biomedical and Health Informatics(J-BHI)是生物医学与健康信息学领域的权威国际期刊,聚焦该方向的最前沿研究与技术应用,最新影响因子为6.8。
非受限跌倒检测(Unconstrained Fall Detection) 是智慧医疗与老龄健康监测领域的关键核心技术。通过对复杂场景下异常行为的实时感知与精准识别,能够为居家养老及医疗护理提供重要的安全保障。然而,受限于以下核心挑战,该领域的研究仍处于探索阶段:
· 真实场景数据稀缺: 现实环境中的跌倒事件具有偶发性且涉及隐私,导致高质量、涵盖多样化场景的开源非受限跌倒数据集极度匮乏;
· 泛化能力遭遇瓶颈: 现有检测方法大多依赖单一的视觉特征识别,在面对背景复杂、主体姿态多变及光照干扰等“自然场景”时,往往表现出泛化性能不足、误报率高等问题;
· 性能与部署的矛盾: 如何在资源受限的边缘设备上,利用轻量化的模型架构实现具备深度语义理解与逻辑推理能力的跌倒检测,仍然是当前辅助医疗 AI 领域亟待突破的技术难题。
针对这一难题,在肖阳教授的悉心指导和田翀副教授的协助支持下,由吴世满、陈天翼、查志豪、吴斌、李奕昕五人组成的本科生团队开展了深入研究,为该领域做出以下贡献:
构建了首个视频-细粒度文本多模态非受限跌倒检测数据集HUST-FALL


提出了一种结构化语义引导的视觉语言推理模型 Action-R1。通过引入了 RLVR 训练范式,设计可客观验证的奖励与惩罚函数,强制模型将生成的文本逻辑与视频中的关键视觉线索进行精准对齐,使模型在识别跌倒的同时,具备链式推理能力。实验结果表明,Action-R1 在跨数据集检测性能上,显著优于传统的 CNN/RNN 方法。在参数量仅为MiniCPM-V-2.6-8B 1/16 的情况下,Action-R1 在 UPFall 数据集上的表现提升了 116.22%,充分验证了该方法在复杂真实环境下的鲁棒性与高效性。


将多模态模型量化部署在树莓派上的实践,为边缘侧多模态行为分析提供了可借鉴的范式。

未来,该团队将加强与同济医学院护理学院田翀副教授的合作,旨在进一步降低智慧医疗 AI 的准入门槛,让原本依赖昂贵算力的视觉语言模型能够运行在成本更低的嵌入式设备上,与养老机器人相结合,真正实现对高风险人群的全天候、零死角守护,为养老服务贡献一份力量。