title: LRCN(1)
tag: 代码复现
这篇文章描述了如何复现《Long-term Recurrent Convolutional Networks for Visual Recognition and Description》这篇paper的动作识别的实验部分
title: LRCN(1)
tag: 代码复现
这篇文章描述了如何复现《Long-term Recurrent Convolutional Networks for Visual Recognition and Description》这篇paper的动作识别的实验部分
摘要:
要生成一个列表list,如果这个list有一定的规律,可以用循环生成。python的内置函数range()可以直接生成list
如下
参考文献 基于深度学习的人体行为识别算法综述_朱煜
深度学习算法可以分为四个体系:
Ji 等[29] 将传统 CNN 拓展到具有时间信息的3DCNN, 在视频数据的时间维度和空间维度上进行特征计算. 在卷积过程中的特征图与多个连续帧中的数据进行连接
自动编码机是一种无监督的学习算法
(Restricted Boltzmann machine, RBM)
(Deep belief networks, DBN)
(Recurrent neural network, RNN)
参考文献 基于深度学习的人体行为识别_樊恒
识别过程:
先提取前景,再将前景的图像送入神经网络,进行识别
该论文运用了深度置信网络和KTH数据集(6种行为视频, 行走,慢跑,挥拳,双手挥手,鼓掌)96%-100%
参考文献 基于深度学习的人体动作识别研究_耿驰
假定背景、视角和人的外观等变化较小。基于 RGB 图像的特征提取方法大部分可以划分为 3类:全局特征法、局部特征法、人体模型法。
可参考博客人体行为识别特征点提取小综述
目前,人体动作表示中最具代表性三种方法分别是
特征袋( Bag-Of-Feature,BOF)模型
稀疏编码( Sparse Coding)模型
通俗来说,就是将输入信号表示为超完备词典中的一组基向量的线性组合,且无需较多的基向量就能够很好地表示原始信号。
深度学习( Deep Learning)模型
在KTH上测试,准确率能达到92%
视频中行为识别公开数据库汇总
行为识别数据集汇总
人体行为识别数据集
参考博客 2012
特征提取+分类器
简单的行为识别即动作分类,给定一段视频,只需将其正确分类到已知的几个动作类别;复杂点的识别是视频中不仅仅只包含一个动作类别,而是有多个,系统需自动的识别出动作的类别以及动作的起始时刻。行为识别的最终目标是分析视频中哪些人在什么时刻什么地方,在干什么事情,即所谓的“W4系统”。
全局特征是把一对象当做成一个整体,这是一种从上到下的研究思维
这种情况下,视频中的人必须先被定位出来,这个可以采用背景减图或者目标跟踪算法。然后对定位出来的目标进行某种编码,这样就形成了其全局特征。
这种全局特征是有效的,因为它包含了人体非常多的信息。然而它又太依赖而底层视觉的处理,比如说精确的背景减图,人体定位和跟踪。而这些处理过程本身也是计算机视觉中的难点之处。另外这些全局特征对噪声,视角变化,遮挡等非常敏感。
全局特征提取:背景减图,跟踪.
二维全局特征
MEI为运动能量图,用来指示运动在哪些部位发生过,MHI为运动历史图,除了体现运动发生的空间位置外还体现了运动的时间先后顺序。这2种特征都是从背景减图中获取的。图2是坐下,挥手,蹲伏这3个动作的运动历史图MHI。
三维全局特征提取
在三维空间中,通过给定视频中的数据可以得到3D时空体(STV),STV的计算需要精确的定位,目标对齐,有时还需背景减图
局部特征提取是收集人体的相对独立的图像块,是一种从下到上的研究思维。一般的做法是先提取视频中的一些时空兴趣点,然后在这些点的周围提取相应的图像块,最后将这些图像块组合成一起来描述一个特定的动作。
局部特征的优点是其不依赖而底层的人体分割定位和跟踪,且对噪声和遮挡问题不是很敏感。但是它需要提取足够数量的稳定的且与动作类别相关的兴趣点,因此需要不少预处理过程。
行为识别中的局部特征点是视频中时间和空间中的点,这些点的检测发生在视频运动的突变中。因为在运动突变时产生的点包含了对人体行为分析的大部分信息。因此当人体进行平移直线运动或者匀速运动时,这些特征点就很难被检测出来。
局部特征点的检测
Laptev[33]将Harris角点扩展到3DHarris,这是时空兴趣点(STIP)族中的一个。
局部特征点的描述
二维的SURF特征[39]被Willems[40]扩展到了3维
Klaser[41]将HOG特征扩展到3维,即形成了3D-HOG。