classifier = tf.estimator.DNNClassifier()
train_input_fn = tf.estimator.inputs.numpy_input_fn()
classifier.train(input_fn=train_input_fn, steps=2000)
accuracy_score = classifier.evaluate(input_fn=test_input_fn)["accuracy"]

2017-10-06

python(4) list生成式

要生成一个列表list，如果这个list有一定的规律，可以用循环生成。python的内置函数range()可以直接生成list
如下

1 2	>>> range(1, 11) [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

2017-10-06

人体动作识别调研

一、

参考文献基于深度学习的人体行为识别算法综述_朱煜
深度学习算法可以分为四个体系:

1、有监督的卷积神经网络、

Ji 等[29] 将传统 CNN 拓展到具有时间信息的3DCNN, 在视频数据的时间维度和空间维度上进行特征计算. 在卷积过程中的特征图与多个连续帧中的数据进行连接

2、基于自编码的深度神经网络(AutoEncoder)

自动编码机是一种无监督的学习算法

3、基于限制玻尔兹曼机的深度置信网络

(Restricted Boltzmann machine, RBM)
(Deep belief networks, DBN)

4、基于递归神经网络的深度神经网络.

(Recurrent neural network, RNN)

二、

参考文献基于深度学习的人体行为识别_樊恒
识别过程：
先提取前景，再将前景的图像送入神经网络，进行识别
该论文运用了深度置信网络和KTH数据集（6种行为视频，行走，慢跑，挥拳，双手挥手，鼓掌）96%-100%

三、

参考文献基于深度学习的人体动作识别研究_耿驰

chp1 人体动作识别研究概述

特征提取方法

假定背景、视角和人的外观等变化较小。基于 RGB 图像的特征提取方法大部分可以划分为 3类：全局特征法、局部特征法、人体模型法。
可参考博客人体行为识别特征点提取小综述

人体动作识别方法中的特征表示

目前，人体动作表示中最具代表性三种方法分别是
特征袋（ Bag-Of-Feature,BOF）模型
稀疏编码（ Sparse Coding）模型
通俗来说，就是将输入信号表示为超完备词典中的一组基向量的线性组合，且无需较多的基向量就能够很好地表示原始信号。
深度学习（ Deep Learning）模型

人体动作识别面临的挑战

(1)类内和类间差异
同样一个动作，不同人的表现可能有极大的差异。
同时，也应该能够区分不同类别之间的差别。然而随着
动作类别的增加，动作之间出现一定的重叠，使得识别难度加大。
(2)环境差异
- 遮挡、多视角、光照、低分辨率、动态背景
  遮挡的问题可以通过多摄像机以不同视角观测运动的方式来缓解，但是这又将面临同步的问题无法实现实时。此外，移动的摄像头会加大人体定位与追踪的难度，也会造成人体尺度的变化
(3)时间变化
通常，研究假设动作很容易在时间维度上分割。虽然这个假设减少了识别任务中的分割负担，却必须事先另外增加一个分割处理，这使得整个识别的实时性变差。
人在执行动作时的速度变化很大，很难确定动作的起始点，从而在对视频提取特征表示动作时影响最大。
所以，具有鲁棒性的人体动作识别方法应该对动作执行速度具有不变性。

chp2 基于 2D CNN 的动作识别模型

在KTH上测试，准确率能达到92%

chp3 基于 3D 卷积神经网络的人体动作识别

3D 卷积原理
3D CNN的初始化
在 3D 卷积层，使用从 ImageNet 学习的 2D 权值来初始
化卷积核权值，再将将 2D 卷积权值转换成 3D 卷积权值
3D CNN实验
本章的实验是在 UCF-101[48]数据集上进行的，该数据集包含 13.2k 视频（ 25 帧/秒）标记为 101 类，每个分割都有 9.5k 的训练视频。
准确率大概为79%
待解决的问题
现有方法和本文提出的方法只能处理短时的视频流，因此提取长视频流中的上下文信息是一个值得深入研究的地方。

四、数据集

视频中行为识别公开数据库汇总
 行为识别数据集汇总
 人体行为识别数据集

有待提升的数据集

Hollywood 人体行为库
该数据库包括8类行为。这些都是电影中的片段。Hollywood电影的数据库包含有几个，其一[14]的视频集有8种动作，分别是接电话，下轿车，握手，拥抱，接吻，坐下，起立，站立。这些动作都是从电影中直接抽取的，由不同的演员在不同的环境下演的。其二[54]在上面的基础上又增加了4个动作，骑车，吃饭，打架，跑。并且其训练集给出了电影的自动描述文本标注，另外一些是由人工标注的。因为有遮挡，移动摄像机，动态背景等因素，所以这个数据集非常有挑战。
UCF 101
全身，半身，体育，日常，乐器
FLIC
半身影视
MPII 全身日常
其他数据集
LSP 全身体育

五、行为识别特征提取综述（传统特征）

参考博客 2012
特征提取+分类器
简单的行为识别即动作分类，给定一段视频，只需将其正确分类到已知的几个动作类别；复杂点的识别是视频中不仅仅只包含一个动作类别，而是有多个，系统需自动的识别出动作的类别以及动作的起始时刻。行为识别的最终目标是分析视频中哪些人在什么时刻什么地方，在干什么事情，即所谓的“W4系统”。

行为识别方法分类体系

1、Turaga[5]等人将人体行为识别分为3部分，即移动识别(movement),动作识别(action)和行为识别(activity)，这3种分类分别于低层视觉，中层视觉，高层视觉相对应。
目前关于行为识别基本上还停留在第二个阶段，即action识别。而action识别比现实生活中的行为较简单，所以我们识别这些行为只需对这些行为进行正确的分类即可。
这样一个行为识别系统就分成了行为特征提取和分类器的设计两个方面，通过对训练数据提取某种特征，采用有监督或无监督来训练一个分类模型，对新来的数据同样提取特征并送入该模型，得出分类结果。基于这个思想，本文主要是从行为识别的特征提取方面做了一个较为全面的介绍。
高层视觉的理解:　上面一提到，目前对行为识别的研究尚处在动作识别这一层(action recognition)。其处理的行为可以分为2类，一类是有限制类别的简单规则行为，比如说走、跑、挥手、弯腰、跳等。另一类是在具体的场景中特定的行为[15]~[19]，如检测恐怖分子异常行为，丢包后突然离开等。在这种场景下对行为的描述有严格的限制，此时其描述一般采用了运动或者轨迹。这2种行为识别的研究都还不算完善，遇到了不少问题，且离高层的行为识别要求还相差很远。因此高层视觉的理解表示和识别是一个巨大的难题。
2、Gavrila[9]采用2D和3D的方法来分别研究人体的行为。
3、Aggarwal[7]将人体行为研究分为2大类，其一是基于单个层次来实现，其二是基于等级体系来实现。
单层实现由分为时空特征和序列特征2种
等级体系实现分为统计方法，句法分析法和基于描述的方法3种

行为识别特征提取

全局特征

　　全局特征是把一对象当做成一个整体，这是一种从上到下的研究思维
　　这种情况下，视频中的人必须先被定位出来，这个可以采用背景减图或者目标跟踪算法。然后对定位出来的目标进行某种编码，这样就形成了其全局特征。
　　这种全局特征是有效的，因为它包含了人体非常多的信息。然而它又太依赖而底层视觉的处理，比如说精确的背景减图，人体定位和跟踪。而这些处理过程本身也是计算机视觉中的难点之处。另外这些全局特征对噪声，视角变化，遮挡等非常敏感。
　　全局特征提取:背景减图,跟踪.
　　二维全局特征
　　 MEI为运动能量图，用来指示运动在哪些部位发生过，MHI为运动历史图，除了体现运动发生的空间位置外还体现了运动的时间先后顺序。这2种特征都是从背景减图中获取的。图2是坐下，挥手，蹲伏这3个动作的运动历史图MHI。
　　二维全局
　　三维全局特征提取
　　　在三维空间中，通过给定视频中的数据可以得到3D时空体(STV)，STV的计算需要精确的定位，目标对齐，有时还需背景减图
　　 stv

局部特征

　　局部特征提取是收集人体的相对独立的图像块，是一种从下到上的研究思维。一般的做法是先提取视频中的一些时空兴趣点，然后在这些点的周围提取相应的图像块，最后将这些图像块组合成一起来描述一个特定的动作。
　　局部特征的优点是其不依赖而底层的人体分割定位和跟踪，且对噪声和遮挡问题不是很敏感。但是它需要提取足够数量的稳定的且与动作类别相关的兴趣点，因此需要不少预处理过程。
　　行为识别中的局部特征点是视频中时间和空间中的点，这些点的检测发生在视频运动的突变中。因为在运动突变时产生的点包含了对人体行为分析的大部分信息。因此当人体进行平移直线运动或者匀速运动时，这些特征点就很难被检测出来。
　　局部特征点的检测
　　Laptev[33]将Harris角点扩展到3DHarris，这是时空兴趣点(STIP)族中的一个。
　　
　　局部特征点的描述
　　二维的SURF特征[39]被Willems[40]扩展到了3维
　　Klaser[41]将HOG特征扩展到3维，即形成了3D-HOG。