基于局部信息融合的行为识别研究

摘 要

人类视觉和行为识别技术是计算机科学、视觉技术和人工智能视频技术领域的重要学术研究主题。在这个信息时代,人们的日常生活和工作离不开一个具有强大的人眼视觉和运动识别功能的设备,先进的人机交互,无人驾驶,智能视频和监控,在移动机器人领域具有非常的重要。对诸如定位和卫星导航,虚拟现实以及此类人工智能产品之类的智能设备的需求也在不断增长。因此,对于人工智能视频技术中人体行为识别技术的研究与开发具有重要的学术研究价值和意义。

目前的人体行为识别方法对短视频的人体行为识别处理效果较好,例如双流神经网络、3d卷积神经网络、时空卷积神经网络等识别方法。这些行为识别网络的视频输入或是随机选择的一个原始的RGB图像,或是选择堆叠一组密集的RGB图像,或是一组光流图。但是对于长视频而言,密集的选择一组图像帧无法比较客观的表示全局信息。因此本文从短视频的理论与技术实际的角度出发,针对长视频的人体行为识别提出了一种基于关键帧的局部信息融合的分段视频识别网络(Key Frame Segment Network,KFSN),该方法将长视频分为等长的多段视频分别进行人体行为的识别,再把分段的短视频的识别结果进行融合。这种网络是基于长时间建模的思想,它很好的结合了稀疏时间视频采样的策略,使整个动作视频能高效学习。

本文中所提出的识别方法已在公共数据集UCF101和HMDB51上进行了多次实验。得出的实验结果表明,本文提出的KFSN网络能够取得较好的行为识别效果,在UCF101可以达到95.0%的识别率,在HMDB51上可以达到70.1%的识别率。优于一些现有的行为识别网络性能。

关键词:行为识别;关键帧提取;局部信息;信息融合

第1章绪论

1.1 研究目的及意义

近年来,随着中国经济社会和国民经济的快速发展,公共安全和一些突发情况等问题日益增加,世界各国越来越重视国内公共场所的安全与预防。所以视频监视系统越来越多地用于各种公共场所,包括国际机场、火车站、办公室、住宅区等地的安装了大量视频监视摄像头。近年来,随着中国安全和智慧城市建设等各项政策的实施和进一步发展与深化,金融等领域的用户公共安防意识的也在不断提高和增强,视频图像监控的市场保持了强劲增长的良好势头。自2008年以来,中国每年新增使用的摄像头数量已超过百万,并且每年的增长率仍超过20%。视频监控数字化为视频监控数字化系统的用户提供了许多视频监控资源,但同时也带来了一些问题。例如,这些监控摄像机并不能起到主动进行视频监视的作用,相反,只是仅记录摄像头录下的内容和视频。这样的视频监视系统具有两个主要缺点。首先,如果发生异常情况,安全人员只能在事件发生后查看监视记录,或者因为工作疏忽而造成的遗漏、误报或者漏报的状况产生。其次,视频监控需要大量时间和人力、物力以及许多资源的长期投入。管理和维护监控摄像系统所需的时间也令人咋舌。且大量的监控摄像头一年365天每天24小时不间断地运行会制造出大量视频数据,这使得视频数据的检索变得非常困难,与此同时还会产生许多错误和不必要的视频数据。因此,这种类型的视频监视系统常被认为是“事后诸葛亮”,而没有提前预警功能的监控功能。

为了更好地解决上述的一些问题和缺陷,计算机视觉图像处理技术直接融入到视频监控图像处理系统中。对视频数据的信息流执行图像处理的工作,例如图像处理和目标信息分析,以自动检测和确定特定目标,并跟踪目标动作以分析特定的目标行为并为该目标行为创建相关记录。同时,智能算法可以自动实时监视所有公共场所,以准确识别外部事件。例如,如果在海关、银行、停车场等各种公共场所发生危险或可疑的非法活动,系统将立即通知安全人员,并向监视人员提供当前监视视频,可以及时有效地防止危险发生。同时,计算机视觉图像处理技术有效地降低了视频监控图像处理系统的容错率,轻松加快了系统内部的视频检索过程,并减少了垃圾视频数据的产生。

计算机视觉技术主要应用了生物视觉原理,来对图像进行采集,然后在采用高级图像传感器设备进行图像运算和处理。这种类别的传感装置与人眼的功能效果是一样的,而对获取的图像的分析和处理需要直接或间接的依赖于计算机。计算机觉技术可以收集和分析周围3D世界的图像,且作为一门交叉性的学科,它不仅涉及现代计算机基础科学、数学、光学、控制科学、神经心理学、神经生理学、神经病学和临床病理学等自然学科,还涉及到哲学、认知心理学、视觉美学等社会科学。如今,计算机视觉技术的应用已经在各个行业领域大展宏图,特别是在工业生产中,例如工业机械零件的检测和测量。当前,一些人工视觉技术不能达到的检测和测量的水平,计算机视觉技术就可以做到。

目标检测、跟踪、人体行为的识别和理解是目前计算机视觉领域中一个十分重要的研究课题。目标侦测、目标分类和跟踪是视频监控中主要分析的三个方向,属于计算机视觉监视任务处理中的的低级和中级任务处理部分。更高级的视觉处理需要动作的识别和理解,它是对监控目标的具体行为模式进行分析和识别,并用自然语言等手段加以解释。这是视频监视系统的最终目标任务之一。

目前行为的识别通常是以人体的行为活动作为主要观察和研究的对象。人体的行为是人体行动的一种方式,是表达人对于环境或者其他物体的一种反应。多数的情况下,人体是通过肢体的各种运动来描述或表达复杂的人体行为,即人体的运动由肢体的各种运动组合组成。因此,通过人体的运动来分析人体的行为就成为理解人体行为的一种有效途径。

研究运动目标,特别是对人体运动目标的不同行为和动作的识别具有重要的理论意义,它涉及的范围包括计算机人体视觉、模式识别、机器视觉学习、数据挖掘、认知心理学等许多领域。人类行为识别的研究仍处于初步理论和研究之中。虽然已经出现了多种行为识别算法,但大多数算法仅限于严格标准化的实验研究环境中,并不适用于各种复杂且可修改的真实环境。在模式识别和机器视觉学习中,目标运动识别涉及选择和评估适当的运动识别模型,优化分类器以及最小化训练样本估计误差或模型分类算法误差。所以需要估计和学习感知模型的未知参数。如何根据理论和先验知识对运动目标的结构进行合理的建模,提取有效的特征,设计合适的分类器,以及如何选择可行的模型和优化分类算法都是这个领域需要研究和解决的主要问题。因此,目标的行为识别对于学习和研究现代计算机统计学具有十分重要的意义和重要研究价值。从认知心理学的角度来看,认知心理学主要是研究人对所输入的各种信息如何进行表征、存储、加工并将其转化为知识,运用这些知识来控制和指导自己的行为和解决各种问题。图像序列中人类行为识别的研究使用计算机来分析计算机输入的图像序列,并使用计算机对人类行为的视觉感知进行低级处理。执行后,模型和分类器将基本图像特征转换为高级语言。这包括人们在哪里以及他们在做什么。这类似于现代认知心理学的机制。因此,人类行为识别的研究与发展为进一步研究人类视觉和各种心理活动提供了新的思路和方法。同时,在人体的行为识别的研究中,还涉及到计算机视觉中从底层图像特征到高层图像语义之间的许多关系和问题。因此,该研究对象的方案和发现对计算机视觉及其他对应分析领域的成长带有非常重要的意义。

总之,视频流中包含大量的有用的信息,如何让现有的大量的传感器和数字视频监控管理系统进行智能化的工作,已开始逐步得到广大科研工作者、XX和商家的高度重视,视频人体行为识别具有重要的研究价值与意义。

 1.2 国内外研究现状

基于视频流的行为分析和理解正在成为计算机视觉领域中越来越重要和关注的研究方向。其核心研究重点是使用计算机视觉模式识别图像信号处理和其他技术来执行视频流目标序列。了解室外监视区域中行人行为的目标检测,目标分类,目标跟踪从而进行分析。目标检测是视频监控图像处理系统的基础,属于低层次的计算机视觉问题,目前已经有了很多较为成熟的检测算法。必须准确地对场景中的移动对象进行分类,以便可以进一步跟踪和分析场景中的移动对象。而作为视频监控图像处理系统中最基本的功能之一的目标跟踪,是当前制约视频监控图像处理系统发展的一个主要瓶颈。而如何对人的行为进行分析和识别是近几年被广泛关注的一个研究热点,它研究的主要是如何对人的行为运动模式进行分析和识别,这可以轻松地视为时变运动数据的分类和匹配,即将测试序列与标准操作的预校准参考数据序列进行匹配。

 1.2.1 基于传统的手工提取特征方法

在人工智能和深度学习问世之前,设计图像特征不仅要人工修复人类行为,而且要修复诸如特征提取,特征表示和行为分类之类的固定过程,这也是本文研究的主要方向。基于人工设计的图像特点的运动鉴别方案可以将其分成基于全局特点的人体动作识别和基于局部特点的人体动作识别。全局特点获取的基本完成方案是先从视频图像中侦测出人体的动作和位置,然后以人体为区域的核心,然后绘制形状,和区域的轮廓等。录制视频中的人类行为特征证明了在视频动作中使用姿势变化来训练和构建整体模型。 Bobick等人提出的基于全局函数的代表性方法。包含动作形状的图像(MEI)和动作历史帧数(MHI)。此方案重点用于两个相邻的帧数,其中在帧之间执行导数运算以获得人的行为的特征表示。这种方法的优势在于,它可以清晰地保留视频中人类行为的时间特征,但是在某种程度上取决于人类轮廓的手动分割,并且对颜色,光线,对比度和遮挡问题进行分析。但是在空间有限的视频场景不容易处理。基于运动局部功能的视频运动识别算法不需要视频的预先分割。常见的局部特征包括局部,边,角,曲线和具有特殊属性的区域。人类行为的局部特征也称为局部兴趣点。这是空间或时间的突然变化。其中,最具代表性的局部功能是时空点(STIP)。这需要对人类行为视频的时间尺度进行重大更改,并且必须能够准确检测行为的关键点。但是,人类行为的许多特征都有执行速度慢和执行过程中关键部分功能稀疏等问题。这也严重影响随后人类行为的特征。为了解决视频中人体操作点稀疏的问题,提出了一种基于光流函数的密集轨迹算法和人工改进的密集轨迹采样算法。在深度学习算法广泛应用于运动识别领域之前,特征获取是最高效的一种方案。 DT算法的基本流程是采用光流场获取在视频帧排列中采用的密集采样点的动作痕迹,并采用动作痕迹提取方法,在使用梯度直方图(HOG)。方向光流直方图(HOF),运动边界直方图(边界的历史运动,MBH),轨迹函数轨迹和其他4个函数。 HOF是基于灰色直方图计算的,而其他则基于密集的光流。最后,使用Fisher向量来回编码图像特征,然后使用图像特点进行编译的效果训练维持向量机(SVM)分类装置。IDT优化了SURF并使用关键点来配对上一个和下一个帧数图像的两帧的光流点,有效消除了由于摄像机移动过程而改变视频背景的影响。这称为扭曲光学流程图。不过,按照密集采样的鉴别方案对于动态背景动作鉴别任务的运算需求非常高。这包括许多影响行为感知效果的冗余背景变化计算)。

深度学习并不是传统的手动提取,而是采用深度网络自动学习的特点。一些研究人员使用深层结构对视频进行分类。通过使用分层特征表示,深度网络学习方法可以捕获局部特征和上下文信息,并在大型视频数据集中使用高级信息)。 Simonyan等人研究出来了两流卷积神经网络(两流网络)。他们把最初始的视频帧率里面的图像数据解析成空间静态信息流和时间动态新流。在空间网络领域中,它们降单个相框进行形式携带。以及在视频帧数里面描绘出的指定的场景和目标信息。

 1.2.2 基于深度学习的方法

Simonyan等人提出了一个双流卷积神经网络(Two-Stream Network),他们将原始的视频图像信息分解成空间静态数据流和时间动态数据流,在空间网络部分以单个图像帧的外观形式,携带了视频描绘的特定的场景和目标信息。其自身静态的外表形式是一个很有用的线索,因为一些动作很明显地与特定的目标之间有联系。在时间网络部分,以多个帧上的运动外观形式,表达了特定的观察者(摄像机)和特定的目标者的运动。并将深度卷积神经网络用于两个特定的数据流中来进行特征的提取,最后使用SVM分类器对网络输出结果进行行为识别。Hausknecht等人提出利用长短时记忆神经网络(Long Short-Term Memory,LSTM)来做双流卷积神经网络的时间网络部分的融合,效果还不错,在 UCF101数据库上的识别率达到88.6%。Ji等人首先在实验中使用3D卷积神经网络从视频中学习时空特征,然后在下一步中使用LSTM对视频序列进行分类。Tran等人提出3D卷积神经网络C3D,其将33卷积扩展到3×3×3卷积,2×2融合扩展到2×2×2,输入视频图像16帧。实验中发现,时域方向卷积核大小为3时效果最好。相比2D卷积神经网络,3D卷积神经网络的参数量很大,训练变得更加困难,且需要更多的训练数据。相比其他类型的方法,C3D一次可以处理多个视频图像帧,所以其计算效率更高。Carreira等人提出了I3D卷积神经网络,把原始的双流卷积神经网络结构中的2D卷积扩展为3D卷积。由于时间维度不能缩减过快,前两个池化层的卷积核大小是1×2×2,最后的池化层的卷积核大小是2×7×7。和原始的双流卷积神经网络不同的一点是,这里的双流卷积神经网络的两个网络分支是单独训练的,测试时才融合它们的预测结果。Diba等人提出了时空3D卷积网络T3D,一方面是采用了3D DenseNet结构,区别于原来网络的Inception和ResNet结构;另一方面是使用了不同尺度的卷积来捕捉视频信息。Qiu等人提出了伪3D残差网络P3D,用一个1×3×3的空间方向卷积和一个3×1×1的时间方向卷积来近似原3×3×3卷积,改进了ResNet内部神经网络连接中的卷积形式。通过组合这三种不同的卷积模块,进而得到P3D ResNet。P3D ResNet无论是在参数数量还是运行速度等方面都对3D卷积神经网络C3D作出了优化。除了光流信息之外,一些学者还利用视频的其他模态如音频和视频中的物体信息来捕捉视频分类的补充信息。Donahue等人提出了长时递归卷积神经网络(Long-term Recurrent Convolutional Network,LRCN),这个网络将卷积神经网络CNN 和长短时记忆神经网络(Long Short-Term Memory,LSTM)结合在一起对视频中的有用信息进行特征提取,单帧的视频图像信息通过CNN 获取特征,然后将CNN 的输出按输入时间顺序通过LSTM,这样最终将视频数据在空间和时间维度上进行特征表征,在 UCF101数据库上得到了82.92%的平均识别率。Baccouche等人提出使用稀疏卷积自定义编码器网络来学习视频块的时空兴趣特征,在KTH数据集上的实验结果表明其方法能与人工设计特征的方法取得类似的效果。Le 等人将对独立子空间的分析( Independent Subspace Analysis,ISA )算法扩展到三维的视频数据上,使用一种无监督的学习算法对视频块进行建模。首先在输入的局部视频块上使用独立子空间分析算法,学习得到相应的网络后将较大块的输入图像进行卷积,将卷积计算得到的结果组合起来作为下一层的输入;实验证明该算法更适用于环境复杂的视频数据集,因此在Hollywood2数据集上得到了更好的结果,比手工特征提取中的时空兴趣点特征提取算法识别率提高了将近10%。Zeiler等人提出使用卷积限制玻尔兹曼机来学习一个视频中相邻两帧的时空特征,在KTH和 Hollywood2视频数据集上的对比实验结果表明,利用深度学习得到的时空特征与人工设计的 HOG、HOF 等特征能在识别结果上取得类似的结果。Chen等人提出空间-时间深度信念网络( Space-Time Deep Belief Network,ST-DBN ),ST-DBN 使用玻尔兹曼机将空间抽取层和时间抽取层组合在一起在视频数据上提取不变特征,并在 KTH 数据库上获得了91.13%的识别率。

目前,基于深度学习方法的行为识别,在准确度上达到了甚至超越了手工提取特征的准确度,并且基于深度学习的识别方法具有良好的泛化性,针对不同类型的数据集都可以取得良好的识别效果,而且避免了复杂手工提取特征的过程。

通过以上的对比分析可以很清楚地看出,深度学习不仅技术上具有优良的泛用性,即针对不同类型的行为数据集都同样能获得较好的识别效果,且避免了复杂的传统手工特征提取的过程,用基于机器的深度特征学习代替了基于人类先验经验的特征提取,获得了与传统的手工特征识别结果持平甚至是更好的识别率。因此,基于深度学习的人体行为识别方法具有很大的科学研究和应用价值。

1.3 研究难点

到目前为止,识别技术取得了长足的进步。尽管在上层,下层和中层正在不断的创新,但是目前而言,行为识别算法的成熟度远远不够,因为目前没有适用于所有行为分类识别的算法。所以仍然有很多严重的问题需要解决。此类研究的比较难的部分主要在于以下几点:

1.动作类内类间的变化太大

在大多数行为运动中,同一运动会出现各种形式,例如走路,并且可以在不同的背景环境中完成。步行的步伐和速度从慢到快变化,步行的步伐也在不时的变化着。有些很短,有些很长。其他操作具有相似的性能结果。特别是,某些非周期性的肢体运动(例如在交通信号灯上行走)与正常的行走速度明显不同。会看到行为表现的类型很多,每种行为都有很多变化,所以行为意识研究也有很多问题。

2.环境背景等影响

在计算机视觉研究的各个领域,环境照明,背景变化和其他因素都是最大的挑战。主要存在各种变化和观点,从不同角度观看时,可以用相同的动作获得不同的动态图像。另外,由于人和背景彼此遮挡,因此难以提取视频的特征,这就需要利用计算机对行为进行分类和识别。一些学者提出了用于多视图相机融合和处理的3D重建技术,以解决多视图和遮挡的问题。其他影响因素包括动态场景变化和凌乱的背景,环境照明的变化以及低分辨率图像和视频。

3.时间变化的影响

众所周知,人体的所有行为都离不开时间这个重要的因素。而我们拍摄的照片和视频其实际存储的格式和速率也有很大的可能不同,其视频的播放速度有慢也有快,这使得所提出的行为识别系统对照片和视频存储格式的实际回放速度不敏感。

4.数据的获取和标注

由于将行为识别问题的基本问题视为分类问题,因此学习分类模型是需要研究很多的行为数据。然而这些数据大多数都是视频数据。视频数据里面的每个动作的现实位置和时间都非常不确定,其持续时间也不确定。 同时,需要对视频中相同动作的不同表示以及不同动作之间的考虑。 数据中信息的差异性,多样性和包容性。 该收集过程的工作量不小。互联网上有几个公共可用的视频数据集,任何人都可以用来进行行为识别实验。

另外,手动标记视频数据非常困难,并且工作量太重。当然,有一些学者也提出了一些自动标注的方法,比如说可以利用网页图片作为搜索引擎,在电影视频中使用字幕,并使用与电影说明匹配的文本信息等。

1.4研究内容

卷积神经网络在基于视频的行为识别方面难以深入发展的原因是因为长视频在理解行为视频方面起着重要作用,且生活中的各种监控视频数据也基本都是长视频,但是主流的神经网络通常只关注短视频。这些挑战促使我们来解决以下两个主要问题:1. 如何设计一种有效的基于视频的行为识别网络结构能够学习视频的特征表现进而能够用于长视频的行为识别。2. 如何在有限的训练样本下学习卷积神经网络模型。

本文在对基于视频流的人体行为识别相关的关键技术进行大量文献查阅和研究的基础上,提出了一种基于关键帧的局部信息融合的分段视频识别网络,能够在一段长视频序列中通过稀疏采样的方法提取短片断,这些视频片段在时间维度上服从均匀分布,利用双流卷积神经网络从采样得到的视频片段中搜集信息,并在UCF101和HMDB51两个数据集上进行实验来验证所提出的方法的有效性。

1.5本文的结构安排

本文的主要研究分为五章,每章的主要研究如下。

第一章简要介绍了相关的研究背景以及人类行为识别研究的重要性。下面介绍国内外学者在传统手部特征提取方法和人类行为识别领域的研究进展。深度学习技术从两个方面进行了分析。最后,介绍了当前行为意识研究中遇到的困难,并重点剖析的主要分析方向和研究的布局。

第二章 对人体行为识别技术进行综述,先介绍了行为识别流程,然后介绍了国内外在人体行为识别领域的常见方法,分别从基于手工特征和基于深度学习两方面进行讨论。

第三章 介绍本文拟采用的网络结构,首先介绍了该方法的基础网络时序分段网络(TSN),然后介绍了本文拟采取的关键帧提取网络,接下来介绍了本文采用的行为识别网络的训练与测试部分。

第四章,对于分析结果进行详细的总结,并解析出对应的实验细节上面的问题。

第五章:概述和观点,本文中的工作和研究结果的概述以及后续工作的预测。

 第2章 人体行为识别技术

行为识别的目标是从一个未知的视频或者是图像序列中自动分析出其中正在进行的行为的起始点并预测其终点。简单的行为识别即动作分类,任意给定一段视频,只需将其正确分类得到视频中已知的动作类别。复杂点的行为识别是视频中不仅仅只包含一个动作类别,而是有多个,系统需自动的识别出动作的类别以及动作的起始时刻和终止时刻。一般来说,行为识别系统的最终目标是自动分析出视频中有哪些人(who ),在什么时刻( when ),什么地方(where ),干什么事情( what ),即所谓的“W4系统”。

 2.1行为识别流程

首先给出行为识别的流程框图如图2.1所示。

32c62fd4d524a12602a8a2102b862b4d

图2.1 行为识别流程图

人体行为视频可以通过成像设备获取,随着成像设备的发展,从早期普通彩色单目摄像机到后来多模态相机的出现使得行为视频的数据类型更加丰富。人体行为特征是从视频数据中提取到的关键信息的表征,是行为识别中的关键部分,其好坏直接影响识别的性能。人体行为的分类是指将人体行为特征向量作为输入,通过机器学习的方法训练一个分类器,将需要识别的人体行为特征向量输入到这个分类器中,从而得到类别的分类结果。

若是将视频特征提取作为最关键性的标准,现如今的视频人体行为在识别方法方面是能够分为这样两个大的类别的:

1.将深度学习作为重要的分类依据。对于深度学习,我们在对迭代学习加以充分利用的基础上,自动地将相关的特征向量提取出来。这样,我们就能够借助于深度模型,得到相应类别。而在依据数据标签的情况下,我们还能够在对反向传播方式进行充分利用的基础上,对网络模型的参数加以调整。这样,理想的分类效果就能够最终地取得了。相当于分类器的,为模型最后的这样两个层:一是Softmax 层;二是全连接层。而作为学习过程的整个模型的训练,实际上即为端到端的。

2.将传统的手工方面特征作为最主要基础的识别方法。对于视频的底层行为方面的特征,首当其冲的为对于专家设计特征的加以利用。在此基础上,实施上述底层特征的预处理。这样,过拟合会因为数据间相关性的消除而得到有效预防。紧接着的是把所处理的底层特征编码变为定长的特征向量。我们的训练好行为分离器就能够在系列处理之后而得到了。

 2.2 基于手工特征的人体行为识别方法

图2.2所表示的,即为通常情况这样的人体行为识别方法方面的流程:将手工特征作为重要的基础。第一,在实施了视频数据的连续帧的连续采样的基础上,我们就能够将一系列的采样点得出来;第二,对于上述的采样点,实施专家所设计施工特征提取方法前提条件下的手工方面特征的提取;第三,对于前述所提取手工特征进行编码的合并,从而得到特征向量;第四,将前一步操作所形成的特征向量向行为分类器进行输入并且实施分类训练;第五,在把手工特征向量提取出来的情况下,我们就能够得到相应的分类结果。

466a774e511747992e36111a6114dc0a

图2.2 基于手工特征的行为识别方法流程

世界范围的许许多多专家和学者们,曾经在深度学习没有被引用至人体行为识别这样一个重要的领域前,将许多类型的手工特征设计了出来,并且实施了许多尝试。这之中典型的如常见的Space Time Interest Points以及Trajectories之类。

2.2.1基于轨迹跟踪的特征提取方法

Wang等人提出的基于密集轨迹(Dense Trajectories,DT)的行为识别方法和经过改进的密集轨迹(Improved Dense Trajectories,IDT)的行为识别方法是深度学习之前最好的人体行为识别方法。密集轨迹人体行为识别算法的主要步骤为:密集采样、轨迹追踪、轨迹描述、特征编码与识别。首先对视频图像进行多尺度密集特征点采样,保证多个不同尺度的各个采样点能同时覆盖图像所有空间位置。通过计算每连续15帧图像特征点的邻域光流估计特征点的运动,得到运动轨迹特征(trajectory )。改进的IDT算法除了运动轨迹特征外,基于HOG, HOF,MBH的三种特征串行融合的特征用以描述光流,并利用词袋特征编码方式对每段轨迹对应的一组特征(HOG,HOF,MBH)编码。为了消除相机运动产生的光流信息,减少光流估计运动轨迹的干扰,利用SURF特征进行特征点匹配,并改用特征编码效果更好的费舍尔矢量(Fisher Vector,FV)特征编码方式。FV同样也是先用大量特征训练码书,然后再用码书对特征进行编码。相机背景运动光流消除、轨迹特征在后期的行为识别算法中得到了极大借鉴,常见的有将轨迹特征与深度学习结合的行为识别算法。基于得到的特征,利用分类器根据特征所带信息,将特征输入分类器识别行为。

 2.2.2 基于时空兴趣点的采样方法

时空兴趣点(Space Time Interest Point,STIP)能够同时考虑到视频的空间信息和时间信息,是一种常用的行为识别运动特征表示方法。STIP 特征提取出视频序列中时间和空间运动变化剧烈的人体区域,如挥手的手掌和手肘以及踢球的足部。由于其较好的运动描述能力,被广泛应用于视频序列中的人体行为识别。常用的检测时空兴趣点的方法有三种:Dollar检测方法、Harris3D 角点检测方法和稠密网络检测方法。

聚焦于时空,作出了显著变化区域检测的为Harris2D。而在充分利用统计所得像素直方图的情况下,研究者实施了行为特征向量方面的描述。不过,对于上述检测方法,Dollar 等人提出诸如其所检测到的稳定的时刻在兴趣点方面存在着严重的数量不足的问题。在此基础上,他们还将这样的看法提了出来:借助于Gabor 滤波器进行滤波,我们是能够在可测量时间维度之上进行滤波的。更为重要的是,在空间维度上,我们还能够在运用高斯滤波器基础上进行滤波。就由这种检测方法检测到稳定时空兴趣点而言,是有着数量会因为局部邻域块尺寸大小变化而发生相应变化的特征的。在这之后,Willems等人又在Harris2D的基础上提出了这样的时空兴趣点检测的具体方法:将Harris3D作为重要的依托。在对 Hessian矩阵的计算前提之下,兴趣点检测时间的复杂度因此而大大地下降了。研究者还将其跟诸如HOG和HOF以及MBH实施了深入的比较。其结果说明:在采样方式方面,就兴趣点而言,稠密的要优胜于稀疏的。

尽管对这样两个方面的影响较为敏感,基于时空兴趣点特征提取方法的效果在背景复杂的情况下还是很好的。

2.3 基于深度学习的人体行为识别方法

就传统的手工特征方法而言,这些方面的复杂场景之中的问题,实际上是不就普适性的:一是视角的变化;二是遮挡;三是光照。所以,要至数据之中对行为特征进行自动学习,深度学习方式的效果更好。图2.3所表示的,即为文章之中所提出的将深度学习作为基础的人体行为识别方法的流程框架。

8c8de74d72e8841c626d876149fb7337

图2.3 基于深度学习的行为识别方法流程

在行为识别方法之中,将深度学习作为重要基础的,主要有这样两种:一是3D卷积网络;二是双流网络。

 2.3.1双流网络

下面的图2.4所表示的,即为2014年Simonyan提出了基于双流网络结构的行为识别方法的基本流程。这样的结构,可以分为两个卷积神经网络方面的分支:一是时间;二是空间。他们的网络结构是一样的。前者先对视频系列里面相邻两帧进行光流图像的计算并且对多帧堆叠的光流图像实时时序信息提取。后者在将空间特征值视频在RGB图像里面予以提取出来,并且在对上述两个网络进行得分融合的基础上取得结果。而视频行为识别的准确性也是得益于这样的方法而在很大程度上提升了。

785830036323ae8b0d1e9c1c23e10f49  图2.4 双流网络框架

在准确率较高的同时,基于双流网络架构的识别方法需要实施光流图像的提取。而两个网络的分开训练,则是特别耗时的。这样,实时性要求是难以达到的。并且这样的方法对长时建模能力不足。

 2.3.23D卷积网络

对于单帧图像CNN特征的学习,现如今的行为识别方法一般情况所使用的都是将图像2D卷积神经网络作为基础的。其结果是:不同连续帧的信息连续,许多时候就会被忽略。这样,视频里面动作处理方面的信息会大量地丢失掉。所以,对3D卷积网络的充分利用,实际上是这方面研究的重要方向之一。

2010年,上述的行为识别法为Ji等人第一次地提了出来。对视频,沿着这样两个维度,我们是能够实施时空特征提取的:一是时间;二是空间。图2.5所表示的,即为3D卷积操作。借助于高层特征的规则化,这些研究者做到了把3D卷积网络跟各种各样的架构的有机结合。

eacf53fec9404d4bb211da6d5e41bd86

图2.5 3D 卷积操作

在围绕视频连续帧实施所组成的三维立方体3D卷积特征提取的基础上,这样的网络能够将视频图像这两个维度方面的特征信息加以捕捉:一是空间;二是时间。更为重要的是,网络运行的速度,受益于对于多帧图像的一次性处理,在很大程度上得到了提升。一方面是识别的准确性并不高,另一方面是对于硬件处理器有着较高的性能方面的要求,在一方面是计算开销特别大,这样的3D卷积网络所存在的优势仅仅表现在无需对光流图像进行预先提取方面。在这样的情况下,对于双流网络思想,在最先进的方法之中予以了有机结合。也就是说,从对行为识别方法性能提升的角度,做到了对于光流图像的充分利用。

 2.3.3受限玻尔兹曼机

作为可视化生成网络模型,RBM实际上为能够借助于输入层数据集对概率分布进行学习的模型。在充分借助于门控受限玻尔兹曼机前提下,Taylor等人在视频系统里面运动信息的学习之中,采用了无监督的可视化方式。对于网络参数的微调和生成,这些研究人员是借助于卷积生成算法实施的。这样,运动敏感特征就能够得到有效提取。这样的模型,在KTH数据集以及 Hollywood2数据集方面的识别效果特别突出。而借助于高斯受限玻尔兹曼机实施视频中人体运动差异特征的学习,是Tran等人所提出的较为有效的先进方法。对于一个两帧间差异减函数进行定义,使得人体动作得以在简单时空显著图方面创建成功。这样,浅层RBM可以更为容易地对这样的时空显著图里面动作加以学习。

在无监督学习之中,做到了对于无标签数据的直接利用,实际上为基于受限玻尔兹曼机方法的显著优势所在。这就使得我们能够取得可计算时空特征的重要表示方法。

2.3.4循环神经网络

在针对时间序列数据的建模之中,RNN,亦即循环神经网络一般情况下都是用在贡献度为标准的自动建模上面。而要实现这样两个重要方面的累积,就要借助于自动控制相关方面的数据贡献度来进行:一是历史信息;二是时间序列。所以,就这样两方面来说,RNN的性能是特别强大的:一是特征学习;二是时域动态特征的建模。而在对LSTM加以充分利用的基础上,我们能够做到部分地解决RNN所普遍地存在着的梯度消失方面问题。下面的图2.5所表示的,即为LSTM 的结构。相关字母的含义如下:

4d47131e54dc8ed294c2eefda18c8747

 

图2.5LSTM 单元的结构

通过对相邻帧间进行时序相关性的充分利用实施视频里面人体行为方面时序特征的建模,实际上是以循环神经网络作为重要的前提条件的。不过,这方面的识别准确性离预期值的距离还很远。

2.4 本章小结

本章首先从行为识别的流程着手,行为识别方法按特征提取方式的不同大致可以分为两类,基于传统手工特征的行为识别方法和基于深度学习的行为识别方法。第2节介绍基于传统手工特征的行为识别方法中常见的基于轨迹跟踪的特征提取方法以及基于时空兴趣点的采样方法。第3节介绍基于深度学习的行为识别方法,概述了基础的双流网络和3D卷积网络两种,以及常见的受限玻尔兹曼机和循环神经网络。

 第3章 基于关键帧的局部信息融合的分段视频识别网络

在本章节中,本文将详细介绍如何使用基于关键帧的局部信息融合的分段视频识别网络(Key Frame Segment Network,KFSN )进行行为识别。首先,介绍了时序分段网络(Temporal Segment Networks,TSN )的基本概念。在此基础上,改进了TSN得到KFSN网络。最后,将介绍KFSN网络的训练和测试细节。

  3.1时序分段网络

经典的双流网络(Two-Stream Network)对于视频的信息利用率低。原来的双流网络(Two-Stream Network)在训练空间网络时仅使用一张RGB图,在训练时间网络时仅用一组堆叠光流图,这明显不足以代表整段视频。因此,时序分段网络(Temporal Segment Networks,TSN)提出了一种新的时序分段方法来使用该双流网络结构,通过对视频分段,来增加视频利用率。该网络结构图如下图所示:

09893ac1c76250a541b931faa8fab958

图3.1 TSN网络结构图

具体来说,TSN是将一个输入的人体行为视频分成了等长的3个视频片段,每个片段中再随机任意选取一小段。从这选出的一小段中随机取出一帧作为双流网络的空间流卷积神经网络的输入,再将这个小视频片段的一组堆叠的光流图作为时间流卷积神经网络的输入。每一个视频片段都可以直接得到一个该视频分类的分数,将这些片段所得分数进行结合(结合方法:平均、加权平均、取最大值)得到最终的类别分数,即最终识别结果,因为用到了整个视频的信息(虽然并没有充分应用),所以这是一种视频级的预测。来自3个片段的类别分数最终融合产生最后的视频的识别结果。两个网络都带有完全同步的的网络参数,所以在全部代码片段上都享有同步的数值。

 3.2 关键帧提取网络

因为TSN是从分出的3个片段中随机选取RGB帧来作为空间流网络的输入,而随机帧的选择是任意的,有很大的可能会选取到携带信息很少的帧,这对最后的行为识别结果会有一定的影响。而且仅仅只把视频分成3段也会造成信息的丢失。所以本文提出了基于关键帧的局部信息融合的分段视频识别网络( Key Frame Segment Network,KFSN),先将视频分成多段,然后每段再提取关键帧作为空间流卷积神经网络的输入。关键帧提取网络如图3.2所示:

b0e183d1c6d23fc9dcdbbaf5820db1d5  图3.2 关键帧提取网络

深度网络首先逐帧地为视频中的每个帧提取深层特征,然后将它们传递给网络的自适应池模块(Adaptive Pooling),该模块在考虑它们在网络内部可以预测的重要性的同时,递归地给它们进行pool和排序,排序越靠前的帧所含信息越多,其中变量 预测帧图像中含有信息的重要性。该方法是对时域的特征进行Pooling,而不是限制在空域的特征中。根据帧的重要性设定权值,该帧含有的有用信息的可能性越大,权重就越高,最后的Pooled Feature获得的有用信息就越多,无用信息就越少。自适应池模块中使用的神经网络是多层感知器模型(多层感知器,MLP)。该网络由三个完全连接的网络组成,它们是简单,快速和自适应的。输入到网络的是当前图像帧的pooled特征和下一帧特征的残差,用残差可以让网络关注到之前没有看到的特征,进而决定是否对它Pool。网络通过反向传播,会不断优化MLP,这样就使得在训练的过程中,可以很好地选出关键帧,丢掉无用帧。

  3.3 KFSN网络结构

像我们在前文讨论的那样,当前的双流网络的一个明显问题是它们无法进行长时建模。这主要是由于它们对时间上下文的访问和分析有限,因为它们存在单帧(空间网络)或小片段(时间网络)中的单帧堆栈上来进行一些操作。然而,复杂的动作,如体育动作,在相对较长的时间段内包含多个阶段,在这些行动中,如果不能将长时的时间结构运用到卷积神经网络训练中,那对于行为识别来说会造成信息上的缺失。为了解决这个问题,本文提出了基于关键帧的局部信息融合的分段视频识别网络(Key Frame Segment Network,KFSN ),一个如图3.2所示的网络框架,使整个视频的动态建模成为可能。

具体而言,本文中提出的分段视频识别网络框架旨在说明如何最大化整个视频序列的视觉信息以进行视频级别预测。识别网络由空间流卷积神经网络和时间流卷积组成。分段视频识别网络不能在单个帧或帧堆栈上执行,可以对从整个视频中稀疏采样的一系列短视频片段执行此操作。此序列中的每个短视频剪辑都会生成自己的运动类别初步预测,并将短视频剪辑之间的一致性用作整个视频的视频级别的预测。 在网络训练期间,在双流网络结构中使用剪切级别的预测损耗值,而是迭代更新模型参数以优化视频级别的预测损耗值。

ec26a38d9d593b959cbc8253790cbd24  图3.2KFSN网络结构图

98b535d60ce8da44569f2b32a939bfef

b0652fcc6c29ae404a39d7201e44ddfe

同时,K对于全部的视频进行一次固定K,本文使用一个稀疏帧率采样方案,其中获取到的的视频片段中只涵盖了少量的帧,只不过这些帧都属于关键帧。与密集时间采样视频帧的工作量相比,它已经大大降低了在帧上评估CNN的时间计算难度和成本。

 3.4KFSN网络训练

分段视频识别网络为视频级学习提供了一个坚实的框架,但要实现最优性能,需要考虑一些实际问题,如训练样本的数量有限等。为此,本文研究了在视频数据上训练深度卷积网络的一系列良好实践,这些实践也直接适用于学习分段识别网络。

网络结构:网络结构是卷积神经网络设计中的重要元素。许多研究表明,更深的网络结构可以提高目标识别性能。但是,原始的双流网络使用的是相对较浅的网络结构(AlexNet)。在本文中,我们将BN-Inception网络用作构建双流卷积神经网络的基本结构。像原始的双流卷积神经网络一样,KFSN的空间流卷积神经网络也可以在RGB图像上执行,但是时间流卷积神经网络将一组连续的堆叠光流场作为输入。

网络输入:原始的双流卷积神经网络最初使用RGB图像作为空间流网络的输入,并使用堆栈光流场作为时间流网络的输入。 本问还使用了双流网络结构,但与原始的双流网络不同之处在于,稀疏采样的关键帧集被用作空间流卷积神经网络的输入。以获取运动信息的输入字段的效果。

网络训练:由于动作识别数据集的数量相对较小,训练深度卷积神经网络面临着过度拟合的风险。如果目标数据集无法提供足够的训练样本,则预训练是初始化深度卷积网络并降低过度拟合风险的有效方法。如果空间流网络接收到RGB图像作为输入,那么本文将把ImageNet初始化模型训练为网络初始化。在训练的时候,批次归一化层按照对比缩放各个样本批次中样本的平均值以及平均差,并把平均值和方差变量成为标准高斯分布。这可以加快训练收敛速度,但是,如果训练样本的数值存在一定的限制,则由于偏移量预计会形成过度重合。所以,在初始化预训练模型之后,除第一精准化层的平均值和方差参数外,所有批处理标准化层的均值和方差参数都会被冻结。由于光流和RGB图像的激活值分布各不不同,所以第一卷积层和批归一化层的激活值遍布也各不相同,所以需要预算对应的均值和方差。以此同时,在BN-Inception全局池化层之后附加了辍学层,从而可以进一步预防拟合。辍学层设置:将空间流网络调整为0.8,时间流网络调整为0.7。

 3.5 KFSN网络测试

由于在 KFSN 中片段级的卷积神经网络共享模型参数,因此所学习到的模型可以进行帧评估。具体来说,本文采用与原始的双流网络相同的测试方案——即从动作视频中采样了固定数量(在本文的实验中是25)的帧。同时,从视频序列采样的帧在四个角和中心进行修剪,然后水平翻转以扩展数据。对于时空两个网络的融合,本文取它们的加权平均值。在分段视频识别网络框架内学习时,空间流网络与时间流网络的性能差距要比原始的双流卷积神经网络小。基于这一事实,本文将空间流的权值设为1,将时间流的权值设为1.5。

 3.6 本章小结

本章首先对TSN网络进行了简单介绍,然后研究了本文采用的关键帧提取方案,再尔分析了KFSN的网络结构,最后分析了KFSN网络的网络训练以及网络侦测等等。

第4章实验结果与分析

行为识别在目前的许多高新技术领域都有很广泛的应用,实现行为识别的高精准识别率己成为许多专家学者的目标。目前,由于硬件技术的发展和实时监控摄像头的普及,基于视频的行为识别获得了更多的普及与发展。本章采用一种分段视频识别的方法完成高精度的人体动作鉴别,还会在UCF101数据集以及HMDB51数据集上进行详细的分析。

 4.1数据集简介

本文主要采用了UCF101数据集和HMDB51数据集进行实验,本小节将对这两个数据集的结构进行详细概述。

 4.1.1UCF101数据集

UCF101是从YouTube收集的行为识别数据集,用于具有101个动作类别的真实动作视频。行为数据集是UCF50行为数据集的扩展,其中包括50个动作类别。 UCF101当前是动作类别和视频样本数量最多的数据库之一。

UCF101拥有来自101个动作类别的13320个动作视频,320×240的视频分辨率,运动识别数据和摄像机动作,物体的外观和姿势,物体的差异和变化率,大视角,凌乱的环境背景,以及灯光的巨大差异,使其成为现实有史以来最困难的数据集之一。

101个不同动作类别的视频可以细分为25个组,每个组可以包含4-7个不同动作的视频。来自同一组的视频可能具有一些共同的特征,例如相似的背景,相似的人物等。

UCF101数据集的动作类别大致可划分为5种类型:1.人与周围物体的接触和互动;2.仅身体动作;3.人与人的互动;4.乐器演奏;5.体育运动。

图4.1UCF101中6类行为的样本图像帧

c350109bb71ecf01dd2edca1238c6e7c

布朗大学发布的HMDB51数据集于2011年发布。许多的视频片段来源于一些电影,和一些视频数据公共数据库(例如Prelinger档案)和在线视频库(例如YouTube和Google)。该数据集包含6849个视频样本,并分为51个动作类别。每个类别至少包含101个剪辑后的视频,视频分辨率为320×240。

HMDB51数据集的动作类别可以分为五种类型:1.一般的面部动作,如微笑;2.人与人的互动;3.一般的身体动作;4.面部与对象交互;5.身体与目标的交互行为。

405a45c956b20a41daa03631256a2b08

图4.2 HMDB51中6类行为的样本图像帧

 4.2实验结果与分析

本小节将对本次实验的设备和参数设置进行详细的阐述,并且采用视频行为识别率评价指标对实验结果和数据进行详细的分析和总结。

  4.2.1实验内容

本文所提出的网络结构的代码编写采用的是caffe+python2.7.12,深度学习的框架是OpenMPI+OpenCV。该方法在UCF101数据集以及HMDB51数据集上进行实验。

KFSN总共有37个网络层,2个池层,32个卷积层,2个完全连接的层以及其他丢弃层。除非第一卷积层的卷积层的大小为7×7,否则其他每个卷积层的卷积核分别为1×1和3×3。

在本实验中,将会采用低批量随机梯度下降算法来运行网络的参数。对此,批样品的数值调节成256,动量的高低调节成0.9。采用ImageNet的预训练模型初始化网络权重的数值。实验刚开始的时候学习速率参数设置还是呈现出很小的状态。对于空间流卷积神经网络,初始学习率调节成0.001,并且每2000次迭代后降低到其自身的学习率0.1。整个训练过程在4500次迭代后停止。对于时间流网络,学习率被初始化为0.005,经过1200和1800次迭代后,学习率降低到自己的学习率0.1。最大迭代次数设置为2000。为了提取光流,在本实验中,我们选择使用OpenDAV中实现的CUDA的TVL1光流提取算法来提取光流图。为了加快训练速度,在分割视频后,首先使用关键帧提取网络AdaScan提出RGB关键帧,然后从关键帧中提取光流,最后提取关键帧并将其发送到空间流卷积神经网络。

 4.2.2实验结果

在本小节中,本文将重点研究分段识别网络KFSN的良好效果,包括不同的训练策略与不同的输入方式,在这次实验中,本文在UCF101数据集上执行了所有实验。

具体来说,本文比较了三种不同的训练策略:(1)不使用预训练文件直接进行训练(From Scratch);(2)只训练空间流网络(Pre-train Spatial);(3)两个网络部分一起训练(Spatial +Temporal)。训练时将UCF101每个类别的90%样本用于训练,10%样本用于测试,每次训练时随机选取90%样本用于训练。三种训练方式结果如表4.1所示:

表4.1 在UCF101上进行不同训练策略的结果(段号k=3)

训练策略 Spatial ConvNet Temporal ConvNet Two-Stream
Two-Stream 72.7% 81.0% 87.0%
From Scratch 47.8% 81.2% 81.6%
Pre-train Spatial 82.1% 81.2% 88.9%
Spatial +Temporal 82.1% 83.5% 89.8%

首先,我们看到不使用预训练文件直接进行训练(From Scratch)的训练效果远不如原始的双流网络(Two-Stream),这意味着精心设计的训练策略能有效降低过拟合风险,特别是对于空间流网络(Spatial ConvNet)而言。然后,只在空间流网络进行预训练(Pre-train Spatial)与两个流相结合的预训练(Spatial +Temporal)相比较,发现训练临时流用于初始化两个流能获得比原始双流网络更好的性能,从而提高识别精确率达到89.8%。

然后是不同输入方式的比较。(1)仅输入提取出的RGB视频关键帧;(2)仅输入光流图;(3)关键帧与光流图相结合输入。结果如下表所示:

表4.2 在UCF101和HMDB51探讨不同输入方式的结果(段号k=3)

UCF101 HMDB51
RGB 85.3% RGB 51.6%
Flow 89.9% Flow 64.2%
RGB+Flow 94.2% RGB+Flow 69.6%

从表中可以看出,仅输入单个RGB图像关键帧的效果最差,光流图次之,而RGB关键帧和光流图结合一起输入的效果最好。这是因为单独的RGB帧缺少时序信息,视频中对应的数据的显示的结果不准确。基于光流场的运算很轻易的就会受到噪声的干扰,从而影响光线的变化以及对杂乱背景也会产生影响,因此很难将快速物体和目标物体的背景光流场与单个背景光流场结合在一起。所以,单独的RGB帧或光流场均不能完整表达视频信息,需要两相结合,一起作为神经网络的输入才能更好的表示视频信息。接下来将KFSN与其它常用的行为识别网络做一个效果对比,结果如下:

表4.3 KFSN与其它常见行为识别方法对比结果(段号k=3)

UCF101 HMDB51
Two-Stream 88.0% Two-Stream 59.4%
VideoMarwin 85.2% C3D 63.7%
T3D 90.3% T3D 59.2%
MPR 88.6% MoFAP 65.5%
TDD+FV 88.6% Two-Stream+LSTM 63.2%
LTC 91.8% LTC 64.8%
TSC 69.0% TSC 94.0%
TSN 94.0% TSN 69.2%
KFSN 94.2% KFSN 69.6%

从表中结果可以看出,KFSN的效果明显优于别的行为识别网络。这是因为别的网络大都是从整段视频中随机或者间接选取视频帧输入网络,并没有充分用到整段视频的信息,而本文采用稀疏采样策略,充分利用了整段视频的信息。而且为进一步加强信息的利用,还选取了关键帧来进行实验。

为了进一步探究分段识别网络的优越性,将视频分段数加大,结果如表4.4所示:

表4.4 KFSN上输入视频不同分段设置结果

UCF101 HMDB51
段号K RGB+Flow 段号K RGB+Flow
3 94.2% 3 69.6%
4 94.4% 4 69.7%
5 94.6% 5 69.8%
6 94.7% 6 69.8%
7 94.9% 7 69.9%
8 95.0% 8 70.0%
9 95.0% 9 70.1%
10 95.0% 10 70.1%

从上表可以看出,增加视频分段的段数对于识别结果有明显的提升,但是当段数到达一定数目之后识别率就不再改变。这是因为UCF101数据集和HMDB51数据集里的视频大多都不是真正意义上的长视频,多数是不超过20秒的,所以分段到达一定程度之后就没多大效果了。

 4.3本章小结

本章首先对实验所采用的两个数据集UCF101和HMDB51数据集进行了简单的介绍说明。接着对KFSN神经网络模型在两个数据集上的实验内容进行介绍,对两个经典数据集的识别率和实验数据进行详细的研究。最终结果表明,对UCF101和HMDB51数据集的研究结果的识别率优于大多数人类行为识别网络,本文提出的KFSN网络也明显提高了UCF101数据集和HMDB51数据集的人体行为识别率。

第5章总结与展望

本文首先对行为识别领域进行了理论研究与可靠性分析,结合前人工作进一步提出自己的研究理论,并利用多组实验论证所提出方法的有效性,同时研究方案的好坏会对往后研究产生很大的影响。

  5.1 总结

当下,计算机视觉领域成长非常之迅速,对于视频中的人类动作的识别技术研究已成为国内外计算机视觉领域的重中之重。广泛用于视频图像监视,人机交互和动画制作。人类行为识别技术已经成为人们日常生活中最常用的技术之一。伴随人工智能以及物联网领域与深度机器学习相关的理论的迅速成长,本文研究出来一些解决办法来完善这个问题。此项深入研究的关键要素是如何合理利用人类学习和相关方法,以更有效地完成人工智能视频监视系统中的人类动作识别任务。

本文重点介绍视频中人类行为识别的研究任务。首先,简要介绍和解释研究背景以及视频中人类行为识别的重要性。其次,在动作识别领域,视频和深度学习理论中人类动作识别技术的发展。分析实际的研究和应用。接下来,分析并打破了当前人类行为感知研究的困难和挑战,并在长视频中有效地利用了信息技术。在如何采用高效的方案来利用视频识别网络KFSN,从而改善长期视频中视频图像信息的使用。最后,对本文提出的方法进行了测试,并基于深度神经网络的客观性能指标和人类行为识别任务的识别率来分析其有效性。UCF101数据集的最大识别率达到95.0%,而HMDB51数据集的最大识别率达到70.1%。

  5.2未来展望

目前,随着人工智能和计算机视觉技术的不断更新和发展,人体行为识别技术已经取得了很大的研究成果。虽然在人体行为识别技术取得了些许成果,但是其仍存在计算量大、实用性低、对于复杂背景的人体行为识别仍有一定的难度等挑战。本文对人体行为识别技术进行了研究,虽然获得了一些进展,但是还存在许多不足和需要改进的地方,主要是以下几个方面:

1.本文的研究只是基于简单的实验背景下的行为研究,而且数据集较单一,但是在实际场合中人体行为视频数据是非常复杂的,所以该研究方法并不能成为现实中的通用模型。可以在实时复杂的背景环境下以及多摄像头多视角方面进行进一步的研究,对于这一方向的研究还具有广泛的学术研究与技术应用前景,依然还有很大的改进空间和发展潜力。

2.目前,人类行为识别主要在某些标准数据集的有限动作进行识别,并进一步增强了现有的简单行为识别和理解功能,并启用了更复杂场景的事件。了解增强视觉是从低级到高级处理阶段的重要部分。同样,当前现有的行为识别方法通常在训练后使用,并且只能在训练过程中识别预定义的动作类别。基本上,这些是相同的短期运动,几乎没有变化,并且自主机器学习不足以实现目标运动,因为由于远距离运动的各种连续变化,序列运动识别尚未得到很好的研究。基于对运动和场景的先验知识。没有要执行的功能。对于包含不同运动的长运动序列,准确确定运动的开始和结束时刻应该是未来研究工作的方向。

这意味着使用实时监视视频系统来检测和跟踪移动目标并识别人类行为仍然需要大量工作。大多数科学技术工作者需要积极研究。随着科学研究的深入,我们相信人们在视频行为识别领域的研究和应用也将带来更大的进步和实际发展。

 参考文献

[1]中国安全防范产品行业协会.中国安防行业“十二五”(2011-2015年)发展规划.中国安防,2011,3:2-9.

[2]郑世宝.智能视频监控技术与应用[J].电视技术,2009,33(1):94-96.

[3]李彤.智能视频监控下的多目标跟踪技术研究[D]:[博士学位论文].北京:中国科学技术大学,2013.

[4] Vicente,Munoz,Molina,et al.Embedded vision modules for tracking and counting people[J].IEEE Transactions on Instrumentation and Measurement,2009,58(9):3004-3011.

[5]贾云得.机器视觉[M].北京:科学出版社,2002.

[6] Naylor M,Attwood C I.Annotated digital video for intelligent surveillance and optimized retrieval: Final report[R].ADVISOR connortium,2003,(2003):2.

[7] Coifman B,Beymer D,Mclauchlan P,et al.A real-time computer vision system for vehicle tracking and traffic surveillance[J].Transportation Research Part C:Emerging Technologies,2001,6(4):271-288.

[8] Magee,Derek R.Tracking multiple vehicles using foreground,background and motion models[J].Image and Vision Computing,2004,22 (2):143-155.

[9] Aggarwal,Jake K,Quin Cai.Human motion analysis:A review[J].Computer vision and image understanding,2001,73(3):428-440.

[10]王亮,胡卫明,谭铁牛.人运动的视觉分析综述[J].计算机学报,2002,25 (3):225-237.

[11]杜友田,陈峰,徐文立等.基于视觉的人的运动识别综述[J].电子学报,2007,35 (1):84-90.

[12]付朝霞.基于视频流的人体目标检测与行为识别研究[D]:[博士学位论文].太原:中北大学信号与信息处理系,2013.

[13] Bobick W,Aaron F,James Davis.The recognition of human movement using temporal templates for Pattern Analysis and Machine Intelligence[J].IEEE Transactions on pattern analysis and machine intelligence,2003,23 (3):257-267.

[14] IvanLaptev.On space-time interest points[J].International Journal of Computer Vision,2005,64 (2): 107-123.

[15] Wang Heng,Klaser Alexander,Schmid Cordelia,et al.Dense trajectories and motion boundary descriptors for action recognition[J].International Journal of Computer Vision,2013,103(1):60–79.

[16] Wang Heng,Schmid Cordelia.Action Recognition with Improved Trajectories[J].Proceedings of the IEEE international conference on computer vision,2013,2013:3551-3558.

[17] DalalNavneet,Bill Triggs.Histograms of oriented gradients for human detection[J].IEEE computer society conference on computer vision and pattern recognition,2005,2005:886–893.

[18] Dalal Navneet,Bill Triggs,Cordelia Schmid.Human detection using oriented histograms of flow and appearance[C].Proceedings of the European Conference on Computer Vision,2006.

[19]IvanLaptev,Marszalek M,Schmid C,et al.Learning Realistic Human Actions from Movies[C].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2008.

[20] Karen Simonyan,Andrew Zisserman.Two-Stream Convolutional Networks for Action Recognition in Videos[J].Advances in Neural Information Processing Systems.2014,2014:568–576.

[21] Matthew Hausknecht,Joe Yue-Hei Ng,Sudheendra Vijayanarasimhan,et al.Beyond Short Snippets:Deep Networks for Video Classification[J].IEEE Computer Society Conferenceon Computer Vision,2015,4694-4702.

[22] Hochreiter S,Schmidhuber.Long Short-Term Memory[J].Neural Computation,1997,9(8):1735-1780.

[23] Khurram Soomro, Amir Roshan Zamir,Mubarak Shah.UCF101:A Dataset of 101 Human Action Classes From Videos in The Wild[J].CRCV-TR-12-01,2012.

[24] Shuiwang Ji,Wei Xu,Ming Yang,et al.3D Convolutional Neural Networks for Human Action Recognition[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2013,35(1):221-231.

[25] Du Tran,Lubomir Bourdev,Rob Fergus,et al.Learning Spatiotemporal Features with 3D Convolutional Networks[J].Proceedings of IEEE International Conference on Computer Vision,2015,2015:4489-4497.

[26] Joao Carreira,Andrew Zisserman.Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset[J].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2017,2017:6299-6308.

[27] Ali Diba,Mohsen Fayyaz,Vivek Sharma,et al.Temporal 3D ConvNets:New Architecture and Transfer Learning for Video Classification[J].Computer Vision and Pattern Recognition(CVPR),2017.

[28] QiuZhaofan,YaoTing,MeiTao.Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks[J].Computer Vision and Pattern Recognition(CVPR),2017.

[29] Donahue J,Hendricks Anne,Guadarrama S,et al.Long-term recurrent convolutional networks for visual recognition and description[J].Computer Vision and Pattern Recognition(CVPR),2015,2015:2625-2634.

[30] Baccouche M,Mamalet F,Wolf C,et al.Sequential deep learning for human action recognition[J].In International workshop on human behavior understanding,2011,2011(11):29-39.

[31]Schuldt C,Laptev I,CAPUTO B.Recognizing Human Actions:A Local SVM Approach[C].Proceedings of the 17th International Conference on Pattern Recognition,2004,2004:23-26.

[32] LeQ V,ZouW Y,YeungS Y,et al.Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis[J].IEEE computer society conference on computer vision and pattern recognition,2011,2011(6):3361-3368.

[33]Marszalek M,Laptev I,Schmid C.Actions in Context[C].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2009,2009:2929-2936.

[34] ZeilerM,TaylorG W,FergusR.Adaptive deconvolutional networks for mid and high level feature learning[J] .International Conference on Computer Vision(ICCV),2011,2018-2025.

[35] Chen Bo,Ting Jo−Anne,Marlin Ben,et al.Deep Learning of Invariant Spatio−Temporal Features from Video[J].NIPS 2010 Deep Learning and Unsupervised Feature Learning Workshop,2010

[36] Ikizler Cinbis,Jordan C,Cinbis R G, et al.Learning actions from the web[J].IEEE,2010.

[37] Gupta S,Mooney R J.Using closed captions to train activity recognizers that improve video retrieval[J].IEEE,2011.

[38]Kuehne H,Jhuang H,Garrote E,et al.HMDB:a large video database for human motion recognition[J].IEEE International Conference on Computer Vision,2011,2011:2556–2563.

[39] Bay H,Tuytelaars T,Van GL.Surf:speeded up robust features[C].Proceedings of the European Conference on Computer Vision,2006,2006:404-417.

[40]Dollar P,Rabaud V,Cottrell G,et al.Behavior Recognition via Sparse Spatio-Temporal Features[C].IEEE International Workshop on Visual Surveillance and Performance Evaluation of Tracking and Surveillance,2006,2006:65-72.

[41]Willems G,Tuytelaars T,Gool L.An Efficient Dense and Scale-Invariant Spatio-Temporal Interest Point Detector[C].Proceedings of European Conference on Computer Vision,2008,2008:650-663.

[42]Wang H,UllahM M,Klaser A,et al.Evaluation of Local Spatio-Temporal Features for Action Recognition[C].Proceedings of the 2009 British Machine Vision Conference,2009,2009:124-135.

[43]Hinton G.A Practical Guide to Training Restricted Boltzmann Machines[J].Momentum,2010,9(1):926-947.

[44]Taylor G W,FergusR,Lecun Y,et al.Convolutional Learning of Spatio-Temporal features[C].Proceedings of the European Conference on Computer Vision,2010,2010:140-153.

[45] Tran S N,Benetos E,Garcez A.Learning Motion-Difference Features using Gaussian Restricted Boltzmann Machines for Efficient Human Action Recognition[J].2014 International Joint Conference on Neural Networks,2014,2014:2123-2129.

[46]Graves A,Mohamed A,Hinton G.Speech Recognition with Deep Recurrent Neural Networks[C].Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing,2013,2013:6645-6649.

[47]Wang Limin ,Xiong Yuanjun ,Wang Zhe ,et al.Temporal Segment Networks:Towards Good Practices for Deep Action Recognition[J].ECCV,2016

[48]Kar A,Rai N,Sikka K,et al.Adascan:Adaptive scan pooling in deep convolutional neural networks for human action recognition in videos[J]. In Proceedings of the IEEE conference on computer vision and pattern recognition,2017,2017(1):5699-5708.

[49]Gul Varol,Ivan Laptev,Cordelia Schmid.Long-Term Temporal Convolutions for Action Recognition[J].IEEE Computer Society Conferenceon Computer Vision,2016,2016:1510-1517.

[50] Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[J].ICLR,2015,2015:1-14.

[51]Ioffe S,Szegedy C.Batch normalization:Accelerating deep network training byreducing internal covariate shift[J].ICML,2015,2015:448-456.

[52] Deng J,Dong W,Socher R,et al.ImageNet: A large-scale hierarchical image database[J].Computer Vision and Pattern Recognition(CVPR),2009,2009:248-255.

[53] Zach C,Pock T,Bischof H.A duality based approach for realtime tv-L optical flow[J].29thDAGM Symposium on Pattern Recognition,2007,2007:214-223.

[54] Fernando B,Gavves E,Ghodrati A,et al.Modeling video evolution for action recognition[J].Computer Vision and Pattern Recognition (CVPR),2015,(2015):5378-5387.

[55] Ni B,Moulin P,Yang X,et al.Motion part regularization:Improving action recognition via trajectory group selection[J].Computer Vision and Pattern Recognition (CVPR),2015,(2015):3698-3706.

[56] Wang L, Qiao Y,Tang X.MoFAP:A multi-level representation for action recognition[J].International Journal of Computer Vision,2016,119 (3):254-271

[57] Wang L,Qiao Y,Tang X.Action recognition with trajectory-pooled deep-convolutional descriptors[J].Computer Vision and Pattern Recognition (CVPR),2015,(2015):4305-4314

[58]Ji X,Cheng J,Tao D,et al.The spatial laplacian and temporal energypyramid representation for human action recognition using depth sequences[J].Knowledge-Based Systems,2017,122:64-74.

基于局部信息融合的行为识别研究

基于局部信息融合的行为识别研究

价格 ¥9.90 发布时间 2023年5月11日
已付费?登录刷新
下载提示:

1、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“文章版权申述”(推荐),也可以打举报电话:18735597641(电话支持时间:9:00-18:30)。

2、网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。

3、本站所有内容均由合作方或网友投稿,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务。

原创文章,作者:1158,如若转载,请注明出处:https://www.447766.cn/chachong/137496.html,

Like (0)
1158的头像1158编辑
Previous 2023年5月11日
Next 2023年5月11日

相关推荐

My title page contents