视频多模态融合是什么

Published: 26 Feb 2019 Category: AI

一、基本概念

帧(Frame):帧是视频数据流中的基本组成单元,每一帧均可看成一个独 立的图像。视频数据流就是由这些连续的图像帧构成的,在PAL视频格式中,视频采样率 为25帧/秒,在NTSC视频格式中,视频采样率为30帧/秒。 

镜头(Shot):镜头是摄像机拍下的不间断的帧序列,是视频数据流进一步 结构化的基础结构层。 

关键帧(KeyFrame):关键帧是可以用来代表镜头内容的图像。在切分出镜头结构以后,关键帧就被用来表示各个镜头的底层特征,从而进行进一步的视频结构化。 在一个视频镜头中,一般关键帧的数目要远远小于镜头所包含的图像帧数目。 

场景(Scene):语义上相关和时间上相邻的若干组镜头组成了一个场景,场景是视频所蕴涵的高层抽象概念和语义表达。 

组(Group :组是介于视频镜头和语义场景之间的结构。例如:一段采访录像,镜头在主持人与被采访者之间频繁切换,整个采访过程属于一个场景,而那些关于主持人的所有镜头属于一组,关于被采访者的所有镜头属于另外一组。

二、视频多模态融合分析

视频可以看作是一系列时间上相互依赖的图像帧组成的数据流。通常而言,在视频情节内容发生变化时,会出现镜头切换,从一个镜头内容转移到另外一个镜头内容。

视频蕴涵有丰富的视觉、听觉和字幕信息,所以这些底层特征可以是颜色、纹理、形状、音调和文本等,然后可以采用单模态分析方法,即只使用一种模态信息进行处理,或是采用多模态分析方法,即同时使用两种或是两种以上的模态信息进行处理。基于这些提取的底层特征,我们可以将视频片段索引到相关的语义概念上,例如,汽车、冰球、海滩、采访等场景。目前,多数实验结果表明,多模态视频融合分析能够产生有效的视频索引,方便视频片段的分类。

实时地通过语义访问多模态视频数据库有着广泛的应用前景,这就需要人们关注视频片段的自动索引。

视频数据分析方法是按照如下步骤进行的:首先,从原始的视频数据流中提取一系列底层特征,因为视频蕴涵有丰富的视觉、听觉和字幕信息,所以这些底层特征可以是颜色、纹理、形状、音调和文本等,然后可以采用单模态分析方法——即只使用一种模态信息进行处理,或是采用多模态分析方法,即同时使用两种或是两种以上的模态信息进行处理。

一种简单的多模态融合分析方法是,分别对单个模态的数据进行处理分析,然后综合得到的分析结果。但是这些方法缺少扩展性和鲁棒性,而且在理论上也存在着两个基本的问题:一是哪些模态信息对于视频融合分析最为有益?二是如何选择性地融合这些最优的模态信息?

在限定场景的条件下,针对性的研发和应用多模态融合技术,以达到人机交互智能性和体验性显著提升的效果,还是值得期待的!

REF

视频多模态融合检测