内容:
容易理解,对于每一个视频概念,根据其相关的视觉对象概念的不同,可以计算得到若干个该概念出现的概率值,我们通过计算所有概率值的加权和来最终确定视觉特征匹配的程度值。
上式中, v N 表示概念C 的训练视频集的视频片段数量, vo N 表示概念C 的训练视频集中包含的视觉对象概念数量, ( , ) i i N VO v 表示i VO 在视频片段i v 中出现的次数。相似的,( ) i p VO 表示i VO 在所有训练数据集中出现的概率。
根据训练数据集的统计,可计算出每个视觉对象概念相对于其相关概念的权值,并进行归一化。进而,可以计算得到视觉特征匹配的结果。
5 匹配结果融合与概念探测在分别得到上下文信息匹配和特征匹配的结果之后,我们采用线性融合方法对匹配结果进行融合,得到最终的概念探测结果。
通过上述融合计算之后,可以得到给定概念与测试视频子镜头的匹配程度,匹配程度值越大,说明该概念与测试视频相关程度越高,进而推断其出现在视频中的可能性越大。
显然,通过匹配计算可以得到一个匹配值列表,越靠前的匹配概念在测试视频子镜头中出现的概率越大。因此,可以根据实际需要,综合考虑探测性能要求,选择前若干个匹配概念作为探测结果。
6 实验为了评估测试本文提出的本体支持的概念探测方法,我们采集多种来源的电视节目视频,如表1 所示。
选择 8350 个子镜头作为训练集,其余的子镜头作为测试集。抽取每个子镜头包含的字幕文本、语音文本和感知概念具有的感知特征向量。需要指出的是,英文文本的分词和名词术语切分本文不作研究,实验中采用人工切分的方法获得。本文构建了面向视频情报分析的“美国台海政策专题”视频概念扩展本体,其中定义了41 个语义概念。以这41 个概念作为标注概念集,对实验数据中每个视频子镜头标注其包含的语义概念。
一、本文提出的视频概念扩展本体有效的建模了领域中视频概念的相关描述、关系等上下文信息。同时,语音文本的利用也增强了上下文信息的获取能力。这些上下文信息的利用为探测方法提供了必要的先验知识,减少了概念探测中的不确定性,提高了探测性能。
二、一般的基于内容的概念探测方法直接建立低层感知特征与视频概念的关联,本文的方法通过构建感知概念中间层语义来建立低层感知和视频概念的关联。相比低层感知特征,感知概念更准确的描述了视频概念具有的感知特征模式。通过感知概念分层建立低层感知特征到视频概念的关联,缩短了每层之间语义鸿沟造成的关联不确定性,减小了错误判断的可能。
三、跨领域概念探测没有对概念的复杂性进行区分,对所有概念采用相同的方法进行探测。这种情况下简单概念可能获得较高的探测AP,而复杂概念的探测结果会相对较差,从而影响整个探测方法的性能评估。本文通过视频概念扩展本体,定义了概念的不同层次关系,语义概念是位于概念层次最底层的概念,其具有的感知特征较为明显,更易于探测识别。
7 结论区别于以往基于内容的视频概念探测方法直接的、独立的建立低层特征与概念之间的关联,本文提出了本体支持的视频语义概念探测方法。从低层特征和上下文语义信息两个方面综合考虑语义概念的探测问题。以感知概念作为低层感知特征和语义概念之间的中间语义,避免了直接建立低层特征和语义概念间的关联,减小了语义鸿沟问题带来的影响。同时,利用本体建模的概念间关系和上下文信息,增强概念探测的语义理解和识别能力。实验结果验证了本文提出方法的有效性。
未来的研究工作主要包括两个方面,一是如何进一步发现和抽取更具表征能力的低层特征;二是如何有效利用本体的自动推理,增强上下文信息的描述和建模能力。同时,复杂概念探测和跨领域概念探测依然是具有挑战性的问题。