avatar avatar 我的文献 基于深度学习的图像描述算法研究 作者 朱欣鑫 单位 北京邮电大学 关键词 图像描述算法; 深度学习; 图像理解; 计算机视觉
摘要
图像描述是一种对输入的图像,能够准确地生成描述图像内容文本的多模态任务。该任务除了需要利用计算机视觉技术外,也需要使用自然语言处理的相关技术。将图像内容转化为描述图像内容的文本,可以建立图像中对象之间的语义关系,加强对图像内容的深入理解。基于深度学习的编码器解码器框架虽然已为解决图像描述任务提供了一套解决方案,但是现有的方法还存在识别率不高等问题,主要体现在:1)对图像的空间区域信息利用程度不够;2)通过交叉熵损失函数训练得到的模型存在着训练阶段和测试阶段的偏置问题;3)基于递归神经网络的图像描述模型存在着训练并行度不高的问题。针对以上问题,本文提出了一系列的改进方案。本文研究内容包括基于多注意力机制和并行堆叠递归神经网络的图像描述算法,基于字典控制门和自适应自监督增强学习的图像描述算法,基于堆叠注意力机制和多级监督的图像描述算法。本文的主要创新工作如下:(1)基于多注意力机制和并行堆叠长短时记忆网络的图像描述模型。针对图像描述任务中,如何使描述文本在不同的时刻都能更加有效地利用图像局部信息的问题,提出了一种多注意力机制的改进方法。传统的注意力机制,仅仅考虑了如何在长短时记忆网络的输入阶段融合图像的局部信息,本文为了多阶段地融合图像的局部信息提出了一种多注意力机制图像描述模型。首先,该模型能够在长短时记忆网络的各个阶段,有效融合图像的局部特征信息。另外,在单词的生成阶段,所提出的模型也能够高效地利用图像局部特征。最后,为了解决长短时记忆网络对于历史信息建模不足的问题,本文提出了利用单词历史信息和图像本身的语义信息进行建模的方法。基于以上三项对注意力机制的改进,图像描述模型的性能得到了一定的提高。本文进一步提出了一种新的并行堆叠长短时记忆网络,同时进行了一系列的对比实验,相对于传统的堆叠长短时记忆网络,模型的性能得到了有效的提升。(2)基于字典控制门和自适应自监督增强学习的图像描述模型。图像描述任务是一种单词序列生成任务,由于传统的基于递归神经网络的训练方法是基于交叉熵损失函数,所以会导致模型存在训练阶段和测试阶段不一致的问题。为了解决该问题,本文提出了自适应自监督的增强学习方法。该方法相较于之前的方法,它的训练基准更加稳定。该方法与基于交叉熵损失函数的训练不同,它是通过一个奖励函数进行有效的训练。该奖励函数综合考虑了词汇之间的相似关系。在图像描述任务中,由于可能被选中的单词包含在整个字典之中,导致了增强学习的行为选择维度较高。为了降低行为选择的难度,本文进一步提出了一种基于字典控制门的机制。通过该机制,模型可以有效地缩小行为选择的空间,使得单词的生成,相当于在一个更加准确的单词范围之内进行选择。该方法可以进一步理解为减少了增强学习中行为空间的选择范围,有利于对增强学习进行更好的训练。除此之外,通过对比实验,验证了本文提出的方法,能够使得模型得到更好的性能,更加符合描述语句在应用中的实际情况。(3)基于堆叠注意力机制和多层级监督的图像描述模型。基于递归神经网络的图像描述算法,其当前单词需要利用历史已生成的单词逐个进行生成。在训练阶段,模型需要等待历史单词逐个生成之后,才能进行当前时刻单词的训练,该方式会导致模型训练出现历史依赖问题。为了改进该训练方式,本文提出了一种基于堆叠注意力机制图像描述模型。该模型相对于传统的基于递归神经网络的图像描述模型,包含了多头注意力模型和自注意力模型。该模型中包含的模块都能够有效进行并行训练。本文使用了类似深度卷积神经网络的方法,堆叠了更多的多头注意力模型和自注意力模型,并且引入了残差机制,使得深层次的网络也能够进行有效的训练。为了更加有效地对多层模型进行训练,本文提出了一种多层级监督的训练方法。该方法使得模型的不同层次都具有输出完整语义的能力。最后模型使用了平均池化层,来融合各个层次的输出。该方法相对于传统的最上层优化方法能够得到更优的性能。综上所述,本文对基于深度学习的图像描述算法进行了研究,针对已有模型的缺陷,提出了一系列的改进方案。实验结果表明,本文提出的图像描述算法相对于传统的方法,能够有效地提升图像描述算法的性能,解决以往图像描述算法的缺陷,同时能够更加准确地生成图像的描述文本。
下载 cnki {{liketext}}
©2020 - iData {{ message }} 关闭