基于关键词指导的图像中文描述生成

发布日期:2020年6月4日
基于关键词指导的图像中文描述生成 基于关键词指导的图像中文描述生成

本内容试读结束

下载后可阅读完整内容,立即下载

随着互联网的发展,图文内容已经成为互联网上的主要表现形式。图文内容的呈现形式可以提高网民的阅读体验。汽车门户网站通常会发布汽车产品信息来吸引网民的关注,从而促进产品的推广。这些内容通常由许多图像和相应的描述组成,而目前这些图像描述通常由人工进行撰写,然后发布到互联网上。对于大量图文信息需求量的情况,手动撰写描述是一项耗时且枯燥的工作。因此,图像描述自动生成技术具有很大的实用价值。它可以加速图文内容的生产和发布,从而吸引人们的关注。近年来,由于在神经机器翻译的成功应用[1],编码–解码框架被应用于图像描述生成技术中。

与基于MSCOCO [2]和Flickr30k [3]等数据集的研究不同, 本文基于实际应用为汽车图像生成相应的中文描述句子。

在我们的应用需求中, 输入一组图像, 然后为这组图像生成描述语句。

对于相似的图像, 我们希望生成倾向不同侧重点的描述句子,以实现内容的多样性。因此对于同一幅图像,我们期望控制其描述的侧重点。

考虑到我们数据集的特点,许多相似的图像可能具有不同侧重点的图像描述。例如,两张相似的图片(a)和(b),图片(a)的描述是“发动机并没有显得多么暴躁,风格沉稳舒适。”,图片(b)的描述是“变速箱很聪明,为新车的行驶质感添色不少。”。它们具有完全不一样的侧重点的描述。

针对上述情况,我们需要研究为同一张图像生成不同侧重点的图像描述句子的方法。在实际应用中面临的挑战是如何确定图像的可能存在的侧重点和如何引导描述生成过程从而在相应的侧重点生成描述句子。

为了解决这个问题,我们提出了一种新的方法,该方法利用多模态融合的思想,将文本信息和图像信息融合作为方法的输入。文本信息是图像信息的补充,用于指导模型往不同的侧重点生成描述句子。

本文的主要贡献如下: 1) 提出了一种新的图像描述生成方法,该方法将关键词文本信息和图像信息相融合作为图像描述的输入,通过关键词信息来指导模型往不同的侧重点生成图像描述。

2) 我们使用自行开发的爬虫采集的真实数据集进行了实验。该数据集由2100 个图像–关键词–描述对组成,每个图像对应一个中文描述和关键词列表。

2. 相关工作 近年来,随着深度学习的发展,编码–解码框架被广泛应用于图像描述生成领域,它将图像编码成



相关标签