面向严格对齐任务的文本自动生成:以招标技术范本为例

发布日期:2021年7月19日
面向严格对齐任务的文本自动生成:以招标技术范本为例 面向严格对齐任务的文本自动生成:以招标技术范本为例

本内容试读结束

下载后可阅读完整内容,立即下载

自动生成的严格对齐的文本,生活中更有常用,例如:自动生成对齐的招投标文件等。然而,自动生成对齐文本时,首先需要的是结构化数据。本文设计了基于历史招标文件的严格对齐文本自动生成模型。方法包括:基于正则匹配的数据清洗和结构化关键标签的抽取(例如:招标文件的技术参数等);基于k-means的结构化关键标签聚类;基于word2vec计算词向量之间余弦距离的结构化关键标签去重;最后,基于结构化关键标签,预测出最终的编制范本。实验以专家手工标记的100篇招标文件技术范本为参照,文中算法不仅可以达到与专家人工编制范本之间80%以上的重合度,同时参数覆盖更全面,鲁棒性高,可以满足生产需求。

对齐文本的自动生成,实际生活中有着更丰富的应用场景。例如:招标文件的编写,尤其是涉及到专业领域的技术部分,往往会耗费大量人力和时间,同时,还可能需要有该方向领域专家作把关。能够自动产生一份风格一致,主要相关标的物涉及的内容一致的招标文件,对招标公司与投标公司都是很重要的。

然而, 对齐的文本的产生, 需要结构化的数据。

如何面向历史招标文本自动化抽取出结构化数据, 再基于结构化的数据,自动生成对齐文本,是研究的难点。此外,招投标文件技术部分通常拥有大量参数,参数的填写与要求的陈述是技术部分的主体部分。因此将参数作为文本抽取时关键的核心结构化数据,是非常重要的。

本自动生成是指计算机借助于自然语言处理技术以及语言知识, 在潜在的非语言形式信息的基础上, 自动地生成报告、新闻、摘要等文本信息[1] [2]。按照不同输入的划分,文本自动生成可包括文本到文本的生成(text-to-text generation)、意义到文本的生成(meaning-to-text generation)、数据到文本的生成(data-to-text generation)以及图像到文本的生成(image-to-text generation) [3]。文本到文本的生成主要包括文本摘要、文本复述等任务等。文本摘要生成目前主要是基于传统机器学习方法,如TextRank 算法和Seq2Seq 模型。

由于seq2seq 模型生成的文本摘要,具有不准确以及词句重复的缺陷,谷歌联合斯坦福提出了Pointer-Generator Network 对上述问题进行了改进[4]。

文本复述任务目前主要有基于机器翻译的复述生成方法, 将成熟的统计机器学习模型和系统应用到复述生成问题上来[5] [6]。

Ehud Reiter 提出了数据到文本生成系统的一般框架,分为信号处理、数据分析、文档规划及文本实现四个步骤[7]。

本文首先设计基于正则匹配的数据清洗和结构化关键标签数据的抽取(例如:招标文件的技术参数等);基于k-means 的结构化关键标签聚类;基于word2vec 计算词向量之间余弦距离的结构化关键标签去



相关标签