报告是企业日常运营中具有重复性与复杂性的一项工作,本文系统梳理了报告自动生成的实现方法、研究重点与发展方向。在总结基于数据合并、模板等基本报告生成方法的基础上,首先介绍了序列生成、知识指导等智能化报告生成的改进模型;然后进一步分析了基于模板与智能化的混合模型报告生成方法;最后对报告生成的评价标准进行了对比。研究表明:基于模板与智能化的报告生成方法具有程式化、精度高、适应性强等特点,是今后研究的主流方向。
自然语言生成(NLG)作为自然语言处理(NLP)的一个重要分支,被广泛应用于智能写作、人机对话等领域,是人工智能走向成熟的标志之一[1]。它要求机器理清输入句的内涵,并使用准确的语言模型或统计模型自动生成可理解的自然语言。NLG 技术具有巨大的研究价值,被广泛应用。1994 年Goldberg [2]等开发出FoG 系统,将气象概念自动转换为气象文本;2011 年起StatSheet 公司开发出软件,替代编辑实现新闻的自动撰写[3];2018 年Jing [4]等引入深度学习方法助力医学诊断报告生成,减轻医学专业人员的工作。
在人机对话领域, 最早有经典的聊天机器人ELIZ [5] (1966)与PARRY (1972) [6], 近年来为了实现更为智能便捷的人机交互,微信、客服等即时通讯平台逐渐兴起。
随着我国信息化建设不断推进,企业数据量呈现出爆炸式增长的趋势。企业管理人员需要根据数据背后所反映出来的现象或趋势,将其转化成企业管理的有效资源,以制定更准确的决策。在这个过程中, 一份好的报告可辅助决策者精准决策,提高工作效率。
2. 报告类型 报告一般用于下级向上级汇报工作、反映情况及提出建议。常见报告类型有企业发展报告(日报、周报、月报、季报、年报等)、政府发展报告、行业发展报告和工作总结报告等。
目前大部分报告由人工编写,需要大量的重复劳动,且报告的质量依赖于撰写者的写作水平和个人经验。人工撰写报告耗时耗力,完成一份短篇报告通常需要一天到两天,而这些工作实际上可以实现自动化,所以自动化生成报告在人工智能技术飞速发展的时代,显得尤为重要。NLG 技术可以解读数据, 根据数据呈现出的规律,自动的输出一份全面、有针对性的深度分析报告,满足企业日益精细化的管理需要。
根据数据源类型的不同,报告生成可以分为数据到报告的生成、文本到报告的生成、图像到报告的生成。
其中数据到报告的生成在人们的生活中有广阔的应用场景, 如BI (Business Intelligence)报告、体育比赛报告和天气预报等;文本到报告的生成在业界也有诱人的商业价值,比如关键字新闻写作、话题作文、邮件生成等[7];图像到报告的生成常用领域有病理报告生成[8]、儿童教育看图讲故事等。本文聚焦于由企业工作过程中产生的数据(数值型及文本型)生成中文报告的方法整理与进展研究。
3. 报告生成常用方法 基于数据合并的报告生成方法类似于数据填空,是最简单的报告生成方式,这种方法常用于固定格