语料库是自然语言处理任务的关键,谷歌图书语料库是迄今为止最大的历时语料库,被广泛应用于从时间、空间维度上评估学科、语言甚至是文化等领域在社会发展中的现象和规律,但因其构建过程中的识别问题、元数据问题等原因被很多学者质疑。目前常见的处理方法主要是从语料库中提取所有可能的数据和从原数据进行预处理,这些方法耗时且费力。本文提出将语料库噪声问题转化为时间序列异常检测问题,使用传统的时间序列模型和马尔可夫动态编码去实现时间序列异常检测。实验结果表明,马尔可夫不仅可以保存时间相关性和频率结构,而且提供了一种自然的反向操作——将图形映射回时间序列,克服了传统时间序列模型的缺点,最终有效地解决了语料库的局部质量对齐问题。
大规模的数据是可靠分析的基础。
谷歌制作的最大的历时语料库促进文化组学这一新型领域的发展, 它是一种定量分析长期文化变化的新工具,通过对关键词在语料库中的使用频率变化,展示五百年来人类文化发展史思想和文化中鲜为人知的趋势和现象。然而,其前期数据质量较差,人们通常会选择1800年之后的数据进行研究,目前对于语料库的处理方法耗时且费力,因此本文提出将语料库噪声问题转化成时间序列异常检测问题来处理, 进一步提高数据质量, 从而使得五个世纪以来的数据得到更充分的使用。
2. 相关工作 近年来,谷歌公司与大学图书馆合作将世界各地的从古至今的出版物通过光学字符识别(Optical Character Recognition, OCR)技术进行数字化,建立了涵盖多种语言的谷歌图书语料库(Google Books Ngram Corpus, GBNC) [1],并发布了三个版本的n-gram 数据集,分别为2009 年7 月(第1 版)、2012 年7月(第2 版)和2020 年2 月(第3 版)。
第一版的语料库是谷歌公司根据OCR 和书目元数据的质量扫描了超过500 W 万册书籍(5000 亿词), 约占迄今为止出版的所有书籍的4%;第二版的谷歌图书语料库在建立过程中采用了更先进的数字化技术,包含了更多的标题、改进的OCR 和修正的元数据等,同时增加到超800 万本书籍(8000 亿词)的数据, 约占迄今为止出版的所有书籍数量的6% [2]。
本文主要研究第三版本的语料,它涵盖8 种语言,分别是英语、西班牙语、法语、德语、俄语、意大利语、中文和希伯来语,其中英语占据主导地位,它是当今世界上最大的历时语料库。
基于图书版权等原因,谷歌公司制作出谷歌图书词频统计器(Google Books Ngram Viewer, GBNV)来方便人们进行研究。它可用来分析5 个世纪以来单词或词组的使用频率,是一个交互式地量化分析语言变化趋势的便捷工具。当用户进行搜索时,可以从多种语言中选择,对于英语,他们可以区分英语、美式英语、英式英语和英语小说。通常,X 轴代表语料库中作品的发表年份,Y 轴代表n-gram 在整个语料库中出现的频率,用户输入n-gram,然后可以选择区分大小写、日期范围、语料库语言和平滑等,即可得到对应的词组的语用频率。
Michel 等[1]首次将GBNC 研究成果发表在世界顶级期刊《科学》杂志之上,其借助谷歌图书的海量