基于中文信息MMT模型的句法自动分析

发布日期：2018年10月19日

预览
摘要

本内容试读结束

下载后可阅读完整内容，立即下载

本文叙述采用中文信息MMT模型对句子进行句法自动分析的工程实践。研制了可在互联网在线运行的句法分析专家系统。对使用的理论、方法和工具作了详细介绍。介绍了粒计算与符号学理论在句法分析中的应用。研究了句法分析专家系统的组成结构、实施方式和系统设计。最后列举了句子分析实例。在研究方法的决策中采用的是基于理性主义的规则方法。运用代数语言学的理论构建句法分析器专家系统，在研究中使用了中文信息MMT模型，研究结果表明，基于中文MMT模型是进一步解决处理当前句法分析问题的可借鉴的手段，减少了歧义和分析层次。其研究成果的意义在于可以检验语法规则，可以通过语料库的深加工而建立句子的语法模型结构，为深层次的自然语言理解，扩充语法知识库，为句法语义的深入研究提供实用的工具和模型。

自然语言处理是计算机科学、人工智能、语言学关注计算机和人类语言之间的相互作用的领域，这一领域中产生了大量的人工智能研究成果和产品，是现阶段人工智能领域的研究热点。

句法分析技术指的是依据语法规则来确定句子结构的分析方法[1]。

目前，自然语言处理的最重要的问题是，热点趋于统计方法，陷入缺少严格理论指导的困境。

宗成庆指出了中文信息处理的现状和遇到的问题如下[2]。

“在规范的汉语文本上最好的句法分析性能(短语准确率)也只有86%左右，而日语和英语的句法分析性能已经超过90%。” “近几年来随着国内指标(SCI/SSCI 论文数量、引用次数、高被引论文数等)导向的各种学术评估愈演愈烈，很多研究开始一味地跟踪热点、追逐新潮，只是为了早出成果、快发论文，而最终忘记了解决中文语言理解这一问题的根本目标。这正是我们担忧的关键所在。” “而当统计方法一统天下之后，对语言学特性和认知规律的研究在自然语言处理领域并没有得到应有的重视。” “如何针对汉语自身的特点和规律建立专用的模型和算法，恐怕才是最终解决汉语理解问题的正确出路。” 刘安远、崔安颀指出[3]：“深度学习其实是一个没有太严格理论基础的体系”“缺少完善理论”“缺少更为宏观的框架”。

冯志伟指出：“在自然语言处理的研究中，我们不能采取像蜘蛛那样的理性主义方法，单纯依靠规则，也不能采取像蚂蚁那样的经验主义方法，单纯依靠统计，我们应当像蜜蜂那样把理性主义和经验主义‘更紧密地’‘更精纯地’结合起来，推动自然语言处理的发展[4]。” 本文所进行的研究，不仅仅是完成中文信息的句法分析，而是旨在通过语料库的深加工，提取规则，