:如何快捷、准确、全面地检索互联网信息是互联网时代的重要问题。网络新闻比传统纸质媒体新闻速度更快、内容更丰富、形式更灵活生动,正逐渐取代传统新闻媒体成为很多人获取新闻信息的主要途径。然而,面对快速更新的大量新闻信息,传统的手工分类方式无法满足用户的需求。新闻的主要内容一般都是以文本的方式呈现,因此,利用文本自动分类技术对网络新闻进行自动分类是解决手工新闻分类问题的一个有效途径。由于网络新闻信息形式多样,很多新闻内容完全是由图片或者视频组成,不包含文本内容。本文提出通过新闻标题对网络新闻进行分类的方法,比通过内容进行分类的方法分类速度更快,并且有更强的适应性,可对无文本内容的新闻(如图片新闻、标题新闻等)进行分类。本文创建了基于标题的文本分类模型;从网络上获取新闻语料,验证模型的工作情况;并通过与基于内容的文本分类方法比较,验证基于标题的文本分类模型的优劣。本文构建了基于标题的两步分类系统,所提出的类别唯一特征,对于可分样本可以实现高分类准确率。
随着信息技术的发展,特别是互联网技术的发展和普及,网络已经成为人们发布、交流和获取信息的主要途径。然而,网络上的信息正在爆炸性地增长。
Google 官方博客[1]指出,Google 检索的独立ULR 数量已经达到万亿级别,并且Google 工程师发现,互联网上每天新增网页数量达到数十亿个。
以网络新闻为例,它以更新速度快、内容丰富、形式多样的特点逐渐替代报纸、广播或者电视成为很多人获取新闻的主要来源。然而网络新闻更新快、内容多的优点同时也成为不利于人们阅读的缺点,人们为了找到自己关心的新闻往往要费一番功夫。为了满足阅读者的需求,各新闻网站都在对自己的新闻进行越来越详细多样的分类。然而这些分类基本上都是手工完成的,对于迅速更新的大量新闻需要耗费大量的人力。
同时, 由于个人的分类标准具有很大的主观性, 导致分类结果存在差异。
目前,很多新闻门户网站都在发展自动分类技术的应用,例如谷歌(Google)的“谷歌资讯(Google News)[2]”,将超过1000 个中文网站的新闻进行汇集, 整合相似报道,其网站内容完全是由计算机自动生成的,其中大量使用了文本分类和聚类技术。
由于网络新闻信息形式多样,很多新闻内容完全是由图片或者视频组成,不包含文本内容。本文提出通过新闻标题对网络新闻进行分类的方法,比通过内容进行分类的方法有更强的适应性,可对无内容的新闻(如图片新闻、标题新闻等)进行分类,而且在RSS精确阅读等方面可以提供有效的帮助。
本文以网络新闻为例,只通过新闻标题对新闻进行分类,实验语料库从网络新闻中获取,选自QQ 新闻[3]的6 类新闻内容:财经、房产、科技、汽车、体育、游戏,总数为8200 多条。其中70%作为训练样本,30%作为测试样本。
使用N 元模型和中文分词两种方式提取新闻标题中的特征,通过训练样本中的特征建立类别的特征表示,实验验证两种方式的分类效果;提取特征中对相应类别具有代表性的特征,定义为唯一特征,通过唯一特征提高分类的准确率;使用新闻内容文本,利用基于VSM的余弦距离和基于机器学习的KNN 文本分类模型对新闻进行分类,通过实验对比基于标题和基于内容的分类速度和分类准确率。
2. 基于N 元模型的特征选择及实验 N 元模型是一个简单但是非常实用的统计语言模型,它是对统计语言模型的简化。假设一个文本序列为12nWw ww,那么想要计算W 在文本中出现的概率P wiw,需要计算到的所有词的出现概率, 而每一个的出现概率都与它前面的个词的概率有关, 这样计算起来太复杂, 如果只与前面的1wnw1i 1N 个词有关那么就可以大大简化计算,这样简化之后的模型就是N 元模型。
1iii NP wP w ww1i (1) 其中最常使用的是2 元和3 元模型,当N3,公式可简化为: 21iiiP wP w wwi (2) 尽管这个模型非常简单,但其效果却相当好,远远超过单独使用统计和语法模型,科学家曾试图用别的方法来代替此模型,但都没有获得成功,这本身也是语言模型的一个困惑,即如此简单的一个模型,效果却为何远远超过许多复杂模型[4]。N 元模型只是简单地利用了字和词的同现信息,但是在自然语言处理的很多领域的应用中起着有效的作用,问题在于目前国内外还没有哪一种语言的句法语义分析系统可以胜任大规模真实文本处理的重任。因此,对于世界各国的语言来说,当前的主流技术仍是语料库方法和统计语言模型[5]。
即使经过大大简化后的N 元模型的时间复杂度依然还是较高,在实际应用中大多不使用单词作为基本的单位, 而是使用基于英文短语的N 元模型来简化计算。
David Lewis 认为, 英文文本分类中使用优化合并后的词组比较合适[6]。
在本文研究中首先使用N 元模型作为特征表示, 提取语料中的特征。
然后通过实验测试N 元模型对于基于标题的分类效果。
2.1. 特征空间的建立 在使用N 元模型时, N 值的选择对于效率有着决定性的影响。因为只是对新闻的标题进行实验,鉴于标题的长度都很短,为了更好地提取出标题中的特