话题检测与追踪技术随着信息处理技术以及人工智能技术的发展,已经取得了较好的发展,但在实际应用中,由于算法标注数据需求高、训练代价大,很难较好的落地应用。本文提出了基于MS-Cluster与Prompt-Learning的话题检测追踪技术,通过聚类分析过程初步进行话题聚合,在此基础上通过提示学习推理进行话题补偿,完成话题检测与追踪过程。该方法在包含13个话题的测试数据集上进行测试验证,证明该方法在零样本与低样本标注情况下有较好效果,同时相较于其他主流话题检测追踪技术在准确率与召回率上都有提升。
话题检测与追踪技术[1] (Topic Detection and Tracking, TDT)是近年提出的一项信息处理技术, 这项技术旨在帮助人们应对日益严重的互联网信息爆炸问题,对新闻媒体信息流进行新话题的自动识别和已知话题的持续追踪。由于网络信息数量庞大,形式多样、传播迅速,互联网新闻报道冗余多、议题发散、易漂移,与一个话题相关的信息往往孤立地分散在很多不同的地方并且出现在不同的时间,仅仅通过这些孤立的信息,人们对某些话题事件难以做到全面的把握。通过话题检测与追踪技术,能够达成针对一个话题实现多维度、多时间节点的聚合关联,实现新话题的自动识别和已知话题的持续追踪,提高信息获取的价值。当前,话题检测与追踪主要研究方向是通过对文本数据流的文本数据进行识别,对数据的边界进行划分,从而实现突发性话题的发现检测、话题的发展追踪以及话题发展变化的探测。
话题检测与追踪技术研究起始于上世纪90 年代,经过30 年左右的发展[2],由于其任务具有主题类别未知性、数据突发性等特点,形成核心解决方案思路主要包括两大类:非监督学习任务预测[3]与监督学习任务预测[4]。
基于非监督学习任务预测[5]的方法主要是采用主题模型[6]、聚类分析等机器学习过程, 在数据特征、主题特征[7]学习表征基础上, 通过非监督预测过程对特征相似的数据进行聚合, 实现数据的自主的划分, 形成话题脉络。基于监督学习任务预测的方法可分为多分类模型以及序列分类模型。通过分类标签预测, 在标签基础上对数据进行组织聚合,形成话题检测追踪结果。
针对上述两种思路,都存在一定局限性,非监督任务预测过程中,由于一般不存在参数最优化学习过程导致预测效果存在较大瓶颈;监督任务预测过程中则需要大量高质量标注语料进行训练,且预测数据类别与数据标签需要与训练数据有较高的拟合关联程度,否则预测效果将无法达到预期。
综上所述,话题检测与追踪技术当前技术瓶颈是需要实现低资源学习情况下达到较好的预测效果。
这样使得话题检测与追踪技术在不同的样本数据与不同领域的应用分析中,可以通过较少的数据标注干预,达到预期效果。
2. 技术现状 话题检测与追踪技术当前主要研究集中在监督任务预测与非监督任务预测上。监督任务预测是通过将话题检测任务构建成为事件探测、提取、分类等任务进行识别[8],再对数据进行组织聚合形成话题检测结果。其中,Bekoulis [9]等提出了一种子事件话题检测模型,通过文本信息的时序性,将检测任务构