我们从2011年开始,通过开发的App有计划地收集个人生活日志数据,目前已经有22位志愿者参与到这个项目中,收集到的有效生活日志数据超过4万余条。将这些丰富而杂乱的数据进行分类,为人们提供更清晰、有序的生活见解是一件有意义的事情。本文提出了一个生活日志文本分类模型DTC-TextCNN,通过引入LDA主题模型,对文本日志的主题特征进行提取;使用DB-SCAN算法,对发送动态时的地理位置进行聚类,得到不同的地理位置特征簇,并将提取到的文本主题特征和地理位置特征与文本动态进行拼接,输入到TextCNN模型中进行分类。实验结果表明,将地理位置这一特征引入模型中,有助于更好地理解文本发生的背景和环境,提供更丰富的上下文信息。融合了地理特征和主题特征的分类方法,弥补了生活日志文本语义模糊以及全局语义缺失的问题,提高了对于文本内容的理解水平。通过在Liu Lifelog数据集上的测试,可以看到该模型能够提高对生活日志分类的准确性。
近年来,随着社交软件的普及,人们开始在微博、Twitter 和Instagram 等社交媒体上用日记记录事件 [1],同时由于传感技术和位置感知技术的进步,使得人们对事件的记录更加方便准确,记录的信息也更加丰富 [2]。因而对于生活日志的分析已经成为一个重要的研究方向。目前,Lifelog 已经被应用于许多领域的研究中。在医疗方面,Lifelog 已被用于查看肥胖患者的行为变化,以进行体重管理 [3];使用抑郁症患者的Lifelog 数据来预测他们抑郁症复发的风险 [1];通过Lifelog 查看患者健康状态 [4]。在社会生活方面,利用Lifelog 中记录的位置信息对个人的移动情况进行分析 [5] [6];使用地理标记照片数据集识别用户的重要位置和日常行为 [7];使用个人信息型生活日志数据自动生成故事模型 [8]。
Lifelog 数据内容丰富多样,为了提高管理效率,对其进行合理分类显得尤为必要。Lifelog 中包含大量对日常行为的描述, 根据这些行为对其分类是一个很好的分类方式。通过分类,我们能更有条理地整理个体的日常活动。
目前,常用的文本分类机器学习算法主要有朴素贝叶斯(NB) [9],K 最近邻(KNN) [10]和支持向量机(SVM) [11]。但这些方法忽略了文本数据中的上下文信息,导致语义信息无法准确表达,同时存在时间成本较高等问题,影响分类效率。近年来基于深度学习的文本分类方法引起了人们的广泛关注,Kim 等人提出了TextCNN 的分类模型 [12], 该模型采用卷积操作对文本局部特征进行提取, 取得了不错的效果;王佳慧等 [13]将CNN 与Bi-LSTM 混合模型,有效提升了中文文本分类准确性;杨阳等采用融合词向量的方法来提高文本分类精度 [14];AK Sharma 等人通过融合Word2Vec 技术,同时对CNN 模型进行微调来提高分类的准确性 [15]。
由于生活日志是人们随手对生活的记录, 因此存在词汇不规范、以及语义模糊的问题,现有的文本分类模型大多基于文本内容本身,通过提高挖掘文本语义能力来提高文本的分类效果,但这对于语义表达不规范的生活日志来说分类效果的提升是有限的。因此本文提出了融合地理位置特征和主题特征的生活日志文本分类模型DTC-TextCNN, 通过利用用户发送动态的地理位置这一空间信