基于文本挖掘的微信公众号文本内容传播特征研究——以“北京农业”微信公众号为例

发布日期：2023年9月26日

预览
摘要

本内容试读结束

下载后可阅读完整内容，立即下载

目的/意义：从北京农业微信公众号推送文章出发，爬取文本内容，对微信推送文章的外部特征及传播特征进行了分析，以期能从微信公众号推文内容角度为农业知识传播提供参考与借鉴。方法/过程：利用Python语言编写爬虫代码及各种计算脚本，将获取的5103条推文作为数据样本，结合主题词抽取、文本聚类、以及高频词共现网络，分析了北京农业微信公众号推文现状及内容传播特征。结果/结论：北京农业微信公众号在农业知识传播的内容组织方面已较为全面，在深刻剖析传播特征的基础上，应着力从需求挖掘、创造热点等方面让推文更有热度。

微信作为一个新兴的自媒体平台，它的发展异常迅猛，如何使其健康稳定地成长需要不断探索和实践。微信有别于其他自媒体平台的特点在于封闭性，这是它与微博等开放性的自媒体社交平台的最大差别[1]。微信的封闭性体现在获取微信公众号发布的内容较难。一是由于微信专注于移动客户端，从移动端获取数据有着严格的限制。二是由于微信公众号与用户之间存在被订阅的关系，只有订阅某公众号的用户才能接收其消息。本文利用Python 爬取微信公众号平台的文本语料，按照时间维度对“农业知识”主题下的重要事件进行案例筛选，以突出案例的时间价值、事件追踪轨迹为标准。基于文本挖掘分析微信公众号文本内容的传播特征，并为优化微信公众号传播效果提供参考。

2. 研究对象与方法 2.1. 研究对象研究的对象是基于真实的微信平台数据，针对本研究目前并没有开源的可供研究的数据集。因为微信公众号本身内容包括不同的部分，涵盖内容较多，在此基础上针对研究内容选取了“北京农业”这一公众号中的数据。通过对微信公众号的内容爬取，选取从2018 年3 月到2022 年12 月共5103 条数据作为研究样本总数进行分析。

2.2. 数据获取方法微信公众号中的文本获取主要依靠网络爬虫技术，采用python3.6 语言开发，程序运行在Windows10系统上，整个网络爬虫的基本框架由爬虫调度器、URL 管理器、网页下载器、网页解析器和数据存储器五大部分组成，并基于单机多进程的方式并行采集以提高爬取效率。基于微信公众号的爬取方案需要先