ChatGPT的出现,引领生成式AI迅速渗透进人们生产生活的方方面面,故了解人工智能内容生成的发展趋势和未来方向非常重要。基于抓取微博平台收录的关于人工智能内容生成的文本内容,先利用jieba分词进行文本预处理,通过LDA主题模型的方法得到七个人工智能内容生成领域的热点主题,包括:人工智能概念股、智能数字内容创作、数字经济下的科技股投资趋势、自然语言技术的突破等。研究揭示了当前AIGC的舆情热点,有助于相关人员掌握生成式AI领域的发展状态,对人工智能未来的应用提供参考。
2022 年11 月,人工智能公司OpenAI 推出了生成式人工智能,并命名为ChatGPT。发布后短短两个月吸引了超1 亿用户。ChatGPT 强大的内容生成能力,引起了全世界的广泛关注,AIGC (是指利用人工智能技术生成内容)概念由此走上风口并渗透进各行各业[1]。在文学领域,AIGC 可以生成文章、诗歌和故事,扩展了创作者的想象力和创作能力[2] [3]。在设计领域,AIGC 可以辅助自动生成艺术作品、建筑设计和虚拟场景等,为创意行业带来新的可能性。在娱乐领域,AIGC 可以生成虚拟角色、游戏关卡和剧情,提供个性化和互动性的游戏体验[4]。
然而,随着AIGC 技术的快速发展,也带来了一些热点问题。了解和分析这些热点问题,对于深入理解AIGC 技术的发展方向、潜在挑战和应用前景至关重要。本文通过翻阅和研究大量参考文献, 旨在基于LDA (潜在狄利克雷分配)主题模型对AIGC 技术发展的热点进行分析。利用爬虫技术从微博上爬取文本并利用LDA 主题模型从中确定研究主题, 并深入探讨AIGC 技术发展中的热点问题和前沿动向,这将有助于揭示AIGC 技术的现状、趋势以及未来发展的方向,为相关人员和从业者提供有益的指导和启示。
2. 研究思路和方法 2.1. 研究思路 本文将获取到AIGC 相关的微博文本内容通过文本预处理切割得到原始语料,通过困惑度和一致性大小指标确定最优主题数,然后进行LDA 主题模型建模,从热点话题中确定研究主题,识别AIGC 技术发展的热点问题,并进行深入探讨。
本文研究框架如图1 所示。具体流程为: 1) 收集关键词为“AIGC”的文本数据; 2) 文本预处理; 3) 特征提取 4) 通过困惑度和一致性来确定最优主题数目; 5) 通过模型实验得到主题–词分布; 6) 确定主题类别。