本研究旨在开发一种基于AI技术的音频可视化方法,该方法能够将音频信号转化为符合歌曲主题的图片集以及视频。在此过程中,首先提取了音频中的平均频率、平均LUFS、平均相位等参数,并使用自然语言描述进行区间划分。随后利用GPT模型将音频数据描述转化为文字形式,为稳定扩散算法提供实例化的提示。在技术方案中,我们引入了基于Stable-Diffusion的AI绘画方法,通过对音频信息的处理与关键字生成,最终生成了高质量且逼真的音频可视化艺术作品。此外,我们还成功地将生成的艺术作品转化为相应的视频作品。整个流程具有较高的自由度和创造力,可为音乐和艺术创作领域带来新的可能性。
音频转化为视频是一个充满挑战性的研究领域,其应用场景广泛。在AI 领域,目前没有一种公认的方法能将音频生成视频。比较成熟的相关研究方法有VQGAN 的图像重生成,以及CLIP 的文本图像识别,现有利用傅里叶快速变换使得VQGAN 能够搭配CLIP,实现一种AI 绘画方法[1],其原理是将音频进行快速傅里叶变换后, 将所需要的中间变量连续地送到VQGAN 里生成图片。
此项目名称为Wav2CLIP, 其中有两个编码器,一个是冻结图像编码器(Frozen Image Encoder),一个是音频编码器,分别从视频中提取图像和音频数据进行训练。
冻结图像编码器通过冻结CLIP 的图像编码器获得,也就是将CLIP 视觉模型的图结构和权重固化到一起后直接加载运行。
音频编码器的预训练通过提取视频中CLIP 图像的embedding 完成, 这也是Wav2CLIP 的前置(pretext)任务。
按照CLIP 论文的原始方法, 研究人员采用对比损失(contrastive loss)进行特征提取, 并添加多层感知器(MLP)作为投影层。
交叉投影的损失函数定义如下: ()()()()CX LossImage ,AudioImage, AudioL fLg=+ 此方法有两点优势: 一是有助于稳定提取过程; 二是能够加强多模态的一致性, 因为模型学习到的音频embedding 能通过这个投影层恢复CLIP 图像的embedding [2]。
总的来说,Wav2CLIP 的训练数据为一段视频,利用CLIP 的图像编码器(freeze 操作)对音频图片和音频进行特征提取,就可以生成“明白”自己应该对应什么图片的音频表示。这一点能保证音频完整输送到AI 绘画系统中,但是由于该方法先把音频处理成中间表示再生成图像,对于连续时间上的变化,没有一种稳定的扩散方法,导致生成的图片图文无关甚至表现抽象。
鉴于现有方法的不足,本项目提出一款基于Stable-Diffusion 的AI 绘画方法,主要功能为用户输入一段音频,通过python 来提取音频中量化片段的音频信息,即音频的平均频率、LUFS、相位,将音频信息记录下来并传入GPT 中,让其为Stable-Diffusion 提供符合音频主题的提示词,依照其描述输入到Stable-Diffusion 中,生成相关的图片,既不需要大量人工标注好的数据,又能发挥神经网络强大的特征