多模态融合学习

文章发布时间:

最后更新时间:

页面浏览: 加载中...

前言

该项目由cowhorse主要负责,我主要起一个蹭的作用,跟着学习学习哈哈。

问题介绍

在多模态学习领域,如何通过图像生成文本,进而进行自然语言处理(生成故事)以及语音合成。作者对此颇感兴趣。
本项目旨在通过上传图片,利用预训练的模型自动生成文本描述,再进一步扩展为故事,最后通过语音技术进行中文朗读。

相关工作

图像描述生成

利用OpenAI 的 CLIP(暂定) 和 Hugging Face 的 BLIP 模型进行图像描述生成

文本生成

通过调用现成的LLM,对短文本进行拓展。

中文翻译与语音合成

当前主流的翻译与语音合成技术(MarianMT、百度 TTS 等),利用他们或者尝试hugging face 的模型进行合成

关键算法

利用CNN对图像的特征进行提取,图像描述方面使用RNN(或者transformer架构)。
对于文本语言生成,将使用大语言模型,比如GPT(使用transformer架构)或者国内一些较好的预训练文本模型。
文本转语音:hugging face的transformer里面有一个包pipeline就承担了分词器的作用,通过分词以及对标点符号进行处理,以tacotron生成。最后用声码器处理。

改进技术路线

多模态生成的优化

在预训练模型的基础上,微调模型,使生成的描述和故事更加贴合图片内容。

多模态各个模块的结合

计划使用Langchain将图像描述生成、文本扩展与语音合成多任务流程打通,确保各模块高效协作。实现多轮交互,提高生成内容的丰富性与灵活性。

用户友好页面制作

用户不需要看懂代码,也不需要面对黑漆漆的终端,计划基于Streamlit设计一个UI界面,可以直接对需要识别的图片进行拖动。

实验设计

实验数据

使用 Hugging Face 的模型进行实验,选择多种类型的图片作为输入测试集。

实验流程

图片描述生成实验:测试图像到文本的生成效果。

故事生成实验

基于描述生成完整故事,并分析生成内容的流畅度与合理性。

翻译实验

测试英文故事翻译成中文的准确性。

语音合成实验

对中文文本进行语音合成,分析语音输出的流畅度和自然性。

评估指标

图像描述生成的准确性

使用 BLEU 评分评价描述生成效果。

故事生成的质量

通过人工评价故事的连贯性和创造性。

翻译准确度

用 BLEU 分数评价英文到中文的翻译效果。

语音合成质量

通过主观评分系统评估语音的自然度。