多模态融合学习
最后更新时间:
页面浏览: 加载中...
前言
该项目由cowhorse主要负责,我主要起一个蹭的作用,跟着学习学习哈哈。
问题介绍
在多模态学习领域,如何通过图像生成文本,进而进行自然语言处理(生成故事)以及语音合成。作者对此颇感兴趣。
本项目旨在通过上传图片,利用预训练的模型自动生成文本描述,再进一步扩展为故事,最后通过语音技术进行中文朗读。
相关工作
图像描述生成
利用OpenAI 的 CLIP(暂定) 和 Hugging Face 的 BLIP 模型进行图像描述生成
文本生成
通过调用现成的LLM,对短文本进行拓展。
中文翻译与语音合成
当前主流的翻译与语音合成技术(MarianMT、百度 TTS 等),利用他们或者尝试hugging face 的模型进行合成
关键算法
利用CNN对图像的特征进行提取,图像描述方面使用RNN(或者transformer架构)。
对于文本语言生成,将使用大语言模型,比如GPT(使用transformer架构)或者国内一些较好的预训练文本模型。
文本转语音:hugging face的transformer里面有一个包pipeline就承担了分词器的作用,通过分词以及对标点符号进行处理,以tacotron生成。最后用声码器处理。
改进技术路线
多模态生成的优化
在预训练模型的基础上,微调模型,使生成的描述和故事更加贴合图片内容。
多模态各个模块的结合
计划使用Langchain将图像描述生成、文本扩展与语音合成多任务流程打通,确保各模块高效协作。实现多轮交互,提高生成内容的丰富性与灵活性。
用户友好页面制作
用户不需要看懂代码,也不需要面对黑漆漆的终端,计划基于Streamlit设计一个UI界面,可以直接对需要识别的图片进行拖动。
实验设计
实验数据
使用 Hugging Face 的模型进行实验,选择多种类型的图片作为输入测试集。
实验流程
图片描述生成实验:测试图像到文本的生成效果。
故事生成实验
基于描述生成完整故事,并分析生成内容的流畅度与合理性。
翻译实验
测试英文故事翻译成中文的准确性。
语音合成实验
对中文文本进行语音合成,分析语音输出的流畅度和自然性。
评估指标
图像描述生成的准确性
使用 BLEU 评分评价描述生成效果。
故事生成的质量
通过人工评价故事的连贯性和创造性。
翻译准确度
用 BLEU 分数评价英文到中文的翻译效果。
语音合成质量
通过主观评分系统评估语音的自然度。