4.3 基于数据集微调DeepSeek的聊愈对话生成

为实现用户与AI小助手的自然对话功能,本项目计划采用DeepSeek作为基础模型,并通过微调使其适应情绪疗愈场景。DeepSeek是一种基于Transformer架构的预训练语言模型,具有强大的文本生成和理解能力。通过微调,我们能够使其在情绪疗愈场景中生成温柔、口语化且具有情感支持能力的对话内容,从而为用户提供个性化的情绪支持。
在数据集选择方面,我们经过广泛调研,最终选定了两个高质量的开源数据集:SoulChatCorpus和PsyQA。SoulChatCorpus专注于情感支持和心理疗愈,包含了大量安慰、鼓励、共情等温柔风格的对话,能够为模型提供丰富的情感支持样本。PsyQA则是一个心理学问答数据集,涵盖了心理健康领域的专业知识,适合训练模型生成专业的情绪支持内容。这两个数据集的结合,能够使模型在情感疗愈场景中既具备温柔的表达能力,又具备专业的心理学知识。在经过数据清洗、格式化和增强后,我们计划使用Hugging Face Transformers库对DeepSeek模型进行微调,以优化模型生成对话的准确性和情感一致性,使微调后的模型能够生成温柔、口语化的对话内容。
为了使AI小助手更具陪伴感,我们计划结合TTS(Text-to-Speech)技术实现语音输出。语音输出不仅能够增强用户的交互体验,还能让AI小助手更具人性化和亲和力。目前,我们已经调研了几种开源的TTS模型,包括Tacotron 2、FastSpeech 2和VITS。Tacotron 2基于深度学习,支持高质量的语音合成,生成的语音自然度高,且支持多种语言和音色,适合需要高保真语音输出的场景。FastSpeech 2基于Transformer架构,生成速度快,语音质量高,支持实时语音合成,非常适合交互式应用。VITS则结合了变分自编码器和对抗训练技术,生成的语音自然度高,且支持多种音色,适合需要多样化语音风格的场景。我们计划在实际体验和测试后,选择最适合项目需求的TTS模型。
在语音输出的实现过程中,我们还将重点关注音色的选择与调整。为了实现温柔、自然的语音效果,我们计划使用预训练音色或音色迁移技术。例如,可以选择女性声音或儿童声音作为基础音色,并通过音色迁移技术(如StarGAN-VC)进一步优化音色的温柔度和亲和力。通过这种方式,我们能够为用户提供更加温暖、贴心的语音交互体验。
4.4 多模态交互的轻量化实现与优化
在本项目中,我们计划实现一种轻量级的多模态交互系统,其核心目标是将语音、图片等多模态数据转化为文本,并通过统一的文本接口与微调后的大语言模型进行交互。这种设计不仅能够降低系统复杂性,还能提高运行效率,同时保持多模态交互的核心功能。

4.4.1 多模态数据处理
在语音转文本方面,我们计划使用Speech2Text模型来实现高效的语音识别。Speech2Text模型是一种基于深度学习的语音识别技术,能够将用户上传的语音快速转化为文本。为了提高运行效率,我们可以使用轻量化版本的Speech2Text模型,并对识别结果进行后处理,去除噪声和重复内容,确保文本的准确性和简洁性。Speech2Text模型的核心优势在于其高精度的语音识别能力和对多语言的支持,这使得它能够适应不同用户的需求。
由于学校提供的DeepSeek并不支持上传图片等文件,因此,在图片转文本方面,我们计划使用BLIP模型来生成高质量的图像描述,将用户上传的图片转化为文字描述。BLIP模型基于Transformer架构,能够理解图像中的语义信息,并生成与图像内容相关的文字描述。例如,用户上传一张日落的照片,BLIP模型可以生成描述:“这是一张美丽的日落照片,天空中有橙色的云彩。”这种文字描述不仅能够帮助系统理解用户的情感状态,还能为后续的情感提供丰富的上下文信息。
4.4.2 统一的文本接口
在4.3中,我们已经介绍了基于数据集微调DeepSeek的聊愈对话生成,在多模态数据转化为文本后,我们将文本传输给大语言模型DeepSeek进行交互,实现聊愈对话。统一的文本接口是多模态交互的核心,它能够将语音、图片、视频等多种模态数据转化为统一的文本格式,并通过预先设计的Prompt提示词引导模型生成符合情绪疗愈场景的对话内容。
4.5 基于Prompt引导的DeepSeek情感分析与总结

在本项目中,我们的计划功能还包含:根据聊愈过程中的对话或用户写下的记愈内容,动态分析用户情感变化,总结今日情绪;对聊愈中的长对话生成总结;根据记愈内容生成用户标签。为了实现这些目标,同时简化项目中的模型使用,我们计划采用基于 Prompt 引导的 DeepSeek 模型,通过设计合适的提示词,引导模型对用户输入的内容进行情感分析、情感变化捕捉、对话总结以及用户标签生成,从而为用户提供全面、个性化的情绪支持和疗愈服务。
此处以生成用户今日标签为例,我们计划设计用户标签 Prompt,引导 DeepSeek 根据记愈内容生成用户标签。例如,Prompt 可以是:“请根据以下记愈内容生成用户标签:{用户输入文本}”。通过这种方式,DeepSeek 能够生成用户标签,例如:“疲惫但快乐的一天”“情绪波动较大的一周”。这些用户标签不仅能够帮助用户更好地了解自己的情感状态,还能为后续的情绪支持提供参考。