【MoodVine】BLIP2模型图像描述生成技术实践,b

在我们的项目中，我们需要实现一个图像转文本的功能，即根据输入的图片自动生成描述性文字。

最初，我尝试使用了Hugging Face提供的两个BLIP模型：

这两个模型都是基于BLIP架构的经典图像描述生成模型。

在实际测试中，我发现这两个模型存在以下问题：

尽管调整了生成参数（如max_length、num_beams等），效果提升仍然有限，无法满足我们的项目需求。

比如在上面的测试中，该模型并无法识别ultraman，且描述的很简短

经过调研，我决定尝试BLIP2模型，BLIP2采用了创新的架构设计，将预训练的视觉模型和语言模型通过轻量级的Q-Former连接起来，实现了更强大的图像理解能力。

BLIP2的优势：

在我们的Flask后端服务中，我实现了BLIP2的服务类：

在具体实践中，为了使Flask 服务在 Docker Compose 中使用 GPU，需要修改docker-compose.yml 文件，添加 GPU 支持相关的配置如下：

可以看到，该模型在基本差不多的生成速度下，生成的描述更为详细且能够正确识别ultraman