引言
在人工智能快速发展的今天,大型语言模型(LLM)已成为研究和应用的热点。然而,如何高效地在本地或服务器上部署这些模型仍然是一个挑战。本文将详细介绍我们团队如何使用Docker和Ollama在配备GPU的服务器上部署deepseek大语言模型的完整过程。
准备工作
服务器环境配置
首先,感谢我们负责服务器的同学已经完成了以下关键环境的配置:
- Docker环境:容器化部署的基础
- NVIDIA Container Toolkit:使Docker容器能够访问GPU资源
- 共享目录设置:便于模型文件的存储和管理
这些前期工作为我们后续的模型部署打下了坚实基础
部署Ollama容器
我们使用了一个便捷的部署脚本
deploy_ollama_container.sh
来启动Ollama服务:脚本会自动完成工作,包括检查环境、拉取镜像、创建容器等。

这里需要注意的是,将容器关闭后重新启动时要使用docker start命令而不是docker run,run是根据镜像重新创建一个容器再跑起来,就不是原来的容器了。
下载并运行大语言模型
首先我们选择使用deepseek-r1:32b

下载完成后,我们就可以用它了:

通过API调用模型
除了交互模式,Ollama还提供了REST API接口,方便集成到其他应用中
