ollama是什么软件:本地大模型“Docker”的全面解读与使用指南
Ollama是一款开源的本地大模型运行平台,支持在 macOS、Windows、Linux 三端一键安装,核心价值是让开发者无需云服务即可在本地运行超过 150 个开源大模型,保护数据隐私的同时省去 API 调用费用。
本文大纲
- 🎯 一句话理解 Ollama:本地 LLM 的“Docker”
- 💻 安装与起步:三行命令跑起第一个模型
- 📦 模型管理:拉取、查看、删除与复制
- 🚀 运行与交互:CLI 对话与单次生成
- 🔌 API 与生态集成:对接应用与 WebUI
- ⚙️ 硬件与性能:你需要什么配置
- 🆚 竞品对比:Ollama vs LM Studio vs Jan
- 🎯 总结
- 对开发者:它是本地 LLM 的“Docker”——一条命令拉取模型、一个 API 接口对接应用
- 对研究者:它是私有化 AI 实验环境,无数据外泄风险,支持离线推理
- 对企业:它是内网 AI 推理层,可与 LangChain、LlamaIndex、OpenWebUI 等生态无缝集成

一、一句话理解 Ollama:本地 LLM 的“Docker”
Ollama 是基于 llama.cpp 的本地大模型运行层,提供统一的模型管理、REST API 接口和多语言 SDK。三句话可以概括它的定位:
截至 2026 年 3 月,Ollama 在 GitHub 已累积 165k Stars,拥有超过 40,000 个社区集成,是本地 LLM 部署领域使用最广泛的工具之一。

二、安装与起步:三行命令跑起第一个模型
Ollama 支持 macOS、Linux 和 Windows 三大平台,安装方式非常简洁。
macOS(推荐使用 Homebrew):
brew install ollama
ollama serveLinux(使用官方安装脚本):
curl -fsSL https://ollama.com/install.sh | sh国内网络环境下,官方安装脚本可能因 GitHub 重定向而失败,可通过 ModelScope 等国内镜像源安装,或自行配置代理后重试。
Windows(使用 winget,当前为预览版):
winget install Ollama.Ollama安装完成后,执行 ollama serve 启动服务端,服务默认监听 127.0.0.1:11434。可通过 ollama list 确认服务正常运行。

三、模型管理:拉取、查看、删除与复制
Ollama 提供了完整的命令行模型管理工具。
拉取模型:
ollama pull llama3.2
ollama pull deepseek-r1:70b标签用于标识模型的具体版本或变体,常见的有版本标签(7b、13b、70b)和量化标签(q4_0、q5_K_M、q8_0),q4_0 比 q8_0 节省约 50% 显存。
查看本地模型:
ollama list
ollama ps
ollama show llama3.2删除与复制:
ollama rm llama3.2
ollama cp llama3.2 my-llama-backup更新模型无需独立命令,重新执行 ollama pull 即可自动下载新版本。模型默认存储在 ~/.ollama/models 目录下(Windows 为 C:\Users\用户名\.ollama)。

四、运行与交互:CLI 对话与单次生成
Ollama 提供了两种与模型交互的方式:交互式对话和单次生成。
交互式对话(最常用):
ollama run llama3.2首次运行时会自动拉取模型(如果本地不存在)。进入交互会话后,直接输入问题即可与模型对话。
单次生成(非交互):
ollama run llama3.2 'Explain quantum computing in one sentence'
ollama run llama3.2 --gpu
ollama run llama3.2 --format json五、API 与生态集成:对接应用与 WebUI
Ollama 提供了简洁的 RESTful API,默认监听 http://localhost:11434,核心接口包括:
- POST /api/generate:单轮文本生成
- POST /api/chat:多轮对话(推荐用于聊天场景)
- POST /api/embed:向量 embedding
Python 调用示例:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'llama3.2', 'prompt': 'Hello, world!'}
)
print(response.json()['response'])Ollama 的 API 兼容 OpenAI 格式,可以无缝接入 LangChain、LlamaIndex 等主流框架,也可配合 Open WebUI 提供浏览器端图形界面。
六、硬件与性能:你需要什么配置
Ollama 支持 CPU 和 GPU 两种推理方式,但速度差距显著:
| 模型规模 | 最低显存 | 推荐配置 | 推理速度参考 |
|---|---|---|---|
| 1B–3B 参数 | 无需 GPU | 8GB RAM | 约 10-20 tok/s |
| 7B 参数 | 4-6 GB | 16GB RAM + GPU | 约 5-15 tok/s |
| 13B 参数 | 8-10 GB | 32GB RAM + GPU | 视硬件而定 |
| 70B 参数 | 38-48 GB | 多 GPU 或高内存 | 需专业硬件 |
量化是降低模型运行门槛的关键技术。Ollama 支持 NVIDIA、AMD Radeon 和 Apple Silicon (Metal) GPU 加速。Apple Silicon Mac 用户可受益于对 MLX 框架的支持,获得更优的本地 AI 性能。
七、竞品对比:Ollama vs LM Studio vs Jan vs LocalAI
Ollama 是开发者和需要 API 集成场景的首选;LM Studio / Jan 更适合希望用图形界面操作的非技术用户。Ollama 在命令行操作、API 兼容性和多模型并发方面表现优异,且提供官方 Docker 镜像支持。
总结
Ollama 是目前本地运行大语言模型最简单、最成熟的工具,通过简单的命令即可在个人设备上搭建完整的 AI 推理环境。对于希望将本地大模型能力集成到企业级 AI 应用中的团队,推荐关注实在Agent——面向企业智能化场景的 AI Agent 平台,支持 Ollama 等本地模型与云端模型的统一接入与管理,提供开箱即用的智能体构建能力,帮助企业快速落地私有化、低成本的 AI 自动化任务。
ollama qwen3.5:122b是什么量化版本?Q4_K_M量化详解与完整部署指南
ollama qwen3.5怎么喂数据?——四种“投喂”方式的完整操作手册
万相2.7模型是什么意思:阿里新一代视频与图像生成模型全解析

