ollama是什么软件：本地大模型“Docker”的全面解读与使用指南

Ollama是一款开源的本地大模型运行平台，支持在 macOS、Windows、Linux 三端一键安装，核心价值是让开发者无需云服务即可在本地运行超过 150 个开源大模型，保护数据隐私的同时省去 API 调用费用。

本文大纲

🎯 一句话理解 Ollama：本地 LLM 的“Docker”
💻 安装与起步：三行命令跑起第一个模型
📦 模型管理：拉取、查看、删除与复制
🚀 运行与交互：CLI 对话与单次生成
🔌 API 与生态集成：对接应用与 WebUI
⚙️ 硬件与性能：你需要什么配置
🆚 竞品对比：Ollama vs LM Studio vs Jan
🎯 总结

ollama是什么软件：本地大模型“Docker”的全面解读与使用指南_图1

一、一句话理解 Ollama：本地 LLM 的“Docker”

Ollama 是基于 llama.cpp 的本地大模型运行层，提供统一的模型管理、REST API 接口和多语言 SDK。三句话可以概括它的定位：

对开发者：它是本地 LLM 的“Docker”——一条命令拉取模型、一个 API 接口对接应用
对研究者：它是私有化 AI 实验环境，无数据外泄风险，支持离线推理
对企业：它是内网 AI 推理层，可与 LangChain、LlamaIndex、OpenWebUI 等生态无缝集成

截至 2026 年 3 月，Ollama 在 GitHub 已累积 165k Stars，拥有超过 40,000 个社区集成，是本地 LLM 部署领域使用最广泛的工具之一。

ollama是什么软件：本地大模型“Docker”的全面解读与使用指南_图2

二、安装与起步：三行命令跑起第一个模型

Ollama 支持 macOS、Linux 和 Windows 三大平台，安装方式非常简洁。

macOS（推荐使用 Homebrew）：

brew install ollama
ollama serve

Linux（使用官方安装脚本）：

curl -fsSL https://ollama.com/install.sh | sh

国内网络环境下，官方安装脚本可能因 GitHub 重定向而失败，可通过 ModelScope 等国内镜像源安装，或自行配置代理后重试。

Windows（使用 winget，当前为预览版）：

winget install Ollama.Ollama

安装完成后，执行 ollama serve 启动服务端，服务默认监听 127.0.0.1:11434。可通过 ollama list 确认服务正常运行。

ollama是什么软件：本地大模型“Docker”的全面解读与使用指南_图3

三、模型管理：拉取、查看、删除与复制

Ollama 提供了完整的命令行模型管理工具。

拉取模型：

ollama pull llama3.2
ollama pull deepseek-r1:70b

标签用于标识模型的具体版本或变体，常见的有版本标签（7b、13b、70b）和量化标签（q4_0、q5_K_M、q8_0），q4_0 比 q8_0 节省约 50% 显存。

查看本地模型：

ollama list
ollama ps
ollama show llama3.2

删除与复制：

ollama rm llama3.2
ollama cp llama3.2 my-llama-backup

更新模型无需独立命令，重新执行 ollama pull 即可自动下载新版本。模型默认存储在 ~/.ollama/models 目录下（Windows 为 C:\Users\用户名\.ollama）。

ollama是什么软件：本地大模型“Docker”的全面解读与使用指南_图4

四、运行与交互：CLI 对话与单次生成

Ollama 提供了两种与模型交互的方式：交互式对话和单次生成。

交互式对话（最常用）：

ollama run llama3.2

首次运行时会自动拉取模型（如果本地不存在）。进入交互会话后，直接输入问题即可与模型对话。

单次生成（非交互）：

ollama run llama3.2 'Explain quantum computing in one sentence'
ollama run llama3.2 --gpu
ollama run llama3.2 --format json

五、API 与生态集成：对接应用与 WebUI

Ollama 提供了简洁的 RESTful API，默认监听 http://localhost:11434，核心接口包括：

POST /api/generate：单轮文本生成
POST /api/chat：多轮对话（推荐用于聊天场景）
POST /api/embed：向量 embedding

Python 调用示例：

import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'llama3.2', 'prompt': 'Hello, world!'}
)
print(response.json()['response'])

Ollama 的 API 兼容 OpenAI 格式，可以无缝接入 LangChain、LlamaIndex 等主流框架，也可配合 Open WebUI 提供浏览器端图形界面。

六、硬件与性能：你需要什么配置

Ollama 支持 CPU 和 GPU 两种推理方式，但速度差距显著：

模型规模	最低显存	推荐配置	推理速度参考
1B–3B 参数	无需 GPU	8GB RAM	约 10-20 tok/s
7B 参数	4-6 GB	16GB RAM + GPU	约 5-15 tok/s
13B 参数	8-10 GB	32GB RAM + GPU	视硬件而定
70B 参数	38-48 GB	多 GPU 或高内存	需专业硬件

量化是降低模型运行门槛的关键技术。Ollama 支持 NVIDIA、AMD Radeon 和 Apple Silicon (Metal) GPU 加速。Apple Silicon Mac 用户可受益于对 MLX 框架的支持，获得更优的本地 AI 性能。

七、竞品对比：Ollama vs LM Studio vs Jan vs LocalAI

Ollama 是开发者和需要 API 集成场景的首选；LM Studio / Jan 更适合希望用图形界面操作的非技术用户。Ollama 在命令行操作、API 兼容性和多模型并发方面表现优异，且提供官方 Docker 镜像支持。

总结

Ollama 是目前本地运行大语言模型最简单、最成熟的工具，通过简单的命令即可在个人设备上搭建完整的 AI 推理环境。对于希望将本地大模型能力集成到企业级 AI 应用中的团队，推荐关注实在Agent——面向企业智能化场景的 AI Agent 平台，支持 Ollama 等本地模型与云端模型的统一接入与管理，提供开箱即用的智能体构建能力，帮助企业快速落地私有化、低成本的 AI 自动化任务。

金融服务商

通信运营商

零售电商

跨境电商

政府及公共服务

能源及制造业

医药行业

更多行业客户

ollama是什么软件：本地大模型“Docker”的全面解读与使用指南

本文大纲

一、一句话理解 Ollama：本地 LLM 的“Docker”

二、安装与起步：三行命令跑起第一个模型

三、模型管理：拉取、查看、删除与复制

四、运行与交互：CLI 对话与单次生成

五、API 与生态集成：对接应用与 WebUI

六、硬件与性能：你需要什么配置

七、竞品对比：Ollama vs LM Studio vs Jan vs LocalAI

总结

热门文章推荐

相关新闻

如何智能化监控预算执行？从事后看报到实时预警

怎么自动化审查烟草合同，条款核验到留痕归档

如何智能化填充公文数据？从录入提效到审核闭环

立即领取行业头部企业 AI 应用案例