行业百科
分享最新的AI行业干货文章
行业百科>ollama是什么软件:本地大模型“Docker”的全面解读与使用指南

ollama是什么软件:本地大模型“Docker”的全面解读与使用指南

2026-04-04 21:14:16

Ollama是一款开源的本地大模型运行平台,支持在 macOS、Windows、Linux 三端一键安装,核心价值是让开发者无需云服务即可在本地运行超过 150 个开源大模型,保护数据隐私的同时省去 API 调用费用。

本文大纲

  • 🎯 一句话理解 Ollama:本地 LLM 的“Docker”
  • 💻 安装与起步:三行命令跑起第一个模型
  • 📦 模型管理:拉取、查看、删除与复制
  • 🚀 运行与交互:CLI 对话与单次生成
  • 🔌 API 与生态集成:对接应用与 WebUI
  • ⚙️ 硬件与性能:你需要什么配置
  • 🆚 竞品对比:Ollama vs LM Studio vs Jan
  • 🎯 总结
  • ollama是什么软件:本地大模型“Docker”的全面解读与使用指南_图1

    一、一句话理解 Ollama:本地 LLM 的“Docker”

    Ollama 是基于 llama.cpp 的本地大模型运行层,提供统一的模型管理、REST API 接口和多语言 SDK。三句话可以概括它的定位:

    • 对开发者:它是本地 LLM 的“Docker”——一条命令拉取模型、一个 API 接口对接应用
    • 对研究者:它是私有化 AI 实验环境,无数据外泄风险,支持离线推理
    • 对企业:它是内网 AI 推理层,可与 LangChain、LlamaIndex、OpenWebUI 等生态无缝集成

    截至 2026 年 3 月,Ollama 在 GitHub 已累积 165k Stars,拥有超过 40,000 个社区集成,是本地 LLM 部署领域使用最广泛的工具之一。

    ollama是什么软件:本地大模型“Docker”的全面解读与使用指南_图2

    二、安装与起步:三行命令跑起第一个模型

    Ollama 支持 macOS、Linux 和 Windows 三大平台,安装方式非常简洁。

    macOS(推荐使用 Homebrew):

    brew install ollama
    ollama serve

    Linux(使用官方安装脚本):

    curl -fsSL https://ollama.com/install.sh | sh

    国内网络环境下,官方安装脚本可能因 GitHub 重定向而失败,可通过 ModelScope 等国内镜像源安装,或自行配置代理后重试。

    Windows(使用 winget,当前为预览版):

    winget install Ollama.Ollama

    安装完成后,执行 ollama serve 启动服务端,服务默认监听 127.0.0.1:11434。可通过 ollama list 确认服务正常运行。

    ollama是什么软件:本地大模型“Docker”的全面解读与使用指南_图3

    三、模型管理:拉取、查看、删除与复制

    Ollama 提供了完整的命令行模型管理工具。

    拉取模型

    ollama pull llama3.2
    ollama pull deepseek-r1:70b

    标签用于标识模型的具体版本或变体,常见的有版本标签(7b、13b、70b)和量化标签(q4_0、q5_K_M、q8_0),q4_0 比 q8_0 节省约 50% 显存。

    查看本地模型

    ollama list
    ollama ps
    ollama show llama3.2

    删除与复制

    ollama rm llama3.2
    ollama cp llama3.2 my-llama-backup

    更新模型无需独立命令,重新执行 ollama pull 即可自动下载新版本。模型默认存储在 ~/.ollama/models 目录下(Windows 为 C:\Users\用户名\.ollama)。

    ollama是什么软件:本地大模型“Docker”的全面解读与使用指南_图4

    四、运行与交互:CLI 对话与单次生成

    Ollama 提供了两种与模型交互的方式:交互式对话和单次生成。

    交互式对话(最常用):

    ollama run llama3.2

    首次运行时会自动拉取模型(如果本地不存在)。进入交互会话后,直接输入问题即可与模型对话。

    单次生成(非交互):

    ollama run llama3.2 'Explain quantum computing in one sentence'
    ollama run llama3.2 --gpu
    ollama run llama3.2 --format json

    五、API 与生态集成:对接应用与 WebUI

    Ollama 提供了简洁的 RESTful API,默认监听 http://localhost:11434,核心接口包括:

    • POST /api/generate:单轮文本生成
    • POST /api/chat:多轮对话(推荐用于聊天场景)
    • POST /api/embed:向量 embedding

    Python 调用示例

    import requests
    
    response = requests.post(
        'http://localhost:11434/api/generate',
        json={'model': 'llama3.2', 'prompt': 'Hello, world!'}
    )
    print(response.json()['response'])

    Ollama 的 API 兼容 OpenAI 格式,可以无缝接入 LangChain、LlamaIndex 等主流框架,也可配合 Open WebUI 提供浏览器端图形界面。

    六、硬件与性能:你需要什么配置

    Ollama 支持 CPU 和 GPU 两种推理方式,但速度差距显著:

    模型规模最低显存推荐配置推理速度参考
    1B–3B 参数无需 GPU8GB RAM约 10-20 tok/s
    7B 参数4-6 GB16GB RAM + GPU约 5-15 tok/s
    13B 参数8-10 GB32GB RAM + GPU视硬件而定
    70B 参数38-48 GB多 GPU 或高内存需专业硬件

    量化是降低模型运行门槛的关键技术。Ollama 支持 NVIDIA、AMD Radeon 和 Apple Silicon (Metal) GPU 加速。Apple Silicon Mac 用户可受益于对 MLX 框架的支持,获得更优的本地 AI 性能。

    七、竞品对比:Ollama vs LM Studio vs Jan vs LocalAI

    Ollama 是开发者和需要 API 集成场景的首选;LM Studio / Jan 更适合希望用图形界面操作的非技术用户。Ollama 在命令行操作、API 兼容性和多模型并发方面表现优异,且提供官方 Docker 镜像支持。

    总结

    Ollama 是目前本地运行大语言模型最简单、最成熟的工具,通过简单的命令即可在个人设备上搭建完整的 AI 推理环境。对于希望将本地大模型能力集成到企业级 AI 应用中的团队,推荐关注实在Agent——面向企业智能化场景的 AI Agent 平台,支持 Ollama 等本地模型与云端模型的统一接入与管理,提供开箱即用的智能体构建能力,帮助企业快速落地私有化、低成本的 AI 自动化任务。

分享:
上一篇文章
ollama是干嘛用的?本地大模型“一键运行”工具的核心用途解析
下一篇文章

转录AI模型排行榜2026:微软MAI-Transcribe-1登顶,字错误率3.9%

免费领取更多行业解决方案
立即咨询
大家都在用的智能软件机器人
获取专业的解决方案、智能的产品帮您实现业务爆发式的增长
免费试用
渠道合作
资料领取
预约演示
扫码咨询
领取行业自动化解决方案
1V1服务,社群答疑
consult_qr_code
扫码咨询,免费领取解决方案
热线电话:400-139-9089