背景

年初,DeepSeek R1横空出世,将中国大模型技术又一次推到到高点。最近阿里巴巴的Qwen多个模态的开源大模型在Hugging Face上霸榜,展示了其在AI领域的技术实力。接下来我们熟悉下大模型的相关部分概念。

部署大模型

管不了那么多了,先让我们手动部署一个LLM(大语言模型)服务把。和把大象放到冰箱里一样,也大致是三步走:

  1. 下载大语言模型
  2. 安装配置推理引擎
  3. 把大模型放到推理引擎中,点火运行。

看起来部署起来并不难,但对于新手来说,问题就来了:

  • 从哪里下载大模型文件?
  • 推理引擎又是什么东西?
  • 动辄千亿参数的模型能否在本地运行起来么?
  • 如何进行大模型的训练微调?
  • Agent智能体如何开发?

分层归纳

1. 开源大模型

1.1. 模型下载

Hugging Face 和 ModelScope 都是当前非常受欢迎的开源人工智能模型平台,但它们各有侧重。简单来说,Hugging Face 是资源极丰富的“全球模型超市“,国际化程度高,国内访问可能不畅。ModelScope 是阿里巴巴达摩院推出的AI模型开放平台,专注于中文场景优化,与阿里云生态紧密集成。

1.2. 模型分类

大模型分类可以按照任务类型、数据模态、训练方式、应用领域等分类。

Hugging Face 将 AI 模型能力按任务类型划分为 7 大类别https://huggingface.co/tasks

任务类型

任务说明

典型任务

Multimodal
(多模态)

跨模态交互任务

图文描述生成(Image Captioning)、视觉问答(VQA)、文档理解

NLP

(自然语言处理)

文本相关任务

文本分类、情感分析、命名实体识别(NER)、问答系统、文本生成、翻译摘要

CV

(计算机视觉)

图像 / 视频相关任务

图像分类、目标检测、图像分割、图像生成

Audio

(音频处理)

声音相关任务

语音识别(ASR)、音频分类、语音合成(TTS)

Tabular

(表格数据)

结构化数据任务

RL
(强化学习)

智能决策任务

游戏 AI、机器人控制

1.3. 模型量化与蒸馏

模型量化(Model Quantization)与模型蒸馏(Model Distillation)是两种用于优化和压缩深度学习模型的关键技术,旨在解决大模型在计算资源、存储空间和推理速度方面的挑战。

特性

模型量化

模型蒸馏

核心思想

降低模型参数的数据精度(如FP32 → INT8)

将大模型(教师)的知识迁移到小模型(学生)

主要目标

减小模型体积,加速推理

模型压缩,保持性能

操作对象

模型的权重和激活值

教师模型的输出(软标签)和学生模型的结构

优势

显著减少存储和内存占用,利用硬件加速低精度计算

学生模型更小、更快,同时能保留教师模型的大部分精度

挑战

可能引入量化误差,导致精度下降

训练过程复杂,对超参敏感,教师模型的选择影响大

2. 基础设施层

在IaaS层面来看,大模型服务可通过三种计算产品,提供服务。

2.1. os

大模型服务以进程方式,运行于OS上

2.2. 虚拟机

GPU/VGPU 虚拟机,大模型服务运行于虚拟机之中

2.3. 容器

GPU/VGPU 容器,大模型服务运行于容器之内

3. 后端推理引擎

简单来说,大模型的 “训练” 是 “学会能力”,而 “推理” 是 “运用能力”,推理引擎就是让模型 “用好能力” 的工具。推理引擎是连接 “预训练大模型” 与 “实际应用” 的核心桥梁, 它解决了 “训练好的模型如何高效、低成本、稳定地生成结果” 的关键问题。主流的推理引擎有vLLM、Ollama、SGLang、MindIE(昇腾推理引擎)等

3.1. 提升推理速度,满足实时需求

大模型(尤其是 10B 参数以上的模型)直接运行时,会因计算量巨大导致响应缓慢(比如生成一句话要等 5 秒),而推理引擎通过底层优化,大幅提升 “模型计算效率”,满足实际应用的 “实时性要求”。

  • 关键优化手段
  1. 计算并行化:将模型的计算任务拆分到多个 GPU/CPU 核心,比如把 Llama 3 70B 模型的不同层分配给 8 张 GPU,同时计算,避免单卡 “算力瓶颈”;
  2. KV 缓存复用:对话场景中,前一轮的 “上下文信息(KV)” 无需重复计算,推理引擎会缓存这些数据,比如多轮聊天时,第 2 轮仅需计算 “新输入的文本”,响应速度提升 3-5 倍;
  3. 算子优化:替换模型中低效的计算逻辑(如 “矩阵乘法”),用 GPU 专用的高效算子(如 CUDA 核心优化的算子),例如 vLLM 的PagedAttention技术,让 Llama 3 7B 的推理速度比原生 PyTorch 快 10 倍以上。

3.2. 降低资源消耗,控制成本

大模型运行需要大量算力(GPU/CPU)和显存,直接运行会导致 “资源浪费”(比如显存占用过高,一张 A100 只能跑 1 个模型),推理引擎通过 “资源压缩” 和 “动态调度”,大幅降低部署成本。

  • 关键优化手段
  1. 模型量化:将模型参数从 “高精度(FP32/FP16)” 压缩为 “低精度(INT8/INT4)”,比如把 Llama 3 70B 的显存占用从 140GB 降到 40GB,让一张 A100 能同时跑 2 个模型;
  2. 显存动态管理:像操作系统管理内存一样,实时回收 “暂时不用的计算数据”,比如 Ollama 的MXFP4量化技术,让 16GB 显存的笔记本能跑 20B 参数的模型;
  3. 批处理(Batching):将多个用户的请求 “打包计算”,比如 100 个用户同时问问题,推理引擎会合并成一个 “批处理任务”,GPU 利用率从 30% 提升到 90%,间接降低单请求成本。

3.3. 解决“兼容性与扩展性”

实际应用中,模型需要应对不同的 “硬件环境”(GPU/CPU/ 边缘设备)、“模型格式”(Hugging Face/.gguf)和 “功能需求”(流式输出 / 工具调用),推理引擎通过 “多维度适配”,让模型能在各种场景落地。

  • 关键适配能力
  1. 跨硬件兼容:支持 GPU(NVIDIA/AMD)、CPU(x86/ARM)、边缘芯片(如 NVIDIA Jetson),比如 Ollama 可在树莓派(ARM 架构,4GB 内存)上跑 Phi-2 模型;
  2. 多模型格式支持:兼容主流模型格式,比如 vLLM 支持 Hugging Face 的.safetensors,Ollama 支持轻量化的.gguf,无需用户手动转换格式;
  3. 功能扩展:满足复杂场景需求,比如支持 “流式输出”(边生成边返回,像 ChatGPT 一样)、“工具调用”(让模型调用 API / 代码)、“长上下文处理”(比如处理 16k tokens 的文档问答)。

3.4. 简化部署,降低技术门槛

普通开发者 / 企业缺乏大模型部署的技术能力(如不懂 CUDA、分布式计算),推理引擎通过 “封装底层细节”,提供简单的接口和命令,让 “零技术基础” 也能快速部署模型。

  • 关键简化手段
  1. 低代码 / 无代码部署:用简单命令启动模型,比如 Ollama 只需ollama run llama3,就能在本地启动 Llama 3 8B 模型,无需配置CUDA/PyTorch;
  2. 标准化接口:提供 OpenAI 兼容的 API,比如 vLLM 的接口可直接替换 ChatGPT 的 API,现有应用无需修改代码就能切换模型;
  3. 容器化支持:支持 Docker 部署,一键打包模型和推理引擎,避免 “环境依赖冲突”(比如不同版本的 Python 库)。

4. 大模型训练与微调框架

大模型微调(Fine-Tuning)是在 “预训练大模型” 基础上,用少量 “特定场景数据” 进一步训练,让模型适配具体需求的过程。简单来说,预训练大模型是 “掌握通用知识的通识人才”,微调就是给它做 “专业技能培训”,让它从 “什么都懂一点” 变成 “在某件事上做得特别好”。

应用场景

推荐框架

核心优势

个人开发者实验

Unsloth、

Hugging Face PEFT

显存优化极致,支持消费级 GPU,提供 Colab 脚本。

中小企业垂域适配

LLaMA-Factory

Xtuner

零代码 / 低代码,支持国内模型,显存需求低。

多模态复杂任务

MS-Swift

Xtuner

支持图文 / 视频 / 音频混合训练,内置多模态数据集模板。

超大规模模型训练

DeepSpeed

MindSpeed-LLM

千卡集群扩展,国产化硬件适配,支持 MoE 模型。

学术研究与算法创新

Hugging Face PEFT

Axolotl

灵活性高,可复现性强,支持自定义目标模块和优化器。

5. Agent 智能体开发平台

对比维度​

​Coze (扣子)​

​Dify​

​MaxKB​

​FastGPT​

​核心定位​

低代码/无代码AI智能体(Bot)开发平台

开源LLM应用开发与运维(LLMOps)平台

开源知识库问答系统

轻量级RAG对话系统

​核心优势​

上手极快,生态丰富,与字节系产品深度集成

灵活性强,支持复杂工作流和私有化部署,开发者生态活跃

专注于知识库问答,企业级权限管理,开源免费

部署迅速,强调问答速度和效率

​技术架构​

云原生,模块化微服务(Go语言)

集成化平台(Python),支持Docker/K8s部署

企业知识管理架构,支持混合检索

微服务架构,DAG可视化引擎

​模型支持​

主要集成字节豆包等模型,国际版支持更多

支持极广泛的国内外主流模型

支持多种主流LLM

支持多种LLM,可深度定制

​知识库/RAG​

支持,功能较强

核心功能,提供高质量RAG引擎

​​核心功能​​,专注文档问答

​​核心功能​​,专注于高效RAG

​工作流/编排​

强大的可视化工作流

​​核心优势​​,支持复杂、灵活的工作流编排

具备工作流引擎

相对简单

​部署方式​

主要为云服务

​​支持私有化部署​​,灵活度高

​​支持私有化部署​​

​​支持私有化部署​​(如Docker)

​开源情况​

开源

​​开源​​

​​开源​​

​​开源​​

​理想场景​

快速搭建面向C端的对话机器人,如客服、运营助手

开发复杂、需深度定制的企业级AI应用,如风控、数据分析系统

构建专注于文档检索和问答的企业知识库或智能客服

需要快速部署一个轻量、高效的知识问答系统

Logo

更多推荐