LLM：token是什么？一文搞懂Token与上下文窗口，建议收藏！

本文详解LLM中的Token概念，包括定义、作用和最大限制。Token是模型处理文本的基本单位，通过tokenization转换为数字表示。文章重点探讨上下文窗口的重要性及其在AI应用中的作用，分析上下文质量对模型输出的影响，并介绍上下文工程概念。理解Token和上下文窗口是有效使用LLM的关键，对开发者优化AI应用具有重要意义。

我算是程序猿

1279人浏览 · 2025-11-02 09:00:00

我算是程序猿 · 2025-11-02 09:00:00 发布

LLM：token是什么？一文入门上下文窗口！

在日常使用AI的过程中，经常会出现一个问题：什么是tokens，为什么会有tokens限制，在开发agent的过程中，为什么要关注上下文的质量、容量和流程。这一切都和LLM的tokens紧密相关，理解tokens，就是入门LLM的重要步骤，对后续的开发和日常使用都会提升很多。高价值的tokens和流程编排，决定了在同样模型上的输出质量更高。

token是什么

定义：Token 是模型处理文本的基本单位，可以是单个单词、单词的一部分（例如子词）、字符或标点符号。

作用：Token 是将自然语言转换为模型可理解的数字表示的桥梁，帮助模型捕捉语言的结构和语义信息
最大tokens：最大标记是指模型在一次推理或输出中能够处理（输入和输出的总和）的最大Token数量

大型语言模型(LLM)不能真正理解原始文本，相反，文本被转换为称为token的数字表示形式，然后将这些token提供给模型进行处理。token代表模型可以理解和生成的最小意义单位，是模型的基础单元。根据所使用的特定标记化方案，token可以表示单词、单词的一部分，甚至只表示字符。token被赋予数值或标识符，并按序列或向量排列，并被输入或从模型中输出，是模型的语言构件。直观理解：
1 token ~= 4 chars in English
1 token ~= ¾ words
100 tokens ~= 75 words
1-2 句子 ~= 30 tokens
1 段落 ~= 100 tokens
1,500 单词 ~= 2048 tokens

将文本划分为不同token的正式过程称为 tokenization。tokenization捕获文本的含义和语法结构，从而需要将文本分割成重要的组成部分。
tokenization是将输入和输出文本分割成更小的单元，由 LLM AI 模型处理的过程。tokenization可以帮助模型处理不同的语言、词汇表和格式，并降低计算和内存成本，还可以通过影响token的意义和语境来影响所生成文本的质量和多样性。根据文本的复杂性和可变性，可以使用不同的方法进行tokenization。大模型基础组件 - Tokenizer - 知乎[1]

可以在GPT大模型提供的tokenized里感受tokenizer：Tokenizer - OpenAI API[2]

最大tokens

指模型在一次推理中能够考虑的最大Token数量，包含输入和输出的总和。
为什么要在AI问答的过程中关注上下文窗口的数据内容质量，原因是LLM的最大tokens是有限制的：
為什麼模型輸出的 token 通常都限制在 4000 個左右，但輸入現在卻增加到 100 萬個？ : r/LocalLLaMA[3]
Transformer 模型中增加一个 Token 对计算量的影响_transformer token-CSDN博客[4]
这个问题源于 LLM 注意力机制的工作方式，以及它们所训练的数据类型。注意力机制使用 K、V 和 Q 值的点积，将每个 token 与其他每个 token 进行比较。在技术上，transformer的限制，决定了计算量的复杂性。

1. 位置编码的范围：Transformer 模型通过位置编码（如 RoPE、ALiBi）为每个 token 分配位置信息，其设计范围直接限制模型能处理的最大序列长度。
1. 自注意力机制的计算方式：生成每个新 token 时，模型需计算其与所有历史 token（输入+已生成输出）的注意力权重，因此总序列长度严格受限。KV Cache 的显存占用与总序列长度成正比，超过窗口会导致显存溢出或计算错误。增加一个 Token 会导致自注意力机制的计算量增加 O(N^2)。这些增加会使得模型的计算复杂度和存储需求增加

上下文窗口

大型语言模型 (LLM) 的上下文窗口（或“上下文长度”）是模型在任何时候可以考虑或“记住”的文本量，以词元为单位。更大的上下文窗口使 AI 模型能够处理更长的输入，并将更多的信息整合到每个输出中。

因为Attention的计算量和内存需求都随着序列长度增加而成平方增长，所以增加序列长度很难。因此，在工程实践中，我们要200%关注上下文质量和流程管理编排。
用AI领域大佬的话：LLM就是在做成语接龙游戏，在工程实践中，大家可以考虑下怎么更好的玩LLM游戏。

缺陷：增加 LLM 的上下文窗口大小意味着更高的准确性、更少幻觉、更连贯的模型响应、更长的对话以及分析更长数据序列的能力提高。然而，增加上下文长度并非没有代价：它通常需要增加算力要求，导致成本增加，并且更容易受到对抗性攻击的影响

上下文示例

在很多工程领域，上下文可以更好的成为agent高效工作的必要内容：

1. 聊天机器人和虚拟助理：现代聊天机器人使用上下文窗口来保存对话历史。这使它们能够理解后续问题、回溯之前的内容，并提供更自然、更连贯的互动，避免重复或不相关的回复。谷歌的双子座（Gemini）等模式利用大型上下文窗口进行复杂的对话。
1. 用于金融预测的时间序列分析: 金融模型分析过去股票价格、经济指标或交易量在定义的上下文窗口中的序列，以预测未来的市场走势。金融领域中的 AI 通常依赖于经过精心调整的上下文窗口。
1. 预测文本算法（Predictive Text Algorithms）：当您在智能手机上打字时，键盘会根据其上下文窗口中的前导词建议下一个单词，从而提高打字速度和准确性。此功能是小型高效上下文窗口的直接应用。

上下文工程

Anthropic官方新发布智能体文章：Effective context engineering for AI agents，现在分享给大家。解决的问题是：如何在 LLM 固有的限制条件下，最大化这些 token 的效用，从而持续获得理想的结果。要有效地驾驭 LLM。
为了最好的利用大模型LLM，上下文工程是有必要且复杂精心设计的。后面会单独将Anthropic的上下文实践博客给大家讲解，很有价值。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新，更多的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

01.大模型风口已至：月薪30K+的AI岗正在批量诞生

在这里插入图片描述

2025年大模型应用呈现爆发式增长，根据工信部最新数据：

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K（数据来源：BOSS直聘报告）

70%企业存在"能用模型不会调优"的痛点

真实案例：某二本机械专业学员，通过4个月系统学习，成功拿到某AI医疗公司大模型优化岗offer，薪资直接翻3倍！

02.大模型 AI 学习和面试资料

1️⃣ 提示词工程：把ChatGPT从玩具变成生产工具
2️⃣ RAG系统：让大模型精准输出行业知识
3️⃣ 智能体开发：用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你：
✔️ 大厂内部LLM落地手册（含58个真实案例）
✔️ 提示词设计模板库（覆盖12大应用场景）
✔️ 私藏学习路径图（0基础到项目实战仅需90天）

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

ModelEngine社区

更多推荐

从崩溃到自愈：Temporal+MCP-Agent构建永不中断的AI工作流

你是否遇到过AI工作流执行到90%突然崩溃的绝望？训练了数小时的模型因服务器重启前功尽弃？团队协作时因某人未及时审批导致整个流程停滞？本文将展示如何通过Temporal与MCP-Agent的深度集成，彻底解决这些痛点，构建真正企业级的可靠AI工作流系统。读完本文你将掌握：- 3行代码实现工作流故障自愈- 零停机升级正在运行的AI任务- 跨团队协作的工作流信号机制- 从本地开发到生产集群