2026-01-19-大模型学习笔记（一）概述

大模型概述

大模型指参数规模很大、在大量数据上训练出来的模型,最常见的是大语言模型(LLM)。

当你输入一句话时,大模型本质上在做一件事:

根据上下文,预测下一个最合理的 Token 是什么。
这里可以先简单理解为: Token 就是模型眼中的"词或词的一部分"。

不断重复这个过程,就可以生成一整段看起来很自然的文本。

可以用一条非常基础的链路来理解:

语言
 ↓
Token(拆分)
 ↓
向量(数字化)
 ↓
模型计算
 ↓
预测下一个 Token

模型并不知道什么是"对"或"错", 它只是在选择概率最高的结果。