2026-01-19-大模型学习笔记(一)概述

大模型概述

一、什么是大模型

大模型指参数规模很大、在大量数据上训练出来的模型,最常见的是大语言模型(LLM)


二、大模型在做什么事

当你输入一句话时,大模型本质上在做一件事:

根据上下文,预测下一个最合理的 Token 是什么。

这里可以先简单理解为: Token 就是模型眼中的"词或词的一部分"

不断重复这个过程,就可以生成一整段看起来很自然的文本。


三、从语言到模型输出的完整流程

可以用一条非常基础的链路来理解:

1
2
3
4
5
6
7
8
9
语言

Token(拆分)

向量(数字化)

模型计算

预测下一个 Token

模型并不知道什么是"对"或"错", 它只是在选择概率最高的结果