大模型概述
一、什么是大模型
大模型指参数规模很大、在大量数据上训练出来的模型,最常见的是大语言模型(LLM)。
二、大模型在做什么事
当你输入一句话时,大模型本质上在做一件事:
根据上下文,预测下一个最合理的 Token 是什么。
这里可以先简单理解为: Token 就是模型眼中的"词或词的一部分"。
不断重复这个过程,就可以生成一整段看起来很自然的文本。
三、从语言到模型输出的完整流程
可以用一条非常基础的链路来理解:
1 | 语言 |
模型并不知道什么是"对"或"错", 它只是在选择概率最高的结果。