Last updated on

时间线与结构同构:大脑的双系统和大语言模型为什么长得这么像

最近在读卡尼曼的《思考,快与慢》,读到第六章时突然意识到一件事:这本书出版于 2011 年,当时连深度学习的爆发都还没开始(AlexNet 2012),更不用说 GPT-1(2018)和 ChatGPT(2022)。卡尼曼写作时完全没有大语言模型的参照系,但他描述的人脑认知架构与 LLM 之间的相似度惊人。

这不太可能是巧合。

同构在哪里

在读完前六章后,我尝试用搜索空间的视角统一卡尼曼的双系统理论:

  • 系统 1(直觉/自动):弱搜索、大广度。同时扫描大量关联,不深入验证任何一条,但覆盖面极广。
  • 系统 2(理性/受控):强搜索、大深度。沿一条线路深入推理,但只能单线程运行。

这和 LLM 的推理策略直接对应:

人脑LLM
系统 1:根据上下文预测”下一个最可能发生的事”自回归预测:根据已有 token 序列预测下一个 token
系统 1 的因果直觉:输出置信度最高的一条因果链Greedy decoding:取概率最高的 token 直接输出
系统 2 的统计推理:同时维护多种可能性并评估概率Beam search / 采样:保留多条候选路径
系统 2 有容量上限(瞳孔可测量)Context window 有限,超出后信息被截断
认知放松 → 系统 1 主导 → 省力但易出错小模型 / 低算力推理 → 快但精度低
认知紧张 → 系统 2 介入 → 费力但准确大模型 / 慢思考(CoT)→ 慢但精度高
最省力法则:能不动脑就不动脑工程实践:能用小模型就不用大模型(路由策略)

更深一层:系统 1 的”编因果故事”和 LLM 的”取最高概率 token”是同构的简化策略——在有限资源下,都选择输出一个最大概率的结果而非维护完整的概率分布。系统 1 不具备统计推理能力,不是因为”选择了贪心策略”,而是”世界模型里根本没有’概率分布’这个概念”。

为什么会同构

我觉得有两个层面的解释:

1. 设计者复现了大脑的计算策略

LLM 的设计者(有意或无意地)在工程上复现了进化打磨出来的认知架构。自回归预测、注意力机制、上下文窗口——这些工程选择恰好和人脑的认知策略对应。

2. 约束优化下的最优解趋同

“在有限资源下对序列信息做预测”这个问题本身只有有限几种好的解法。大脑和 LLM 是两个完全独立演化的系统,但面对相似的约束条件(有限能量/算力、序列化输入、需要实时响应),它们独立收敛到了相似的方案。

这和自然界的规律一致:蜂巢的六边形、血管的分叉角度、鸟群的 V 字编队——不同系统在相同约束下,总会演化出相似的最优解。

但也有本质差异

  • 人的系统 1 无法关闭,LLM 的推理模式是被设计者选择性启用的
  • 人会”偷懒”——系统 2 能介入但经常选择不介入;LLM 没有主观意愿
  • 人的认知偏差是节能方案的副产品;LLM 的”偏差”来源不同(训练数据、RLHF、token 概率分布)
  • 最关键的:人的系统 2 有元认知(知道自己在费力),LLM 没有这种主观体验

所以这是功能层面的同构,不是机制层面的等价。人脑的双系统是进化压力下的能量优化方案,LLM 的架构是工程设计的产物。但正因为它们面对的底层问题相同——在有限资源下做序列预测——最终走向了相似的解法。

一个推论

如果这个同构成立,那么用 LLM 的概念去理解卡尼曼的理论就不是强行类比,而是在识别两个独立演化的系统之间真实的结构对应。反过来,卡尼曼对人脑认知偏差的分析,也可以帮助我们预测和理解 LLM 的行为特征——比如为什么 LLM 会”编故事”(hallucination),为什么给它更多”思考时间”(CoT)能提高准确度,为什么它在熟悉模式上表现好但在需要统计推理的问题上容易出错。

这些现象在卡尼曼的框架里早就有了解释,只不过他说的是人脑。