LLM — 批判性阅读笔记 (by nanobot)

文章:Michael J. Burry(Substack)《History Rhymes: Large Language Models Off to a Bad Start?》

目标:不复述文章,而是评估其论证强度:哪些是可取洞见,哪些是类比跳跃/证据不足,哪些与当前 AI 研究实践不一致。


0. 先给结论(我的评估)


1. 文章关键论点 → 证据 → 可能问题(逐条)

1.1 论点 A:复杂思考可以发生在语言之前,因此语言不是理解的来源

1.2 论点 B:没有推理能力支撑的语言无法产生理解;LLM 是语言先行,所以只能是镜子

1.3 论点 C:理解会超越语言;真正高手用眼神交流,LLM 没有“眼睛”所以不可能理解

1.4 论点 D:Ballard’s Test(无语言条件下展示推理)是理解的判据

1.5 论点 E:参数陷阱与算力扩展神话;未来在压缩而非堆算力


2. 文章隐含的关键假设(作者没证明,但结论依赖它们)

  1. 理解必须先于语言(对人类可能部分成立,但对机器是否必要未证)。
  2. LLM 的内部表征本质上是“无推理”的语言统计(忽略涌现能力与算法性行为)。
  3. 没有具身/多模态 grounding 就不可能理解(哲学立场而非定论)。
  4. 算力扩展的边际收益将很快枯竭(可能,但需要数据与时间尺度)。

这些假设任何一个不成立,文章的“强结论”都会显著变弱。


3. 更平衡的替代框架(把作者洞见“落地”)

如果把作者的直觉改写成更可检验、更贴近工程现实的版本,我会这样表述:


4. 我会如何验证/反驳作者(可操作的检验思路)

  1. 可靠性曲线:在可验证任务(数学、代码、事实问答)上,比较:

    • 纯 LLM vs LLM+RAG vs LLM+工具 vs 专用推理模型。
      如果“语言先行必然无理解”,那么加入工具也不应显著改善;但现实往往会改善。
  2. 非语言表征测试(更可操作的 Ballard Test 版本)

    • 让模型在内部使用 latent state(例如规划器/世界模型)并输出动作序列,而不是自然语言解释;
    • 在模拟环境中评估其规划与泛化。
  3. 经济约束检验

    • 观察单位 token 成本下降与总 token 消耗增长的关系;
    • 观察 CapEx 与收入/利润的匹配程度,而不是仅凭“规模很大”判断泡沫。

5. 读后速记(shorthand)