【"下一token预测”的迷思:我们真的理解LLM在做什么吗?】一条简单的推文引

爱生活爱珂珂 2026-01-02 12:06:21

【"下一token预测”的迷思:我们真的理解LLM在做什么吗?】一条简单的推文引发了一场关于LLM本质的激烈讨论:它们真的"只是在预测下一个token"吗?表面上看,这个描述没错。但这种说法就像说"人脑只是在放电"一样,技术上正确,却完全错失了重点。几个值得深思的视角:1. Token不只是一半个词,而是承载着多层抽象概念的载体。真正的重活在于理解"token究竟是什么"。2. 预测下一个token时,模型其实在估算整个序列的最可能走向——可能是1个token,也可能是1000个,可能包含推理步骤,也可能不包含。3. 关键洞察:它们在"非常远地向前思考"以获得那个下一个token。这才是大多数人忽略的地方。4. Anthropic今年早些时候的诗歌规划研究表明,用"选择"而非"预测"来描述推理过程更为准确。5. 有人一针见血:人类不也是在"预测下一个token"吗?理解需要付出努力。当我们回避这种努力时,观点就会取代学习。如果不去真正理解AI的运作方式,我们就只能依赖他人的说法,无法分辨真伪。"只是预测下一个token"这句话,既是事实,也是最大的误导。x.com/ZachWarunek/status/2006520699444510890

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注