可视化展现大模型思考过程Anthropic开源归因图谱
Anthropic开源“归因图谱”,能追溯大模型的“思考”过程!
简单来说,归因图谱就是一张“流程图”。图上的一个个小点(节点)代表了模型处理信息时识别出的各种“特征”,而连接这些点的线(边)则表示这些特征之间是怎么相互影响的。
它能图形化地展示模型为了给出一个特定的答案,都走了哪些计算步骤。
来看两个官方示例,咱们一看就明白:
1. 两跳推理
当你问Gemma 2(2B 模型)“达拉斯所在州的首府是什么”时,模型需要先想一下:达拉斯在德克萨斯州,然后再推导出德克萨斯州的首府是奥斯汀。
归因图谱就能把这种“先想一步”的过程清晰地画出来。【图2】
2. 多语言回路
另一个例子是Haiku模型,当你用不同语言问它“小的反义词是什么”时,它内部处理问题的“回路”竟然非常相似。
这可能说明 Haiku 在理解问题时,不是死板地看语言本身,而是先转化成了一种“不分语言”的通用概念来识别。(英文:【图3】中文:【图4】法语:【图5】)
Anthropic 这次开源的工具,普通人也能上手试试看!
想简单体验一下的同学,可以直接去Neuronpedia网站。选择一个模型和预设问题或提出新问题,它就能帮你生成对应的归因图谱,交互式地探索这些图谱的奥秘。【图6】
如果你是研究人员或者对代码感兴趣,可以直接去代码仓库深入研究。总的来说,这次开源能帮助大家:
- 在你支持的模型上,生成自己的归因图谱,追踪模型的“思考回路”。
- 在交互界面上,更直观地查看、标记和分享这些图谱。
- 通过调整图谱中的特征值,看看模型输出会有啥变化,从而验证自己的想法。
来试试看吧!
Neuronpedia:
代码仓库: