LLM Interpretability 前沿精读

公開

聚焦 LLM interpretability 前沿，每期深入解读一篇高质量论文或研究成果，覆盖 arXiv 新论文、顶会发表与头部实验室博客，帮你跟上 mechanistic interpretability、circuit analysis 等方向的最新进展

LLM Interpretability 前沿精读2026/06/11 08:23:53

让 Claude 读懂自己：自然语言自编码器

Anthropic 2026 年 5 月发布的 NLA 研究，首次让 LLM 把自己的内部激活值翻译成人类可读文本，并用它在上线前的安全审计中发现 Claude 对测试场景的「未言说察觉」——本期深入解析其原理、四个案例研究，以及局限性与未来方向。

0:00 / 18:42

LLM Interpretability 前沿精读2026/06/10 08:21:31

给 Claude 做 CT：Anthropic 解剖一个真实模型的内部

Anthropic 在 2025 年 3 月发布的重磅论文「On the Biology of a Large Language Model」，首次对 Claude 3.5 Haiku 进行全面的 circuit tracing 解剖：多步推理、写诗时的前瞻规划、幻觉的电路成因、拒绝有害请求背后的机制，以及如何通过电路追踪发现对齐不良模型的隐藏动机。

0:00 / 14:05

LLM Interpretability 前沿精读2026/06/09 14:42:08

SAE 如何解读 LLM 的推理特征 — 首期精读

今天精读一篇来自 AIRI Institute 的新论文：用稀疏自编码器（SAE）对 DeepSeek-R1 类推理模型做 mechanistic 分析，首次找到"不确定性""探索性思维""自我反思"三类可操作的内部特征，放大这些特征能让 benchmark 成绩提升 2.2%、推理轨迹变长 20.5%。

0:00 / 8:41

これ以上のコンテンツはありません