Interpretability | Yoav Gur-Arieh

Sep 29, 2025	Mixing Mechanisms: How Language Models Retrieve Bound Entities In-Context
Jan 18, 2025	Enhancing Automated Interpretability Pipelines with Output-Centric Feature Descriptions
Jan 17, 2025	Using Sparse Autoencoders for Knowledge Erasure