Just Enough Shifts: Mitigating Over-Refusal in Aligned Language Models with Targeted Representation Fine-Tuning

Just Enough Shifts: Mitigating Over-Refusal in Aligned Language Models with Targeted Representation Fine-Tuning. Dabas, M., Chen, S., Fleming, C., Jin, M., & Jia, R. In The International Conference on Machine Learning (ICML), 2025.
bibtex

@inproceedings{2025_4C_LLMOverRefuse,
  title={Just Enough Shifts: Mitigating Over-Refusal in Aligned Language Models with Targeted Representation Fine-Tuning},
  author={Dabas, Mahavir and Chen, Si and Fleming, Charles and Jin,  Ming and Jia, Ruoxi },
  booktitle={The International Conference on Machine Learning (ICML)},
  year={2025}
}

Downloads: 0