Finding Safety Neurons in Large Language Models

Finding Safety Neurons in Large Language Models. Chen, J., Wang, X., Yao, Z., Bai, Y., Hou, L., & Li, J. arXiv preprint arXiv:2406.14144, 2024.
bibtex

@article{chen2024safetyneurons,
  title={Finding Safety Neurons in Large Language Models},
  author={Chen, Jianhui and Wang, Xiaozhi and Yao, Zijun and Bai, Yushi and Hou, Lei and Li, Juanzi},
  journal={arXiv preprint arXiv:2406.14144},
  year={2024}
}

Downloads: 0