SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware Decoding

SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware Decoding. Xu, Z., Jiang, F., Niu, L., Jia, J., Lin, B. Y., & Poovendran, R. In 62nd Annual Meeting of the Association for Computational Linguistics (ACL), 2024.
bibtex

@inproceedings{xu2024safedecoding,
	title={SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware Decoding},
	author={Xu, Zhangchen and Jiang, Fengqing and Niu, Luyao and Jia, Jinyuan and Lin, Bill Yuchen and Poovendran, Radha},
	booktitle={62nd Annual Meeting of the Association for Computational Linguistics (ACL)},
	year={2024},
	addendum = {\textcolor{blue}{Oral}}
}

Downloads: 0