Deliberative Alignment: Reasoning Enables Safer Language Models

Deliberative Alignment: Reasoning Enables Safer Language Models. Guan, M. Y., Joglekar, M., Wallace, E., Jain, S., Barak, B., Helyar, A., Dias, R., Vallone, A., Ren, H., Wei, J., Chung, H. W., Toyer, S., Heidecke, J., Beutel, A., & Glaese, A. CoRR, 2024.

Paper doi bibtex

@article{DBLP:journals/corr/abs-2412-16339,
  author       = {Melody Y. Guan and
                  Manas Joglekar and
                  Eric Wallace and
                  Saachi Jain and
                  Boaz Barak and
                  Alec Helyar and
                  Rachel Dias and
                  Andrea Vallone and
                  Hongyu Ren and
                  Jason Wei and
                  Hyung Won Chung and
                  Sam Toyer and
                  Johannes Heidecke and
                  Alex Beutel and
                  Amelia Glaese},
  title        = {Deliberative Alignment: Reasoning Enables Safer Language Models},
  journal      = {CoRR},
  volume       = {abs/2412.16339},
  year         = {2024},
  url          = {https://doi.org/10.48550/arXiv.2412.16339},
  doi          = {10.48550/ARXIV.2412.16339},
  eprinttype    = {arXiv},
  eprint       = {2412.16339},
  timestamp    = {Thu, 23 Jan 2025 00:00:00 +0100},
  biburl       = {https://dblp.org/rec/journals/corr/abs-2412-16339.bib},
  bibsource    = {dblp computer science bibliography, https://dblp.org}
}

Downloads: 0