- 박범석: RLHF는 진정한 alignment를 수행할수 있을까? (RLHF로 LM을 통제할수 있을까?)
- 윤연호: 사람의 Preference를 활용하는 것이 여전히 괜찮은 방법인가?
- 노현호: LM는 reliable feedback으로 도약하는 방법이 있을까?
- 이금재: 라마2는 RLHF를 안전성과 유용성의 관점을 들어 적용했다는데
- 김지수: NLP 태스크로 Honesty, Toxicity, Bias 3가지로 평가했다고 하는데 추가적으로 고려해볼 수 있는 사항이 무엇일까?
- 김도균: PPO를 통한 RLHF는 아직 유효한 전략일까?
- 고유미: “Alignmnet tax”의 원인과 해결 방법은 무엇일까?
- 정신유: 사람이 가진 다양한 선호도를 Reward Model에 어떻게 골고루 반영할 수 있을까?
- 문준우: 인간의 의도대로 동작하는 인간보다 똑똑한 AI를 만드는 방법은?
- 장웅진: 현 RLHF의 한계점과 개선방안은 뭘까?
- 김수용