RLHF | Notion

박범석: RLHF는 진정한 alignment를 수행할수 있을까? (RLHF로 LM을 통제할수 있을까?)
윤연호: 사람의 Preference를 활용하는 것이 여전히 괜찮은 방법인가?
노현호: LM는 reliable feedback으로 도약하는 방법이 있을까?
이금재: 라마2는 RLHF를 안전성과 유용성의 관점을 들어 적용했다는데
김지수: NLP 태스크로 Honesty, Toxicity, Bias 3가지로 평가했다고 하는데 추가적으로 고려해볼 수 있는 사항이 무엇일까?
김도균: PPO를 통한 RLHF는 아직 유효한 전략일까?
고유미: “Alignmnet tax”의 원인과 해결 방법은 무엇일까?
정신유: 사람이 가진 다양한 선호도를 Reward Model에 어떻게 골고루 반영할 수 있을까?
문준우: 인간의 의도대로 동작하는 인간보다 똑똑한 AI를 만드는 방법은?
장웅진: 현 RLHF의 한계점과 개선방안은 뭘까?
김수용