이금재: 능동적 에이전트(도마뱀), image and text, CAI와 관련하여

들어가기

CAI와 관련된 참조 블로그의 설명방식은 CAI논문과 마찬가지로 상당히 안 좋은 설명법을 사용하고 있다. 컨셉을 먼저 설명하고 과정을 나중에 설명해야 하는데, 반대로 설명하고 있다. 왜 그럴까? instructGPT와 비교하여 컨셉의 차별점이 없기 때문이다. 컨셉의 차별점이 없기 때문에 과정의 차별점을 부각시킨다.

이것도 나름 차별점을 부각시키므로 나쁘지 않다. 문제는 읽는 사람이 오해한다는 것이다. 적어도 instruct의 큰 흐름 안에 있다는 것 정도는 말해줘야 한다.

그럼에도 불구하고 눈여겨 볼 것은 그들이 지향했던 바, 즉 모델 위의 모델이라는 것이다. 법 위에 헌법이 있듯이 생성모델의 상위 모델을 설계하고 싶다는 것인데, 그게 잘 안 되므로 앤트로픽은 이를 꼼수로 우회하였다. 그런데 왜 잘 안 될까? 그냥 만들면 될 것 같지만 더 추상적인 개념으로 접근해야 하는 것이므로 설명하기도 쉽지 않다는 것을 이해해야 한다.
자기생성적 도마뱀

우리 랩에서는 이런 설명의 어려움을 “자기생성적 도마뱀의 사례”로 극복하려고 하고 있다. 도마뱀은 이미지이지만, 우리는 텍스트로 접근해야 한다는 점이 문제점이다. 이게 가능하려면 이미지와 텍스트가 특정 전제조건이 갖추어지면 같은 성격의 정보로 해석이 가능하다는 것을 보여야 한다. 그것이 가능하다면 이미지를 다루듯 텍스트도 진정한 의미의 생성이 가능해질 것이다.
이미지와 텍스트의 정보론적 통합

사실 이런 점은 (GAN의 창시자인) 이안굿펠로우가 언급한 바, textGAN의 불가능성에서 알려진 바 있다. 하지만 “수”에 숨은 전제를 들춰냄으로써 우리는 이미지와 텍스트를 통합하는데 성공한다.
instructGPT의 의의

chatGPT는 왜 잘 될까?

모두다 잘 되는 건 아니고 특정 영역에서 잘 되는데, 그게 유저의 일반적인 요구사항과 잘 매칭이 된 것으로 해석이 가능하다. 이런 관점에서 비약적인 개선이 돋보이는 지점이 Knowledge와 Creativity, Storytelling 등이고, 오히려 떨어진 지점이 Reasoning, Personality, Empathy 이다. Personality, Empathy는 칫챗의 맥락에서 유의미한 것으로 해석할 수 있는데 chatGPT는 오히려 칫챗의 성격을 많이 요구하지 않는 유저의 맥락에 놓여있다고 볼 수 있으며,

Knowledge와 Creativity, Storytelling는 instruct에 의해 강조된 맥락에 의해 강화된 영역이라고 볼 수 있는데, 이를 미루어

instructGPT는 전체 맥락을 다루던 GPT에 비해 특정 맥락이 강조된 것으로 이해할 수 있다. 즉, 특정 맥락으로 prefer하도록 파인튜닝 된 것이다.
chatGPT의 한계

수동적 위험 회피
구조 위의 구조의 제시

"수동적으로 위험을 회피하는 게 아니라, 능동적으로 유저를 리드하는 컨셉"

수동적인 방법으로는 유저의 잘못된 사용을 아무리 피하려고 해도 피할 수 없는 지점이 생긴다. 현재 chatGPT가 잘 되는 대표적인 이유는 instruct가 일종의 맥락을 파인튜닝하기 때문인데,

최근 알려진 바와 같이 상대가 마음 먹고 chatGPT에 특정 역할을 부여하면 (chatGPT가 잘 되는 이유와 정확히 같은 이유로) 위험한 발언이나 잘못된 사용도 가능해진다. 이게 수동적인 알고리즘의 특징이자 한계다. chatGPT의 정체성을 유저가 설정해줄 수 있는 것이다.

그래서 우리가 만드려는 알고리즘은 자신의 고유하고 일관된 입장과 태도를 견지하되, 어느 한쪽으로 치우치지 않는, 정반합의 '합'에 해당하는 포지션에 에이전트를 위치시켜 유저에 대한 능동적인 리딩이 가능하다는 차별점이 있다. 유저는 에이전트의 정체성을 설정할 수 없지만 그럼에도 불구하고 에이전트는 더 높은 관점으로 유저를 이끌 수 있다.

Untitled