글: 서성재 학생기자 sj.seo@kaist.ac.kr, 사진: shutterstock
영화 ‘아이언맨’의 주인공, 토니 스타크에게는 특별한 비서가 있다. 바로 저택 관리부터 전투 보조까지 못 하는 게 없는 인공지능 비서 ‘자비스(J.A.R.V.I.S.)’다. 영화를 본 사람들이라면 저런 인공지능 하나쯤 있었으면 좋겠다고 생각해보았을 것이다. 어쩌면 공상에 불과했던 영화 속 이야기가 현실이 될지도 모른다. 2022년 11월 30일, 인공지능회사 OpenAI에서 공개한 대화형 인공지능 서비스 ‘ChatGPT’가 그 주인공이다. 출시 4일 만에 이용자 수만 100만 명, 2개월 만에 1억 명을 돌파하고 하루 1500만 명 이상이 사용해 화제의 중심이 된 ChatGPT는 나만의 똑똑한 친구처럼 대화하듯이 질문에 답변해준다. 과연 ChatGPT는 인간과 같은 지능을 가졌을까? ChatGPT에 대해서 파헤쳐보자.
GPT는 OpenAI가 개발한 트랜스포머 기반의 대형 언어 모델(LLM)이다. 트랜스포머는 크게 인코더와 디코더로 구성된 인공신경망 알고리즘으로, 문장 속 단어와 같은 순차 데이터 내의 관계를 추적해 맥락과 의미를 학습한다. 2017년에 발표된 이후 지금까지 개발된 모델 중 가장 강력한 성능을 보여주며 인공지능 분야의 새 장을 열었다는 평가를 받고 있다. GPT는 트랜스포머의 디코더를 사용해 만들어졌다. 특히 3세대 모델인 GPT-3는 1750억 개의 매개변수를 기반으로 한 언어 모델이자 텍스트 파일 45TB을 학습한 것으로 알려져 그 규모만으로도 이목을 끌었다. 그러나 고품질의 답변을 준다는 장점이 있는 반면, 여기에 학습된 자료 대부분은 인터넷에서 가져왔기에 폭력성, 선정성 등이 담긴 해로운 응답을 할 수도 있다는 문제점이 있었다. 인간이 직접 학습의 방향성을 정해줄 필요가 생기자, OpenAI 연구팀은 인간 피드백형 강화학습(RLHF)을 도입하였다. RLHF는 강화학습 알고리즘 중 하나로 강화학습 모델이 내놓은 행동에 대해 어떤 행동이 좋은 결과인지 사람이 랭킹을 매겨 보상 모델을 학습하는 알고리즘이다. 현재 일반인들이 체험하는 ChatGPT는 RLHF를 적용한 GPT-3.5에 안전성까지 추가하여 만든 모델이다. 지난 3월 14일에는 더욱 많은 데이터를 학습한 GPT-4가 공개됐다.
ChatGPT의 학습 과정을 요약한 그림. ©OpenAI
ChatGPT 같이 고도화된 인공지능이 개발된 데는 기계학습의 한 갈래인 강화학습이 큰 영향을 끼쳤다. 강화학습이란, 모델이 선택 알고리즘을 토대로 결정한 행동을 환경에 알려주면 환경이 이에 대한 보상을 지급하는 순환과정을 통해서 최적의 결과가 나오도록 학습하는 알고리즘을 의미한다.
이 말이 어렵다면 GPT를 여기에 대응시켜보자. 사용자가 명령창에 문장을 입력하면, GPT는 입력된 문장(환경)을 인식하고 학습된 모델을 기반으로 답변을 생성한다. 이때 답변이 잘 형성되었고 유의미하다면 보상을 받는다. 이 보상이 최대화되도록 GPT가 학습을 진행하며, 이를 위해 특정 행동을 했을 때 예상되는 보상의 기댓값을 의미하는 가치함수를 사용한다.
그렇다면 항상 가치함수가 최대가 되는 다음 행동을 선택하면 되지 않냐고 생각할 수 있지만, 여기에는 문제점이 있다. 체스를 생각해보자. 체스는 상대방의 킹을 공격하면서 어떻게든 체크를 벗어날 수 없도록 막는 체크메이트가 승리 조건이다. 내 차례에서 상대의 기물을 즉시 잡을 수 있는 상황에 놓였다고 가정해보자. 만약 다음 차례에서 가치함수가 최대인 행동을 선택하는 모델이라면 눈앞의 기물을 잡는 것을 마다하지 않을 것이다. 하지만 그 행동이 상대가 기물을 희생하면서 만든 함정이라면 어떨까? 그 행동으로 상대의 수에 말려드는 셈이다. 그러므로 모델은 최종결과에서의 보상이 가장 큰 경우를 선택하도록 학습되어야 한다. 이를 각각 ‘즉각보상’과 ‘지연보상’이라고 하며, 좋은 선택을 하려면 둘을 잘 고려해 알고리즘을 설정해야 한다. 대표적인 알고리즘으로는 미리 정의된 어떤 확률 분포를 따라서 상태와 상태 사이를 이동해 다니는 ‘마르코프 의사 결정 과정’을 들 수 있다.
이미 분류된 데이터를 이용하여 새로운 값을 입력했을 때 적절한 출력을 기대하는 지도학습, 미분류된 데이터의 구조를 찾는 비지도학습과는 달리, 강화학습은 환경과의 상호작용에서 얻은 보상을 토대로 학습하고 이를 최대화하는 것이 목표다. 또 자가 학습으로 새로운 규칙을 만들 수도 있다.
그러나 여기에는 학습에 실패할 수 있다는 문제점도 있다. 기계학습 자체가 주어진 수식이 없이 데이터를 통해서 위의 수식들을 추론하는 일종의 도구다. 그런데 강화학습에 사용한 데이터의 무작위성이 높다면 현재 상태와 다음 상태의 가치함수 간의 관계를 추론하는 과정이 의미가 없어지고, 이는 학습의 실패를 의미한다.
이전에도 심심이, 이루다와 같이 AI 챗봇은 많았다. 하지만 본인이 입력한 채팅의 의도를 파악하지 못하고, 그럴싸한 문장만 답장받은 경험이 있을 것이다. 사람과의 소통에서 내놓은 답변은 상대를 만족시켜야 한다. 타 챗봇과 ChatGPT의 차별점은 인간의 가치를 담을 수 있는 알고리즘인 ‘RLHF’의 적용에서 나온다. RLHF는 기본적인 언어 모델을 만들고, 사람들의 피드백 데이터를 사용하여 보상 모델을 학습한 후에 이를 강화학습 알고리즘으로 조율하는 과정을 거친다. 사람들이 선호하는 결과를 랭킹화한 데이터를 보상 모델이 학습하는 과정에서 사람이 더 만족할 만한 답변의 방향을 설정하는 것이다.
그러나 RLHF에도 한계점은 존재한다. 사람들은 각자 선호도가 다르다. 선호도 라벨링을 위해 투입된 사람들 사이에서 나오는 의견 차이가 보상 모델에서도 드러난다. 또 선호도를 라벨링하여 데이터셋을 확보하는 과정에서도 인력이 많이 투입돼 비용이 많이 든다.