최첨단 AI 자연어 처리 모델의 등장
8월18일자 포춘 지 블로그에 “AI가 시를 이해할 수 있을까”라는 기사가 눈에 띈다. 최근에 AI 중에 눈에 띄는 발전을 보이는 분야는 자연어 처리 분야이다. 정확히는 언어 모델이라는 분야인데 이전까지는 불가능하다고 생각되던 부분이 최근 몇 년간에 눈부신 기술의 발전으로
인해, 이제 보다 커다란 그림으로 우리 앞에 성큼 다가오고 있다.
그동안 인공지능(AI) 자연어 처리(NLP)에서 가장 화제가 되고 있는 플랫폼으로는
구글의 양방향 언어모델 버트(Bert), OpenAI의 단방향 언어모델 GPT-2, 기계신경망 번역(Transformer) 모델
등이었는데 올해 5월28일에 개방형 arXiv 에 31명의 OpenAI 연구자들이
GPT-3 라는 3세대 언어예측모델을 발표하면서 세간의 주목을
끌기 시작했다. 주변에서 개발자들만 이러한 용어에 익숙해왔는데 GPT-3
라는 용어를 최근 뜻하지 않은 주변 인물들로부터 듣고있다.
OpenAI 는 2015년 테슬라 CEO 엘론 머스크와 전 Y콤비네이터 대표였던 샘 앨트만이 설립한 비영리
및 영리 기업이다. 엘론머스크는 2018년 이사회에서 탈퇴하고
기증자로 남아있고 2019년에는 마이크로소프트가 1조원을
투자한 바 있다. 구글이 인수한 DeepMind 와 경쟁하고
있다고 볼 수 있다.
새로운 언어 모델의 특징
GPT-3의 특징은 사람이 한 두 줄 정도의 문장을 던져주면, 사람이 적은 것인지 분간이 안 될 정도의 논리 정연한 장문을 만들어 낸다는 점이다.
사전 학습된 변역 (Pre-trained Transformer), 이게 무슨 말인고 하니, 예전에는
입력되는 순차적인 언어들을 차례로 훈련시켜 어떤 단어가 신경망에 입력되었을 때, 그 다음에 어떤 단어가
올 것인가 등등을 예측했다면, 번역(transformer)모델이라는
것은 통째로 책이나 웹에 있는 초대형의 문장 세트를 엄청난 컴퓨터용량에 한꺼번에 훈련시켜서 사전에 만들어 놓은 것을 말한다. 이 모델 에다가 API(응용 프로그램 인터페이스)를 제공하여 사용자들이 거의 모든 영어와 관련된 작업을 범용적으로 문자를 입력하면 이 훈련된 모델의 성능을 그대로
사용한 결과를 얻을 수 있게 만들었다는 것을 뜻한다. 뒤에 몇가지 예제를 살펴보겠다.
전이 학습 (Transfer Learning)
우선 Keras 의 from keras.applications.vgg16 import
VGG16 문을 선언해 줌으로써 VGG16 모델이 로드 되고 아래 그림 1과 같이 입력 shape 를 맞춰주고 모델을 로드하면 된다.
(그림 1. Keras 를 이용한 Pre-trained 모델 사용 예)
그동안 이미지 분류 분야는 이러한 전이 학습이 고성능으로 사전 훈련된 모델의 가중치모델을 가져다가 적용하여 발전할 수 있는 계기가 되어왔지만 자연어처리분야는 이러한 사전 훈련 모델이 부진했는데 이제 이런 사전 훈련 모델을 통해 상용화를 가속화할 수 있는 단계로 접어들었음을 의미한다.
AI 자연어처리의 발전
AI를 이용한 자연어처리를 이해하기 위해 Word2vec, Skip Gram, RNN, Bi-LSTM, GRU 같은 선행 기술들을 알고 있으면 좋지만, 빠르게 진화하고 있는 기술은 어쩌면 과거와의 단절을 통해 패러다임을 변화하는 지도 모른다. 그 변화의 신호탄이 이 논문 이었고 이전의 recurrent neural network모델을 쓰지 않고 encoder-decoder 기반의 attention 만으로 이전의 문제점들을 극복해 낸다는 논문을 발표한다. 아래 그림2는 Transformer 의 구조이고 Bert 는 Transformer 의 인코더-디코더 모델 중에 인코더 만을 사용한다.
GPT-3 적용 예
(그림 3. GPT-3의 코로나 관련 대화)
미 버클리 대학생 리암 포어가 GPT-3를 사용해 작성한 블로그 게시물이 IT뉴스 큐레이팅 플랫폼인 해커뉴스에서 1위를 차지했다고 한다. 8월19일 뉴스.
(그림 4. GPT-3 가 생성한 뉴스)
Casetext 라는 법률회사는 소송이 있을 때, 미국의 관습법 전체를 훈련 받은 GPT-3 가 일반 문장으로 질의를 던졌을 때, 예를 들어, 같은 개념에 대하여 다른 언급이 있었던 결과를 찾고자 할 때 사용한다고 한다.
(그림 5. Casetext 사의 GPT-3을 이용한 검색 창)꽤 전문적인 의학 지식도 답을 할 수 있다. 아래 굵은 글씨가 GPT-3 가 생성한 결과이다.
(그림 6. GPT-3의 의학 관련 문제의 답)
자 이제 GPT-3 가 시를 작성한 예를 보자. AI 로 시를 생성하는 결과를 실험을 하는 사이트에 있는 T.S. Eliot 의 Hollow Man 이라는 시에 대한 GPT-3 가 생성한 시 에 대한 평가는 다음과 같다.
원작의 변형에 불과하다. 원작의 서정성과 음률이 없어 이 시의 영혼을 잃어버렸다. 아름다움은 비논리적인 영역으로 정보로서 코딩 될 수 없다. 대상에
대한 지향성의 경험은 컴퓨터 정보에는 획득될 수 없지만, 우리의 마음은 완벽하게 우리 자신들을 위해
‘코딩’ 할 수 있다.
결언
앞의 예에서 살펴본 데로, 무엇보다도
GPT-3의 장점은 영어로 되는 모든 작업에 적용할 수 있고 인공지능 전문 지식이 없어도 문자를 인공지능에
입력할 수만 있다면 처리 결과를 받아 볼 수 있다는 놀라운 범용성이다, 다양한 작업에 GPT-3 모델을
사용하기 위해 경사도 / 매개 변수 업데이트를 수행 할 필요가 없다고 한다. 무슨 말인가 하면, 작업 별 모델 아키텍처가 필요하지
않을 뿐만 아니라 대규모 사용자 지정 작업 별 데이터 집합 이 필요하지 않다는 개념이다. 이점은 최첨단 NLP 로 나아가는 큰 단계로 생각된다.
그러나 전작 GPT-2 가
소설 작성과 더불어 가짜 뉴스 생성의 이슈로 인해 모든 사람에게 개방하는 것에 조심스러운 입장인 OpenAI 의
입장을 생각하면, 누구나가 쉽게 접근할 수 있을지는 아직 모르겠다.
OpenAI는 비영리법인인 OpenAI inc 와 영리법인인 OpenAI LP를 따로 가지고 있다. 아마도 영리법인을 통해 기업
고객들에게 서비스하지 않을 까 하는 관측이 나오고 있다.
한글이 전세계가 사용하는 영어에 비해 규모의 경제에서 열세인 상황에서
GPT-3 에 필적할 성능을 구가하는 언어 모델의 탄생을 기대할 수 있을까 하는 생각이 들었다. 점점 AI가 국가별 패권주의로 치닫는 환경에서 우리도 대비를 해야겠다.
댓글 없음:
댓글 쓰기