하지만, 최근에는 이처럼 인간의 전유물로 여겨졌던 언어를 인공지능도 이해하고 사용할 수 있어 보여서 놀라움을 안겨주고 있다. Open AI사에서 발표한 Chat GPT를 비롯해서 다양한 대규모 언어 모델(LLM, Large Language Model) 기반 채팅 시스템들은 인간의 언어를 찰떡같이 알아듣고, 그럴듯한 답변을 내놓는다. 이렇게 Chat GPT와 같은 채팅 시스템은 인공지능 기반 시스템이며, 더 세부적으로 표현하면 인공지능의 한 분야인 자연어처리 분야의 기술을 활용한다고 볼 수 있다. 자연어처리(NLP, Natural Language Processing)란 컴퓨터가 인간의 언어를 이해하여 처리할 수 있도록 하는 기술이다. 예를 들면, 흔히 사용하는 맞춤법 검사기, 자동 단어 완성, 자동 번역기 등이 이 분야에 속한다.
Chat GPT의 등장으로 인공지능에 대한 관심이 최근 급격히 커진 느낌이다. Chat GPT에서 사용하는 요즘의 대규모 언어 모델은 트랜스포머라는 딥러닝 구조에 기반한 언어 모델이지만, 이런 발전에 이르기까지 다양한 연구들이 시도되었다. 인공지능 관련하여, 굉장히 많은 정보가 쏟아져 나오는 요즘이지만, 본질적으로는 0과 1밖에 이해하지 못하는 컴퓨터가 인간의 언어라는 정보를 수치화하고, 계산해 내서, 인간처럼 언어를 이해하고 구사하는 것으로 보이는 것이다.
이번 연재들을 통해, 인공지능은 결국 사용자의 입력에 따라 적합한 결과를 출력하는 거대하고 복잡한 연산 수행 장치인데, 어떻게 인간의 언어를 이해하고 인간처럼 말하는 것으로 보일까에 대한 궁금증이 조금이나마 해소된다면 좋겠다. 통계적 언어모델부터 딥러닝 기반 언어 모델까지 몇가지 중요하다고 생각되는 자연어처리 기술을 소개해볼 예정이다. 조금 더 나아가, 나는 Chat GPT로 대체될 수 없는 나만의 고유한 언어모델을 가진 사람이다는 생각을 할 수 있게 된다면 글쓴이로서 성공이라고 생각한다.
여기서, 흔히 말하는 언어 모델이란 무엇일까? 인공지능에서 말하는 언어 모델이란, 단어의 나열에 확률을 부여하는 모델이다. 단어의 나열을 입력받으면 얼마나 자연스러운 문장인지에 대한 확률을 출력한다. 예를 들면 인공지능 언어 모델은 “학교에 읽다” 보다 “학교에 간다”라는 단어의 나열이 더 자연스러운 문장이라고 계산하여, 더 높은 확률을 내뱉는다. 뿐만 아니라, 언어 모델은 이전 단어들이 주어졌을 때, 가장 자연스럽다고 생각하는 다음 단어가 무엇인지 계산하여 문장을 생성해 낼 수도 있다.
인공지능이 언어 모델을 갖고 있듯이, 사람들도 각자의 언어 모델을 갖고 있다고 생각한다. 인공지능은 인간의 언어로 이루어진 데이터 기반으로 언어 모델을 학습하지만, 사람은 언어를 읽고 쓰는 행위 뿐만 아니라, 다양한 경험을 통해 언어를 배운다. 동일하게 한국어를 할 줄 알아도, 사람마다 자주 사용하는 단어, 말투가 다르다. 그렇기에 가끔씩 생각해 보게 된다. 나는 어떤 고유한 언어모델을 가진 사람일까? 나는 나도 모르게 어떤 말들을 내뱉는지, 무심결에 내뱉는 나의 말들에는 어떤 의미가 담겨있는지 말이다.