‘GPT-5’를 기다리며: GPT 발전 역사 돌아보기

24. 6. 7.About 2 minOpenAIChatGPTAIArticle(s)blogyozm.wishket.comaiopenaichatgpt

‘GPT-5’를 기다리며: GPT 발전 역사 돌아보기 관련

‘GPT-5’를 기다리며: GPT 발전 역사 돌아보기 | 요즘IT

인공지능 기술은 우리 삶과 사회에 혁명적인 변화를 불러왔으며, 그중 하나가 GPT(Generative Pre-trained Transformer)입니다. GPT는 인공지능 연구의 한 분야인 자연어 처리를 기반으로 한 인공지능 모델로, 사람처럼 언어를 이해하고 생성할 수 있습니다. GPT의 버전 업그레이드는 AI 연구의 최신 동향과 성과를 반영하면서, 개발자들이 더욱 정교하고 다양한 자연어 처리 능력을 사용할 수 있도록 도왔습니다. 이번 글에선 지금까지 GPT가 발전해 온 역사를 살펴본 후, 2024년 하반기 새롭게 출시될 GPT-5 버전도 전망해 보고자 합니다.

<출처: <VPIcon icon="fas fa-globe"/>Unsplash, <VPIcon icon="fas fa-globe"/>Jonathan Kemper> — <출처: Unsplash, Jonathan Kemper>

GPT는 OpenAI가 개발한 일련의 언어 모델들을 지칭합니다. 이 모델들은 대규모 텍스트 데이터를 바탕으로 사전 훈련(pre-training) 되었으며, 특정 작업에 맞춰 미세 조정(fine-tuning)을 통해 성능을 극대화합니다. 그 결과로 다양한 자연어 처리 작업에 활용될 수 있으며, 이런 특성으로 문맥에 맞는 새로운 텍스트 생성, 문장의 요약, 다국어로의 번역, 질의응답, 감정 분석 등 다양한 자연어 이해 및 생성 작업에 사용될 수 있습니다. 현재까지 여러 버전의 GPT가 개발되었으며, 최신 버전은 GPT-4입니다.

우리가 잘 알고 있는 ChatGPT는 2022년 11월에 GPT-3.5 기반으로 최초 공개되었고, 현재는 GPT4까지 업데이트된 대화형 애플리케이션입니다. 화면 너머 상담을 해주는 사람과 대화하듯 자연스러운 질문과 답변을 주고받을 수 있고, 단순한 정보 제공뿐만 아니라 창작물을 만들어냅니다. 또한 프로그래밍 코드까지 요구사항에 맞게 만들어 주면서 세상의 이목을 끌었습니다.

GPT 버전이 의미하는 것

GPT 같은 인공지능 모델의 버전업은 몇 가지 주요 요인에 따라 결정됩니다. 이러한 업그레이드는 주로 기술적 진보, 사용자 피드백, 그리고 시장의 요구에 반응하여 이루어집니다. 구체적으로는 다음과 같은 이유가 있습니다.

성능 향상: 더 정확하거나 자연스러운 대화를 위해 알고리즘을 개선하거나 모델을 더 큰 데이터 셋으로 훈련
새로운 기능 추가: 사용자의 요구나 시장의 변화에 맞추어 새로운 기능을 추가하거나 기존 기능을 개선
버그 수정: 사용 중 발견된 오류나 문제를 수정
보안 강화: 보안 취약점을 해결하거나 데이터 보호를 강화하는 업데이트 수행

근간의 버전들을 비교하면 다음과 같은 특징이 있는데요. 어떤 콘텐츠 유형까지 지원하는지, 문맥의 길이, 입출력 토큰 수에 따른 비용 등의 차이를 보입니다.

GPT 버전별 비교 <출처: <VPIcon icon="iconfont icon-openai"/>OpenAI , 작가 캡처> — GPT 버전별 비교 <출처: OpenAI , 작가 캡처>

버전업에는 대체로 메이저 버전 업그레이드와 마이너 버전 업그레이드 이렇게 두 가지 유형이 있습니다. 메이저 버전 업그레이드는 상대적으로 큰 변화를 도입하는 업데이트입니다. 이는 보통 새로운 기능의 추가, 아주 큰 성능 향상, 또는 모델의 아키텍처를 크게 변경하는 경우에 해당합니다. 메이저 업그레이드는 사용자가 모델을 다르게 사용해야 할 수도 있으며, 기존 시스템과의 호환성 문제가 발생할 수도 있습니다.

반면 마이너 버전 업그레이드는 보통 기존 버전을 개선하는 데 집중합니다. 이는 성능 개선, 보안 업데이트, 버그 수정 등을 포함할 수 있으며, 기존의 사용 방식이나 호환성에 큰 영향을 미치지 않습니다. 사용자는 일반적으로 마이너 업그레이드를 통해 더 안정적이거나 향상된 기능을 경험할 수 있습니다. 각 업그레이드는 사용자 경험을 향상하고, 기술의 최신 트렌드에 맞춰 발전하는 것을 목표로 합니다.

또한 GPT 버전은 주로 모델의 크기와 성능을 나타냅니다. 당연하지만 더 높은 버전은 더 많은 매개변수와 더 뛰어난 성능을 가집니다. 새로운 버전은 이전 버전보다 더 큰 언어 모델이거나, 새로운 기능, 개선된 학습 방법 등을 포함할 수 있습니다. 예를 들어, GPT-4는 이전 버전인 GPT-3보다 훨씬 큰 모델이며, 더 많은 매개변수와 더 나은 성능을 제공합니다.

GPT의 버전별 특징

이번엔 2018년부터 발표된 GPT의 각 버전별 특징을 알아보겠습니다.

GPT-1

트랜스포머 아키텍처가 개발된 후 2018년 중반 OpenAI는 첫 생성형 사전 학습 트랜스포머 모델 기반의 GPT-1을 소개했습니다. GPT-1 이전에는 자연어 처리와 신경망 구축에 지도 학습(supervised learning)과 대량의 레이블링 된 데이터가 필요했는데요. GPT-1에서는 비지도 사전 학습 단계를 포함한 새로운 학습 프로세스를 제안했습니다. GPT-1은 크기가 작지만, 여러 자연어 처리 작업에서 놀라운 성능을 보였습니다. 이후 더 많은 데이터 셋과 파라미터가 준비된다면, 트랜스포머 아키텍처로 더 훌륭한 GPT 모델을 만들 수 있다는 인식을 보여주었죠.

GPT-2

2019년 초에 OpenAI는 GPT-1의 확장 모델로서, 파라미터 개수와 학습 데이터 셋 크기를 10배나 늘린 GPT-2를 공개했습니다. 이 버전은 파라미터가 15억 개이며, 40GB 분량의 텍스트로 학습되었습니다. 2019년 11월에 정식 출시한 GPT-2는 더 큰 LLM 모델은 훨씬 나은 언어 능력 처리와 결과를 보여준다는 실제 예제를 보여주었습니다. GPT-2는 일부 텍스트 내의 모든 단어가 주어지면 다음 단어를 예측합니다.

GPT-3

2020년 6월 출시된 GPT-3와 이전 버전의 주요 차이는 파라미터의 크기와 훈련에 사용된 데이터의 양입니다. GPT-3는 1,750억 개의 파라미터가 있고, 훨씬 많은 규모의 데이터 셋을 학습했습니다. 이 중엔 인터넷의 다양한 소스를 기반으로 학습한 데이터도 포함됩니다. 2021년에는 사람의 피드백으로 강화 학습을 수행하는 인스트럭트 시리즈(instruct series)도 발표되었습니다.

GPT-3.5

2022년 3월에 발표된 GPT-3.5는 2021년 6월까지의 데이터를 학습한 모델입니다. 2022년 11월에 이 모델을 GPT-3.5 시리즈로 명명했습니다. 텍스트를 편집하거나, 내용을 추가하는 것이 가능해졌습니다.

2022년 11월엔 실험적인 대화 모델을 수행하는 ChatGPT를 공개했습니다. 이는 대화형 텍스트 생성에 탁월한 성능을 갖추기 위해 GPT-3.5 모델 기반으로 미세한 튜닝을 추가한 것입니다.

코드 개발을 위한 GPT-3 모델인 코덱스(codecs)도 발표되었는데, 이는 깃허브 코파일럿에 통합되어 각종 개발 도구를 사용해 자동으로 코드를 생성하는 기능을 포함합니다. 코덱스 버전 이후로 코드 개발에 GPT를 사용하기 위해서 ‘GPT-3.5 터보’ 혹은 ‘GPT-4 코파일럿-X’를 통해 코드 개발에 GPT 기술을 충실히 적용하여 사용할 수 있습니다.

GPT-4 (feat. DALL-E)

2023년 3월에 다시 한번 새로운 버전 GPT-4가 발표됩니다. 기존의 딥 러닝을 확장한 OpenAI의 최신 성과인 GPT-4는 다른 이전 버전과 달리 텍스트뿐만 아니라, 이미지도 활용할 수 있는 멀티 모달을 지원합니다. 따라서 프롬프트에서 이미지를 사용하여 출력 결과를 생성할 수 있습니다. GPT-4 터보는 단일 프롬프트에 300 페이지 이상의 텍스트를 담을 수 있는 용량과 성능 개선이 추가되었습니다.

OpenAI에 따르면, 일상 대화에서는 GPT-3.5와 GPT-4의 차이가 미미할 수 있지만, 대화의 복잡성이 큰 사례에서는 두 버전의 품질에 대한 성능 차이가 드러난다고 합니다. GPT-4는 GPT-3.5보다 신뢰성이 높고 더욱 창의적이며, 훨씬 더 세밀한 지시를 처리할 수 있습니다. 또한 GPT-4의 가장 큰 특징은 또 다른 인공지능 모델 ‘DALL-E(달리)’와 함께 사용되면서 이미지를 인식하고 생성하는 기능입니다.

GPT와 DALL-E는 서로 다른 유형의 AI 모델로, 각각 자연어 처리와 이미지 생성에 특화되어 있습니다. GPT는 텍스트 기반의 작업을 수행하고, DALL-E는 텍스트 설명을 바탕으로 이미지를 생성하는 능력을 갖추고 있습니다. 사용자가 텍스트로 설명한 내용을 바탕으로, 이미지를 생성하는 등 작업을 처리할 수 있도록 GPT 모델을 활용해 입력을 처리합니다. 그 결과를 달리에 전달하여 시각적 출력을 생성하는 것입니다.

2023년 9월에 발표된 DALL-E 3는 ChatGPT와 결합하는 방식으로 출시되었습니다. 이는 초기엔 ChatGPT의 플러그인으로 활용됐지만, 이제는 ChatGPT에 내장됐습니다. 덕분에 접근성이 높아지고, ChatGPT의 다양한 기능을 함께 활용할 수 있게 되었습니다. GPT의 충실한 API 지원으로 많은 개발자들이 쉽게 자신의 애플리케이션에 인공지능과 자연어 처리 기능을 접목할 수 있게 되었죠. 아래는 DALL-E 3를 사용하는 OpenAI API로, 개선된 프롬프트를 얻으면서 원하는 이미지를 생성하는 API 예제입니다.

curl https://api.openai.com/v1/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{
    "model": "dall-e-3",
    "prompt": "there is a white cat and a dog. they’re playing together.",
    "n": 1,
    "size": "1024x1024"
  }'
# 
# {
#   "created": 1714928657,
#   "data": [
#     {
#       "revised_prompt": "A white cat and a dog frolicking together in a friendly manner.",
#       "url": "https://oaidalleapiprodscus.blob.core.windows.net/private/org-SQjD..(이하생략)"
#     }
#   ]
# }

아래는 curl 구문을 통해 통해 생성한 이미지입니다.

DALL-E 3 모델을 활용하여 만든 이미지 <출처: DALL-E 3 생성>

GPT-4o

2024년 5월 13일, OpenAI의 Spring Update에서 발표된 GPT-4o(“Omni”를 의미하는 “o”)는 OpenAI가 발표한 현재까지의 가장 진보된 모델입니다. 다중 모드(텍스트 또는 이미지 입력을 받아들이고 텍스트 출력)를 지원하고 텍스트를 2배 더 빠르게 생성하고 비용은 50% 저렴합니다. 텍스트뿐만 아니라, 오디오와 이미지 등의 멀티모달(Multimodal)을 지원하는 것도 두드러진 특징입니다.

OpenAI에서 공개한 GPT-4o 영상에서 인공지능은 연속된 이미지와 음성 및 영상을 토대로 상황을 정확히 파악하며, 사람과 거의 비슷한 속도로 답변합니다. 다국어 처리 성능이 향상된 것도 큰 특징입니다. GPT-4o는 이전 모델 대비 다국어 표현 능력을 크게 개선했는데요. 20개 언어를 다룰 때 토큰 활용이 최적화되어 더 효율적인 처리가 가능해졌고, 한글의 경우 1.7배 토큰을 절약하게 되었습니다.

결과적으로 처리 속도가 빨라져 실시간 서비스 구현에 유리해졌고, API 사용 비용은 절반 수준으로 대폭 절감했습니다. 또한 속도 제한은 5배 높아져 더 많은 요청을 안정적으로 처리할 수 있게 되었습니다. 과거에는 사람이 텍스트나 음성으로 정보를 제공하면, 인공지능이 이를 처리하고 다시 텍스트로 변환해 전달하며 반응 속도가 느려질 수밖에 없었죠. 그러나 이제 평균 응답 시간이 232밀리초로 줄어 인간의 평균 대답 속도인 320밀리초와 유사하며, 오디오 입력에 응답할 수 있을 정도로 처리 속도가 빨라졌습니다. GPT-4o 관련 자세한 내용은 ‘챗GPT-4o, 완전 럭키비키잖아’를 참고해 보셔도 좋습니다.

![GPT-4o 버전의 아이폰 애플리케이션 <출처: GPT-4o 앱, 작가 캡처>](https://yozm.wishket.com/media/news/2619/image5.png =240x)

GPT-5 버전의 전망

현재까지 GPT-5의 정확한 출시 일정이나, 구체적인 기능에 대한 공식 정보는 나오지 않았습니다. 그러나 업계에서는 빠르면 오는 8월 말 중으로 출시를 예상하고 있으며, GPT 모델이 진화함에 따라 이전 버전보다 더 큰 데이터 셋을 사용하고, 더 정교한 학습 기법을 적용했을 것으로 예측했습니다. GPT-5에서는 더 다양한 언어와 과제에서 향상된 성능을 보일 것으로 기대됩니다.

현재 GPT-5로 베타 테스트를 진행하고 있는 기업이 있으며, 이들은 새로운 버전의 기능을 데모 버전으로 테스트한 것으로 알려졌습니다. GPT-5 기반의 ChatGPT는 음성과 이미지, 궁극적으로는 비디오 기능에 대한 중요한 업데이트가 있을 것으로 예상합니다.

또한 OpenAI는 ChatGPT-5가 “기계가 아닌 사람과 의사소통하는 것처럼 느끼게 해주는 최첨단 언어 모델이 될 것”이라고 공언했는데요. 이는 새 버전에서 우수한 자연어 처리 능력의 결과물이 추가됐을 것을 암시합니다. 이미 GPT-4o 버전에서 ChatGPT를 통해 인간과 인공지능의 상호작용 방식이 크게 달라지고 있음을 보여준 OpenAI에서 어떤 개선을 만들어냈을지 궁금해 지는데요.

OpenAI의 CEO 샘 올트먼(Sam Altman)은 최근 인터뷰에서 “새로운 GPT 버전에서 개인화와 맞춤화 또한 매우 중요한 요소”라고 규정했습니다. 이는 많은 사용자들이 GPT-4 환경에서 그들만의 다양한 스타일과 가정 상태 설정을 원했고, 이를 가능하게 할 것이라는 뜻입니다. 또한 올트먼은 이메일, 일정 세부 정보, 약속 일정 기본 설정과 이해, 외부 데이터 소스와의 통합 등 개인 데이터를 활용하는 GPT-5의 기능이 주요 기능 중 하나가 될 것이라고 강조했습니다.

이어서 GPT-5는 단순히 도구가 아닌 동료로 여길 정도로 많은 사람들이 의존할 것이며, GPT-5는 질문에 답하는 것을 넘어 사용자와 문제 해결을 함께 고민하고, 생각지 못한 새로운 아이디어와 관점을 제시할 수 있을 것이라 밝혔습니다. GPT-5가 출시되면 GPT-4가 구식으로 느껴질 정도로 그만한 성능 향상이 있을 것이라고 자신했으니, 어서 빨리 GPT-5의 결과물을 보고 싶은 마음입니다.

마치며

특히 개발자 관점에서 GPT-5 같은 고급 자연어 처리 모델의 출시는 여러 중요한 의미를 가집니다. 이러한 발전은 기술, 응용, 그리고 윤리 영역에서 새로운 기회와 도전을 제시하기 때문인데요. GPT-5는 아마도 이전 모델들보다 더욱 발전한 알고리즘과 학습 기술을 적용할 것입니다. 또한 이러한 모델은 처리 능력과 효율성을 개선하여, 더 크고 복잡한 데이터 세트를 더 빠르게 학습할 수 있을 것입니다.

GPT-5는 언어 이해와 생성에 관한 한계를 더욱 확장할 텐데요. 이를 챗봇, 번역 시스템, 콘텐츠 생성 도구 등 다양한 애플리케이션에 적용할 수 있습니다. 개발자들은 이러한 기술을 활용해, 사용자 경험을 개선하고 새로운 형태의 상호작용을 만들어낼 수 있습니다.

따라서 GPT-5의 출시는 개발자에게 새로운 도구와 기회를 제공하며, 창의적이고 윤리적으로 기술을 활용할 수 있는 방법을 고민하게 합니다. 다만 모델의 편향, 오용 가능성, 프라이버시 문제도 신중히 고려해야 하는데요. GPT-5의 출시는 이러한 문제들을 해결하기 위한 새로운 접근법과 기준을 모색하는 계기가 되어줄 것입니다. 하반기에 GPT-5가 출시되면, 이 글의 후속으로 실제로 탑재된 새 기능에 대한 설명과 리뷰로 돌아오겠습니다.