๋๊ณผ ๊ท๊ฐ ๋ฌ๋ฆฐ LLM, ๋ฉํฐ๋ชจ๋ฌ AI
๋๊ณผ ๊ท๊ฐ ๋ฌ๋ฆฐ LLM, ๋ฉํฐ๋ชจ๋ฌ AI ๊ด๋ จ
์ต๊ทผ OpenAI๊ฐ ์ ๋ณด์ธ AI ๋ชจ๋ธ GPT-4o์ ๋ํ ๊ด์ฌ์ด ๋จ๊ฒ์ต๋๋ค. GPT-4o๋ ์ด๊ฑฐ๋์ธ์ด๋ชจ๋ธ(์ดํ LLM)์ ๊ธฐ๋ฐํด ๋งค๋๋ฝ๊ณ ์์ฐ์ค๋ฌ์ด ๋ฌธ์ฅ์, ํ ์คํธ์ ์์ฑ์ผ๋ก ์ฌ๋์ฒ๋ผ ๊ตฌ์ฌํฉ๋๋ค. ๊ฒ๋ค๊ฐ ์ฝ 232๋ฐ๋ฆฌ ์ด(0.23์ด)๋ผ๋ ์งง์ ๋ฐ์ ์๊ฐ ๋์ ๋ง์น ์ค์ ์ฌ๋๊ณผ ๋ํํ๋ ๋ฏํ ๋๋๋ง์ ๋ญ๋๋ค.
๋๋ผ์ด ๋ฅ๋ ฅ์ ์ฌ๊ธฐ์ ๋์ด ์๋๋๋ค. OpenAI๊ฐ ๊ณต๊ฐํ ์์ฐ ์์์์ GPT-4o๋ ๋ชฉ์๋ฆฌ ํค์ ๋ฐ๊พธ์ด ๊ฐ๋ฉฐ ๊ฐ์ ์ ๋ด์ ๋๋ด์ ๋์ง๊ธฐ๋ ํฉ๋๋ค. ๋ ๋จ์ ์ด๋ฏธ์ง ์ธ์์ ๋์ด ์ฃผ๋ณ ํ๊ฒฝ์ ์ ํํ ์ธ์ํ๋ฉฐ ์๊ฐ์ฅ์ ์ธ์ ์ํ ๊ธธ ์๋ด์ ํ์ ์ก๊ธฐ๊น์ง ๋์ ํด ์ฃผ์์ฃ . GPT-4o๋ ๋ง์น LLM์ด๋ผ๋ ๋๋์ ๋๊ณผ ๊ท๊ฐ ๋ฌ๋ฆฐ ๋ชจ์์ผ๋ก ํ์ฑ๊ณผ ๊ฐ์ด ๋ฑ์ฅํ์ต๋๋ค.
ํ๊ฒฉ์ ์ธ GPT-4o์ ํ๋ณด๋ฅผ ๋๊ณ ์ฌ๋๋ค์ SF ์ํ ์ ์ธ๊ณต์ง๋ฅ ๋ก๋ด์ด ํ์ค์ ๋ํ๋ฌ๋ค๊ณ ๋งํ์ต๋๋ค. ํ ๋ฐ ๋์๊ฐ ์ ํด์ง ๋ถ์ผ์ ํ์คํฌ ์ํ์๋ง ํนํ๋ ๊ธฐ์กด ์ธ๊ณต์ง๋ฅ์ ๋์ด, ์ฌ๋์ฒ๋ผ ์๊ฐํ๊ณ ํ๋ํ๋ ์ง์ ์กด์ฌ๋ฅผ ๋ปํ๋ **์ผ๋ฐ์ธ๊ณต์ง๋ฅ(Artificial General Intelligence, AGI)**์ด GPT-4o๋ก ๊ตฌํ๋์๋ค๊ณ ์ฃผ์ฅํ๋ ์ด๋ค๋ ์๊ฒผ์ฃ . ๋ฐ๋ฉด ์ผ๊ฐ์์๋ GPT-4o๋ฅผ ๋๊ณ โ๋์ค์ ๊ด์ฌ์ ๋๊ธฐ ์ํ ๊ธฐ์กด ๊ธฐ์ ์ ์ง๊น๊ธฐโ๋ผ๋ฉฐ ๋ฐ๊ฐ์ด ์์ ์ ๋ณด๋ด๊ธฐ๋ ํฉ๋๋ค.
GPT-4o์ ์ง์ง ์ ์ฒด๋ ๋ฌด์์ผ๊น์? ์ด ๋ชจ๋ธ์ ์ต์ ์์ฑํ AI ํธ๋ ๋์ธ **๋ฉํฐ๋ชจ๋ฌ(multimodality)**์ ๊ธฐ๋ฐํ๊ณ ์์ต๋๋ค. ์ฌ์ค ๋ฉํฐ๋ชจ๋ฌ์ด๋ผ๋ ๊ฐ๋ ์ ์ธ๊ณต์ง๋ฅ ๊ฐ๋ฐ์์๊ฒ ๊ทธ๋ค์ง ์๋ก์ด ๊ฐ๋ ์ ์๋๋๋ค. GPT-4o ๋ฑ์ฅ ์ด์ ๋ถํฐ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ๊ฐ๋ฐํ๊ณ ํ์ฉํ ์ฌ๋ก๊ฐ ๋ง๊ธฐ ๋๋ฌธ์ด์ฃ . ์ด๋ฒ ๊ธ์์๋ ์๋ฆฌ์ ์ฌ๋ก๋ฅผ ์์ฃผ๋ก ๋ฉํฐ๋ชจ๋ฌ์ด๋ ๋ฌด์์ธ์ง, ์ด ๋ชจ๋ธ์ด ์ฐ๋ฆฌ์ ์ถ์ ์ด๋ป๊ฒ ๋ฐ๊พธ์ด ๋๊ฐ๊ณ ์๋์ง ์๊ฐํ๋๋ก ํ๊ฒ ์ต๋๋ค.
๋ฉํฐ๋ชจ๋ฌ์ด๋?
๋ฉํฐ๋ชจ๋ฌ AI๋ ๊ธฐ์กด์ LLM๊ฐ์ด ํ ๊ฐ์ง ์ธํ & ์์ํ ๋ฐ์ดํฐ์ ํ์ ๋์ง ์๊ณ ์ด๋ฏธ์ง, ํ ์คํธ, ์์ฑ ๋ฑ ์ด๋ ํ ํํ์ ๋ฐ์ดํฐ๋ผ๋ ์ ์ถ๋ ฅ์ด ๊ฐ๋ฅํ ๋ชจ๋ธ์ ๋งํฉ๋๋ค.
์ด๋ฏธ์ง ํน์ ํ ์คํธ ๊ฐ์ ๋จ์ผ ํํ ๋ฐ์ดํฐ ์ ์ถ๋ ฅ๋ง ํ ์ ์๋ ์ด๋ฏธ์ง ์ฒ๋ฆฌ(Image Processing)๋ ์์ฐ์ด ์ฒ๋ฆฌ(Natural Language Processing, NLP) ๊ธฐ๋ฐ ๋ฅ๋ฌ๋ ๋ชจ๋ธ๊ณผ ๋น๊ตํด ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ด ๊ฐ์ง๋ ์ฅ์ ์ ๋ช ํํฉ๋๋ค. ๋ค์ํ ์ข ๋ฅ์ ๋ฐ์ดํฐ๋ฅผ ์ตํฉ์ ์ผ๋ก ์ดํดํ๋ฉฐ ๋ ๋์ ์๋ฏธ์์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋ค๋ ๊ฒ์ด์ฃ . ๊ทธ๋ฟ๋ง ์๋๋ผ GPT-4o ์ฌ๋ก์์๋ ๋ช ํํ๊ฒ ์ ์ ์๋ฏ, ์์ฐ์ค๋ฌ์ด ๋ํ์ ์ํธ์์ฉ์ผ๋ก ์ ์ ๊ฒฝํ์ ์๋ก์ด ์ฐจ์์ผ๋ก ๋์ด์ฌ๋ฆด ์๋ ์์ต๋๋ค.
๋ฉํฐ๋ชจ๋ฌ AI๋ ์ค์ ๋ก๋ ๊ธฐ์กด ๋ฅ๋ฌ๋ ๋ชจ๋ธ๋ค์ ํ๊ณ๋ฅผ ๋ฐ์ด๋์ด ๋ณด๋ค ๋ณต์กํ ํ์ค ์ธ๊ณ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํด ๋๊ฐ๊ณ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ์์จ์ฃผํ ์๋์ฐจ ๊ตฌํ์ ์ํด์๋ ์๋ ฅ, ์ฐจ์ , ์ด์ ์์ ์ปจ๋์ , ๋ ์จ, ๋๋ก ์ ๋ณด ๋ฑ ์ฌ๋ฌ ์ ๋ณด๋ฅผ ํ๋จํ๋ AI ๋ชจ๋ธ์ด ํ์ํฉ๋๋ค. ์ด๋ ๋ฉํฐ๋ชจ๋ฌ AI๋ฅผ ํ์ฉํ๋ฉด ๋ค์ํ ํํ์ ์ธํ ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก ๋ด๋ฆฐ ์ข ํฉ์ ์ธ ํ๋จ์ผ๋ก ์์ ํ ์ดํ์ด ๊ฐ๋ฅํด์ง๋๋ค.
๋ง์ฐฌ๊ฐ์ง๋ก ๋ฉํฐ๋ชจ๋ฌ AI๋ ์๋ฃ๊ณ์์๋ ๊ทธ ์กด์ฌ๊ฐ์ ๋๋ฌ๋ด๊ณ ์์ต๋๋ค. ๋ฉํฐ๋ชจ๋ฌ AI๋ ํ์๋ฅผ ์ดฌ์ํ ์ด๋ฏธ์ง, ๋ณ๋ ฅ, ๊ฐ์กฑ๋ ฅ, ์์ต๊ด ๋ฐ์ดํฐ ๋ฑ ๋ค์ํ ์์๋ฅผ ๊ฒฐํฉํด ์ข ํฉ์ ์ผ๋ก ํ๋จ์ ๋ด๋ฆด ์ ์์ต๋๋ค. ์ฌ๋์ ๋์ผ๋ก๋ ์์๋ผ ์ ์๋ ์ง๋ณ์ ์กฐ๊ธฐ ์ง๋จ์ด๋ ์๊ฒฉ ์ง๋ฃ์ ํ์ฉํ ์ ์์ฃ . ์ด์ฒ๋ผ AI ๊ธฐ์ ์ด ๋ฐ์ ํด ๋๊ฐ๋ค ๋ณด๋ฉด ํ์์ ์์ฑ๊ณผ ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ฅผ ๊ฒฐํฉํด ์ง๋ณ์ ์ง๋จํ๊ณ ์น๋ฃ๋ฅผ ์ ๊ณตํ๋ ์ผ์ด ๋จธ์ง์์ ๋ฏธ๋์ ๊ตฌํ๋ ๊ฒ๋๋ค.
์ฐ๋ฆฌ ์ํ ์ ๋ฉํฐ๋ชจ๋ฌ
๊ธ์ ์๋์ ์ธ๊ธํ๋ฏ ๋ฉํฐ๋ชจ๋ฌ์ด๋ผ๋ ๊ฐ๋ ์์ฒด๋ ์ธ๊ณต์ง๋ฅ ๊ฐ๋ฐ์๋ค์๊ฒ ๊ทธ๋ค์ง ์๋ก์ด ๊ฐ๋ ์ ์๋๋๋ค. ๋ฐ๋ผ์ GPT-4o๋งํผ ์ธ๋ จ๋์ง ์์์ ๋ฟ, ์์ ๋ถํฐ ์ฐ๋ฆฌ๊ฐ ํ์ฉํ๋ ๋ง์ ์ธ๊ณต์ง๋ฅ ์๋น์ค๊ฐ ์ฌ์ค์ ๋ฉํฐ๋ชจ๋ฌ ๊ธฐ์ ์ ๊ธฐ๋ฐํ๊ณ ์์ต๋๋ค.
2020๋ ๋ ์ด๋ฐ ๋ฑ์ฅํ OpenAI์ Dall-e์ Stability AI์ Stable Diffusion์ ํ๋กฌํํธ ๋ช ์ค๋ก ์ฌ๋๋ณด๋ค ๋์ฑ ๊ทธ๋ด๋ฏํ ์ด๋ฏธ์ง๋ฅผ ๊ทธ๋ ค๋ด๋ฉฐ, ํฌ๋ฆฌ์์ดํฐ๋ค์๊ฒ ๊ฒฝ๊ฐ์ฌ์ ์ผ๊นจ์์ฃผ์์ต๋๋ค. 2022๋ ์ถ์๋ Text-to-Image ๋ชจ๋ธ Midjourney๋ ์๊ตญ ์ก์ง ์ด์ฝ๋ ธ๋ฏธ์คํธ์ ํ์ง ์ ์์ ํ์ฉ๋๊ธฐ๋ ํ์ฃ . ์ด๋ค ๋ชจ๋ ํ ์คํธ์ ์ด๋ฏธ์ง, ์๋ก ๋ค๋ฅธ ํํ์ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๋ ๋ฉํฐ๋ชจ๋ฌ AI์ ๋๋ค. ๊ทธ๋ผ ์ฐ๋ฆฌ ์ํ ์ ๋ฉํฐ๋ชจ๋ฌ AI๋ก๋ ์ด๋ค ๊ฒ๋ค์ด ์๋์ง ๊ตฌ์ฒด์ ์ผ๋ก ์ดํด๋ด ์๋ค.
1. Image-to-Text ๋ชจ๋ธ
๊ฐ์ฅ ์ง๊ด์ ์ด๊ณ ์๊ธฐ ์ฌ์ด ์์๋ ์ด๋ฏธ์ง ์บก์ ๋(Image Captioning)์ ๋๋ค. ์ด๋ฏธ์ง ์บก์ ๋ ๋ชจ๋ธ์ด๋ผ๊ณ ๋ ๋ถ๋ฆฌ๋ Image-to-Text ๋ชจ๋ธ์ ์ธํ ์ด๋ฏธ์ง์ ๋ํ ์ค๋ช ์ ํ ์คํธ๋ก ๋ฌ์์ฃผ๋ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๋งํฉ๋๋ค. ์ด ์ญ์ ์ปดํจํฐ ๋น์ (Computer Vision)๊ณผ ์์ฐ์ด ์ฒ๋ฆฌ(NLP)๋ฅผ ๊ฒฐํฉํ์ฌ ๋ง๋ ๋ฉํฐ๋ชจ๋ฌ์ ๋๋ค. ์ด๋ฌํ ์ด๋ฏธ์ง ์บก์ ๋ ๊ธฐ์ ์ ๋น๊ต์ ๊ฐ๋จํ ๋ฉํฐ๋ชจ๋ฌ ์ํคํ ์ฒ๋ก ๊ตฌํํ ์ ์์ง๋ง, ๊ทธ ํ์ฉ ๋ถ์ผ๋ ๋ฌด๊ถ๋ฌด์งํฉ๋๋ค.
์๋ฅผ ๋ค์ด ๊ฐ๋จํ ์ด๋ฏธ์ง ์บก์ ๋ ๋ชจ๋ธ๋ก๋ GPT-4o ์์ฐ ์์์ ๋ฑ์ฅํ ์ฅ๋ฉด์ฒ๋ผ ์ฃผ๋ณ์ ์ธ์ํ๊ณ ์ํฉ์ ์๋ฆฌ๋ ์๊ฐ ์ฅ์ ์ธ์ฉ ์๋น์ค๋ฅผ ๋ง๋ค์ด๋ผ ์ ์์ต๋๋ค. ๋ค์ด์จ ์ด๋ฏธ์ง์ ๋ํ ํ ์คํธ ์ค๋ช ์ ์์ฑํ ๋ค์, TTS(Text To Speak) ๊ธฐ์ ์ ํ์ฉํด ์ด๋ฅผ ์์ฑ์ผ๋ก ๋ฐ๊ฟ ์ฝ์ด์ฃผ๋ฉฐ ๋์์ ์ํฉ๊ณผ ๊ทธ๋ฆผ์ ์ค๋ช ํด ์ฃผ๋ ๋ฐฉ์์ผ๋ก์.
์นดํผ๋ผ์ดํ ๋ฌธ๊ตฌ ์ ์๋ ๊ฐ๋ฅํฉ๋๋ค. Image-to-Text ๋ชจ๋ธ๋ก ์ด๋ฏธ์ง์ ๋ํ ํ ์คํธ ์ค๋ช ์ ์์ฑํ๋ ๊ธฐ์ ์ ๊ด๊ณ , ๋ง์ผํ ์๋ฃ, ์์ ๋ฏธ๋์ด ์ฝํ ์ธ ๋ฑ์ ์จ๋ณผ ์ ์์ต๋๋ค. ๋ง๋ ์ด๋ฏธ์ง์ ํจ๊ป ๋๊ฐ ์ ์ ํ ์ค๋ช ์ด๋ ๊ด๊ณ ๋ฌธ๊ตฌ๋ฅผ ์์ฑํด ํจ๊ณผ์ ์ผ๋ก ์ฝํ ์ธ ๋ฅผ ์ ๋ฌํ ์ ์๊ฒ ์ฃ .
2. Text-to-Image ๋ชจ๋ธ
์์ฑํ AI ์ดํ๊ณผ ํจ๊ป ๋จ๊ฑฐ์ด ๊ด์ฌ์ ๋ฐ์ Midjourney, Stable Diffusion ๊ทธ๋ฆฌ๊ณ Dall-e ๊ฐ์ ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ ๋ชจ๋ ๋ฉํฐ๋ชจ๋ฌ ๊ธฐ์ ์ ๊ธฐ๋ฐํฉ๋๋ค. ์ด์ฒ๋ผ ํ ์คํธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ฌ์ฉ์๋ค์ด ์ํ๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํด ๋ด๋ AI ๋ชจ๋ธ์ Text-to-Image ๋ชจ๋ธ์ด๋ผ๊ณ ํฉ๋๋ค.
์ด๋ฌํ ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ์ ์ ๊ฒ๋ ์์ญ์ต ๊ฐ์์ ๋ง๊ฒ๋ ์์ฒ์ต ๊ฐ์ ์ด๋ฅด๋ ๋งค๊ฐ๋ณ์(parameter)๋ฅผ ๋ฐํ์ผ๋ก ์๊ตฌ ์ฌํญ์ ๋ฐ๋ผ ๋๋ก๋ ์ฌ๋๋ณด๋ค ๋ ์ ๊ตํ๊ฒ ๊ทธ๋ฆผ์ ๊ทธ๋ ค๋ด๊ณ ๋ ํฉ๋๋ค. ํ์ฉ๋๊ฐ ์ฌ๋ผ๊ฐ๋ฉฐ Text-to-Image ๋ชจ๋ธ์ ๋ณด๋ค ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ๊ธฐ ์ํ ํ๋กฌํํธ ์์ง๋์ด๋ง(prompt engineering) ์ญ์ ์ฃผ๋ชฉ๋ฐ๊ณ ์์ต๋๋ค.
๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ์ด๋ป๊ฒ ๋ง๋ค์ด์ง๊น?
๊ทธ๋ ๋ค๋ฉด ์ด๋ฌํ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ์ด๋ป๊ฒ ๋ง๋ค์ด์ง๊น์? ๋ฉํฐ๋ชจ๋ฌ AI ๋ชจ๋ธ์ ๊ฐ๋ฐ ๊ณผ์ ์ LLM ๊ฐ์ ๋จ์ผ ์์ฑํ AI๋ฅผ ๋ง๋ค ๋์ ํฌ๊ฒ ๋ค๋ฅด์ง๋ ์์ต๋๋ค. ๋ค๋ฅธ ๋ชจ๋ธ์ฒ๋ผ ๋ฐฉ๋ํ ์์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ ํ์ต(pre-training)ํ ๋ค์, ์ํํ๋ ค๋ ํน์ ํ์คํฌ์ ๋ง๊ฒ ์ด๋ฏธ์ง์ ํ ์คํธ๊ฐ ๊ฒฐํฉํ ํํ์ ์ฌ๋ฌ ๋ฐ์ดํฐ์ (dataset)์ ์ถ๊ฐ ํ์ต(fine-tuning)ํ๋ ๋ฐฉ์์ ์ ์ฉํ๊ธฐ๋ ํ์ฃ .
๋จ์ผ ๋ชจ๋ธ๊ณผ ๋ฉํฐ๋ชจ๋ฌ AI์ ๊ฐ์ฅ ํฐ ์ฐจ์ด์ ์ ์ํคํ ์ฒ์ ์์ต๋๋ค. ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ์ฃผ์ด์ง ์ฌ๋ฌ ํ์์ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ๊ณ , ์ด๋ฅผ ํตํฉํด ์ ์ฉํ ์ถ๋ ฅ์ ์์ฑํ๋๋ก ์ค๊ณํ ๋ฅ๋ฌ๋ ์ํคํ ์ฒ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค. ๋ฐ๋ผ์ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ๋ค์ํ ํ์์ ๋ฐ์ดํฐ๊ฐ ๊ฐ์ง ํน์ฑ์ ๊ณ ๋ คํ์ฌ ์ด๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํด ๋ง๋ ์ฌ๋ฌ ๋คํธ์ํฌ ๊ตฌ์กฐ์ ๊ฒฐํฉ์ด๋ผ๊ณ ๋ ํ ์ ์์ต๋๋ค.
์๋ฅผ ๋ค์ด, ์ด๋ฏธ์ง ๋ฐ์ดํฐ ์ธ์์ ์ํด ์ด๋ฏธ์ง ์ฒ๋ฆฌ(Image Processing)์ ํนํ๋ ์ปจ๋ณผ๋ฃจ์ ์ ๊ฒฝ๋ง(Convolutional Neural Network, CNN)์ ์ฌ์ฉํ๊ณ , ํ ์คํธ ๋ฐ์ดํฐ ์ฒ๋ฆฌ๋ฅผ ์ํด ์ฐ์ ๋ฐ์ดํฐ(sequential data) ์ฒ๋ฆฌ์ ๊ฐ์ ์ ๊ฐ์ง ์ํ ์ ๊ฒฝ๋ง(Recurrent Neural Network, RNN)์ด๋ ํธ๋์คํฌ๋จธ(Transformer) ๊ตฌ์กฐ๋ฅผ ๊ฐ๊ฐ ํ์ฉํ๋ ๊ฒ์ด์ฃ . ์ด๋ฌํ ์ฌ๋ฌ ๋คํธ์ํฌ๋ฅผ ํตํฉํด ๊ตฌ์ฑํ๋ฉด ๋ฉํฐ๋ชจ๋ฌ์ด ๋ฉ๋๋ค.
๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ์ํคํ ์ฒ ์ค๊ณ ๊ธฐ๋ฒ์ผ๋ก๋ ๋ํ์ ์ธ ์ธ ๊ฐ์ง๊ฐ ์์ต๋๋ค. Early Fusion, Late Fusion ๊ทธ๋ฆฌ๊ณ Joint Fusion ๊ธฐ๋ฒ์ด์ฃ .
์ฐ์ Early Fusion์ ๋ชจ๋ธ ํ๋ จ(training) ๋จ๊ณ์์ ์ข ๋ฅ๊ฐ ๋ค๋ฅธ ๋ ๊ฐ์ง ๋ฐ์ดํฐ๋ฅผ ํ๋์ ๋ฐ์ดํฐ๋ก ํฉ์นฉ๋๋ค. ์ดํ ๊ทธ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ธ์ ํ์ต(training)ํ๋ ๊ณผ์ ์ ๊ฑฐ์น๊ฒ ํ๋ ๊ธฐ๋ฒ์ ๋๋ค.
๋ค์ Late Fusion์์๋ ์ข ๋ฅ๊ฐ ๋ค๋ฅธ ๋ ๊ฐ์ง ํํ์ ๋ฐ์ดํฐ๋ฅผ ๊ฐ๊ฐ ๋ค๋ฅธ ๋ชจ๋ธ์ ํ์ต์ํต๋๋ค. ๊ณง์ด์ด ๋์จ ๊ฒฐ๊ณผ๋ฅผ ์ตํฉํด ๋ง์น ๋ฉํฐ๋ชจ๋ฌ ํํ๋ก ๋ณด์ด๊ฒ ๋ง๋๋ ๊ธฐ๋ฒ์ด์ฃ .
๋ง์ง๋ง, Joint Fusion์ ๋ ๊ฐ์ง ๋ชจ๋ฌ๋ฆฌํฐ ๋ฐ์ดํฐ๋ฅผ ๋์์ ํ์ต์ํค์ง ์๊ณ , ์ํ๋ ๋ชจ๋ธ์ ๊น์ด์์ ์ ์ฐํ๊ฒ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ๋ณํฉํ ์ ์๋๋ก ํ๋ ๊ธฐ๋ฒ์ ๋๋ค.
๋ง์น๋ฉฐ: ๋ฉํฐ๋ชจ๋ฌ๊ณผ ์์ฑํ AI์ ๋ฏธ๋
์ง๊ธ๊น์ง ๋ฉํฐ๋ชจ๋ฌ์ ๊ฐ๋ ๊ณผ ์๋ฆฌ, ์ ์ฉ ์ฌ๋ก๋ฅผ ์๊ฐํ์ต๋๋ค. ๊ทธ๋ ๋ค๋ฉด GPT-4o ๊ฐ์ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ์์ฑํ AI์ ๋ฏธ๋๋ฅผ ์ด๋ป๊ฒ ๋ฐ๊พธ์ด ๋์๊น์?
ํน์๋ ๋ฉํฐ๋ชจ๋ฌ AI๊ฐ ์ผ๋ฐ์ธ๊ณต์ง๋ฅ(AGI) ์คํ์ ๋ฐํ์ ๋ง๋ จํ ๊ฒ์ด๋ผ๊ณ ์ด์ผ๊ธฐํฉ๋๋ค. ๊ทธ๋ฌ๋ ๋ฉํฐ๋ชจ๋ฌ ๋ฐฉ์์ผ๋ก ์๋ํ๋ ๋ชจ๋ธ์ AGI์ ์ฐ๊ฒฐ ์ง๋ ์ผ์ ์๊ธฐ์์กฐ๋ผ๊ณ ์๊ฐํฉ๋๋ค. ๋ฉํฐ๋ชจ๋ฌ ๋ฐฉ์์ AGI ์คํ์ ์ํ ํ์์กฐ๊ฑด์ ๋ ์ ์์ด๋ ์ถฉ๋ถ์กฐ๊ฑด์ ์๋๊ธฐ ๋๋ฌธ์ ๋๋ค. ์์ง ์ผ๋ฐ์ธ๊ณต์ง๋ฅ์ ๋จ ํ๋ ํต์ฉ๋๋ ๋ช ํํ ์ ์๊ฐ ์์ต๋๋ค. ๊ฒ๋ค๊ฐ ์๊ฐ, ์ฒญ๊ฐ, ์ธ์ด ๋ฑ ๋ค์ํ ๋ฐ์ดํฐ๋ฅผ ๋ฐ์๋ค์ด๊ณ ์ด๋ฅผ ๋ฐํ์ผ๋ก ํ๋จํ ์ ์๋ค ํด์ ๊ทธ๊ฒ์ด ์์จ์ฑ์ ๊ฐ์ง๊ณ ์์์ ๋ปํ์ง๋ ์์ฃ . ์ฌ์ ํ ์์ฑํ AI๊ฐ ํน์ ํ ํ์๋ฅผ ํ๋ ค๋ฉด ์ธ๊ฐ์ ์ํ โํธ๋ฆฌ๊ฑฐโ๊ฐ ํ์ํฉ๋๋ค.
๋ค๋ง ํ ๊ฐ์ง ํ์คํ ์ ์ ์์ฑํ AI๊ฐ ๋๋ LLM๊ณผ ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ, ๋๋ก ๊ตฌ๋ถํ ์ ์๊ฒ ์งํํ๊ณ ์๋ค๋ ์ฌ์ค์ ๋๋ค. OpenAI ์ฑGPT์ ํ์ฌ๋๋ ๊ธฐ์ด ๋ชจ๋ธ์ GPT-4 ์ดํ๋ก ๋ชจ๋ ๋ฉํฐ๋ชจ๋ฌ ๊ธฐ๋ฅ์ ์ ๊ณตํ๊ณ ์์ต๋๋ค. ๊ฒฝ์์ฌ Google์์ ๋ง๋ ์์ฑํ AI Gemini ์ญ์ ํ์๋ถํฐ ๋ฉํฐ๋ชจ๋ฌ์ ์ผ๋์ ๋ ๋ชจ๋ธ๋ก ์ด๋ฏธ์ง์ ์ธํ๊ณผ ์์ํ์ด ๊ฐ๋ฅํฉ๋๋ค.
์ด์ฉ๋ฉด ๊ฐ๊น์ด ๋ฏธ๋์๋ LLM์ด๋ผ๋ ๋ง์ด ๋ฏ์ค๊ฒ ๋๊ปด์ง๋ ๋ ์ด ์ฌ ์๋ ์์ต๋๋ค. ๋ง์น ๊ณ ์ฑ๋ฅ ์นด๋ฉ๋ผ๋ฅผ ํ์ฌํ ์ค๋งํธํฐ์ด ๋๋ฆฌ ํผ์ง๋ฉฐ ๋์งํธ์นด๋ฉ๋ผ, ํ๋ฆ์นด๋ฉ๋ผ๊ฐ ์คํ๋ ค ๋ฏ์ค๊ฒ ๋๊ปด์ง๊ธฐ ์์ํ ๊ฒ์ฒ๋ผ ๋ง์ด์ง์. ์ด์ ๋ฉํฐ๋ชจ๋ฌ AI๋ ํน์ํ ๊ธฐ์ ์ด๋ผ๊ธฐ๋ณด๋ค๋ ์๋ก์ด ํ์ค, ์ฆ ๋ด๋ ธ๋ฉ(New Normal)์ด ๋์ด๋ฒ๋ฆฐ ๊ฒ์ผ์ง๋ ๋ชจ๋ฆ ๋๋ค.