끝나지 않은 스케일링 법칙 (feat. 오픈AI와 엔비디아)

지난 11월 30일은 오픈AI의 챗GPT가 세상에 나온 지 만 2년이 된 날이었습니다. 오픈AI라는 회사가 세상에 미친 영향은 셀 수 없이 많은데요. 엔비디아가 지난 5년간 2600% 주가가 오른 것, SK하이닉스가 삼성전자를 누르고 HBM의 왕자가 된 것, 그리고 기업인부터 정치인까지 인공지능(AI)이라는 말을 반복하게 된 것 모두 오픈AI 덕이거든요.

오늘은 AI전문가가 아닌 제가 이해를 쉽게하기 위해 많은 생략과 함께 작성했기 때문에 틀린 내용이 있더라도 이해를 부탁드립니다.

1. 지금의 오픈AI를 만든 건 역대급 논문이었다

오픈AI를 만든 사람. 바로 요즘 제일 잘 나가는 일론 머스크 테슬라 CEO입니다. 데미스 허사비스 딥마인드 창업자를 절친 래리 페이지에게 빼앗긴 일론 머스크가, 샘 올트먼 당시 와이콤비네이터 사장의 제안을 받고 2015년 만든 비영리 AI연구소가 바로 오픈AI였습니다. 일론 머스크, 샘 올트먼, 그리고 지금도 오픈AI의 사장을 맡고 있는 그렉 브록먼. 이 세 사람이 오픈AI의 핵심 창업자들. 그렉 브록먼이 요슈아 벤지오 교수를 만나 최고의 AI연구자들 명단을 만들었고, 최고의 AI연구자들을 오픈AI로 영입합니다.

당시 합류한 드림팀이 바로 AI의 대부 ‘제프리 힌튼’ 교수의 제자이자 ‘알렉스넷’의 주인공인 일야 수츠케버. 그리고 ‘알렉스넷’이 우승한 ‘이미지넷’ 대회를 만든 페이페이 리 스탠퍼드대 교수의 수제자 안드레이 카파시. 인공지능 3대 천황으로 불리는 얀 르쿤 NYU 교수의 제자였던 보이치에흐 자렘바, 버크리와 칼텍출신으로 오픈AI의 학습 후 팀을 이끈 존 슐만까지. 오픈AI의 공동창업자였죠.

오픈AI는 이런 최고의 연구진들을 데리고 AI연구와 학습을 시작하는데요. 2017년 구글 연구팀이 공개한 역사적 논문 ‘Attention is All You Need(어텐션이면 만사해결)’가 연구의 기반이었죠. 2018년 ‘Improving Language Understanding by Generative Pre-Training(사전학습된 생성형 모델은 언어이해력이 뛰어나)’라는 논문이 드디어 오픈AI에서 발표되는데요. 이 논문에서 사용된 생성형 사전 학습(Generative Pre-Training)이라는 단어가 챗GPT의 GPT를 의미합니다. 또한, '생성형AI'라는 용어도 생성형 AI모델에서 가져온 용어입니다.

스케일링 법칙은 컴퓨팅 파워, 데이터크기, 매개변수가 동시에 늘어나야만 합니다.

1) 스케일링 법칙이 시작되다

이 논문에서 만들어진 모델이 바로 GPT-1. 일야 수츠케버를 포함해 단 4명의 저자가 참여한 이 논문에서부터 본격적으로 ‘스케일링 법칙(Scaling Law)’이 시작됩니다. 당시만 해도 매우 큰 1억 1700만 개의 매개변수를 가지고 AI를 학습시켰기 때문이죠. 이후 이 매개변수와 데이터의 크기를 키울 때마다 AI의 성능이 혁명적으로 좋아지는 기적 같은 일이 벌어지게 됩니다.

2018년은 오픈AI가 처음으로 GPT를 공개한 해이기도 하지만 지배구조 차원에서도 중요한 해였습니다. 바로 테슬라와 스페이스X 경영 위기로 파산직전이던 일론 머스크가 오픈AI를 떠나고, 연구소는 홀로서기를 해야 했기 때문이죠. 샘 올트먼이 와이콤비네이터 사장을 관두고 오픈AI로 왔으며, 비영리 기업이 지배하는 영리 기업 구조를 만들어 외부 투자를 받기 시작했습니다. 바로 2019년의 일인데요. 초기의 오픈AI에 투자한 투자자가 비노드 코슬라, 리드 호프먼 같은 사람들입니다. 이들 다음으로 마이크로소프트가 10억 달러를 오픈AI에 투자하게 되는데요. 현금이 아닌 클라우드 인프라 사용비용을 대줍니다. 일종의 현물투자입니다. 마이크로소프트는 엔비디아 GPU를 비롯해 오픈AI가 사용할 수 있는 슈퍼컴퓨터를 만들어주고, 오픈AI는 이를 사용하는 것. 마이크로소프트는 대신 오픈AI의 지분을 받는 구조죠.

비노드 코슬라와 마이크로소프트가 아무 생각없이 오픈AI에 투자를 한 것은 아닙니다. 바로 2019년에 오픈AI가 내놓은 논문을 보고 투자한 것이죠. 바로 GPT-2가 등장한 논문 ‘Language Models are Unsupervised Multitask Learners(언어모델은 지도 없이도 이것저것 학습 다 잘해)’입니다. 여기서 매개변수가 10배 커진 15억 개의 AI모델이 등장합니다. 이 논문에도 일야 수츠케버가 참여하고요. 후일 오픈AI를 나가서 앤트로픽을 만든 다리오 아모데이가 이 논문의 주요 저자로 등장합니다.

2) GPT-3 2년 후 '챗GPT 임팩트'

한국에는 별로 안 알려져 있는 슈퍼 연구자 한명이 있는데요. 바로 GPT-1과 GPT-2의 연구에 모두 주 저자로 참여한 ‘알렉 래드포드(Alec Radford)’입니다. 그는 GPT-3와 CLIP이라는 역시 유명한 논문에도 참여하면서 이제 겨우 30대가 된 그의 구글 스콜라 인용 횟수는 18만 회에 달합니다. 딥러닝의 대부라고 할 수 있는 제프리 힌튼 교수와 요슈아 벤지오 교수의 인용 횟수가 80만 회 정도라는 것을 감안하면 알렉 레드포드가 젊은 나이에 얼마나 대단한 논문에 참여했는지 알 수 있습니다.

투자자들로부터 빵빵하게 투자를 받고, 마이크로소프트의 슈퍼컴퓨터에서 학습이 가능해진 오픈AI. 드디어 세상을 깜짝 놀라게 하는 논문과 AI모델을 내놓습니다. 바로 2020년 등장한 ‘Language Models are Few-Shot Learners(언어모델은 눈치가 백단이야)’와 이 논문이 만들어낸 GPT-3입니다.

31명의 연구자들이 참여한 이 논문에서 매개변수는 1750억 개로 100배 커졌고요. 이제 AI가 드디어 사람처럼 언어를 이해하는 능력이 생겼습니다. Few Shot Learner(몇 번만 해도 배운다)라는 말에서 알 수 있듯이 ‘대충 말해도 AI가 알아듣는 것’이 가능해졌습니다. 드디어 사람처럼 말하고 사람과 소통이 가능한 AI가 나왔다. GPT-3의 가장 큰 의미입니다.

당시 AI연구 업계에서도 GPT-3의 등장에 큰 충격을 받았고, 네이버를 비롯해 일부 기업들이 거대언어모델을 만들겠다고 뛰어들기도 했습니다. 하지만 2020년 등장한 GPT-3의 충격은 AI연구자들과 테크기업의 일부에서만 관심을 보였을 뿐 대중적인 관심을 끌지는 못했습니다.

그도 그럴 것이 2020년은 코비드19가 한참이었고, 이후 넘치는 유동성은 암호화폐와 비대면산업(전자상거래, 메타버스)에 집중되어 있었습니다.

생성형AI의 산업적 가능성이 입증된 것은 GPT-3가 나오고 거의 2년이 지난 2022년 11월 챗GPT가 나오고 나서였습니다. GPT-3가 등장하고 그 가능성을 알아본 회사들은 지금 엄청난 부를 얻었고(예를 들자면 마이크로소프트), 이를 알아보지 못한 회사들은 힘든 시간을 보내야 했습니다. 기술의 흐름을 따라가고 주시하는 것이 왜 중요한지를 보여주는 사건이었습니다.

3) 오픈AI는 이제 대기업

챗GPT의 등장 이후 오픈AI에서 생긴 일을 간단히 정리해 보자면, 챗GPT는 두 달 만에 사용자가 1억 명을 돌파했고, 오픈AI와 손잡은 마이크로소프트의 반격은 구글을 긴장하게 만들었습니다. 구글은 1년 만에 제미나이를 내놨고 이른바 AI 군비경쟁이 시작되었죠. 오픈AI는 GPT-4는 물론, 텍스트를 비디오로 만들어 주는 소라, 라이브 대화 같은 깜짝 놀랄 능력을 만들어냈습니다. 2023년말 샘 올트먼의 깜짝 축출 사건이 있었고, 2024년 부터 오픈AI는 리더십의 변화를 겪기 시작합니다.

일야 수츠케버, 안드레이 카파시, 미라 무라티 CTO 같이 주요 임원진들이 회사를 떠나고, 오픈AI는 다시 샘 올트먼과 그렉 브록먼이 중심에 섭니다.

현재 오픈AI는 대기업으로 변화하는 과정에 있습니다. 비영리 AI연구소에서, GPT라는 핵심 기술과 챗GPT라는 핵심 프로덕트를 가진 기업이 되는 과정. 10월 기준 기업가치는 1570억달러로 211조원에 달합니다. 오픈AI의 직원은 9월 기준 1700명으로 알려져있는데요. 아마도 지금은 더 늘어났을 것으로 추정됩니다. 샌프란시스코에 본사가 있지만 런던, 더블린, 도쿄에 사무소를 냈고 뉴욕, 시애틀, 파리, 브뤼셀, 싱가포르에 사무실을 낼 예정입니다. 오픈AI는 현재 세일즈팀만 300명에 달한다고 해요.

4) 오픈AI가 하는 것이 이렇게 많아?

오픈AI는 'GPT'라는 LLM을 바탕으로 다양한 제품을 출시했거나, 출시할 예정입니다. 한번 정리해 볼까요?

① 챗GPT : 주간 2억 5,000만 명이 사용하는 전 세계에서 가장 많은 사람들이 사용하는 소비자용 AI 서비스입니다.

② 챗GPT 보이스모드 : 챗GPT로 작동하는 보이스모드는 진짜 사람처럼 말하고 노래까지 부르기도 합니다.

③ 챗GPT 검색 : 챗GPT 기능의 일부로 포함된 검색은 뉴스와 스포츠 등 각종 실시간 정보를 보여줍니다.

④ 챗GPT 에이전트 : 나를 대신해서 행동을 해주는 것이 AI에이전트. 이미 경쟁자들이 많은 서비스로 내놨기 때문에 곧 나올 것 같습니다.

⑤ 챗GPT 광고 : 오픈AI는 광고 모델을 추가하겠다고 밝혔습니다. 사용자와 쿼리가 많은 만큼 광고는 충분히 가능한 사업모델.

⑤ 오픈AI 웹브라우저 : 오픈AI는 AI특화 웹브라우저를 만들고 있습니다. 실제로 제품이 될지는 불확실.

⑥ 소라 : 오픈AI가 처음공개한 텍스트를 영상으로 만들어주는 AI. 세상을 깜짝 놀라게 한 AI인데 아직 대중에게 공개가 되지 않고 있습니다.

⑦ AI웨어러블 하드웨어 : 오픈AI는 애플 디자이너인 조너던 아이브와 함께 하드웨어를 만들고 있습니다. 메타의 스마트안경을 만든 임원을 영입한 만큼 웨어러블기기일 가능성이 높습니다.

⑧ 오픈AI 전용 AI반도체 : 엔비디아 GPU와 경쟁할 오픈AI 맞춤형 반도체를 브로드컴과 함께 만들고 있습니다.

2. 스케일링 법칙은 한계에 도달했나

이처럼 오픈AI는 2017년 구글의 트랜스포머 논문을 바탕으로 스케일링의 법칙(Scaling Law)을 극한까지 밀어붙인 회사였어요. 이들의 이런 생각은 ‘Scaling Laws for Neural Language Models(신경망 언어모델의 스케일의 법칙)’이라는 논문에서 명확하게 드러나는데요. 바로 "언어 모델의 성능은 모델 크기, 데이터셋 크기, 학습에 사용된 컴퓨팅 양에 대해 거듭제곱 법칙(Power Law)을 따라 향상된다."라는 것이에요.

스케일링의 법칙이 적용하는 한 모델 크기를 키우고, 데이터를 더 집어넣고, 엔비디아 GPU를 더 사용하면 AI의 성능은 계속 좋아지게 됩니다. 결국에는? 일반인공지능(AGI)까지 가는 거죠.

‘나에게 충분히 긴 지렛대와 받침점을 주면 지구도 들어 올릴 수 있다’고 말한 아르키메데스처럼, 스케일링의 법칙이 뭐든 만들어낼 수 있다는 믿음이 있었습니다.

하지만 최근에는 이런 스케일링의 법칙이 한계에 부딪혔다는 얘기가 나오고 있습니다. 특히, 테크 업계를 취재하는 언론사들로부터 ‘오픈AI뿐만 아니라 앤트로픽, 구글의 AI연구자들이 LLM의 성능 향상 한계에 부딪혀서 곤란해하고 있다’는 기사가 나오기 시작했습니다.

1) 스케일링의 시대 끝났다?

오픈AI가 9월에 내놓은 모델인 o1에서 이런 논란이 시작된 것 같은데요. o1이 GPT 시리즈처럼 스케일링의 법칙에 기반한 모델이 아니기 때문이에요. o1은 모델을 키우거나 데이터를 늘리는 것이 아닌, AI모델에게 생각할 시간을 더 줬더니 성능이 좋아졌다는 것이 특징. 그런데 오픈AI가 스케일링 법칙이 아닌 방식으로 발전시킨 AI모델을 내놨다는 것이 오히려 스케일링 법칙의 한계에 도달했다는 것처럼 받아들여지기 시작했어요. 당시 오픈AI는 두가지 패러다임이 동시에 적용된다고 했지만, 공교롭게도 이 즈음 많은 오픈AI 임원들이 퇴사했습니다.

9월 이후로 스케일링 법칙은 AI업계의 뜨거운 논쟁거리가 되고 있습니다. 오픈AI의 공동창업자이며 AI역사의 산증인인 일야 수츠케버는 11월 15일 로이터와 인터뷰에서 이렇게 말했어요.

“2010년대는 스케일링의 시대(Age of Scaling)였다면, 이제 우리는 다시 경이와 발견의 시대로 돌아왔다. 모두가 다음의 큰 것(next thing)을 찾고 있다"

그래서 일까요? 사티아 나델라 마이크로소프트 CEO는 11월 18일 시카고에서 열린 ‘이그나이트 2024’에서 스케일링의 법칙은 유효하며, 18개월마다 2배씩 성능이 증가하는 무어의 법칙과 달리 AI 성능은 6개월마다 2배씩 증가한다고 말했죠.

이 질문은 11월 20일 엔비디아의 실적발표 컨퍼런스 콜에서도 나왔는데요. 왜냐면 스케일링의 법칙의 최대 수혜자가 엔비디아였거든요. 젠슨 황 CEO는 스케일링의 법칙이 계속 유효한지에 대해서 ‘유효하다’고 답했지만, 다만 ‘이것만으로는 충분하지 않다’고 덧붙였죠. 대신 그는 o1과 같은 ‘test time scaling’은 더 많은 GPU가 필요하다기 때문에 엔비디아에게는 더 좋다고 말했습니다.

스케일링의 법칙이 정말 한계에 도달했는가는 연구자가 아닌 저는 사실 알 수 없는 일. 일야 수츠케버의 경우 스타트업을 창업했고, 투자를 받아야하기 때문에 ‘기존의 언어모델은 한계에 부딪혔고, 새로운 AI모델을 개발하겠다’고 말하고 있으니 걸러서 들어야 하죠. 하지만 그럼에도 불구하고 스케일링 법칙의 한계에 대한 논란이 커지고 있다는 것은 기억해두셔야할 것 같아요.

3. 뇌는 세계 모델을 갖고 세상을 본다

AI연구에서 스케일링의 법칙을 계속 유지시키기 위한 다양한 시도가 있습니다. 대표적인 것이 트랜스포머를 넘어선 새로운 아키텍처를 만들려고 하는 것. MAMBA니 JAMBA니 하는 것들이 있습니다. 하지만 언어모델(LLM) 혹은 딥러닝 자체의 한계를 넘어서는 AI가 필요하다는 주장도 있습니다. 일야 수츠케버의 말대로 경이와 발견의 시대로 다시 접어들었기 때문에, 스케일링의 법칙을 유지할 방법을 찾아내야 한다는 것입니다. 딥러닝이 인간의 뇌를 닮은 인공신경망을 만들었듯이 '인간의 뇌'에서 해법을 찾으려는 시도가 많습니다.

대표적인 것이 '세계 모델(World Model)'입니다. 우리의 뇌가 뛰어난 지능을 갖는 것은 뛰어난 학습능력을 통해서 뇌 안에 세계에 대한 모델을 만들고, 그것을 바탕으로 현실을 예측하기 때문입니다. AI가 세계 모델을 이해하게 된다면 한 단계 높은 지능으로 다가가게 됩니다.

이 세계 모델은 '시각'을 통해서, 보는 과정을 통해서 만들어진다고 해요. 그래서 오픈AI의 소라와 같은 영상모델이 '세계 모델'의 시작점이라는 설명도 있습니다.

인공지능의 대모로 불리는 스탠퍼드대 페이페이리 교수는 '월드랩스'라는 스타트업을 만들었는데 최근 흥미로운 연구결과를 공개했습니다. 2D 이미지를 3D 공간으로 만들고 이 내부를 경험해 볼 수 있는 데모입니다. 우리의 시각은 2D 이미지만을 보지만 우리의 뇌는 이를 가지고 3D 공간을 상상해 내는 것처럼 AI가 2D로 3D 공간을 만들어낸 것입니다.

오늘은 챗GPT 2주년을 맞아 오픈AI의 역사에서 시작해서 '벽에 도달한 스케일링의 법칙', 그리고 새로운 AI에 대한 연구를 소개해드렸습니다. 꽤 길기는 했지만 정말 중요한 내용을 총망라했는데 어떠셨나요? AI는 요즘 전 세계에서 최근 가장 많이 남용되는 단어예요. 소프트웨어 기술을 바탕으로 인간과 같은 지능을 만드는 것 그것이 AI인데요. AI는 '기술'이라는 단어로 치환해도 무방합니다.

지금의 AI 기술은 소프트웨어가 직접 학습하는 '머신러닝'이 보편화되었으며, 뇌를 모방한 인공신경망을 학습시키는 '딥러닝'이 주류입니다. 딥러닝 중에서도 트랜스포머라는 아키텍처가 대세이며, 이 트랜스포머 아키텍처는 스케일링의 법칙이 적용되면서, AI의 성능을 눈부시게 개선시키고 있습니다.

그러나 모든 기술이 한계에 부딪히는 것처럼 언젠가 트랜스포머도, 딥러닝도 한계에 도달하는 순간은 있을 겁니다. 그때마다 AI회의론이 나오겠죠? 하지만 기술 그 자체의 발전은 계속 이어질 것 같습니다.

통제 불가능한 AI는 인류 절반 날릴 타노스 같은 위험한 존재

인공지능(AI)이 우리 생활 깊숙이 들어왔습니다. 모르는 게 있으면 챗GPT에게 물어보고, 운전할 때는 자율주행 기능을 사용합니다. AI 기술이 발달한 만큼 우리 생활도 편리해졌지만, 동시에 인권

mkpark01.tistory.com

미리보는 2025 테크 트렌드 (feat. 2025년 CES 혁신상 수상작)

세계 최대 IT쇼인 CES가 드디어 2025년 CES 혁신상 수상작을 발표했습니다. 올해 AI 분과 혁신상 심사위원으로 참여하면서, “우수한 AI 만큼, 우수한 AI 반도체들이 정말 많이 등장했구나”하는 생각

mkpark01.tistory.com

빅4 CEO가 말한 미래의 인공지능 AI (feat. SK AI 서밋 2024)

서울 코엑스에서 'SK AI 서밋 2024'가 열리고 있는데요. 최태원 SK그룹 회장이 전일 개막식에서 무려 1시간 이상 무대에 올라 AI에 대한 미래 구상을 밝혔습니다. 특히 이날 행사에서는 젠슨 황 엔비

mkpark01.tistory.com

저작자표시 비영리 변경금지

'기술' 카테고리의 다른 글

거울상 생명체의 활용 가능성과 위험성 (feat. 완벽 저항성) (12)	2024.12.17
준비된 기업은 전 세계 3%뿐인 사이버 공격 (19)	2024.12.13
통제 불가능한 AI는 인류 절반 날릴 타노스 같은 위험한 존재 (15)	2024.12.04
미리보는 2025 테크 트렌드 (feat. 2025년 CES 혁신상 수상작) (17)	2024.11.28
빅4 CEO가 말한 미래의 인공지능 AI (feat. SK AI 서밋 2024) (21)	2024.11.15

끝나지 않은 스케일링 법칙 (feat. 오픈AI와 엔비디아)

1. 지금의 오픈AI를 만든 건 역대급 논문이었다

2. 스케일링 법칙은 한계에 도달했나

3. 뇌는 세계 모델을 갖고 세상을 본다

'기술' 카테고리의 다른 글

댓글

티스토리툴바

끝나지 않은 스케일링 법칙 (feat. 오픈AI와 엔비디아)

1. 지금의 오픈AI를 만든 건 역대급 논문이었다

2. 스케일링 법칙은 한계에 도달했나

3. 뇌는 세계 모델을 갖고 세상을 본다

'기술' 카테고리의 다른 글

관련글

댓글

티스토리툴바