본문 바로가기
기술

오픈AI, 음성비서 GPT-4o 공개 (feat. 네이티브 멀티모달)

by MINK1016 2024. 5. 14.
반응형

오픈AI, 음성비서 GPT-4o 공개 (feat. 네이티브 멀티모달)
오픈AI, 음성비서 GPT-4o 공개 (feat. 네이티브 멀티모달)

 

여러분이 잠든 사이 오늘 새벽 2시, 오픈AI가 ‘봄맞이 업데이트’를 전격 단행했습니다. 챗GPT와 GPT-4.0 모두 업데이트했습니다. 궁금해서 안 볼 수 없었습니다. 오픈AI는 GPT-4라는 대규모 언어 모델을 갖고 있지만, 아직도 적자가 심합니다. 때문에, 오픈AI는 그동안 AI 분야에서 핫한 스타트업의 비즈니스 모델을 꾸준히 벤치마크 하면서 다양한 실험을 벌였습니다. 오늘은 음성에 도전하는 모습을 보여줬습니다. 새벽에 어떤 발표를 했는지. 짧고 굵게 살펴 드리겠습니다.

 

1. 플래그십 모델 GPT-4o

오픈AI가 드디어 GPT-4o를 발표했습니다. 우리말 발음은 ‘지피티 포오’입니다. 수주에 걸쳐 순차로 배포한다고 합니다. 한국에서 사용해 보려면 최소 2주는 걸릴 것 같은 생각이 듭니다. GPT-4o는 GPT-4 업데이트 버전입니다. 텍스트 비전 오디오 통합 멀티모달(Multi-Modal)입니다. 멀티모달은 다양한 AI 엔진, 예를 들어 언어모델, 비디오 모델, 음성 모델을 통합한 AI 에이전트(비서)입니다.

 

2. 네이티브 멀티모달

오픈AI는 GPT-4o를 가리켜 ‘네이티브 멀티모달’이라고 소개했습니다. 본토박이 멀티모달이라고 해석해도 될지 모르겠습니다. GPT-4o에서 o는 “모든”이라는 뜻을 가진 ‘옴니’의 약자입니다. 즉 해석하면, 타고난 모든 멀티모달 정도 되겠습니다.

 

이날 발표는 샘 올트먼 CEO가 할 줄 알았지만, 미라 무라티 오픈AI 최고기술책임자(CTO)가 무대에 올라 마이크를 잡았습니다. 그는 먼저 이런 말을 꺼냈습니다. “챗GPT는 오늘날 1억 명이 사용하는 AI 솔루션입니다. 오늘날 97% 세계 시민을 커버하는 50개 언어로 제공되는데요. 15개 언어를 추가했습니다. 또한 GPT-4o API는 GPT-4 보다 2배 더 빠르고 가격은 2배 쌉니다.” 아울러 챗GPT의 새로워진 UI를 선보인다고 발표했습니다.

 

GPT-4o의 가장 큰 핵심 기능은 음성입니다. 그동안 챗GPT에도 음성 기능이 없지는 않았습니다. 텍스트를 음성으로 변환하는 음성 모드를 제공했습니다. 이제는 AI와 실시간 대화하는 수준으로 진화했습니다. 마크 첸 엔지니어가 무대에 올라 챗GPT와 대화를 시연했습니다. 챗GPT는 서비스 이름이고, GPT는 AI 엔진 이름입니다.

 

반응형

3. 감정을 실어 말하는 AI

수많은 AI 에이전트가 등장을 했습니다. 하지만 감정을 잘 전달하진 못했는데요. 새벽에 시연한 GPT-4o 기반 챗GPT는 매우 풍부한 목소리를 냈습니다. 슬프거나, 기쁘거나, 또는 흥분된 목소리를 냅니다. 정말 감정이 풍부한 사람과 대화하는 느낌이었습니다. 다만 감정이 튀어나올 때는, 중간중간 AI 특유의 노이즈가 섞여있는 것이 흠이었습니다.

 

4. 수학문제에서 길안내까지

이러한 AI 에이전트는 다양한 응용이 가능합니다. 오픈AI는 수학 문제를 실시간 촬영하는 영상을 시연했습니다. 챗GPT가 문제를 보고 조언을 해줬습니다. 물론 고차원 수학문제까지 풀 수 있을지는 미지수입니다. 다만 응용 분야가 무궁무진한 것은 맞습니다. 이미지나 영상을 촬영해 올리고, 조언을 받을 수 있게 됐기 때문입니다.

 

예를 들어 소프트웨어 엔지니어라면 코드를 입력해, 이상 유무를 실시간 음성으로 교정받을 수 있습니다. 마치 옆에 있는 비서처럼 말입니다. 아울러 차트에 대한 해석도 부탁할 수 있습니다. 오픈AI 엔지니어는 평균, 최소, 최대 온도 그래프의 이미지를 업로드하고, 이에 대한 해석을 음성으로 듣는 시연을 했습니다.

 

얼마나 실시간인지가 관건이었습니다. 짧으면 232밀리 초 평균 320밀리 초라는 것이 오픈AI 설명입니다. 1밀리 초는 1,000분의 1초이기 때문에, 이 정도 속도면 사람과 실시간 대화하는 것과 다름없습니다. 종전 챗GPT 음성 모드는 GPT-3.5가 5.4초, GPT-4가 2.8초 걸렸는데요. 그 속도를 매우 크게 깬 것입니다.

 

5. 외국어 교사 필요 없어질까

듣다 보니, 토익 듣기 평가가 생각이 납니다. 이제 외국어 공부는 챗GPT와 본격적으로 하는 시대가 펼쳐지지 않을까 하는 생각마저 들었습니다. 물론 어느 정도 교정을 해줄지는 테스트를 해봐야겠습니다.

 

아울러 이런 음성 기능 강화는 증강현실(AR) 글래스를 크게 발전시킬 것으로 보입니다. 현재도 AR 글래스를 중심으로 메타가 AI 에이전트 접목을 시도하고 있습니다, 향후 충돌이 예상됩니다. 또 시각장애인을 위한 AR 글래스가 충분히 태동할 단계에 온 듯합니다. 오픈AI는 시각장애인이 새 챗GPT를 활용해 주변을 설명 듣는 영상(좌표)을 선보였습니다.

 

오픈AI, 음성비서 GPT-4o 공개 (feat. 네이티브 멀티모달)
오픈AI, 음성비서 GPT-4o 공개 (feat. 네이티브 멀티모달)

 

6. 저커버그, AI는 에너지다

메타의 창업자 마크 저커버그가 인공지능 발전에 에너지가 걸림돌이 될 것이라고 주장했습니다. 특히 그는 "장기간 지속된 GPU 가뭄이 기본적으로 끝났으며, 앞으로는 에너지 제약이 IT 산업의 다음 병목 현상이 될 것"이라고 말했습니다. 무슨 뜻이냐면, 그동안 엔비디아를 중심으로 GPU 수요가 폭증했는데, 현재 단계는 기업들이 그 GPU를 갖고 데이터센터를 지으려고 한다고 합니다. 하지만 정작 에너지 부족난에 직면해 어렵지 않을까 하는 메시지입니다.

 

7. “데이터센터 1개는 곧 10만 가구”

저커버그는 일반 데이터센터가 50~100 메가와트(MW)를 소비하는데, 대규모 데이터센터는 150MW를 쓴다고 했습니다. 또 AI 학습과 추론이 폭증하면서 1개 데이터센터가 300~500MW를 쓰는 것을 넘어. 몇몇 곳은 1 기가와트(GW)까지 쓸 것으로 내다봤습니다.

 

1기가 와트는 약 10만 가구가 쓸 전력양입니다. 원자력 발전소 1기 수준입니다. 하지만 발전소를 급하게 늘리는 것은 매우 어렵습니다. 인허가에서 건설까지 상당한 과정이 필요합니다. 통상 화력 발전소는 3~5년, 원자력은 15년, 수력은 10년 정도 시간이 필요합니다.

 

8. 에너지 분야에 투자해라

저커버그는 " 때문에 에너지를 생성하는데 투자할 가치가 있다"라고 강조했습니다. 때문에 클라우드 사업을 하는 빅테크 기업을 중심으로 에너지 투자가 잇따르고 있습니다. 알파벳, 아마존, 마이크로소프트가 대표적인데요. 올 1~3월 이들이 에너지에 투자한 금액만 총 400억 달러에 달한다고 합니다.

 

미국 유틸리티 기업인 도미니언에너지의 CEO 밥 블루는 "클라우드 업체들이 찾아와 몇 기가씩 에너지를 요구하는 경우가 많다"라고 했습니다. JP모건은 아마존 마이크로소프트 구글 메타가 소모하는 전력량이 2022년 기준 콜롬비아 전력 소모량인 90 테라와트시(TWH)에 맞먹는다고 분석했습니다.

 

전체 전력에서 데이터센터가 차지하는 비중 역시 커질 전망입니다. 컨설팅 기업 BCG는 미국 전력 소모에서 데이터센터가 차지하는 비중이 7.5%에 달할 것으로 분석되었습니다. 역설적인 것은 이들은 자사의 브랜드를 위해 에너지 투자와 함께 탈탄소 분야에도 막대한 투자를 하고 있다고 합니다. 블룸버그는 탈탄소 분야 투자액이 2022년 3,000억 달러에서 2050년 8000억 달러로 커질 것으로 전망했습니다.

 

728x90

9. 미국·중국, AI안전 회담 연다

미국과 중국이 14일 제네바에서 '인공지능 위험'을 주제로 첫 고위급 회담을 엽니다. 카운트 파트너는 미국 국무부·국가안보위원회와 중국 외교부·국가발전개혁위원회! 다만 회담 성격에 대해선, 살짝 온도차가 있습니다. 바이든 행정부 관계자는 "우리는 양측이 위험과 안전을 어떻게 정의하는지에 초점을 맞추고 있다"라고 말했습니다. 반면 중국은 생각이 다소 다릅니다.

 

류펑위 주미중국대사관 대변인은 성명을 통해 "미국과 중국의 AI 관련 대화가 양국뿐 아니라 다른 국가들의 미래에도 영향을 미칠 것"이라면서 "양측은 솔직한 대화를 나눌 책임이 있다"라고 말했습니다. 안전 외에도 다양한 논의를 나누자는 메시지입니다. 미국은 작년 10월 AI 칩의 중국 수출을 규제했습니다. 때문에 중국은 대규모 언어 모델 학습에 필요한 엔비디아 H100 수입이 막혔습니다.

 

미국은 "불필요한 기대는 하지 말라"는 메시지를 확실히 보냈습니다. 특히 바이든 행정부는 "국가 안보 조치는 협상 대상이 아니다"라고 일축. 브루킹스 연구소는 군사적으로 허용되는 AI 사용에 대한 이해를 높이고, AI 모델 훈련을 위해 국경을 넘어 어떤 종류의 데이터를 공유할 수 있는지에 대한 합의를 도출할 수 있을 것이라고만 분석했습니다.

 

미국 공군은 2028년까지 인공지능(AI) 파일럿이 조종하는 전투기 1000대를 실천 배치 계획입니다. 프랭크 켄달 미국 공군 장관은 이달 캘리포니아 에드워즈 공군기지에서 AI 파일럿이 조종하는 F-16 전투기에 탑승해 주목을 끌었습니다.

 

분명 다른 장면도 있습니다. 작년 말 UN은 인공지능(AI)이 표적을 파악하는 데 그치지 않고 치명적인 공격을 가하는 선택까지 내리는 '치명적 자율무기 시스템'(Lethal Autonomous Weapon Systems)의 위협에 국제사회가 적극 대응해야 한다는 결의안을 처리했습니다. 하지만 강제조항은 없었습니다.


 

 

흔들리는 검색 왕국, 구글과 미국 정부의 소송 (feat. 반독점법 위반)

구글이 해마다 애플에 어마어마한 금액을 지급하고 있습니다. 2022년에만 200억 달러(약 27조 3,500억 원)를 애플에 줬다고 합니다. 아이폰의 기본 검색 엔진을 구글로 설정하기 위해서라고 합니다.

mkpark01.tistory.com

 

 

인텔로 돌아와 마침내 CEO가 된 겔싱어, 인텔의 부활을 이끌 수 있을까?

1. 한적한 시골마을 ‘농장 소년’으로 보낸 어린 시절인텔의 CEO라면 왠지 모르게 실리콘밸리 같은 기술의 중심지에서 관련 직종에 종사하는 부모의 영향을 받고 자랐을 것 같지만, 겔싱어의 삶

mkpark01.tistory.com

 

 

가장 일반적인 Zoom 문제 및 해결 방법 (feat. 화상회의 필수 상식)

Zoom에서 문제가 발생했는데 어떻게 해결해야 할지 확신이 없으신가요? 다행히 Zoom 문제를 해결하는 것이 항상 어려울 필요는 없습니다. 실제로 많은 문제를 스스로 해결할 수 있습니다. Zoom 통화

mkpark01.tistory.com

728x90
반응형

댓글