본문 바로가기
기술

GPT-4o의 벤치마크를 뛰어넘은 Claude 3.5 Sonnet (feat. 인공지능 버블)

by 트렌디한 경제 상식 2024. 7. 11.
반응형

GPT-4o의 벤치마크를 뛰어넘은 Claude 3.5 Sonnet (feat. 인공지능 버블)
GPT-4o의 벤치마크를 뛰어넘은 Claude 3.5 Sonnet (feat. 인공지능 버블)

 

Anthrophic의 Claude가 3.5 Sonnet을 출시하였습니다. 재미있는 부분은 그들의 최고 모델이 아닌 중간 사이즈의 모델을 발전시키면서 더 빠르고 더 저렴하면서도 GPT-4o의 벤치마크를 뛰어넘었다는 부분입니다.

 

물론 GPT-4 Turbo와는 비교하지 않은 걸 보면 GPT보다 성능이 못하기 때문이다라는 반응도 많은데 저도 동감하면서도 동시에 가장 크고 좋지만 비싼 Opus모델이 아니라 중간 사이즈의 Sonnet과의 대결이라는 점을 생각하면 충분히 의미 있는 결과가 아닐까 합니다.

 

1. 그런데 기술이 그렇게 의미가 있나요?

동시에 많이 나온 반응이 "요즘 벤치마크 믿을 수 없다, cherry picking 한다"라는 말씀도 많이 하시는데 저도 동감합니다. 그리고 한발 더 나아가 과연 이 benchmark에서의 improvement가 유의미한가에 대한 질문도 있습니다.

 

계속해서 새로운 모델은 나오고 있고 이번에 Sonnet이 앞서나간다고 해도 그럼 GPT-5가 나올 거고 그러고 나면 Llama 4가 나오면서 계속 업치락 뒤치락할 텐데 정작 그 성능의 발전에 (1) 일반 유저들에게 얼마나 의미가 있으며, (2) 벤치마크상 1%의 성능이 기술적으로 얼마나 유의미한 발전일까, (3) 성능 발전이 어느 정도 수렴해가고 있는 게 아닌가 라는 생각을 아시다시피 꽤 오래전부터 말씀드려 왔고 실제 실리콘밸리 현지에서도 비슷한 느낌을 받는 사람들이 많아지고 있는 것 같습니다.

 

2. 결국 유저 경험이다?

그렇다면 정말 중요한 건 무엇일까요? 이제는 정말 지겨우시겠지만 저는 결국 유저 경험이고 고객들에 대한 value add라고 생각합니다. 위에 말씀드린 것처럼 벤치마크상의 발전이 지지부진해지는 만큼 유저 경험에 대한 비교와 고민이 더 많아지고 있는 것으로 보입니다.

 

반응형

3. 유저경험에 기반한 모델 비교

그러다 보니 모델에 대한 비교도 사용자들의 경험에 기반하는 방법론이 인기를 끌고 있는데 그 대표적인 예가 Chatbot arena입니다. 사용자가 동시에 익명의 두 챗봇에게 질문을 하고 그 결괏값에 대한 선호도를 고르는 방식으로 이루어집니다.

 

재미있는 건 전체성적으로 보았을 때는 GPT-4o가 앞서나가고 있지만  주고받는 대화에서는 Claude가 근소하게 앞서 나가는 것처럼 보이고 조금이나마 앞서 나가는 것처럼 보입니다.

 

한국어는 아무래도 데이터가 많은 구글이 앞서 나가는 모양인 것 같네요. 사실 이거 보면서 결국은 데이터 많은 구글이 일등이 되지 않을까라는 생각도 잠깐 들었습니다. 어쨌든 예전부터 주변에 GPT보다 Claude가 좋다는 분들이 좀 있었는데 확실히 그런 면이 존재해 보이네요.

 

4. 그래서 이번 Claude의 업그레이드에서 주목할 건 사실

그리고 이번 Claude를 웹상에서 써보시면 artifact라는 새로운 인터페이스가 추가되었습니다. 오른쪽에 따로 실행창이 떠서 요청한 작업을 코드나 텍스트뿐만 아니라 실제로 구동되는 모습으로 보여주고 바로 수정가능한 인터페이스인데요, 모델의 성능에 대한 칭찬도 많지만 오히려 artifact에 대한 유저들의 반응이 더 뜨거워 보입니다. 개인적으로도 정말 좋은 방향성이라고 생각하고 성능보단 유저경험!이라는 부분을 잘 보여주는 업데이트라고 생각합니다.

 

그냥 그림만 만드는 게 아니라 만든 그림으로 바로 게임을 만들어서 그 자리에서 플레이를 할 수 있습니다.

 

5. 사실 ChatGPT도 UX의 성공일 뿐?

그런 면에서 ChatGPT의 기술적인 면도 칭찬할만하지만 어쩌면 유저의 경험의 차이가 가장 큰 부분이 아니었을까 생각합니다.

 

ChatGPT가 나오기 전 Jasper AI라는 마케팅 콘텐츠를 생성해 주는 툴이 가장 관심을 끌던 회사였는데 실리콘밸리의 VC들이 너도나도 투자하고 데모를 보여주는 등 인공지능의 발전을 칭송하기 시작했었죠.

 

재미있는 건 그 당시의 Jasper AI는 지금의 wrapper들과 같이 OpenAI의 GPT-3의 API위에 인터페이스를 씌운 툴이었고 OpenAI의 GPT-3는 OpenAI Playground를 통해서 사용할 수 있었던 시절입니다. 당시 유저들은 GPT-3을 playground를 통해 직접 쓰기보다 더 비싼 돈을 내고라도 Jasper AI를 썼었는데요, 그 이유는 바로 "쓰기 편리하기 때문"입니다.

 

이후 샘알트만이 ChatGPT라는 무료이자 일반 유저들이 쉽게 쓸 수 있는 인터페이스를 출시하면서 만족스러운 유저들의 경험을 제공하였고 이로 인해 Jasper와 같은 wrapper들이 갈 곳을 잃는 첫 번째 숙청이 있었던 거죠. 물론 모두가 다 망한 건 아니고 Jasper를 포함한 많은 회사들은 지금도 열심히 다양하게 재기를 위해 노력하고 있다고 합니다.

 

아시다시피 GPT 모델들은 모두 transformer라는 구글의 논문에 기반한 구조인만큼 기술적으로도 어느 정도 오픈되어 있는 상황이었기 때문에 저는 ChatGPT의 성공의 큰 부분이 뛰어난 UX덕분이라고 생각합니다. 만약 그들의 기술력이 가장 특별한 경쟁력 있는 부분이었다면 지금 Anthrophic이나 Geminie가 이렇게 빠르게 따라올 수가 없었어야겠죠.

 

728x90

혹시나 오해하실까 봐 정리하자면 OpenAI를 깎아내리는 게 아니라 많은 회사들이 접근할 수 있던 좋은 기술을 제대로 꿰어내면서 소비자들을 열광하게 한 첫 회사가 바로 OpenAI이고 그리고 최근 GPT-4o의 데모에서 보셨다시피 뛰어난 소비자 경험을 남들보다 빠르게 알아채고 행동하여 제공함으로써 업계 최고의 자리를 유지하고 있는 OpenAI가 저는 정말 대단하다고 생각합니다.

 

하지만 동시에 ChatGPT의 부상과 Claude의 맹추격을 보면서 어쩌면 최고의 인공지능 회사는 최고의 기술력을 가진 회사가 아닐 수도 있다는 말을 하고 싶었습니다. 그게 어떤 회사냐고요? 아마 인공지능이든 뭐든 어쨌든 최고의 고객 경험과 고객 가치를 창출하는 회사라는 본질은 변하지 않는 것 아닐까요?


 

 

양자 컴퓨터가 바꿀 미래 (feat. 퀀텀 트렌드)

1. 4158 큐비트 양자컴이 온다IBM은 4,000 큐비트에 달하는 양자 컴퓨터를 예정대로 내년에 개발하겠다고 했습니다. 큐비트란 양자 정보시스템에서 사용되는 정보 단위. 큐비트 수가 많을수록 연산

mkpark01.tistory.com

 

 

AI로 돈 버는 사례 그리고 몇가지 큰 원칙 (feat. 투기적 가정)

'아직 AI로 돈 버는 사례가 없잖은가, 고로 아직은 경계 중이다'라는 결론에 계신 분들이 많다. 나보다 사업 경험이 월등히 높으신 분들 중에서도 많으시다. 그리고 그것이 팩트다. 맞는 말씀이다

mkpark01.tistory.com

 

 

 

스마트테크, 로봇과 메타버스가 바꿀 산업 (feat. 스마트테크 코리아 2024)

오늘날 테크놀로지는 생산에서부터 유통, 물류, 소비 과정에 이르기까지 전 방위로 도입되고 있는데요. 특히 AI 로봇 메타버스의 물결이 넘실대고 있습니다. 매경미디어그룹은 스마트제조혁신

mkpark01.tistory.com

반응형

댓글