구글 Gemini 전격 발표 및 소개: 가장 크고 가장 유능한 AI 모델

구글이 GPT-4를 뛰어넘은 모델인 Gemini를 발표했습니다. 루머로는 내년에 발표할 거라고 했는데 깜짝 발표입니다. Nano, Pro, Ultra 세 가지 모델을 발표했는데요. GPT-4를 넘은 모델은 Ultra 모델입니다. Gemini Ultra의 성능은 텍스트와 멀티모달에서 GPT-4, GPT-4V를 한 가지(HellaSwag)를 빼고 모두 뛰어넘었습니다. 특히 MMLU 벤치마크를 처음으로 90%를 달성한, 최초로 인간 전문가를 뛰어넘은 모델입니다.

Bard는 오늘부터 Ultra Pro 모델을 사용하게 되고, GCP Vertex AI는 13일부터 써볼 수 있다고 합니다. 아쉽게도 Ultra 모델은 아직 사용해 볼 수는 없습니다. 내년에 출시할 Bard Advanced에서 사용할 수 있도록 할 예정이라고 합니다. AI 조직까지 통합했을 정도로 절치부심한 구글이 드디어 한 건 한 것 같은 느낌입니다. 과연 구글이 판을 뒤엎을지, 아니면 OpenAI가 다시 한번 다른 Breakthrough로 계속 앞서나갈지 귀추가 주목됩니다.

구글 Gemini 전격 발표 및 소개: 가장 크고 가장 유능한 AI 모델

1. Google과 Alphabet CEO Sundar Pichai의 메모

모든 기술 변화는 과학적 발견을 발전시키고 인류의 발전을 가속화하며 삶을 개선할 수 있는 기회입니다. 나는 지금 우리가 보고 있는 AI의 전환이 이전의 모바일이나 웹으로의 전환보다 훨씬 더 큰, 우리 생애에서 가장 심오한 전환이 될 것이라고 믿습니다. AI는 일상적인 것부터 특별한 것까지 모든 사람들을 위해 기회를 창출할 수 있는 잠재력을 가지고 있습니다. 이는 혁신과 경제 발전의 새로운 물결을 가져올 것이며 이전에 볼 수 없었던 규모로 지식, 학습, 창의성 및 생산성을 촉진할 것입니다.

AI가 전 세계 모든 사람에게 도움이 되도록 만들 수 있다는 점이 저를 흥분시킵니다.

AI 우선 기업으로의 여정이 시작된 지 약 8년이 지났지만 발전 속도는 점점 더 빨라지고 있습니다. 이제 수백만 명의 사람들이 우리 제품 전반에 걸쳐 생성 AI를 사용하여 1년 전에도 할 수 없었던 일, 즉 답을 찾는 것부터 더 복잡한 작업까지 수행하고 있습니다. 새로운 도구를 사용하여 공동작업하고 창작하는 방법에 대한 질문입니다. 동시에 개발자들은 우리의 모델과 인프라를 사용하여 새로운 생성 AI 애플리케이션을 구축하고 있으며 전 세계의 스타트업과 기업은 AI 도구를 통해 성장하고 있습니다.

이는 놀라운 추진력이지만, 우리는 가능한 것의 표면을 긁기 시작했을 뿐입니다.

우리는 이 작업에 대담하고 책임감 있게 접근하고 있습니다. 이는 우리가 연구에 야심 차게 노력하고 사람과 사회에 막대한 이익을 가져올 수 있는 역량을 추구하는 동시에 AI의 역량이 더욱 강화됨에 따라 안전장치를 구축하고 정부 및 전문가와 협력하여 위험을 해결하는 것을 의미합니다. 그리고 우리는 AI 원칙에 따라 최고의 도구, 기반 모델 및 인프라에 지속적으로 투자하고 이를 우리 제품과 다른 제품에 제공합니다.

이제 우리는 여러 주요 벤치마크에서 최고의 성능을 발휘하며 가장 유능하고 일반적인 모델인 Gemini를 통해 여정의 다음 단계를 밟고 있습니다. 첫 번째 버전인 Gemini 1.0은 Ultra, Pro, Nano 등 다양한 크기에 최적화되어 있습니다. 이는 Gemini 시대의 첫 번째 모델이자 올해 초 Google DeepMind를 설립했을 때 가졌던 비전의 첫 실현입니다. 이 새로운 모델 시대는 우리가 회사로서 수행해 온 가장 큰 과학 및 엔지니어링 노력 중 하나를 나타냅니다. 저는 앞으로의 일과 Gemini가 전 세계 사람들에게 열어줄 기회에 대해 진심으로 기대하고 있습니다.

2. Gemini에 대한 소개

Gemini 팀을 대표하여 Google DeepMind의 CEO이자 공동 창업자인 Demis Hassabis가 작성했습니다.

AI는 많은 연구 동료들과 마찬가지로 내 인생 연구의 초점이었습니다. 10대 때 컴퓨터 게임용 AI를 프로그래밍한 이래로, 그리고 뇌의 작용을 이해하려고 노력하는 신경과학 연구원으로 수년 동안 저는 항상 우리가 더 똑똑한 기계를 만들 수 있다면 이를 활용해 인류에게 엄청난 혜택을 줄 수 있다고 믿어왔습니다.

AI를 통해 책임감 있는 세상을 만들겠다는 약속은 Google DeepMind에서 계속해서 우리의 업무를 추진하고 있습니다. 오랫동안 우리는 사람들이 세상을 이해하고 상호 작용하는 방식에서 영감을 받아 차세대 AI 모델을 구축하고 싶었습니다. 스마트한 소프트웨어라기보다는 유용하고 직관적인 것, 즉 전문가 도우미 또는 보조자처럼 느껴지는 AI입니다.

오늘 우리는 지금까지 우리가 만든 것 중 가장 유능하고 일반적인 모델인 Gemini를 소개하면서 이 비전에 한 걸음 더 다가섰습니다.

Gemini는 Google Research의 동료를 포함하여 Google 전체 팀의 대규모 공동 노력의 결과입니다. 처음부터 다중 모드로 구축되었습니다. 즉, 텍스트, 코드, 오디오, 이미지 및 비디오를 포함한 다양한 유형의 정보를 일반화하고 원활하게 이해하고 작동하며 결합할 수 있습니다.

구글 Gemini 전격 발표 및 소개: 가장 크고 가장 유능한 AI 모델

Gemini는 또한 당사의 가장 유연한 모델이기도 하며 데이터 센터에서 모바일 장치에 이르기까지 모든 장치에서 효율적으로 실행할 수 있습니다. 최첨단 기능은 개발자와 기업 고객이 AI를 구축하고 확장하는 방식을 크게 향상할 것입니다.

우리는 첫 번째 버전인 Gemini 1.0을 세 가지 다른 크기에 맞게 최적화했습니다.

① Gemini Ultra: 매우 복잡한 작업을 위한 가장 크고 가장 뛰어난 모델

② Gemini Pro: 광범위한 작업에 걸쳐 확장할 수 있는 최고의 모델
③ Gemini Nano: 온디바이스 작업을 위한 가장 효율적인 모델

1) 최첨단 성능

우리는 Gemini 모델을 엄격하게 테스트하고 다양한 작업에서 성능을 평가해 왔습니다. 자연스러운 이미지, 오디오 및 비디오 이해부터 수학적 추론에 이르기까지 Gemini Ultra의 성능은 LLM(대형 언어 모델) 연구 및 개발에 사용되는 널리 사용되는 학술 벤치마크 32개 중 30개에서 현재의 최첨단 결과를 능가합니다.

90.0%의 점수를 받은 Gemini Ultra는 수학, 물리학, 역사, 법, 의학, 윤리 등 57개 과목을 조합하여 두 세계를 테스트하는 MMLU(대규모 멀티태스킹 언어 이해)에서 인간 전문가를 능가한 최초의 모델입니다. 지식과 문제 해결 능력.

MMLU에 대한 새로운 벤치마크 접근 방식을 통해 Gemini는 추론 기능을 사용하여 어려운 질문에 답하기 전에 더 신중하게 생각할 수 있게 되었으며, 이는 단순히 첫인상을 사용하는 것보다 크게 개선되었습니다.

Gemini Ultra는 또한 의도적인 추론이 필요한 다양한 도메인에 걸친 다중 모드 작업으로 구성된 새로운 MMMU 벤치마크에서 59.4%의 최첨단 점수를 달성했습니다.

우리가 테스트한 이미지 벤치마크를 통해 Gemini Ultra는 추가 처리를 위해 이미지에서 텍스트를 추출하는 객체 문자 인식(OCR) 시스템의 지원 없이 이전 최첨단 모델보다 성능이 뛰어났습니다. 이러한 벤치마크는 Gemini의 기본 다중 양식을 강조하고 Gemini의 보다 복잡한 추론 능력의 초기 징후를 나타냅니다.

2) 차세대 기능

지금까지 다중 모드 모델을 생성하는 표준 접근 방식에는 다양한 양식에 대해 별도의 구성 요소를 훈련한 다음 이를 함께 연결하여 이 기능 중 일부를 대략적으로 모방하는 것이 포함되었습니다. 이러한 모델은 때때로 이미지 설명과 같은 특정 작업을 수행하는 데는 능숙하지만 보다 개념적이고 복잡한 추론에는 어려움을 겪을 수 있습니다.

우리는 Gemini를 기본적으로 다중 모드로 설계했으며 처음부터 다양한 양식에 대해 사전 훈련되었습니다. 그런 다음 추가 다중 모드 데이터를 사용하여 이를 미세 조정하여 효율성을 더욱 개선했습니다. 이를 통해 Gemini는 기존 다중 모드 모델보다 훨씬 더 효과적으로 모든 종류의 입력을 처음부터 완벽하게 이해하고 추론할 수 있으며, 그 기능은 거의 모든 영역에서 최첨단입니다.

3) 정교한 추론

Gemini 1.0의 정교한 다중 모드 추론 기능은 복잡한 서면 및 시각적 정보를 이해하는 데 도움이 될 수 있습니다. 이는 방대한 양의 데이터 속에서 식별하기 어려울 수 있는 지식을 찾아내는 데 탁월한 능력을 발휘합니다.

정보 읽기, 필터링 및 이해를 통해 수십만 개의 문서에서 통찰력을 추출하는 놀라운 능력은 과학에서 금융에 이르기까지 다양한 분야에서 디지털 속도로 새로운 혁신을 제공하는 데 도움이 될 것입니다.

구글 Gemini 전격 발표 및 소개: 가장 크고 가장 유능한 AI 모델

4) 텍스트, 이미지, 오디오 등 이해하기

Gemini 1.0은 텍스트, 이미지, 오디오 등을 동시에 인식하고 이해하도록 훈련되었으므로 미묘한 정보를 더 잘 이해하고 복잡한 주제와 관련된 질문에 답할 수 있습니다. 이는 수학과 물리학과 같은 복잡한 주제의 추론을 설명하는 데 특히 좋습니다.

구글 Gemini 전격 발표 및 소개: 가장 크고 가장 유능한 AI 모델

5) 고급 코딩

Gemini의 첫 번째 버전은 Python, Java, C++, Go 등 세계에서 가장 널리 사용되는 프로그래밍 언어로 고품질 코드를 이해하고 설명하며 생성할 수 있습니다. 다양한 언어로 작업하고 복잡한 정보에 대해 추론할 수 있는 능력 덕분에 전 세계 코딩을 위한 최고의 기반 모델 중 하나가 되었습니다.

Gemini Ultra는 코딩 작업 성능을 평가하기 위한 중요한 업계 표준인 HumanEval과 웹 기반 정보 대신 작성자가 생성한 소스를 사용하는 내부 보유 데이터 세트인 Natural2Code를 포함한 여러 코딩 벤치마크에서 탁월한 성능을 발휘합니다.

Gemini는 고급 코딩 시스템을 위한 엔진으로도 사용할 수 있습니다. 2년 전 우리는 프로그래밍 대회에서 경쟁력 있는 성능 수준에 도달한 최초의 AI 코드 생성 시스템인 AlphaCode를 선보였습니다.

Gemini의 특수 버전을 사용하여 우리는 코딩을 넘어 복잡한 수학과 이론적 컴퓨터 과학을 포함하는 경쟁력 있는 프로그래밍 문제를 해결하는 데 탁월한 고급 코드 생성 시스템인 AlphaCode 2를 만들었습니다.

구글 Gemini 전격 발표 및 소개: 가장 크고 가장 유능한 AI 모델

원래 AlphaCode와 동일한 플랫폼에서 평가했을 때 AlphaCode 2는 엄청난 개선을 보여 거의 두 배에 달하는 문제를 해결했으며 경쟁 참가자의 85%보다 나은 성능을 발휘하는 것으로 추정됩니다. 이는 AlphaCode의 거의 50%보다 높은 수치입니다. 프로그래머가 따라야 할 코드 샘플에 대한 특정 속성을 정의하여 AlphaCode 2와 협력하면 성능이 더욱 향상됩니다.

우리는 프로그래머들이 문제를 추론하고, 코드 디자인을 제안하고, 구현을 지원하는 데 도움이 되는 협업 도구로 고성능 AI 모델을 점점 더 많이 사용하게 되어 기쁘게 생각합니다. 이를 통해 앱을 출시하고 더 나은 서비스를 더 빠르게 디자인할 수 있습니다.

6) 더욱 안정적이고 확장 가능하며 효율적

우리는 Google이 자체 설계한 TPU(Tensor 처리 장치) v4 및 v5e를 사용하여 AI에 최적화된 인프라에서 Gemini 1.0을 대규모로 교육했습니다. 그리고 우리는 이를 가장 안정적이고 확장 가능한 훈련 모델이자 가장 효율적으로 서비스할 수 있는 모델로 설계했습니다.

TPU에서 Gemini는 이전의 작고 성능이 떨어지는 모델보다 훨씬 빠르게 실행됩니다. 맞춤 설계된 AI 가속기는 검색, YouTube, Gmail, Google 지도, Google Play, Android 등 수십억 사용자에게 서비스를 제공하는 Google AI 기반 제품의 핵심입니다. 또한 전 세계 기업이 대규모 AI 모델을 비용 효율적으로 교육할 수 있도록 지원했습니다.

오늘 우리는 최첨단 AI 모델 학습을 위해 설계된 가장 강력하고 효율적이며 확장 가능한 TPU 시스템인 Cloud TPU v5p를 발표합니다. 이 차세대 TPU는 Gemini의 개발을 가속화하고 개발자와 기업 고객이 대규모 생성 AI 모델을 더 빠르게 훈련하여 새로운 제품과 기능을 고객에게 더 빨리 도달할 수 있도록 지원합니다.

7) 책임과 안전을 핵심으로 구축

Google은 우리가 하는 모든 일에서 대담하고 책임감 있는 AI를 발전시키기 위해 최선을 다하고 있습니다. Google의 AI 원칙과 제품 전반에 걸친 강력한 안전 정책을 바탕으로 Gemini의 다중 모드 기능을 설명하기 위해 새로운 보호 기능을 추가하고 있습니다. 각 개발 단계에서 우리는 잠재적인 위험을 고려하고 이를 테스트하고 완화하기 위해 노력하고 있습니다.

Gemini는 편향 및 독성을 포함하여 현재까지 Google AI 모델 중 가장 포괄적인 안전성 평가를 보유하고 있습니다. 우리는 사이버 공격, 설득, 자율성과 같은 잠재적인 위험 영역에 대한 새로운 연구를 수행했으며 Google Research의 동급 최고 수준의 적대적 테스트 기술을 적용하여 Gemini를 배포하기 전에 중요한 안전 문제를 식별하는 데 도움을 주었습니다.

내부 평가 접근 방식의 맹점을 식별하기 위해 우리는 다양한 외부 전문가 및 파트너 그룹과 협력하여 다양한 문제에 대해 모델의 스트레스 테스트를 진행하고 있습니다.

Gemini의 교육 단계에서 콘텐츠 안전 문제를 진단하고 출력이 정책을 준수하는지 확인하기 위해 Allen Institute의 전문가가 개발한 웹에서 가져온 다양한 수준의 독성이 포함된 100,000개의 프롬프트 세트인 Real Toxicity Prompts와 같은 벤치마크를 사용하고 있습니다. AI를 위해. 이 작업에 대한 자세한 내용은 곧 공개될 예정입니다.

피해를 제한하기 위해 우리는 폭력이나 부정적인 고정관념과 관련된 콘텐츠를 식별하고, 라벨을 지정하고, 분류하는 전용 안전 분류기를 구축했습니다. 강력한 필터와 결합된 이 계층적 접근 방식은 Gemini를 모든 사람에게 더욱 안전하고 포용적으로 만들도록 설계되었습니다. 또한 우리는 사실성, 근거, 귀인 및 확증과 같은 모델에 대해 알려진 문제를 계속해서 해결하고 있습니다.

책임과 안전은 항상 우리 모델의 개발과 배포의 중심이 될 것입니다. 이는 협력적인 구축이 필요한 장기적인 약속입니다. 따라서 우리는 MLCommons, Frontier Model Forum 및 AI Safety Fund와 같은 조직을 통해 모범 사례를 정의하고 안전 및 보안 벤치마크를 설정하기 위해 업계 및 더 넓은 생태계와 파트너십을 맺고 있습니다. 공공 및 민간 부문에서 AI 시스템과 관련된 보안 위험을 완화하도록 설계된 SAIF(Secure AI Framework). 우리는 Gemini를 개발하면서 전 세계 연구자, 정부 및 시민 사회단체와 계속 협력할 것입니다.

728x90

3. Gemini를 전 세계에 공개

Gemini 1.0은 이제 다양한 제품과 플랫폼에 걸쳐 출시됩니다.

1) Google 제품의 Gemini Pro

우리는 Google 제품을 통해 수십억 명의 사람들에게 Gemini를 소개하고 있습니다.

오늘부터 Bard는 고급 추론, 계획, 이해 등을 위해 미세 조정된 Gemini Pro 버전을 사용할 것입니다. 이는 Bard 출시 이후 가장 큰 업그레이드입니다. 170개 이상의 국가 및 지역에서 영어로 제공될 예정이며 가까운 시일 내에 다양한 방식으로 확장하고 새로운 언어와 위치를 지원할 계획입니다.

또한 Gemini를 Pixel로 가져오고 있습니다. Pixel 8 Pro는 Gemini Nano를 실행하도록 설계된 최초의 스마트폰입니다. 이 스마트폰은 녹음기 앱의 요약과 같은 새로운 기능을 지원하고 WhatsApp을 시작으로 Gboard의 스마트 답장 기능을 출시하며 내년에는 더 많은 메시징 앱이 출시될 예정입니다.

앞으로 몇 달 안에 Gemini는 검색, 광고, Chrome, Duet AI 등 더 많은 제품과 서비스에서 사용할 수 있게 될 것입니다.

우리는 이미 검색에서 Gemini를 실험하기 시작했습니다. 이를 통해 사용자를 위한 검색 생성 경험(SGE)이 더 빨라지고 미국에서 영어로 인한 지연 시간이 40% 감소하고 품질도 향상됩니다.

2) Gemini로 만들기

12월 13일부터 개발자와 기업 고객은 Google AI Studio 또는 Google Cloud Vertex AI의 Gemini API를 통해 Gemini Pro에 액세스할 수 있습니다.

Google AI Studio는 API 키를 사용하여 신속하게 앱 프로토타입을 만들고 실행할 수 있는 무료 웹 기반 개발자 도구입니다. 완전 관리형 AI 플랫폼이 필요한 경우 Vertex AI를 사용하면 완전한 데이터 제어를 통해 Gemini를 맞춤설정할 수 있으며 기업 보안, 안전, 개인정보 보호, 데이터 거버넌스 및 규정 준수를 위한 추가 Google Cloud 기능의 이점을 누릴 수 있습니다.

또한 Android 개발자는 Pixel 8 Pro 기기부터 Android 14에서 사용할 수 있는 새로운 시스템 기능인 AICore를 통해 기기 내 작업을 위한 가장 효율적인 모델인 Gemini Nano를 사용하여 구축할 수 있습니다. AICore의 초기 미리 보기에 등록하세요.

3) 제미니 울트라 곧 출시 예정

Gemini Ultra의 경우 현재 신뢰할 수 있는 외부 당사자의 레드팀 구성을 포함하여 광범위한 신뢰 및 안전 검사를 완료하고 있으며, 이를 광범위하게 제공하기 전에 인간 피드백(RLHF)을 통한 미세 조정 및 강화 학습을 사용하여 모델을 더욱 개선하고 있습니다.

이 프로세스의 일환으로, 우리는 내년 초에 개발자와 기업 고객에게 출시하기 전에 초기 실험과 피드백을 위해 고객, 개발자, 파트너, 안전 및 책임 전문가를 선택하여 Gemini Ultra를 사용할 수 있도록 할 것입니다.

내년 초에는 새로운 최첨단 AI 경험인 Bard Advanced도 출시할 예정입니다.

오픈AI의 샘 올트먼 사태의 원인, 코드명 Q*(큐스타)

1. 샘 올트먼의 드라마틱한 해임 및 복귀 과정 그야말로 영화 같은 5일이었습니다. 11월 17일(아래 모두 현지 시각) 오픈 AI 이사회가 일방적으로 샘 올트먼을 대표이사 직에서 사임하겠다고 발표

mkpark01.tistory.com

ChatGPT의 아버지, 샘 올트먼이 Open AI에서 해고된 상황이 주는 시사점 (feat. 마이크로소프트)

1. 샘 올트먼 해고 사태, 전 세계가 주목 지난 18일(현지 시각), ‘ 챗GPT’ 개발사 Open AI의 CEO, 샘 올트먼이 갑자기 이사회로부터 해고 통보를 받았습니다. 그는 불과 며칠 전만 해도 개발자 행사에

mkpark01.tistory.com

OpenAI의 CEO 샘 알트만의 사임과 재기 가능성 (feat. 마이크로소프트 전격 합류)

1. 샘 알트만, OpenAI에서 벗어나 마이크로소프트에 합류 2023년 11월 17일, OpenAI 이사회는 Sam Altman을 CEO직에서 해임하기로 갑작스러운 결정을 내렸습니다. 이 예상치 못한 움직임은 기술 커뮤니티

mkpark01.tistory.com

728x90

저작자표시 비영리 변경금지

'기술' 카테고리의 다른 글

2024년 10대 혁신 기술 목록에 넣지 않은 5가지 (feat. MIT Technology Review 발표) (51)	2023.12.10
인공지능(AI) 만능주의의 착각 (feat. 기술의 활용과 배움의 부재) (71)	2023.12.09
오픈AI의 샘 올트먼 사태의 원인, 코드명 Q*(큐스타) (77)	2023.11.30
ChatGPT의 아버지, 샘 올트먼이 Open AI에서 해고된 상황이 주는 시사점 (feat. 마이크로소프트) (69)	2023.11.22
OpenAI의 CEO 샘 알트만의 사임과 재기 가능성 (feat. 마이크로소프트 전격 합류) (73)	2023.11.21