구글의 최신 Gemini AI 모델이 OpenAI의 GPT-4o 기술을 능가
Google의 새로운 Gemini-Exp-1114 모델이 AI 벤치마킹 환경을 뒤흔들다
Chatbot Arena는 크라우드 소싱 AI 벤치마킹에 전념하는 저명한 오픈 플랫폼으로 부상했습니다. 지난 2년 동안 OpenAI의 모델은 순위를 장악했으며 다양한 AI 평가에서 꾸준히 상위를 차지했습니다. Google의 Gemini와 Anthropic의 Claude 모델은 특정 범주에서 인상적인 결과를 보였지만 OpenAI는 대체로 이 분야에서 타의 추종을 불허하는 입지를 유지했습니다.
최근 Chatbot Arena는 Gemini-Exp-1114라는 Google의 실험적 모델을 공개했습니다 . 이 새로운 추가 모델은 엄격한 테스트를 거쳐 지난주 커뮤니티에서 6,000표 이상을 받았으며, OpenAI의 최신 모델인 ChatGPT-4o-latest(2024년 9월 3일 기준)와 함께 공동 1위를 차지했습니다. Gemini 모델의 이터레이션에 대한 점수는 1301에서 1344로 눈에 띄게 상승하여 전반적인 성능에서 OpenAI의 o1-preview 모델을 능가했습니다.
Gemini-Exp-1114의 주요 성과
Chatbot Arena의 데이터에 따르면, Gemini-Exp-1114는 현재 Vision 리더보드에서 선두를 달리고 있으며, 다음 카테고리에서도 1위를 차지했습니다.
- 수학
- 창작 글쓰기
- 더 긴 쿼리
- 지시사항에 따라
- 멀티 턴 상호작용
- 하드 프롬프트
코딩 도메인에서 이 새로운 모델은 3위를 확보했지만, 스타일 제어가 적용된 하드 프롬프트에서 인상적인 성과를 보였습니다. 맥락을 살펴보면, OpenAI의 o1-preview 모델은 코딩 효율성과 스타일 제어 지표에서 모두 선두를 달리고 있습니다. 승률 히트맵을 분석하면 Gemini-Exp-1114는 GPT-4o-latest에 대해 50%, o1-preview에 대해 56%, Claude-3.5-Sonnet에 대해 62%의 승률을 달성합니다.
최근 개선 사항 및 성능 지표
올해 9월, Google은 Gemini 1.5 시리즈를 출시하여 MMLU-Pro 점수가 약 7% 증가하고 MATH 및 HiddenMath 벤치마크가 20%나 크게 개선되는 등의 개선 사항을 선보였습니다. 새로운 모델은 또한 비전 및 코드 관련 사용 사례에서 2-7%의 개선을 반영합니다. 주목할 점은 응답의 전반적인 유용성이 향상되었으며, Google은 새로운 모델이 보다 간결한 답변을 제공하는 경향이 있다고 강조했습니다. 이러한 업데이트된 모델의 기본 출력 길이는 이제 이전 모델보다 약 5-20% 더 짧습니다.
Gemini-Exp-1114 모델의 결과를 탐색하거나 시도하는 데 관심이 있는 분들은 자세한 정보를 여기에서 확인할 수 있습니다 . 개발자는 Google AI Studio에서 이 최첨단 모델을 테스트하는 것이 좋으며, API를 통한 출시 계획이 곧 있습니다.
답글 남기기