플라톤 데이터 인텔리전스.
수직 검색 및 인공 지능.

Anthropic의 Claude AI가 Chatbot Arena 리더보드에서 ChatGPT를 전복했습니다 – Decrypt

시간

Open AI의 ChatGPT는 모든 생성 AI 도구 중에서 가장 큰 주류 인지도를 누리고 있지만, AI 연구자들이 사용하는 인기 크라우드 소싱 리더보드에서 다년간 경쟁자인 Anthropic의 최고 수준인 Claude 3 Opus가 그 자리를 빼앗았습니다.

Chatbot Arena 순위에서 Claude의 상승은 ChatGPT Plus를 지원하는 OpenAI의 GPT-4가 지난해 XNUMX월 리더보드에 처음 등장한 이후 처음으로 왕좌에서 밀려난 것입니다.

Chatbot Arena는 University of California, Berkeley, UC San Diego 및 Carnegie Mellon University의 학생과 교수진 간의 협업을 지원하는 개방형 모델에 전념하는 연구 조직인 Large Model Systems Organization(LMSYS ORG)에서 운영합니다. 플랫폼은 사용자에게 레이블이 지정되지 않은 두 가지 언어 모델을 제공하고 적합하다고 생각되는 기준에 따라 어느 것이 더 나은 성능을 발휘하는지 평가하도록 요청합니다.

수천 건의 주관적인 비교를 종합한 후 Chatbot Arena는 리더보드에 대한 "최고의" 모델을 계산하고 시간이 지남에 따라 업데이트합니다.

참가자의 서로 다른 개인적 취향을 바탕으로 한 주관적인 접근 방식이 Chatbot Arena를 다른 AI 벤치마크와 차별화하는 요소입니다. 모델 트레이너는 정량적 벤치마크에서처럼 알고리즘을 능가하도록 모델을 조정하여 "속임수"를 할 수 없습니다. 사람들이 단순히 선호하는 것이 무엇인지 측정함으로써 Chatbot Arena는 AI 연구자들에게 가치 있고 질적인 리소스입니다.

플랫폼은 사용자의 피드백을 수집하고 이를 통해 실행합니다. Bradley-Terry 통계 모델 특정 모델이 직접적인 경쟁에서 다른 모델보다 뛰어난 성능을 발휘할 가능성을 예측합니다. 이 접근법 체스 플레이어의 기술을 측정하는 데 사용되는 것과 동일한 기술인 Elo 등급 추정에 대한 신뢰 구간 범위를 포함하여 포괄적인 통계를 생성할 수 있습니다.

Chatbot Arena에서 선정한 상위 10개 LLM입니다. 이미지: 포옹얼굴
Chatbot Arena에서 선정한 상위 10개 LLM입니다. 이미지: 포옹얼굴

Claude 3 Opus가 정상에 오른 것이 순위표에서 유일하게 중요한 발전은 아닙니다. 역시 Anthropic에서 개발한 Claude 3 Sonnet(무료로 제공되는 중간 크기 모델)과 Claude 3 Haiku(더 작고 빠른 모델)가 현재 각각 4위와 6위를 차지하고 있습니다.

리더보드에는 GPT-4-4(0314년 4월 GPT-2023의 '원래' 버전), GPT-4-0613, GPT-4-1106-미리보기, GPT-4 등 다양한 버전의 GPT-0125가 포함되어 있습니다. -4-미리보기(2024년 4월부터 API를 통해 제공되는 최신 GPT-2023 Turbo 모델). 순위에 따르면 Sonnet과 Haiku는 둘 다 원래 GPT-XNUMX보다 우수하며 Sonnet은 XNUMX년 XNUMX월 OpenAI에서 출시한 조정된 버전보다 앞섰습니다.

이는 또한 슬프게도 현재 상위 10위 안에는 Qwen이라는 오픈 소스 LLM이 하나만 있으며, Starling 7b와 Mixtral 8x7B가 상위 20위 안에 있는 유일한 다른 공개 모델임을 의미합니다.

GPT-4에 비해 Claude의 장점 중 하나는 토큰 컨텍스트 용량과 검색 기능입니다. Claude 3 Opus의 공개 버전은 200K 이상을 처리하며 조직에서는 거의 완벽한 검색 속도로 1백만 개의 토큰을 처리할 수 있는 제한된 버전이 있다고 주장합니다. 이는 Claude가 다른 것보다 더 긴 프롬프트를 이해하고 정보를 더 효과적으로 유지할 수 있음을 의미합니다. GPT-4 터보와 비교, 128K 토큰을 처리하고 긴 프롬프트로 인해 검색 기능이 손실됩니다.

Claude 3 Opus와 GPT-4 Turbo의 정확성을 기억해 보세요. Anthropic 및 Greg Kamradt의 데이터를 사용하여 Decrypt의 이미지
Claude 3 Opus와 GPT-4 Turbo의 정확성을 기억해 보세요. Anthropic 및 Greg Kamradt의 데이터를 사용하여 Decrypt의 이미지.

Google의 제미니 어드밴스드 AI 비서 분야에서도 주목을 받고 있습니다. 이 회사는 Chat GPT Plus 구독(월 2달러)과 동일한 가격으로 Google 제품군에 20TB의 저장 공간과 AI 기능이 포함된 요금제를 제공합니다.

무료 Gemini Pro는 현재 GPT-4 Turbo와 Claude 4 Sonnet 사이에서 3위입니다. 최고급 Gemini Ultra 모델은 테스트가 불가능하며 아직 순위에 포함되지 않았습니다.

에 의해 수정 라이언 오자와.

암호화 뉴스를 최신 상태로 유지하고 받은 편지함에서 매일 업데이트를 받으십시오.

spot_img

최신 인텔리전스

spot_img

우리와 함께 채팅

안녕하세요! 어떻게 도와 드릴까요?