Platonova podatkovna inteligenca.
Navpično iskanje in Ai.

Claude AI iz Anthropic je premagal ChatGPT na lestvici Chatbot Arena Leaderboard – dešifriraj

Datum:

Medtem ko ChatGPT iz Open AI uživa največjo množično miselnost med vsemi generativnimi orodji AI, je njegovo prvo mesto ukradel vrhunski Claude 3 Opus od večnega tekmeca Anthropic na priljubljeni lestvici najboljših, ki jo uporabljajo raziskovalci AI.

Claudov vzpon na lestvici Chatbot Arena je prvič, da je bil OpenAI GPT-4, ki poganja ChatGPT Plus, vržen s prestola, odkar se je prvič pojavil na lestvici najboljših maja lani.

Chatbot Areno vodi Large Model Systems Organisation (LMSYS ORG), raziskovalna organizacija, namenjena odprtim modelom, ki podpirajo sodelovanje med študenti in profesorji na kalifornijski univerzi Berkeley, UC San Diego in univerzi Carnegie Mellon. Platforma uporabnikom ponudi dva neoznačena jezikovna modela in jih prosi, da ocenijo, kateri je boljši glede na merila, ki se jim zdijo primerna.

Po združevanju na tisoče subjektivnih primerjav Chatbot Arena izračuna »najboljše« modele za lestvico najboljših in jo sčasoma posodablja.

Ta subjektivni pristop, ki temelji na različnih osebnih okusih udeležencev, je tisto, po čemer se Chatbot Arena razlikuje od drugih meril uspešnosti umetne inteligence. Trenerji modelov ne morejo »goljufati« s prilagajanjem svojih modelov, da premagajo algoritem, kot bi lahko s kvantitativnimi merili. Z merjenjem tega, kaj imajo ljudje preprosto raje, je Chatbot Arena dragocen, kakovosten vir za raziskovalce AI.

Platforma zbira povratne informacije uporabnikov in jih vodi skozi Bradley-Terryjev statistični model napovedati verjetnost, da bo določen model v neposredni konkurenci prekašal druge. Ta pristop omogoča ustvarjanje celovitih statističnih podatkov, vključno z razponi intervalov zaupanja za ocene ratinga Elo – ista tehnika, ki se uporablja za merjenje spretnosti šahistov.

10 najboljših LLM-jev po lestvici Chatbot Arena. Slika: Huggingface
10 najboljših LLM-jev po lestvici Chatbot Arena. Slika: Huggingface

Vzpon Claude 3 Opus na vrh ni edini pomemben napredek na lestvici najboljših. Claude 3 Sonnet (model srednje velikosti, ki je na voljo brezplačno) in Claude 3 Haiku (manjši, hitrejši model), ki ju je prav tako razvil Anthropic, sta trenutno na 4. oziroma 6. mestu.

Lestvica najboljših vključuje različne različice GPT-4, kot so GPT-4-0314 (»izvirna« različica GPT-4 od marca 2023), GPT-4-0613, GPT-4-1106-preview in GPT-4 -0125-preview (najnovejši model GPT-4 Turbo, ki je na voljo prek API-ja od januarja 2024). Glede na razvrstitev sta Sonnet in Haiku boljša od prvotnega GPT-4, pri čemer Sonnet prekaša tudi spremenjeno različico, ki jo je junija 2023 predstavil OpenAI.

To tudi pomeni, da je na žalost med prvimi 10 trenutno samo en odprtokodni LLM: Qwen, pri čemer sta Starling 7b in Mixtral 8x7B edina druga odprta modela v prvih 20.

Ena od prednosti Claude pred GPT-4 je njegova zmogljivost konteksta žetona in zmožnost priklica. Javna različica Claude 3 Opus obravnava več kot 200K - in organizacija trdi, da ima omejeno različico, ki lahko obravnava 1 milijon žetonov s skoraj popolnimi stopnjami iskanja. To pomeni, da lahko Claude razume daljše pozive in učinkoviteje zadrži informacije kot v primerjavi z GPT-4 Turbo, ki obravnava 128K žetonov in z dolgimi pozivi izgubi zmožnost iskanja.

Priklic natančnosti Claude 3 Opus proti GPT-4 Turbo. Slika iz Decrypt z uporabo podatkov Anthropic in Grega Kamradta
Priklic natančnosti Claude 3 Opus proti GPT-4 Turbo. Slika iz Decrypt z uporabo podatkov Anthropic in Grega Kamradta.

Googlova Gemini Advanced prav tako pridobiva na oprijemu v prostoru pomočnika AI. Podjetje ponuja načrt, ki vključuje 2 TB prostora za shranjevanje in zmogljivosti AI v paketu Googlovih izdelkov za isto ceno kot naročnina Chat GPT Plus (20 USD na mesec).

Brezplačni Gemini Pro je trenutno uvrščen na 4. mesto med GPT-4 Turbo in Claude 3 Sonnet. Vrhunski model Gemini Ultra ni na voljo za testiranje in še ni predstavljen na lestvici.

Uredil Ryan Ozawa.

Bodite na tekočem s kripto novicami, prejemajte dnevne posodobitve v svoj nabiralnik.

spot_img

Najnovejša inteligenca

spot_img

Klepetajte z nami

Zdravo! Kako vam lahko pomagam?