Platon Data Intelligence.
Vertikal søgning & Ai.

Microsoft krymper AI ned til lommestørrelse med Phi-3 Mini

Dato:

Microsoft hævder den seneste inkarnation af dens lette Phi-3 Mini AI-model konkurrerer med konkurrenter som GPT-3.5, mens den er lille nok til at blive installeret på en telefon.

Phi-3 Mini er en sprogmodel med 3.8 milliarder parametre, trænet på 3.3 billioner tokens. Dette tal er op fra de 2.7 milliarder parametre for Phi-2, som Microsoft introduceret I december 2023.

Frem for at skovle så meget som muligt ind i træningsmodellerne, var fokus på ræsonnement. Microsoft sagde: "Som et eksempel kan resultatet af et spil i Premier League på en bestemt dag være gode træningsdata for frontier-modeller, men vi er nødt til at fjerne sådanne oplysninger for at give mere modelkapacitet til 'begrundelse' for ministørrelsesmodellerne ."

Den målrettede tilgang betyder, at selvom Phi-3 måske ikke har den rene bredde af kendskab til sine konkurrenter, er den mindst lige så god, hvis ikke bedre, når det kommer til ræsonnement, eller det hævder Microsoft. I en forskningsartikel [PDF], bemærker Microsoft, at dette gjorde det muligt for dens lille sprogmodel "at nå niveauet for meget dygtige modeller som GPT-3.5 eller Mixtral med kun 3.8B samlede parametre (mens Mixtral f.eks. har 45B samlede parametre)."

Forskningen bemærker også, at de anvendte træningsdata bestod af "stærkt filtrerede webdata ... fra forskellige åbne internetkilder" og LLM-genererede data. De datakilder, der bruges til at træne LLM'er, er genstand for flere retssager.

Den lille størrelse af Phi-3 Mini betyder, at den kan køre offline på en smartphone, får vi at vide. Forskere sagde, at den kunne få den til at optage cirka 1.8 GB hukommelse og prøve den offline på en iPhone 14 med en A16 Bionic-chip, der kører indbygget på en enhed. I papiret viser forskere skærmbilleder af Phi-3 Mini, der skriver et digt og foreslår ting at gøre i Houston.

Forskerne fremhæver også de ulemper, der ligger i at fokusere på sprogforståelse og ræsonnement. "Modellen har simpelthen ikke kapacitet til at gemme for meget 'faktisk viden'," noget, der til en vis grad kan afbødes ved at udvide den med en søgemaskine. Det ville dog besejre pointen med at kunne køre det offline.

Sproget er for det meste begrænset til engelsk i øjeblikket, og problemer, der er iboende i de fleste LLM'er - hallucinationer, bias-forstærkning og generering af upassende indhold - kan også findes i Phi-3 Mini.

Forskere siger i papiret: "Der er et betydeligt arbejde forude for fuldt ud at løse disse udfordringer."

Større modeller er – relativt set – også blevet annonceret i form af Phi-3 Small og Phi-3 Medium med henholdsvis 7 og 14 milliarder parametre.

Victor Botev, CTO og medstifter ved Iris.ai, fortalte os: "Microsofts annoncering af Phi-3-modellen repræsenterer en fortsat tendens inden for AI-udvikling. I stedet for at jagte stadigt større modeller, udvikler Microsoft værktøjer med mere omhyggeligt udvalgte data og specialiseret træning. Dette giver mulighed for forbedret ydeevne og ræsonnement evner uden de massive beregningsomkostninger ved modeller med billioner af parametre. At opfylde dette løfte ville betyde at rive en enorm adoptionsbarriere ned for virksomheder, der leder efter AI-løsninger.

"Microsoft ser klogt ud over 'større er bedre'-tankegangen. For udbredte forretnings- og forbruger-AI-applikationer er gennemførlighed og specificitet vigtigere end massive parametre. Modeller som Phi-3 viser tydeligt, at med den rigtige data- og træningstilgang behøver avancerede AI-kapaciteter ikke at kræve opbygning af stadigt større modeller – en afgørende faktor for virksomheder, hvor forholdet mellem omkostninger og kvalitet er afgørende." ®

spot_img

Seneste efterretninger

spot_img

Chat med os

Hej! Hvordan kan jeg hjælpe dig?