Inteligența datelor Platon.
Căutare verticală și Ai.

Apple lansează OpenELM, un LLM puțin mai precis

Data:

Apple, necunoscut în mod normal pentru deschiderea sa, a lansat un model AI generativ numit OpenELM, care aparent depășește un set de alte modele de limbaj antrenate pe seturi de date publice.

Nu este cu mult – în comparație cu OLMo, care a debutat în februarie, OpenELM este cu 2.36 la sută mai precis în timp ce utilizați de 2 ori mai puține jetoane de preantrenament. Dar poate că este suficient pentru a le reamintim oamenilor că Apple nu se mai mulțumește să fie fanotul la rave-ul AI al industriei.

Pretenția Apple de deschidere vine din decizia sa de a lansa nu doar modelul, ci și cadrul de instruire și evaluare.

„Depărtând de practicile anterioare care oferă doar ponderi ale modelului și cod de inferență și pre-antrenare pe seturi de date private, versiunea noastră include cadrul complet pentru instruirea și evaluarea modelului lingvistic pe seturi de date disponibile public, inclusiv jurnalele de antrenament, puncte de control multiple și prealabil. -configurații de antrenament”, explică unsprezece cercetători Apple în cadrul asociat hârtie tehnică.

Și, diferit de practica academică, adresele de e-mail ale autorilor nu sunt enumerate. Acordați-o pe interpretarea Apple a deschiderii, care este oarecum comparabilă cu OpenAI-ul nu foarte deschis.

Însoțitorul lansare de software nu este o licență open source recunoscută. Nu este excesiv de restrictiv, dar clarifică faptul că Apple își rezervă dreptul de a depune o cerere de brevet dacă se consideră că orice lucrare derivată bazată pe OpenELM îi încalcă drepturile.

OpenELM utilizează o tehnică numită scalare pe straturi pentru a aloca parametrii mai eficient în modelul transformatorului. Deci, în loc ca fiecare strat să aibă același set de parametri, straturile transformatoare ale OpenELM au configurații și parametri diferiți. Rezultatul este mai bun precizie, prezentată în procentul de predicții corecte din model în testele de referință.

Ni s-a spus că OpenELM a fost antrenat în prealabil folosind RedPijama set de date din GitHub, o mulțime de cărți, Wikipedia, postări StackExchange, articole ArXiv și multe altele, și Dolma set de la Reddit, Wikibooks, Project Gutenberg și multe altele. Modelul poate fi folosit așa cum v-ați aștepta: îi dați un prompt și încearcă să răspundă sau să îl completeze automat.

Un aspect demn de remarcat al lansării este că este însoțit de „cod pentru a converti modelele în biblioteca MLX pentru inferență și reglare fină pe dispozitivele Apple”.

MLX este un cadru lansat anul trecut pentru rularea învățării automate pe Apple Silicon. Capacitatea de a opera local pe dispozitive Apple, mai degrabă decât prin rețea, ar trebui să facă OpenELM mai interesant pentru dezvoltatori.

„Versiunea OpenELM de la Apple marchează un progres semnificativ pentru comunitatea AI, oferind procesare AI eficientă, pe dispozitiv, ideală pentru aplicații mobile și dispozitive IoT cu putere de calcul limitată”, a declarat Shahar Chen, CEO și co-fondator al AI service biz Aquant. Registrul. „Acest lucru permite luarea rapidă a deciziilor locale, esențială pentru orice, de la smartphone-uri la dispozitive inteligente pentru casă, extinzând potențialul AI în tehnologia de zi cu zi.”

Apple este dornic să arate meritele arhitecturii sale de cip pentru învățarea automată, susținută în mod special în hardware de când Cupertino și-a introdus Motor neuronal în 2017. Cu toate acestea, OpenELM, deși poate avea un scor mai mare la benchmark-urile de precizie, este scurt în ceea ce privește performanța.

„În ciuda preciziei mai mari a OpenELM pentru un număr similar de parametri, observăm că este mai lent decât OLMo”, explică lucrarea, citând testele efectuate folosind CUDA de la Nvidia pe Linux, precum și versiunea MLX a OpenELM pe Apple Silicon.

Motivul pentru apariția mai puțin victorioasă, spun cei de la Apple, este „implementarea naivă a RMSNorm”, o tehnică de normalizare a datelor în învățarea automată. În viitor, intenționează să exploreze noi optimizări.

OpenELM este disponibil în modele preantrenate și reglate cu instrucțiuni, cu 270 milioane, 450 milioane, 1.1 miliarde și 3 miliarde de parametri. Cei care îl folosesc sunt avertizați să exercite diligența necesară înainte de a încerca modelul pentru orice lucru semnificativ.

„Lansarea modelelor OpenELM urmărește să împuternicească și să îmbogățească comunitatea de cercetare deschisă, oferind acces la modele de limbaj de ultimă generație”, se spune în lucrare. „Instruite pe seturi de date disponibile public, aceste modele sunt puse la dispoziție fără nicio garanție de siguranță.” ®

spot_img

Ultimele informații

spot_img

Chat cu noi

Bună! Cu ce ​​​​vă pot ajuta?