מודיעין נתונים של אפלטון.
חיפוש אנכי ו-Ai.

אפל משחררת את OpenELM, LLM קצת יותר מדויק

תאריך:

אפל, שבדרך כלל לא ידועה בפתיחות שלה, פרסמה מודל AI מחולל בשם OpenELM, שככל הנראה עולה על קבוצה של מודלים של שפות אחרות שהוכשרו על מערכי נתונים ציבוריים.

זה לא בהרבה - לעומת OLMo, שעלה לראשונה בפברואר, OpenELM הוא מדויק יותר ב-2.36 אחוזים תוך שימוש ב-2 פעמים פחות אסימוני אימון. אבל זה אולי מספיק כדי להזכיר לאנשים שאפל כבר לא מסתפקת להיות פרח הקיר ב-AI בתעשייה.

הטענה של אפל לפתיחות נובעת מההחלטה שלה לשחרר לא רק את הדגם, אלא את מסגרת ההדרכה וההערכה שלו.

"בניגוד לפרקטיקות קודמות המספקות רק משקלי מודל וקוד מסקנות, והדרכה מראש על מערכי נתונים פרטיים, המהדורה שלנו כוללת את המסגרת המלאה להדרכה והערכה של מודל השפה על מערכי נתונים זמינים לציבור, כולל יומני אימון, מספר נקודות ביקורת ומוקדמות. -תצורות אימון," מסבירים אחד עשר חוקרי אפל בנושא נייר טכני.

ובניגוד לפרקטיקה האקדמית, כתובות הדוא"ל של המחברים אינן רשומות. תגדיר את זה לפרשנות של אפל לפתיחות, שהיא קצת דומה ל-OpenAI הלא מאוד פתוח.

המלווה שחרור תוכנה אינו רישיון קוד פתוח מוכר. זה לא מגביל יתר על המידה, אבל זה מבהיר שאפל שומרת לעצמה את הזכות להגיש תביעת פטנט אם יצירה נגזרת כלשהי המבוססת על OpenELM נחשבת כמפרה את זכויותיה.

OpenELM משתמש בטכניקה הנקראת קנה מידה שכבתית כדי להקצות פרמטרים בצורה יעילה יותר במודל השנאי. אז במקום שלכל שכבה תהיה אותה סט של פרמטרים, לשכבות השנאים של OpenELM יש תצורות ופרמטרים שונים. התוצאה טובה יותר דיוק, המוצג באחוז התחזיות הנכונות מהמודל במבחני הבנצ'מרק.

נאמר לנו ש-OpenELM הוכשרה מראש באמצעות ה פיג'מה אדומה מערך נתונים מ-GitHub, המון ספרים, ויקיפדיה, פוסטים של StackExchange, מאמרי ArXiv ועוד, וה דולמה סט מ-Reddit, Wikibooks, Project Gutenberg ועוד. ניתן להשתמש במודל כפי שניתן לצפות: אתה נותן לו הנחיה, והוא מנסה לענות או להשלים אותו אוטומטית.

היבט אחד ראוי לציון של המהדורה הוא שהיא מלווה ב"קוד להמרת דגמים לספריית MLX להסקת מסקנות וכוונון עדין במכשירי אפל".

MLX היא מסגרת שפורסמה בשנה שעברה להפעלת למידת מכונה על סיליקון אפל. היכולת לפעול באופן מקומי במכשירי אפל, ולא דרך הרשת, אמורה להפוך את OpenELM למעניין יותר עבור מפתחים.

"מהדורת ה-OpenELM של אפל מסמנת התקדמות משמעותית עבור קהילת הבינה המלאכותית, ומציעה עיבוד בינה מלאכותית יעילה במכשיר אידיאלי עבור אפליקציות ניידות ומכשירי IoT עם כוח מחשוב מוגבל", אמר שחר חן, מנכ"ל ומייסד שותף של AI service biz Aquant. הקופה. "זה מאפשר קבלת החלטות מהירה ומקומית החיונית לכל דבר, מסמארטפונים ועד מכשירי בית חכם, ומרחיבה את הפוטנציאל של AI בטכנולוגיה יומיומית."

אפל מעוניינת להראות את היתרונות של ארכיטקטורת השבבים שלה ללמידת מכונה, הנתמכת במיוחד בחומרה מאז שקופרטינו הציגה את מנוע עצבי בשנת 2017. עם זאת, OpenELM, למרות שהיא עשויה לקבל ציון גבוה יותר במדדי דיוק, מגיעה לחסר במונחים של ביצועים.

"למרות הדיוק הגבוה יותר של OpenELM עבור ספירת פרמטרים דומה, אנו רואים שהוא איטי יותר מ-OLMo", מסביר העיתון, תוך ציטוט של בדיקות המופעלות באמצעות CUDA של Nvidia על לינוקס, כמו גם גרסת MLX של OpenELM על Apple Silicon.

הסיבה להצגה הפחות מנצחת, אומרים הבופים של אפל, היא "היישום הנאיבי שלהם של RMSNorm," טכניקה לנורמליזציה של נתונים בלמידת מכונה. בעתיד, הם מתכננים לחקור אופטימיזציות נוספות.

OpenELM זמין בדגמים שהוכשרו מראש ומותאמים להדרכה עם 270 מיליון, 450 מיליון, 1.1 מיליארד ו-3 מיליארד פרמטרים. המשתמשים בו מוזהרים לנקוט גילוי נאות לפני שהם מנסים את המודל לכל דבר בעל משמעות.

"השחרור של מודלים של OpenELM שואף להעצים ולהעשיר את קהילת המחקר הפתוחה על ידי מתן גישה למודלים של שפה עדכניים", נכתב בעיתון. "הוכשרו על מערכי נתונים זמינים לציבור, מודלים אלה זמינים ללא כל ערובות בטיחות." ®

ספוט_ימג

המודיעין האחרון

ספוט_ימג

דבר איתנו

שלום שם! איך אני יכול לעזור לך?