Plato Veri Zekası.
Dikey Arama ve Yapay Zeka.

Apple, biraz daha doğru bir LLM olan OpenELM'yi piyasaya sürdü

Tarih:

Normalde açıklığıyla tanınmayan Apple, OpenELM adı verilen ve görünüşe göre kamuya açık veri kümeleri üzerinde eğitilen bir dizi diğer dil modelinden daha iyi performans gösteren üretken bir yapay zeka modeli yayınladı.

Çok fazla değil – karşılaştırıldığında OLMoŞubat ayında gösterime giren AçıkELM 2.36 kat daha az ön eğitim jetonu kullanırken yüzde 2 daha doğru sonuç veriyor. Ancak bu, belki de insanlara, Apple'ın artık sektördeki AI çılgınlığının duvar çiçeği olmaktan memnun olmadığını hatırlatmak için yeterlidir.

Apple'ın açıklık iddiası, yalnızca modeli değil, eğitim ve değerlendirme çerçevesini de yayınlama kararından kaynaklanıyor.

"Yalnızca model ağırlıkları ve çıkarım kodu sağlayan ve özel veri kümeleri üzerinde ön eğitim sağlayan önceki uygulamalardan farklı olarak sürümümüz, eğitim günlükleri, çoklu kontrol noktaları ve ön hazırlık dahil olmak üzere, halka açık veri kümeleri üzerinde dil modelinin eğitimi ve değerlendirilmesi için eksiksiz bir çerçeve içermektedir. -eğitim yapılandırmaları”, ilgili bölümde on bir Apple araştırmacısını açıklıyor teknik makale.

Akademik uygulamalardan farklı olarak yazarların e-posta adresleri listelenmemiştir. Bunu, pek açık olmayan OpenAI ile bir şekilde karşılaştırılabilecek olan Apple'ın açıklık yorumuna dayandırın.

Eşlik eden yazılım sürümü tanınmış bir açık kaynak lisansı değildir. Aşırı derecede kısıtlayıcı değildir ancak OpenELM'e dayalı herhangi bir türev çalışmanın haklarını ihlal ettiği kabul edilirse Apple'ın patent talebinde bulunma hakkını saklı tuttuğunu açıkça ortaya koymaktadır.

OpenELM, transformatör modelinde parametreleri daha verimli bir şekilde tahsis etmek için katman bazında ölçeklendirme adı verilen bir teknik kullanır. Dolayısıyla her katmanın aynı parametrelere sahip olması yerine OpenELM'in transformatör katmanları farklı konfigürasyonlara ve parametrelere sahiptir. Sonuç daha iyi doğruluk, kıyaslama testlerinde modelden alınan doğru tahminlerin yüzdesi olarak gösterilir.

Bize OpenELM'in önceden eğitilmiş olduğu söylendi. Kırmızı Pijama GitHub'dan veri kümesi, tonlarca kitap, Wikipedia, StackExchange gönderileri, ArXiv belgeleri ve daha fazlası ve dolma Reddit, Wikibooks, Project Gutenberg ve diğerlerinden ayarlanmıştır. Model beklediğiniz gibi kullanılabilir: Siz ona bir komut verirsiniz ve o da onu yanıtlamaya veya otomatik tamamlamaya çalışır.

Sürümün dikkate değer yönlerinden biri de ona "Apple cihazlarda çıkarım ve ince ayar yapmak için modelleri MLX kitaplığına dönüştürme kodunun" eşlik etmesidir.

MLX Apple silikon üzerinde makine öğrenimini çalıştırmak için geçen yıl piyasaya sürülen bir çerçevedir. Ağ üzerinden değil, Apple cihazlarında yerel olarak çalışabilme yeteneği, OpenELM'i geliştiriciler için daha ilgi çekici hale getirmelidir.

AI hizmet şirketi Aquant'ın CEO'su ve kurucu ortağı Shahar Chen şunları söyledi: "Apple'ın OpenELM sürümü, sınırlı bilgi işlem gücüne sahip mobil uygulamalar ve IoT cihazları için ideal, verimli, cihaz içi yapay zeka işleme olanağı sunarak yapay zeka topluluğu için önemli bir ilerlemeye işaret ediyor." Kayıt. "Bu, akıllı telefonlardan akıllı ev cihazlarına kadar her şey için gerekli olan hızlı, yerel karar almayı mümkün kılarak günlük teknolojide yapay zeka potansiyelini genişletiyor."

Apple, Cupertino'nun tanıtmasından bu yana özellikle donanımda desteklenen, makine öğrenimi için kendi geliştirdiği çip mimarisinin avantajlarını göstermeye istekli. Sinir Motoru Bununla birlikte OpenELM, doğruluk kriterlerinde daha yüksek puan alsa da performans açısından yetersiz kalıyor.

Makale, Linux'ta Nvidia'nın CUDA'sının yanı sıra Apple Silicon'da OpenELM'in MLX sürümü kullanılarak yapılan testlere atıfta bulunarak, "OpenELM'in benzer parametre sayımı için daha yüksek doğruluğuna rağmen, OLMo'dan daha yavaş olduğunu gözlemliyoruz" diye açıklıyor.

Apple'ın bilim adamları, gösterilerin pek başarılı sayılmamasının sebebinin, onların "safça uygulamaları" olduğunu söylüyor. RMSNormu"Makine öğreniminde verileri normalleştirmeye yönelik bir teknik. Gelecekte daha fazla optimizasyon keşfetmeyi planlıyorlar.

OpenELM, 270 milyon, 450 milyon, 1.1 milyar ve 3 milyar parametreli, önceden eğitilmiş ve talimat ayarlı modellerde mevcuttur. Bunu kullananlar, modeli anlamlı bir şey için denemeden önce gerekli özeni göstermeleri konusunda uyarılır.

Makalede, "OpenELM modellerinin piyasaya sürülmesi, en son teknolojiye sahip dil ​​modellerine erişim sağlayarak açık araştırma topluluğunu güçlendirmeyi ve zenginleştirmeyi amaçlıyor" diyor. "Kamuya açık veri kümeleri üzerinde eğitilen bu modeller, herhangi bir güvenlik garantisi olmadan sunuluyor." ®

spot_img

En Son İstihbarat

spot_img

Bizimle sohbet

Merhaba! Size nasıl yardım edebilirim?