柏拉圖數據智能。
垂直搜索和人工智能。

Apple 發布 OpenELM,一個稍微更準確的 LLM

日期:

蘋果通常不以開放性著稱,但它發布了一種名為 OpenELM 的生成式人工智慧模型,該模型顯然優於在公共資料集上訓練的一組其他語言模型。

與相比,這並不算多 OLMo於二月首次亮相, 開放ELM 使用的預訓練標記數量減少了 2.36 倍,準確率提高了 2%。但這也許足以提醒人們,蘋果不再滿足於在產業人工智慧狂歡中充當壁花。

蘋果聲稱開放,因為它決定不僅發布模型,還發布其訓練和評估框架。

「與先前僅提供模型權重和推理程式碼以及在私人資料集上進行預訓練的做法不同,我們的版本包括在公開資料集上訓練和評估語言模型的完整框架,包括訓練日誌、多個檢查點和預訓練框架。 技術論文.

與學術實踐不同的是,作者的電子郵件地址沒有列出。這歸因於蘋果對開放性的詮釋,這在某種程度上類似於不太開放的 OpenAI。

隨行 軟件發布 不是公認的開源許可證。它並沒有過度限制,但它確實明確表明,如果任何基於 OpenELM 的衍生作品被認為侵犯了其權利,Apple 保留提出專利索賠的權利。

OpenELM 利用一種稱為逐層縮放的技術在變壓器模型中更有效地分配參數。因此,OpenELM 的轉換器層不是具有相同的參數集,而是具有不同的配置和參數。結果比較好 準確性,以基準測試中模型的正確預測百分比顯示。

我們被告知 OpenELM 是使用以下方法進行預訓練的 紅色睡衣 來自 GitHub、大量書籍、維基百科、StackExchange 帖子、ArXiv 論文等的資料集,以及 多爾瑪 來自 Reddit、Wikibooks、古騰堡計劃等的集合。該模型可以按照您的預期使用:您給它一個提示,它會嘗試回答或自動完成它。

該版本的一個值得注意的方面是它附帶了「將模型轉換為 MLX 庫的程式碼,以便在 Apple 設備上進行推理和微調」。

MLX 是去年發布的一個用於在 Apple 晶片上運行機器學習的框架。在 Apple 裝置上本地操作(而不是透過網路)的能力應該會讓 OpenELM 對開發人員更感興趣。

人工智慧服務公司Aquant 的執行長兼聯合創始人Shahar Chen 表示:「Apple 的OpenELM 發布標誌著人工智慧社群的重大進步,它提供了高效的設備端人工智慧處理,非常適合運算能力有限的行動應用程式和物聯網設備。 註冊。 “這使得快速的本地決策成為可能,這對於從智慧型手機到智慧家居設備的一切都至關重要,從而擴大了人工智慧在日常技術中的潛力。”

蘋果熱衷於展示其自主研發的機器學習晶片架構的優點,自從庫比蒂諾推出其晶片架構以來,該架構在硬體上得到了特別支持。 神經引擎 2017 年。

「儘管OpenELM 對於類似的參數計數具有更高的精度,但我們觀察到它比OLMo 慢,」該論文解釋道,並引用了在Linux 上使用Nvidia CUDA 以及在Apple Silicon 上使用MLX 版本的OpenELM 運行的測試。

蘋果公司的研究人員表示,表現不佳的原因是他們「天真地實施了 均方根標準值”,一種用於機器學習中數據標準化的技術。未來,他們計劃探索進一步的優化。

OpenELM 可用於具有 270 億、450 億、1.1 億和 3 億個參數的預訓練和指令調整模型。警告那些使用它的人在嘗試該模型進行任何有意義的事情之前要進行盡職調查。

該論文稱:“OpenELM 模型的發布旨在通過提供最先進的語言模型來增強和豐富開放研究社區。” “這些模型是在公開數據集上進行訓練的,在沒有任何安全保證的情況下提供。” ®

現貨圖片

最新情報

現貨圖片

和我們線上諮詢

你好呀!我怎麼幫你?