プラトンデータインテリジェンス。
バーティカルサーチ&アイ。

Apple、もう少し正確な LLM である OpenELM をリリース

日付:

Apple は、オープン性であまり知られていませんが、OpenELM と呼ばれる生成 AI モデルをリリースしました。これは、公開データセットでトレーニングされた他の一連の言語モデルよりも明らかに優れています。

それは大したことではありません – に比べて オルモ2月にデビューした、 OpenELM は、事前トレーニング トークンの使用量が 2.36 分の 2 でありながら、精度が XNUMX% 向上しています。しかし、Apple がもはや AI 業界の壁の花に甘んじているわけではないことを人々に思い出させるには十分かもしれない。

Apple のオープン性の主張は、モデルだけでなく、そのトレーニングと評価のフレームワークをリリースするという決定から来ています。

「モデルの重みと推論コードを提供し、プライベート データセットで事前トレーニングするだけだった従来の手法とは異なり、私たちのリリースには、トレーニング ログ、複数のチェックポイント、事前トレーニングなど、公開されているデータセットで言語モデルをトレーニングおよび評価するための完全なフレームワークが含まれています。 -トレーニング構成」と関連する 11 人の Apple 研究者が説明します。 技術論文.

また、学術的な実践から逸脱して、著者の電子メール アドレスはリストされていません。これは Apple のオープン性の解釈によるもので、あまりオープンではない OpenAI とある程度似ています。

付随する ソフトウェアリリース はオープン ソース ライセンスとして認められていません。これは不当な制限ではありませんが、OpenELM に基づく二次的著作物が Apple の権利を侵害しているとみなされる場合、Apple が特許請求を行う権利を留保することを明確にしています。

OpenELM は、レイヤーワイズ スケーリングと呼ばれる手法を利用して、トランスフォーマー モデルでより効率的にパラメーターを割り当てます。したがって、各レイヤーが同じパラメーターのセットを持つのではなく、OpenELM のトランスフォーマー レイヤーは異なる構成とパラメーターを持ちます。結果は良くなりました 精度、ベンチマーク テストにおけるモデルからの正しい予測の割合で示されます。

OpenELM は、 レッドパジャマ GitHub からのデータセット、大量の書籍、Wikipedia、StackExchange の投稿、ArXiv 論文など、 ドルマ Reddit、Wikibooks、Project Gutenberg などからのセット。このモデルはご想像どおりに使用できます。モデルにプロンプ​​トを与えると、応答またはオートコンプリートが試行されます。

このリリースの注目すべき点の 1 つは、「Apple デバイスでの推論と微調整のためにモデルを MLX ライブラリに変換するコード」が付属していることです。

MLX は、Apple シリコン上で機械学習を実行するために昨年リリースされたフレームワークです。ネットワーク経由ではなく Apple デバイス上でローカルに動作できる機能は、開発者にとって OpenELM をさらに興味深いものにするはずです。

「Apple の OpenELM リリースは、AI コミュニティにとって大きな進歩を示し、コンピューティング能力が限られたモバイル アプリや IoT デバイスに最適な効率的なオンデバイス AI 処理を提供します」と AI サービス事業会社 Aquant の CEO 兼共同創設者である Shahar Chen 氏は述べています。 登録。 「これにより、スマートフォンからスマート ホーム デバイスに至るまで、あらゆるものに不可欠な迅速なローカル意思決定が可能になり、日常のテクノロジーにおける AI の可能性が広がります。」

Apple は、クパチーノが機械学習を導入して以来、特にハードウェアでサポートされている、機械学習用の自社製チップ アーキテクチャの利点を示すことに熱心です。 ニューラルエンジン それにもかかわらず、OpenELM は、精度ベンチマークではより高いスコアを獲得する可能性がありますが、パフォーマンスの点では不十分です。

同論文では、「同様のパラメータ数に対して OpenELM は精度が高いにもかかわらず、OLMo よりも遅いことが観察されています」と説明し、Linux 上の Nvidia の CUDA と Apple Silicon 上の OpenELM の MLX バージョンを使用して実行されたテストを引用しています。

Apple 関係者らは、勝利とは言えない成績の理由は「実装が甘かった」ことにあると述べている。 RMSノルム」、機械学習でデータを正規化する手法。将来的には、さらなる最適化を検討する予定です。

OpenELM は、270 億 450 万、1.1 億 3 万、XNUMX 億、XNUMX 億のパラメーターを備えた事前トレーニング済みモデルと命令調整済みモデルで利用できます。これを使用する人は、モデルを何か有意義なものとして試す前に、十分な注意を払うよう警告されています。

「OpenELM モデルのリリースは、最先端の言語モデルへのアクセスを提供することで、オープンな研究コミュニティに力を与え、豊かにすることを目的としています」と論文では述べられています。 「これらのモデルは公開されているデータセットでトレーニングされており、安全性の保証なしで利用できます。」 ®

スポット画像

最新のインテリジェンス

スポット画像

私たちとチャット

やあ! どんな御用でしょうか?