Intelligence de données Platon.
Recherche verticale et IA.

Databricks affirme que son LLM open source surpasse GPT-3.5

Date :

La plate-forme d'analyse Databricks a lancé un grand modèle de langage de base open source, dans l'espoir que les entreprises choisiront d'utiliser ses outils pour sauter dans le train LLM.

L'entreprise, fondée autour d'Apache Spark, a publié une série de benchmarks affirmant que son LLM à usage général – surnommé DBRX – battait ses concurrents open source en termes de compréhension du langage, de programmation et de mathématiques. Le développeur a également affirmé qu'il battait le GPT-3.5 propriétaire d'OpenAI sur les mêmes mesures.

DBRX a été développé par Mosaic AI, qui Databricks acquis pour 1.3 milliard de dollars et formé sur Nvidia DGX Cloud. Databricks affirme avoir optimisé DBRX pour plus d'efficacité avec ce qu'il appelle une architecture mixte d'experts (MoE), dans laquelle plusieurs réseaux d'experts ou apprenants répartissent un problème.

Databricks a expliqué que le modèle possède 132 milliards de paramètres, mais que seulement 36 milliards sont actifs sur une seule entrée.

Joel Minnick, vice-président marketing de Databricks, a déclaré Le registre: « C’est l’une des principales raisons pour lesquelles le modèle est capable de fonctionner aussi efficacement qu’il le fait, mais aussi à une vitesse fulgurante. En termes pratiques, si vous utilisez l'un des principaux chatbots qui existent aujourd'hui, vous êtes probablement habitué à attendre et à regarder la réponse être générée. Avec DBRX, c’est quasi instantané.

Mais la performance du modèle lui-même n’est pas l’objectif de Databricks. Le business consiste, après tout, à rendre DBRX disponible pour gratuit sur GitHub ainsi que Étreindre le visage.

Databricks espère que les clients utiliseront le modèle comme base pour leurs propres LLM. Si cela se produit, cela pourrait améliorer les chatbots des clients ou la réponse aux questions internes, tout en montrant comment DBRX a été construit à l'aide des outils propriétaires de Databricks.

Databricks a rassemblé l'ensemble de données à partir duquel DBRX a été développé à l'aide des notebooks Apache Spark et Databricks pour le traitement des données, Unity Catalog pour la gestion et la gouvernance des données et MLflow pour le suivi des expériences.

Minnick a révélé que l'investissement des entreprises dans les LLM avait été retardé par les craintes concernant la propriété et la gouvernance de tiers. « Devoir transférer les données vers des tiers, ne pas être propriétaire des pondérations du modèle, ne pas être en mesure de contrôler entièrement la gouvernance des données de bout en bout – ce sont des choses qui les ralentissent », a-t-il expliqué.

« Ce que nous avons décidé de créer était un modèle extrêmement efficace… que les entreprises peuvent utiliser pour apporter leurs propres applications à leurs propres cas d'utilisation spécifiques. »

Hyoun Park, PDG et analyste en chef chez Amalgam Insights, a observé que l'importance de DBRX réside dans le fait que Databricks peut montrer comment le modèle a été construit, étape par étape, en tant que processus que d'autres entreprises peuvent suivre et affiner.

« Cette combinaison de traçabilité, de visibilité, de répétabilité et de propriété du modèle dans le réglage, les tests et l'opérationnalisation du modèle de bout en bout est importante.

Park a indiqué qu'il comprenait que Databricks avait déjà créé plus de 50,000 XNUMX modèles personnalisés pour ses clients. « C'est cette combinaison d'expérience en création de modèles et de capacité à le faire à grande échelle avec un modèle très performant, comparable aux meilleurs efforts privés et open source qui rend cette annonce remarquable pour moi du point de vue informatique d'entreprise.

L'actualité DBRX se déroule dans un contexte concurrentiel changeant pour Databricks. L'entreprise a un partenariat stratégique à long terme avec Microsoft, qui a abouti à Azure Databricks, dans lequel les utilisateurs se voient promettre des services de données intégrés étroitement liés à la plate-forme cloud du géant de Redmond.

Mais depuis le lancement de l'offre en 2017, Microsoft s'est lancé sur le marché des Lakehouses de Databricks – où les utilisateurs se voient proposer un entrepôt de données et des lacs de données dans un seul environnement – ​​et promet aux utilisateurs des LLM de niveau entreprise avec ses 10 milliards de dollars Partenariat OpenAI. Dans son environnement Fabric, Microsoft peut également proposer « miroir » de ses systèmes de bases de données transactionnelles Azure Cosmos DB et Azure SQL DB, offrant un accès aux services d'analyse sans déplacer les données.

Une question ouverte qui pèse sur les stratégies de Databricks et de Microsoft est de savoir quand arrivera le flot d’investissements attendus dans les technologies LLM. En janvier, Gartner prédit les dépenses technologiques des entreprises n'auront pas lieu cette année et auront peu d'impact sur les autres investissements informatiques. ®

spot_img

Dernières informations

spot_img

Discutez avec nous

Salut! Comment puis-je t'aider?