ذكاء بيانات أفلاطون.
البحث العمودي و Ai.

تدعي Databricks أن برنامج LLM مفتوح المصدر الخاص بها يتفوق على GPT-3.5

التاريخ:

أطلقت منصة التحليلات Databricks نموذجًا أساسيًا للغة كبيرة مفتوحة المصدر، على أمل أن تختار الشركات استخدام أدواتها للانتقال إلى عربة LLM.

نشرت الشركة، التي تأسست حول Apache Spark، عددًا كبيرًا من المعايير التي تدعي أن برنامج LLM للأغراض العامة - والذي يطلق عليه اسم DBRX - يتفوق على منافسيه مفتوحي المصدر في فهم اللغة والبرمجة والرياضيات. ادعى المطور أيضًا أنه تغلب على GPT-3.5 الخاص بشركة OpenAI عبر نفس المقاييس.

تم تطوير DBRX بواسطة Mosaic AI، والتي تم الحصول على قوالب البيانات مقابل 1.3 مليار دولار، وتم تدريبهم على Nvidia DGX Cloud. تدعي شركة Databricks أنها قامت بتحسين DBRX لتحقيق الكفاءة من خلال ما تسميه بنية مزيج من الخبراء (MoE) - حيث يقوم العديد من شبكات الخبراء أو المتعلمين بتقسيم المشكلة.

أوضحت Databricks أن النموذج يمتلك 132 مليار معلمة، لكن 36 مليارًا فقط نشطة على أي مدخل واحد.

قال جويل مينيك، نائب رئيس التسويق في Databricks: السجل: "هذا هو السبب الرئيسي وراء قدرة النموذج على العمل بكفاءة كما هو الحال، ولكنه يعمل أيضًا بسرعة مذهلة. من الناحية العملية، إذا كنت تستخدم أي نوع من روبوتات الدردشة الرئيسية الموجودة اليوم، فمن المحتمل أنك معتاد على الانتظار ومشاهدة الإجابة يتم إنشاؤها. مع DBRX يكون الأمر فوريًا تقريبًا.

لكن أداء النموذج نفسه ليس هو الهدف بالنسبة لـ Databricks. بعد كل شيء، هذا العمل هو الذي يجعل DBRX متاحًا لـ مجانًا على GitHub و وجه يعانق.

وتأمل Databricks أن يستخدم العملاء هذا النموذج كأساس لبرامج LLM الخاصة بهم. إذا حدث ذلك، فقد يؤدي ذلك إلى تحسين روبوتات الدردشة للعملاء أو الإجابة على الأسئلة الداخلية، مع إظهار أيضًا كيفية إنشاء DBRX باستخدام أدوات Databricks الخاصة.

قامت Databricks بتجميع مجموعة البيانات التي تم تطوير DBRX منها باستخدام دفاتر الملاحظات Apache Spark وDatabricks لمعالجة البيانات، وUnity Catalog لإدارة البيانات وحوكمتها، وMLflow لتتبع التجارب.

كشف مينيك أن استثمار المؤسسات في LLMs تأخر بسبب المخاوف بشأن ملكية الطرف الثالث وإدارته. وأوضح قائلاً: "إن الاضطرار إلى نقل البيانات إلى أطراف ثالثة، وعدم امتلاك ملكية أوزان النموذج، وعدم القدرة على التحكم الكامل في إدارة البيانات من البداية إلى النهاية - هذه هي الأشياء التي تبطئهم".

"ما شرعنا في بنائه كان نموذجًا فعالاً للغاية... يمكن للمؤسسات استخدامه للذهاب وإدخال تطبيقاتها الخاصة لحالات الاستخدام الخاصة بها."

لاحظ هيون بارك، الرئيس التنفيذي وكبير المحللين في Amalgam Insights، أهمية DBRX في أن Databricks يمكنها إظهار كيفية بناء النموذج، خطوة بخطوة، كعملية تتبعها المؤسسات الأخرى وتضبطها.

"إن هذا المزيج من النسب والرؤية والتكرار وملكية النموذج في ضبط النموذج الشامل واختباره وتشغيله أمر مهم."

وأشار بارك إلى أنه فهم أن Databricks قامت ببناء أكثر من 50,000 نموذج مخصص للعملاء بالفعل. "إن هذا المزيج من تجربة بناء النماذج والقدرة على القيام بذلك على نطاق واسع باستخدام نموذج عالي الأداء على قدم المساواة مع أفضل الجهود الخاصة ومفتوحة المصدر هو ما يجعل هذا الإعلان ملحوظًا بالنسبة لي من منظور تكنولوجيا المعلومات للمؤسسة."

يتم نشر أخبار DBRX في ظل خلفية تنافسية متغيرة لشركة Databricks. تتمتع الشركة بشراكة استراتيجية طويلة الأمد مع Microsoft، مما أدى إلى إنشاء Azure Databricks - حيث يتم وعد المستخدمين بخدمات بيانات متكاملة مرتبطة ارتباطًا وثيقًا بالنظام الأساسي السحابي لشركة Redmond العملاقة.

ولكن منذ إطلاق العرض في عام 2017، انتقلت Microsoft إلى سوق Lakehouse الخاص بـ Databricks - حيث يُعرض على المستخدمين تخزين البيانات وبحيرات البيانات في بيئة واحدة - وتعد المستخدمين حاملي ماجستير إدارة الأعمال على مستوى المؤسسات بـ لها 10 مليار دولار شراكة OpenAI. في بيئتها النسيجية، يمكن أن تقدم Microsoft أيضًا "النسخ المتطابق" من أنظمة قواعد بيانات المعاملات الخاصة بها Azure Cosmos DB وAzure SQL DB، مما يوفر إمكانية الوصول إلى خدمات التحليلات دون نقل البيانات.

هناك سؤال مفتوح معلق حول استراتيجيات كل من Databricks وMicrosoft وهو متى سيصل تدفق الاستثمار المتوقع في تقنيات LLM. في يناير، توقع جارتنر لن يتم إنفاق المؤسسات على التكنولوجيا هذا العام، ولن يكون له تأثير يذكر على الاستثمارات الأخرى في تكنولوجيا المعلومات. ®

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة

الدردشة معنا

أهلاً! كيف يمكنني مساعدك؟