هوش داده افلاطون
جستجوی عمودی و هوش مصنوعی

LLMهای پیش آموزش مستمر کارآمد برای حوزه های مالی | خدمات وب آمازون

تاریخ:

مدل‌های زبان بزرگ (LLM) عموماً بر روی مجموعه داده‌های بزرگ در دسترس عموم که دارای آگنوستیک دامنه هستند آموزش داده می‌شوند. مثلا، لاما متا مدل ها بر روی مجموعه داده هایی مانند CommonCrawl, C4، ویکی پدیا و ArXiv. این مجموعه داده ها طیف وسیعی از موضوعات و حوزه ها را در بر می گیرد. اگرچه مدل‌های به‌دست‌آمده نتایج فوق‌العاده خوبی برای کارهای عمومی، مانند تولید متن و شناسایی موجودیت، به دست می‌دهند، شواهدی وجود دارد که مدل‌های آموزش‌دیده شده با مجموعه داده‌های خاص دامنه می‌توانند عملکرد LLM را بیشتر بهبود بخشند. به عنوان مثال، داده های آموزشی مورد استفاده برای بلومبرگ GPT 51٪ اسناد مربوط به دامنه، از جمله اخبار مالی، پرونده ها و سایر مطالب مالی است. LLM حاصل از LLMهایی که در مجموعه داده های غیر دامنه خاص آموزش داده شده اند، هنگام آزمایش بر روی وظایف خاص مالی، بهتر عمل می کند. نویسندگان از بلومبرگ GPT به این نتیجه رسیدند که مدل آنها از تمام مدل های دیگر آزمایش شده برای چهار مورد از پنج وظیفه مالی بهتر عمل می کند. این مدل زمانی که برای وظایف مالی داخلی بلومبرگ با اختلاف زیادی مورد آزمایش قرار گرفت، حتی 60 امتیاز بهتر (از 100) عملکرد بهتری داشت. اگر چه می توانید در مورد نتایج ارزیابی جامع اطلاعات بیشتری کسب کنید مقاله، نمونه زیر گرفته شده از بلومبرگ GPT مقاله می تواند نگاهی اجمالی به مزایای آموزش LLM با استفاده از داده های خاص حوزه مالی به شما بدهد. همانطور که در مثال نشان داده شده است، مدل BloombergGPT پاسخ های درستی ارائه می دهد در حالی که سایر مدل های غیر اختصاصی دامنه با مشکل مواجه هستند:

Input: CEO of Assicurazioni Generali?
BloombergGPT: Philippe Donnet
GPT-NeoX: Antonio De Lorenzo, Simone Gambarini, Enrico Zanetti
FLAN-T5-XXL: John M Forsyth, Christopher K Peters, {empty string}

Input: CEO of Silicon Valley Bank?
BloombergGPT: Greg Becker
GPT-NeoX: John Hodor, Mike Fridgen, Peter R Briger
FLAN-T5-XXL: Christian Klein, John M Forsyth, John M Forsyth

Input: CEO of IHS Markit Ltd?
BloombergGPT: Lance Uggla
GPT-NeoX: John F Lechleiter, David Steward, Niall O Broin
FLAN-T5-XXL: William M Hawkins, John M Forsyth, John M Forsyth
Input: CEO of Walgreens Boots Alliance?

BloombergGPT: Rosalind Brewer
GPT-NeoX: Mark V Dei, Stefano Pessina, Stefano Pessina
FLAN-T5-XXL: Christian Klein, John M Forsyth, John M Forsyth
Input: CEO of Citigroup Inc?

BloombergGPT: Jane Fraser
GPT-NeoX: Michael L Corbat, Michael L Corbat, Michael L Corbat
FLAN-T5-XXL: Christian Sewing, John M Forsyth, John M Forsyth

این پست راهنمایی برای آموزش LLM به طور خاص برای حوزه مالی ارائه می دهد. ما حوزه های کلیدی زیر را پوشش می دهیم:

  • جمع آوری و آماده سازی داده ها - راهنمایی در مورد منبع یابی و مدیریت داده های مالی مرتبط برای آموزش مدل موثر
  • پیش تمرین مداوم در مقابل تنظیم دقیق - چه زمانی از هر تکنیک برای بهینه سازی عملکرد LLM خود استفاده کنید
  • پیش تمرین مستمر کارآمد - استراتژی‌هایی برای ساده‌سازی فرآیند پیش‌آموزشی مستمر، صرفه‌جویی در زمان و منابع

این پست تخصص تیم تحقیقات علمی کاربردی در فناوری مالی آمازون و تیم متخصص جهانی AWS برای صنعت مالی جهانی را گرد هم می آورد. برخی از مطالب بر اساس مقاله است پیش‌آموزش مستمر کارآمد برای ساخت مدل‌های زبان بزرگ خاص دامنه.

جمع آوری و تهیه داده های مالی

پیش‌آموزش مستمر دامنه نیازمند مجموعه داده‌ای در مقیاس بزرگ، با کیفیت بالا و مختص دامنه است. مراحل اصلی برای تنظیم مجموعه داده دامنه به شرح زیر است:

  • منابع داده را شناسایی کنید – منابع داده بالقوه برای مجموعه دامنه شامل وب باز، ویکی پدیا، کتاب ها، رسانه های اجتماعی و اسناد داخلی است.
  • فیلترهای داده دامنه - از آنجایی که هدف نهایی مدیریت مجموعه دامنه است، ممکن است لازم باشد مراحل بیشتری را برای فیلتر کردن نمونه‌هایی که به دامنه هدف نامرتبط هستند، اعمال کنید. این امر بدنه بی فایده را برای پیش تمرین مستمر کاهش می دهد و هزینه آموزش را کاهش می دهد.
  • پیش پردازش - ممکن است یک سری مراحل پیش پردازش را برای بهبود کیفیت داده ها و کارایی آموزش در نظر بگیرید. به عنوان مثال، برخی منابع داده می‌توانند حاوی تعداد مناسبی از نشانه‌های پر سر و صدا باشند. حذف مجدد یک گام مفید برای بهبود کیفیت داده ها و کاهش هزینه آموزش در نظر گرفته می شود.

برای توسعه LLM های مالی، می توانید از دو منبع داده مهم استفاده کنید: پرونده های News CommonCrawl و SEC. پرونده SEC یک صورت مالی یا سایر اسناد رسمی است که به کمیسیون بورس و اوراق بهادار ایالات متحده (SEC) ارسال می شود. شرکت های پذیرفته شده در بورس عمومی موظفند اسناد مختلف را به طور منظم ثبت کنند. این باعث ایجاد تعداد زیادی اسناد در طول سال ها می شود. News CommonCrawl مجموعه داده ای است که توسط CommonCrawl در سال 2016 منتشر شد. حاوی مقالات خبری از سایت های خبری در سراسر جهان است.

اخبار CommonCrawl در دسترس است سرویس ذخیره سازی ساده آمازون (Amazon S3) در commoncrawl سطل در crawl-data/CC-NEWS/. شما می توانید لیست فایل ها را با استفاده از رابط خط فرمان AWS (AWS CLI) و دستور زیر:

aws s3 ls --recursive s3://commoncrawl/crawl-data/CC-NEWS/

In پیش‌آموزش مستمر کارآمد برای ساخت مدل‌های زبان بزرگ خاص دامنه، نویسندگان از یک URL و رویکرد مبتنی بر کلمه کلیدی برای فیلتر کردن مقالات اخبار مالی از اخبار عمومی استفاده می کنند. به طور خاص، نویسندگان فهرستی از رسانه های مهم اخبار مالی و مجموعه ای از کلمات کلیدی مرتبط با اخبار مالی را حفظ می کنند. اگر مقاله ای از رسانه های خبری مالی آمده باشد یا هر کلمه کلیدی در URL نشان داده شود، ما آن را به عنوان اخبار مالی شناسایی می کنیم. این رویکرد ساده و در عین حال موثر به شما امکان می‌دهد تا اخبار مالی را نه تنها از رسانه‌های خبری مالی، بلکه بخش‌های مالی از رسانه‌های خبری عمومی را نیز شناسایی کنید.

پرونده های SEC به صورت آنلاین از طریق پایگاه داده EDGAR (جمع آوری، تجزیه و تحلیل و بازیابی اطلاعات الکترونیکی) SEC که دسترسی به داده های باز را فراهم می کند، در دسترس است. می‌توانید فایل‌ها را مستقیماً از EDGAR خراش دهید یا از API در آن استفاده کنید آمازون SageMaker با چند خط کد، برای هر دوره زمانی و برای تعداد زیادی علامت (به عنوان مثال، SEC شناسه اختصاص داده شده). برای کسب اطلاعات بیشتر به ادامه مطلب مراجعه نمایید بازیابی پرونده SEC.

جدول زیر جزئیات کلیدی هر دو منبع داده را خلاصه می کند.

. اخبار CommonCrawl تشکیل پرونده SEC
پوشش 2016-2022 1993-2022
اندازه 25.8 میلیارد کلمه 5.1 میلیارد کلمه

نویسندگان قبل از اینکه داده ها به یک الگوریتم آموزشی وارد شوند، چند مرحله پیش پردازش اضافی را طی می کنند. اول، مشاهده می‌کنیم که فایل‌های SEC به دلیل حذف جداول و شکل‌ها حاوی متن پر سر و صدایی هستند، بنابراین نویسندگان جملات کوتاهی را که برچسب‌های جدول یا شکل تلقی می‌شوند حذف می‌کنند. ثانیا، ما یک الگوریتم هش حساس به محلی را برای حذف مجدد مقالات و پرونده های جدید اعمال می کنیم. برای پرونده های SEC، به جای سطح سند، در سطح بخش کپی می کنیم. در نهایت، ما اسناد را در یک رشته طولانی به هم متصل می‌کنیم، آن را توکن می‌کنیم و توکن‌سازی را به قطعات حداکثر طول ورودی که توسط مدلی که باید آموزش داده شود، پشتیبانی می‌کنیم. این کار باعث بهبود عملکرد پیش‌آموزش مستمر و کاهش هزینه آموزش می‌شود.

پیش تمرین مداوم در مقابل تنظیم دقیق

اکثر LLM های موجود، همه منظوره هستند و فاقد توانایی های خاص دامنه هستند. دامنه های LLM عملکرد قابل توجهی در حوزه های پزشکی، مالی یا علمی نشان داده اند. برای یک LLM برای کسب دانش خاص دامنه، چهار روش وجود دارد: آموزش از ابتدا، پیش آموزش مداوم، تنظیم دقیق دستورالعمل در وظایف دامنه، و بازیابی نسل افزوده (RAG).

در مدل‌های سنتی، تنظیم دقیق معمولاً برای ایجاد مدل‌های خاص کار برای یک دامنه استفاده می‌شود. این به معنای حفظ مدل های متعدد برای چندین کار مانند استخراج موجودیت، طبقه بندی قصد، تجزیه و تحلیل احساسات یا پاسخ به سؤال است. با ظهور LLM ها، نیاز به حفظ مدل های جداگانه با استفاده از تکنیک هایی مانند یادگیری درون متنی یا درخواست منسوخ شده است. این باعث صرفه جویی در تلاش لازم برای حفظ مجموعه ای از مدل ها برای کارهای مرتبط اما متمایز می شود.

به طور مستقیم، می توانید LLM ها را از ابتدا با داده های دامنه خاص آموزش دهید. اگرچه بیشتر کار برای ایجاد دامنه LLM روی آموزش از ابتدا متمرکز شده است، اما بسیار گران است. به عنوان مثال، مدل GPT-4 هزینه دارد بیش از $ 100 میلیون برای آموزش این مدل ها بر روی ترکیبی از داده های دامنه باز و داده های دامنه آموزش داده شده اند. پیش‌آموزش مستمر می‌تواند به مدل‌ها کمک کند تا دانش خاص دامنه را بدون متحمل شدن هزینه‌های پیش‌آموزشی از ابتدا به دست آورند، زیرا شما یک LLM دامنه باز موجود را فقط بر روی داده‌های دامنه از قبل آموزش می‌دهید.

با تنظیم دقیق دستورالعمل روی یک کار، نمی‌توانید مدل را وادار کنید دانش دامنه را به دست آورد زیرا LLM فقط اطلاعات دامنه موجود در مجموعه داده تنظیم دقیق دستورالعمل را به دست می‌آورد. مگر اینکه یک مجموعه داده بسیار بزرگ برای تنظیم دقیق دستورالعمل استفاده شود، برای کسب دانش دامنه کافی نیست. منبع یابی مجموعه داده های دستورالعمل با کیفیت بالا معمولاً چالش برانگیز است و دلیل استفاده از LLM در وهله اول است. همچنین، تنظیم دقیق دستورالعمل در یک کار می تواند بر عملکرد سایر وظایف تأثیر بگذارد (همانطور که در زیر مشاهده می شود این مقاله). با این حال، تنظیم دقیق دستورالعمل مقرون به صرفه تر از هر یک از جایگزین های قبل از آموزش است.

شکل زیر تنظیم دقیق کار خاص را با هم مقایسه می کند. در مقابل پارادایم یادگیری درون متنی با LLM.

RAG موثرترین راه برای هدایت یک LLM برای تولید پاسخ های مبتنی بر یک دامنه است. اگرچه می‌تواند با ارائه حقایق از دامنه به‌عنوان اطلاعات کمکی، مدلی را برای تولید پاسخ‌ها راهنمایی کند، اما زبان خاص دامنه را به دست نمی‌آورد زیرا LLM هنوز برای تولید پاسخ‌ها به سبک زبان غیر دامنه متکی است.

پیش‌آموزش مستمر، از نظر هزینه، راه حلی میانی بین پیش‌آموزش و تنظیم دقیق دستورالعمل است، در حالی که جایگزینی قوی برای کسب دانش و سبک خاص دامنه است. می‌تواند یک مدل کلی ارائه کند که بر اساس آن، تنظیم دقیق دستورالعمل‌ها در داده‌های دستورالعمل محدود می‌تواند انجام شود. پیش‌آموزش مستمر می‌تواند یک استراتژی مقرون‌به‌صرفه برای حوزه‌های تخصصی باشد که در آن مجموعه وظایف پایین‌دستی بزرگ یا ناشناخته است و داده‌های تنظیم دستورالعمل برچسب‌گذاری شده محدود است. در سناریوهای دیگر، تنظیم دقیق دستورالعمل یا RAG ممکن است مناسب تر باشد.

برای کسب اطلاعات بیشتر در مورد آموزش تنظیم دقیق، RAG و مدل به ادامه مطلب مراجعه کنید یک مدل فونداسیون را دقیق تنظیم کنید, بازیابی نسل افزوده (RAG)و آموزش یک مدل با آمازون SageMaker، به ترتیب. برای این پست، ما بر روی پیش‌آموزش مستمر کارآمد تمرکز می‌کنیم.

روش شناسی کارآمد پیش آموزش مستمر

پیش‌آموزش مستمر شامل روش‌شناسی زیر است:

  • پیش آموزش مستمر تطبیقی ​​با دامنه (DACP) - در کاغذ پیش‌آموزش مستمر کارآمد برای ساخت مدل‌های زبان بزرگ خاص دامنه، نویسندگان به طور مداوم مجموعه مدل زبان Pythia را در مجموعه مالی پیش آموزش می دهند تا آن را با حوزه مالی تطبیق دهند. هدف ایجاد LLM های مالی با تغذیه داده ها از کل حوزه مالی به یک مدل منبع باز است. از آنجایی که مجموعه آموزشی شامل تمام مجموعه داده های مدیریت شده در حوزه است، مدل حاصل باید دانش مالی خاص را به دست آورد، در نتیجه تبدیل به یک مدل همه کاره برای وظایف مختلف مالی می شود. این منجر به مدل های FinPythia می شود.
  • پیش‌آموزش مستمر تطبیقی ​​با وظایف (TACP) - نویسندگان مدل‌ها را از قبل بر روی داده‌های وظایف برچسب‌دار و بدون برچسب بیشتر آموزش می‌دهند تا آنها را برای وظایف خاص تطبیق دهند. در شرایط خاص، توسعه‌دهندگان ممکن است مدل‌هایی را ترجیح دهند که عملکرد بهتری را در گروهی از وظایف درون دامنه ارائه می‌دهند تا مدل‌های عمومی دامنه. TACP به‌عنوان پیش‌آموزشی مستمر با هدف افزایش عملکرد در وظایف هدف‌گذاری شده، بدون نیاز به داده‌های برچسب‌گذاری شده طراحی شده است. به طور خاص، نویسندگان به طور مداوم مدل‌های منبع باز را روی نشانه‌های وظیفه (بدون برچسب) از قبل آموزش می‌دهند. محدودیت اولیه TACP در ساختن LLMهای خاص وظیفه به جای LLMهای بنیادی نهفته است که به دلیل استفاده انحصاری از داده های وظیفه بدون برچسب برای آموزش است. اگرچه DACP از مجموعه بسیار بزرگتری استفاده می کند، اما بسیار گران است. برای متعادل کردن این محدودیت‌ها، نویسندگان دو رویکرد را پیشنهاد می‌کنند که با هدف ایجاد LLMهای بنیادی خاص دامنه و در عین حال حفظ عملکرد برتر در وظایف هدف:
  • DACP کارآمد مشابه (ETS-DACP) - نویسندگان انتخاب زیر مجموعه ای از پیکره مالی را پیشنهاد می کنند که با استفاده از تشابه جاسازی بسیار شبیه به داده های کار باشد. این زیرمجموعه برای پیش تمرین مداوم استفاده می شود تا کارآمدتر شود. به طور خاص، نویسندگان به طور مداوم LLM منبع باز را روی یک مجموعه کوچک استخراج شده از مجموعه مالی که نزدیک به وظایف هدف در توزیع است، از قبل آموزش می دهند. این می‌تواند به بهبود عملکرد کار کمک کند، زیرا ما این مدل را برای توزیع نشانه‌های وظیفه با وجود عدم نیاز به داده‌های برچسب‌گذاری شده اتخاذ می‌کنیم.
  • DACP کارآمد کارآمد (ETA-DACP) - نویسندگان استفاده از معیارهایی مانند گیجی و آنتروپی نوع رمز را پیشنهاد می‌کنند که برای انتخاب نمونه‌ها از مجموعه مالی برای پیش‌آموزش کارآمد مستمر، به داده‌های وظیفه نیازی ندارد. این رویکرد برای مقابله با سناریوهایی طراحی شده است که در آن داده های وظیفه در دسترس نیست یا مدل های دامنه همه کاره تر برای دامنه وسیع تر ترجیح داده می شوند. نویسندگان برای انتخاب نمونه های داده ای که برای به دست آوردن اطلاعات دامنه از زیرمجموعه ای از داده های حوزه پیش از آموزش مهم هستند، دو بعد را انتخاب می کنند: تازگی و تنوع. تازگی، که با گیجی ثبت شده توسط مدل هدف اندازه گیری می شود، به اطلاعاتی اشاره دارد که قبلا توسط LLM دیده نشده بود. داده های با تازگی بالا نشان دهنده دانش جدید برای LLM است و یادگیری چنین داده هایی دشوارتر است. این LLM های عمومی را با دانش گسترده دامنه در طول پیش آموزش مداوم به روز می کند. از سوی دیگر، تنوع، تنوع توزیع انواع نشانه‌ها را در مجموعه دامنه به تصویر می‌کشد که به عنوان یک ویژگی مفید در تحقیق یادگیری برنامه درسی در مورد مدل‌سازی زبان مستند شده است.

شکل زیر نمونه ای از ETS-DACP (چپ) را در مقابل ETA-DACP (راست) مقایسه می کند.

ما دو طرح نمونه‌گیری را برای انتخاب فعال نقاط داده از مجموعه مالی انتخاب شده اتخاذ می‌کنیم: نمونه‌گیری سخت و نمونه‌گیری نرم. اولی با رتبه‌بندی مجموعه مالی با معیارهای مربوطه و سپس انتخاب نمونه‌های top-k انجام می‌شود، جایی که k با توجه به بودجه آموزشی از پیش تعیین می‌شود. برای دومی، نویسندگان وزن‌های نمونه‌گیری را برای هر نقطه داده با توجه به مقادیر متریک اختصاص می‌دهند و سپس به‌طور تصادفی از k نقطه داده نمونه‌برداری می‌کنند تا بودجه آموزشی را برآورده کنند.

نتیجه و تحلیل

نویسندگان LLM های مالی حاصل را در مجموعه ای از وظایف مالی برای بررسی اثربخشی پیش آموزش مستمر ارزیابی می کنند:

  • بانک عبارات مالی - وظیفه طبقه بندی احساسات در اخبار مالی.
  • FiQA SA - یک کار طبقه بندی احساسات مبتنی بر جنبه بر اساس اخبار و سرفصل های مالی.
  • عنوان - یک کار طبقه بندی دودویی در مورد اینکه آیا عنوان یک واحد مالی حاوی اطلاعات خاصی است یا خیر.
  • NER - یک وظیفه استخراج نهاد با نام مالی بر اساس بخش ارزیابی ریسک اعتباری گزارش های SEC. کلمات در این کار با PER، LOC، ORG و MISC حاشیه نویسی می شوند.

از آنجایی که LLM های مالی دستورالعمل ها را دقیق تنظیم می کنند، نویسندگان مدل ها را در یک تنظیم 5 شات برای هر کار به خاطر استحکام ارزیابی می کنند. به طور متوسط، FinPythia 6.9B در چهار کار، 6.9% بهتر از Pythia 10B عمل می کند، که نشان دهنده کارآمدی پیش آموزش مداوم برای دامنه خاص است. برای مدل 1B، بهبود کمتر عمیق است، اما عملکرد هنوز به طور متوسط ​​2٪ بهبود می یابد.

شکل زیر تفاوت عملکرد قبل و بعد از DACP را در هر دو مدل نشان می دهد.

شکل زیر دو نمونه کیفی تولید شده توسط Pythia 6.9B و FinPythia 6.9B را نشان می دهد. برای دو سوال مرتبط با امور مالی در مورد مدیر سرمایه گذار و یک اصطلاح مالی، Pythia 6.9B این اصطلاح را نمی‌فهمد یا نام آن را نمی‌شناسد، در حالی که FinPythia 6.9B پاسخ‌های دقیق را به درستی ایجاد می‌کند. مثال‌های کیفی نشان می‌دهند که پیش‌آموزش مستمر LLM را قادر می‌سازد تا دانش دامنه را در طول فرآیند به دست آورند.

جدول زیر روش های مختلف کارآمد پیش تمرینی را با هم مقایسه می کند. ETA-DACP-ppl بر اساس سرگشتگی (تازه) ETA-DACP است و ETA-DACP-ent بر اساس آنتروپی (تنوع) است. ETS-DACP-com مشابه DACP با انتخاب داده با میانگین هر سه معیار است. در زیر چند برداشت از نتایج آورده شده است:

  • روش های انتخاب داده کارآمد هستند - آنها فقط با 10٪ داده های آموزشی از پیش تمرین مداوم استاندارد پیشی می گیرند. پیش‌آموزش مستمر کارآمد شامل DACP Task-Similar (ETS-DACP)، Task-Agnostic DACP مبتنی بر آنتروپی (ESA-DACP-ent) و DACP-Similar بر اساس هر سه معیار (ETS-DACP-com) از DACP استاندارد بهتر عمل می‌کند. به طور متوسط ​​علیرغم این واقعیت که آنها فقط در 10٪ از مجموعه مالی آموزش دیده اند.
  • انتخاب داده‌های آگاه از وظیفه بهترین عملکرد را در راستای تحقیقات مدل‌های زبان کوچک دارد – ETS-DACP بهترین میانگین عملکرد را در بین تمام روش‌ها ثبت می‌کند و بر اساس هر سه معیار، دومین عملکرد برتر کار را ثبت می‌کند. این نشان می‌دهد که استفاده از داده‌های وظیفه بدون برچسب هنوز یک رویکرد مؤثر برای افزایش عملکرد کار در مورد LLM است.
  • انتخاب داده های Task-Agnostic در رده دوم قرار دارد - ESA-DACP-ent از عملکرد رویکرد انتخاب داده آگاهانه از وظیفه پیروی می کند، به این معنی که ما همچنان می توانیم با انتخاب فعال نمونه های با کیفیت بالا که به وظایف خاصی مرتبط نیستند، عملکرد کار را افزایش دهیم. این راه را برای ایجاد LLMهای مالی برای کل دامنه و در عین حال دستیابی به عملکرد برتر هموار می کند.

یک سوال مهم در مورد پیش‌آموزش مستمر این است که آیا تاثیر منفی بر عملکرد در کارهای غیر دامنه دارد یا خیر. نویسندگان همچنین مدل از پیش آموزش‌دیده‌شده را بر روی چهار کار عمومی پرکاربرد ارزیابی می‌کنند: ARC، MMLU، TruthQA، و HellaSwag، که توانایی پاسخ‌گویی به سؤال، استدلال، و تکمیل را اندازه‌گیری می‌کنند. نویسندگان دریافته‌اند که پیش‌آموزش مستمر تأثیر منفی بر عملکرد غیر دامنه‌ای ندارد. برای جزئیات بیشتر مراجعه کنید پیش‌آموزش مستمر کارآمد برای ساخت مدل‌های زبان بزرگ خاص دامنه.

نتیجه

این پست بینش‌هایی را در مورد جمع‌آوری داده‌ها و استراتژی‌های پیش‌آموزشی مستمر برای آموزش LLM برای حوزه مالی ارائه می‌دهد. می توانید با استفاده از آموزش LLM های خود را برای کارهای مالی شروع کنید آموزش آمازون SageMaker or بستر آمازون امروز.


درباره نویسنده

یونگ زی یک دانشمند کاربردی در آمازون فین تک است. او بر توسعه مدل‌های زبان بزرگ و برنامه‌های کاربردی هوش مصنوعی برای امور مالی تمرکز دارد.

کاران آگاروال یک دانشمند کاربردی ارشد در آمازون فین‌تک با تمرکز بر هوش مصنوعی مولد برای موارد استفاده مالی است. کاران تجربه گسترده ای در تجزیه و تحلیل سری های زمانی و NLP دارد و علاقه خاصی به یادگیری از داده های برچسب گذاری شده محدود دارد.

اعتزاز احمد یک مدیر علوم کاربردی در آمازون است که در آنجا تیمی از دانشمندان را رهبری می کند که برنامه های مختلف یادگیری ماشین و هوش مصنوعی تولیدی در امور مالی ایجاد می کنند. علایق تحقیقاتی او در NLP، Generative AI و LLM Agents است. او دکترای خود را در رشته مهندسی برق از دانشگاه A&M تگزاس دریافت کرد.

کینگوی لی یک متخصص یادگیری ماشین در خدمات وب آمازون است. او دکترای خود را دریافت کرد. در تحقیقات عملیات پس از اینکه حساب کمک هزینه تحقیقاتی مشاورش را شکست و نتوانست جایزه نوبل را که وعده داده بود تحویل دهد. در حال حاضر او به مشتریان در خدمات مالی کمک می کند تا راه حل های یادگیری ماشینی را در AWS بسازند.

راغوندر آرنی تیم شتاب مشتری (CAT) را در صنایع AWS رهبری می کند. CAT یک تیم متقابل جهانی متشکل از معماران ابری، مهندسین نرم‌افزار، دانشمندان داده و کارشناسان و طراحان AI/ML است که نوآوری را از طریق نمونه‌سازی پیشرفته، و تعالی عملیاتی ابر را از طریق تخصص فنی تخصصی هدایت می‌کند.

نقطه_img

جدیدترین اطلاعات

نقطه_img

چت با ما

سلام! چگونه می توانم به شما کمک کنم؟