سازمانها در سراسر صنایع میخواهند بینشهایی را از حجم بالای اسناد با فرمتهای مختلف طبقهبندی و استخراج کنند. پردازش دستی این اسناد برای طبقهبندی و استخراج اطلاعات پرهزینه، مستعد خطا و مقیاسبندی آن دشوار است. پیشرفت در هوش مصنوعی مولد (AI) راهحلهای پردازش اسناد هوشمند (IDP) را به وجود آوردهاند که میتواند طبقهبندی اسناد را خودکار کند و یک لایه طبقهبندی مقرونبهصرفه ایجاد کند که بتواند اسناد سازمانی متنوع و بدون ساختار را مدیریت کند.
دسته بندی اسناد اولین قدم مهم در سیستم های IDP است. این به شما کمک می کند تا مجموعه اقدامات بعدی را بسته به نوع سند تعیین کنید. به عنوان مثال، در طول فرآیند رسیدگی به ادعاها، تیم حساب های پرداختنی فاکتور را دریافت می کند، در حالی که بخش ادعا، قرارداد یا اسناد خط مشی را مدیریت می کند. موتورهای قواعد سنتی یا طبقهبندی مبتنی بر ML میتوانند اسناد را طبقهبندی کنند، اما اغلب به محدودیت در انواع قالبهای سند و پشتیبانی از افزودن پویا از کلاسهای جدید سند میرسند. برای اطلاعات بیشتر ببین طبقهبندیکننده اسناد آمازون Comprehend پشتیبانی طرحبندی را برای دقت بالاتر اضافه میکند.
در این پست، طبقه بندی اسناد را با استفاده از مدل آمازون Titan Multimodal Embeddings برای طبقه بندی انواع اسناد بدون نیاز به آموزش.
آمازون Titan Multimodal Embeddings
آمازون اخیرا معرفی کرده است Titan Multimodal Embeddings in بستر آمازون. این مدل میتواند جاسازیهایی را برای تصاویر و متن ایجاد کند و ایجاد جاسازیهای سند را قادر میسازد تا در جریانهای کاری طبقهبندی اسناد جدید استفاده شود.
نمایش های برداری بهینه شده ای از اسناد اسکن شده به عنوان تصویر ایجاد می کند. با رمزگذاری هر دو مؤلفه بصری و متنی در بردارهای عددی یکپارچه که معنای معنایی را در بر می گیرد، نمایه سازی سریع، جستجوی متنی قدرتمند و طبقه بندی دقیق اسناد را امکان پذیر می کند.
همانطور که الگوها و انواع اسناد جدید در جریان کار تجاری ظاهر می شوند، می توانید به سادگی آن را فراخوانی کنید Amazon Bedrock API تا به صورت پویا آنها را بردارید و به سیستم های IDP خود اضافه کنید تا به سرعت قابلیت های طبقه بندی اسناد را افزایش دهید.
بررسی اجمالی راه حل
بیایید راه حل طبقه بندی اسناد زیر را با مدل آمازون Titan Multimodal Embeddings بررسی کنیم. برای عملکرد بهینه، باید راه حل را با استفاده از مورد خاص خود و راه اندازی خط لوله IDP موجود سفارشی کنید.
این راه حل اسناد را با استفاده از جستجوی معنایی تعبیه شده بردار با تطبیق یک سند ورودی با یک گالری اسناد از قبل نمایه شده طبقه بندی می کند. ما از اجزای کلیدی زیر استفاده می کنیم:
- درونه گیریها - درونه گیریها نمایشهای عددی از اشیاء دنیای واقعی هستند که سیستمهای یادگیری ماشین (ML) و AI برای درک حوزههای دانش پیچیده مانند انسانها استفاده میکنند.
- پایگاه های داده برداری - پایگاه های داده برداری برای ذخیره سازی جاسازی ها استفاده می شود. پایگاههای اطلاعاتی برداری بهطور کارآمدی جاسازیها را فهرستبندی و سازماندهی میکنند، و بازیابی سریع بردارهای مشابه را بر اساس معیارهای فاصله مانند فاصله اقلیدسی یا شباهت کسینوس ممکن میسازد.
- جستجوی معنایی - جستجوی معنایی با در نظر گرفتن زمینه و معنای پرس و جو ورودی و ارتباط آن با محتوای مورد جستجو کار می کند. تعبیههای برداری روشی مؤثر برای ضبط و حفظ معنای متنی متن و تصاویر است. در راه حل ما، هنگامی که یک برنامه کاربردی می خواهد یک جستجوی معنایی انجام دهد، ابتدا سند جستجو به یک جاسازی تبدیل می شود. سپس پایگاه داده برداری با محتوای مربوطه برای یافتن مشابه ترین جاسازی ها پرس و جو می شود.
در فرآیند برچسبگذاری، مجموعه نمونهای از اسناد تجاری مانند فاکتورها، صورتحسابهای بانکی یا نسخهها با استفاده از مدل آمازون Titan Multimodal Embeddings به جاسازیها تبدیل میشوند و در یک پایگاه داده برداری در برابر برچسبهای از پیش تعریفشده ذخیره میشوند. مدل آمازون Titan Multimodal Embedding با استفاده از الگوریتم اقلیدسی L2 آموزش داده شد و بنابراین برای بهترین نتایج پایگاه داده برداری استفاده شده باید از این الگوریتم پشتیبانی کند.
نمودار معماری زیر نشان می دهد که چگونه می توانید از مدل آمازون Titan Multimodal Embeddings با اسناد در یک سرویس ذخیره سازی ساده آمازون سطل (Amazon S3) برای ایجاد گالری تصاویر.
گردش کار شامل مراحل زیر است:
- یک کاربر یا برنامه یک تصویر سند نمونه را با ابرداده طبقه بندی در گالری تصاویر سند آپلود می کند. برای طبقه بندی تصاویر گالری می توان از پیشوند S3 یا ابرداده شی S3 استفاده کرد.
- یک رویداد اعلان شی آمازون S3 این جاسازی را فراخوانی می کند AWS لامبدا تابع.
- تابع Lambda با فراخوانی Amazon Bedrock و با استفاده از مدل آمازون Titan Multimodal Embeddings، تصویر سند را می خواند و تصویر را به جاسازی ها ترجمه می کند.
- جاسازی های تصویر، همراه با طبقه بندی اسناد، در پایگاه داده برداری ذخیره می شوند.
هنگامی که یک سند جدید نیاز به طبقه بندی دارد، از همان مدل جاسازی برای تبدیل سند پرس و جو به یک جاسازی استفاده می شود. سپس یک جستجوی تشابه معنایی در پایگاه داده برداری با استفاده از جاسازی پرس و جو انجام می شود. برچسب بازیابی شده در برابر تطابق جاسازی بالا، برچسب طبقه بندی برای سند درخواست خواهد بود.
نمودار معماری زیر نحوه استفاده از مدل آمازون Titan Multimodal Embeddings با اسناد در یک سطل S3 برای طبقه بندی تصاویر را نشان می دهد.
گردش کار شامل مراحل زیر است:
- اسنادی که نیاز به طبقه بندی دارند در یک سطل ورودی S3 آپلود می شوند.
- تابع طبقه بندی Lambda اعلان شی آمازون S3 را دریافت می کند.
- تابع Lambda با فراخوانی Amazon Bedrock API تصویر را به یک جاسازی ترجمه می کند.
- پایگاه داده برداری برای یک سند منطبق با استفاده از جستجوی معنایی جستجو می شود. طبقه بندی سند منطبق برای طبقه بندی سند ورودی استفاده می شود.
- سند ورودی با استفاده از طبقه بندی بازیابی شده از جستجوی پایگاه داده برداری به فهرست یا پیشوند S3 هدف منتقل می شود.
برای کمک به آزمایش راه حل با اسناد خود، ما یک نمونه نوت بوک Python Jupyter ایجاد کرده ایم که در دسترس است GitHub.
پیش نیازها
برای اجرای نوت بوک، به یک حساب AWS با مناسب هویت AWS و مدیریت دسترسی (IAM) مجوز تماس با Amazon Bedrock. علاوه بر این، در دسترسی مدل صفحه کنسول بستر آمازون، مطمئن شوید که دسترسی به مدل آمازون Titan Multimodal Embeddings داده شده است.
پیاده سازی
در مراحل زیر، هر متغیر ورودی کاربر را با اطلاعات خود جایگزین کنید:
- پایگاه داده برداری را ایجاد کنید. در این راه حل، ما از یک پایگاه داده FAISS در حافظه استفاده می کنیم، اما شما می توانید از یک پایگاه داده برداری جایگزین استفاده کنید. ابعاد پیشفرض آمازون تایتان 1024 است.
- پس از ایجاد پایگاه داده برداری، اسناد نمونه را برشمارید، هر کدام را جاسازی کنید و آن ها را در پایگاه داده برداری ذخیره کنید.
- با مدارک خود تست کنید پوشه های موجود در کد زیر را با پوشه های خود که حاوی انواع سند شناخته شده هستند جایگزین کنید:
- با استفاده از کتابخانه Boto3، با Amazon Bedrock تماس بگیرید. متغیر
inputImageB64
یک آرایه بایت کدگذاری شده base64 است که سند شما را نشان می دهد. پاسخ Amazon Bedrock شامل موارد تعبیه شده است.
- جاسازی ها را با یک شناسه کلاس که نشان دهنده یک نوع سند شناخته شده است به پایگاه داده برداری اضافه کنید:
- با پایگاه داده برداری پر از تصاویر (نماینده گالری ما)، می توانید شباهت ها را با اسناد جدید کشف کنید. به عنوان مثال، شکل زیر برای جستجو استفاده می شود. k=1 به FAISS می گوید که 1 مسابقه برتر را برگرداند.
علاوه بر این، فاصله L2 اقلیدسی بین تصویر موجود و تصویر یافت شده نیز برگردانده می شود. اگر تصویر دقیقاً مطابقت داشته باشد، این مقدار 0 خواهد بود. هر چه این مقدار بزرگتر باشد، تصاویر از یکدیگر شباهت بیشتری دارند.
ملاحظات اضافی
در این بخش، ملاحظات دیگری را برای استفاده موثر از راه حل مورد بحث قرار می دهیم. این شامل حریم خصوصی داده ها، امنیت، ادغام با سیستم های موجود و برآورد هزینه است.
حریم خصوصی و امنیت داده ها
AWS مدل مسئولیت مشترک اعمال می شود حفاظت از داده ها در آمازون بستر. همانطور که در این مدل توضیح داده شد، AWS مسئول حفاظت از زیرساخت جهانی است که تمام AWS Cloud را اجرا می کند. مشتریان مسئول حفظ کنترل بر محتوای خود هستند که در این زیرساخت میزبانی می شود. به عنوان یک مشتری، شما مسئول پیکربندی امنیتی و وظایف مدیریتی برای سرویسهای AWS هستید که استفاده میکنید.
حفاظت از داده ها در Amazon Bedrock
Amazon Bedrock از استفاده از اعلانها و تداومهای مشتری برای آموزش مدلهای AWS یا اشتراکگذاری آنها با اشخاص ثالث اجتناب میکند. Amazon Bedrock داده های مشتری را در گزارش های خدمات خود ذخیره یا ثبت نمی کند. ارائه دهندگان مدل به گزارش های Amazon Bedrock یا دسترسی به درخواست های مشتری و ادامه دسترسی ندارند. در نتیجه، تصاویری که برای تولید جاسازیها از طریق مدل آمازون Titan Multimodal Embeddings استفاده میشوند، ذخیره نمیشوند یا در آموزش مدلهای AWS یا توزیع خارجی استفاده نمیشوند. علاوه بر این، سایر دادههای استفاده، مانند مُهرهای زمانی و شناسههای حساب ثبتشده، از آموزش مدل مستثنی هستند.
ادغام با سیستم های موجود
مدل آمازون Titan Multimodal Embeddings تحت آموزش با الگوریتم اقلیدسی L2 قرار گرفت، بنابراین پایگاه داده برداری مورد استفاده باید با این الگوریتم سازگار باشد.
برآورد هزینه
در زمان نوشتن این پست، طبق قیمت گذاری سنگ بستر آمازون برای مدل آمازون Titan Multimodal Embeddings، هزینههای تخمینی زیر با استفاده از قیمتگذاری بر اساس تقاضا برای این راهحل ارائه شده است:
- هزینه نمایه سازی یکباره - 0.06 دلار برای یک بار نمایه سازی، با فرض 1,000 گالری تصویر
- هزینه طبقه بندی – 6 دلار برای 100,000 عکس ورودی در ماه
پاک کردن
برای جلوگیری از تحمیل هزینههای آتی، منابعی را که ایجاد کردهاید حذف کنید نمونه نوت بوک آمازون SageMaker، زمانی که استفاده نمی شود.
نتیجه
در این پست، نحوه استفاده از مدل آمازون Titan Multimodal Embeddings را بررسی کردیم تا راه حلی ارزان برای طبقه بندی اسناد در گردش کار IDP ایجاد کنید. ما نشان دادیم که چگونه می توان یک گالری تصاویر از اسناد شناخته شده ایجاد کرد و جستجوهای مشابه را با اسناد جدید برای طبقه بندی آنها انجام داد. ما همچنین در مورد مزایای استفاده از جاسازیهای تصویر چندوجهی برای طبقهبندی اسناد، از جمله توانایی آنها در مدیریت انواع اسناد، مقیاسپذیری و تأخیر کم بحث کردیم.
با ظهور قالبها و انواع اسناد جدید در گردشهای کاری، توسعهدهندگان میتوانند از Amazon Bedrock API استفاده کنند تا آنها را به صورت پویا بردار کنند و به سیستمهای IDP خود اضافه کنند تا به سرعت قابلیتهای طبقهبندی اسناد را افزایش دهند. این یک لایه طبقه بندی ارزان قیمت و بی نهایت مقیاس پذیر ایجاد می کند که می تواند حتی متنوع ترین اسناد سازمانی بدون ساختار را مدیریت کند.
به طور کلی، این پست یک نقشه راه برای ایجاد یک راه حل ارزان برای طبقه بندی اسناد در گردش کار IDP با استفاده از آمازون Titan Multimodal Embeddings ارائه می دهد.
به عنوان مراحل بعدی، بررسی کنید Amazon Bedrock چیست؟ برای شروع استفاده از سرویس و دنبال کنید Amazon Bedrock در وبلاگ یادگیری ماشینی AWS برای به روز بودن با قابلیت های جدید و استفاده از موارد برای Amazon Bedrock.
درباره نویسنده
سامیت بهاتی یک مدیر ارشد راه حل های مشتری در AWS است، و متخصص در تسریع سفر ابری برای مشتریان سازمانی است. سامیت برای کمک به مشتریان در هر مرحله از پذیرش ابر، از تسریع مهاجرت گرفته تا نوسازی بار کاری و تسهیل ادغام شیوههای نوآورانه، اختصاص داده شده است.
دیوید گرلینگ یک معمار ارشد راه حل های AI/ML با بیش از 20 سال تجربه در طراحی، رهبری و توسعه سیستم های سازمانی است. دیوید بخشی از یک تیم تخصصی است که بر کمک به مشتریان برای یادگیری، نوآوری و استفاده از این خدمات بسیار توانمند با داده های خود برای موارد استفاده تمرکز دارد.
راوی آوولا یک معمار ارشد راه حل در AWS است که بر روی معماری سازمانی تمرکز دارد. Ravi دارای 20 سال تجربه در مهندسی نرم افزار است و چندین نقش رهبری در مهندسی نرم افزار و معماری نرم افزار در صنعت پرداخت داشته است.
جورج بلسیان یک معمار ارشد برنامه های ابری در AWS است. او علاقه زیادی به کمک به مشتریان برای تسریع روند مدرن سازی و پذیرش ابری خود دارد. جورج در نقش فعلی خود در کنار تیم های مشتری برای استراتژی، معمار و توسعه راه حل های نوآورانه و مقیاس پذیر کار می کند.
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
- منبع: https://aws.amazon.com/blogs/machine-learning/cost-effective-document-classification-using-the-amazon-titan-multimodal-embeddings-model/