هوش داده افلاطون
جستجوی عمودی و هوش مصنوعی

طبقه بندی اسناد مقرون به صرفه با استفاده از مدل جاسازی چندوجهی آمازون تایتان | خدمات وب آمازون

تاریخ:

سازمان‌ها در سراسر صنایع می‌خواهند بینش‌هایی را از حجم بالای اسناد با فرمت‌های مختلف طبقه‌بندی و استخراج کنند. پردازش دستی این اسناد برای طبقه‌بندی و استخراج اطلاعات پرهزینه، مستعد خطا و مقیاس‌بندی آن دشوار است. پیشرفت در هوش مصنوعی مولد (AI) راه‌حل‌های پردازش اسناد هوشمند (IDP) را به وجود آورده‌اند که می‌تواند طبقه‌بندی اسناد را خودکار کند و یک لایه طبقه‌بندی مقرون‌به‌صرفه ایجاد کند که بتواند اسناد سازمانی متنوع و بدون ساختار را مدیریت کند.

دسته بندی اسناد اولین قدم مهم در سیستم های IDP است. این به شما کمک می کند تا مجموعه اقدامات بعدی را بسته به نوع سند تعیین کنید. به عنوان مثال، در طول فرآیند رسیدگی به ادعاها، تیم حساب های پرداختنی فاکتور را دریافت می کند، در حالی که بخش ادعا، قرارداد یا اسناد خط مشی را مدیریت می کند. موتورهای قواعد سنتی یا طبقه‌بندی مبتنی بر ML می‌توانند اسناد را طبقه‌بندی کنند، اما اغلب به محدودیت در انواع قالب‌های سند و پشتیبانی از افزودن پویا از کلاس‌های جدید سند می‌رسند. برای اطلاعات بیشتر ببین طبقه‌بندی‌کننده اسناد آمازون Comprehend پشتیبانی طرح‌بندی را برای دقت بالاتر اضافه می‌کند.

در این پست، طبقه بندی اسناد را با استفاده از مدل آمازون Titan Multimodal Embeddings برای طبقه بندی انواع اسناد بدون نیاز به آموزش.

آمازون Titan Multimodal Embeddings

آمازون اخیرا معرفی کرده است Titan Multimodal Embeddings in بستر آمازون. این مدل می‌تواند جاسازی‌هایی را برای تصاویر و متن ایجاد کند و ایجاد جاسازی‌های سند را قادر می‌سازد تا در جریان‌های کاری طبقه‌بندی اسناد جدید استفاده شود.

نمایش های برداری بهینه شده ای از اسناد اسکن شده به عنوان تصویر ایجاد می کند. با رمزگذاری هر دو مؤلفه بصری و متنی در بردارهای عددی یکپارچه که معنای معنایی را در بر می گیرد، نمایه سازی سریع، جستجوی متنی قدرتمند و طبقه بندی دقیق اسناد را امکان پذیر می کند.

همانطور که الگوها و انواع اسناد جدید در جریان کار تجاری ظاهر می شوند، می توانید به سادگی آن را فراخوانی کنید Amazon Bedrock API تا به صورت پویا آنها را بردارید و به سیستم های IDP خود اضافه کنید تا به سرعت قابلیت های طبقه بندی اسناد را افزایش دهید.

بررسی اجمالی راه حل

بیایید راه حل طبقه بندی اسناد زیر را با مدل آمازون Titan Multimodal Embeddings بررسی کنیم. برای عملکرد بهینه، باید راه حل را با استفاده از مورد خاص خود و راه اندازی خط لوله IDP موجود سفارشی کنید.

این راه حل اسناد را با استفاده از جستجوی معنایی تعبیه شده بردار با تطبیق یک سند ورودی با یک گالری اسناد از قبل نمایه شده طبقه بندی می کند. ما از اجزای کلیدی زیر استفاده می کنیم:

  • درونه گیریها - درونه گیریها نمایش‌های عددی از اشیاء دنیای واقعی هستند که سیستم‌های یادگیری ماشین (ML) و AI برای درک حوزه‌های دانش پیچیده مانند انسان‌ها استفاده می‌کنند.
  • پایگاه های داده برداری - پایگاه های داده برداری برای ذخیره سازی جاسازی ها استفاده می شود. پایگاه‌های اطلاعاتی برداری به‌طور کارآمدی جاسازی‌ها را فهرست‌بندی و سازمان‌دهی می‌کنند، و بازیابی سریع بردارهای مشابه را بر اساس معیارهای فاصله مانند فاصله اقلیدسی یا شباهت کسینوس ممکن می‌سازد.
  • جستجوی معنایی - جستجوی معنایی با در نظر گرفتن زمینه و معنای پرس و جو ورودی و ارتباط آن با محتوای مورد جستجو کار می کند. تعبیه‌های برداری روشی مؤثر برای ضبط و حفظ معنای متنی متن و تصاویر است. در راه حل ما، هنگامی که یک برنامه کاربردی می خواهد یک جستجوی معنایی انجام دهد، ابتدا سند جستجو به یک جاسازی تبدیل می شود. سپس پایگاه داده برداری با محتوای مربوطه برای یافتن مشابه ترین جاسازی ها پرس و جو می شود.

در فرآیند برچسب‌گذاری، مجموعه نمونه‌ای از اسناد تجاری مانند فاکتورها، صورت‌حساب‌های بانکی یا نسخه‌ها با استفاده از مدل آمازون Titan Multimodal Embeddings به جاسازی‌ها تبدیل می‌شوند و در یک پایگاه داده برداری در برابر برچسب‌های از پیش تعریف‌شده ذخیره می‌شوند. مدل آمازون Titan Multimodal Embedding با استفاده از الگوریتم اقلیدسی L2 آموزش داده شد و بنابراین برای بهترین نتایج پایگاه داده برداری استفاده شده باید از این الگوریتم پشتیبانی کند.

نمودار معماری زیر نشان می دهد که چگونه می توانید از مدل آمازون Titan Multimodal Embeddings با اسناد در یک سرویس ذخیره سازی ساده آمازون سطل (Amazon S3) برای ایجاد گالری تصاویر.

گردش کار شامل مراحل زیر است:

  1. یک کاربر یا برنامه یک تصویر سند نمونه را با ابرداده طبقه بندی در گالری تصاویر سند آپلود می کند. برای طبقه بندی تصاویر گالری می توان از پیشوند S3 یا ابرداده شی S3 استفاده کرد.
  2. یک رویداد اعلان شی آمازون S3 این جاسازی را فراخوانی می کند AWS لامبدا تابع.
  3. تابع Lambda با فراخوانی Amazon Bedrock و با استفاده از مدل آمازون Titan Multimodal Embeddings، تصویر سند را می خواند و تصویر را به جاسازی ها ترجمه می کند.
  4. جاسازی های تصویر، همراه با طبقه بندی اسناد، در پایگاه داده برداری ذخیره می شوند.

این نمودار معماری است که نشان می دهد چگونه Titan Multimodal Embeddings می تواند با اسناد موجود در سطل سرویس ذخیره سازی ساده آمازون (Amazon S3) برای ایجاد گالری تصاویر و طبقه بندی استفاده شود.

هنگامی که یک سند جدید نیاز به طبقه بندی دارد، از همان مدل جاسازی برای تبدیل سند پرس و جو به یک جاسازی استفاده می شود. سپس یک جستجوی تشابه معنایی در پایگاه داده برداری با استفاده از جاسازی پرس و جو انجام می شود. برچسب بازیابی شده در برابر تطابق جاسازی بالا، برچسب طبقه بندی برای سند درخواست خواهد بود.

نمودار معماری زیر نحوه استفاده از مدل آمازون Titan Multimodal Embeddings با اسناد در یک سطل S3 برای طبقه بندی تصاویر را نشان می دهد.

گردش کار شامل مراحل زیر است:

  1. اسنادی که نیاز به طبقه بندی دارند در یک سطل ورودی S3 آپلود می شوند.
  2. تابع طبقه بندی Lambda اعلان شی آمازون S3 را دریافت می کند.
  3. تابع Lambda با فراخوانی Amazon Bedrock API تصویر را به یک جاسازی ترجمه می کند.
  4. پایگاه داده برداری برای یک سند منطبق با استفاده از جستجوی معنایی جستجو می شود. طبقه بندی سند منطبق برای طبقه بندی سند ورودی استفاده می شود.
  5. سند ورودی با استفاده از طبقه بندی بازیابی شده از جستجوی پایگاه داده برداری به فهرست یا پیشوند S3 هدف منتقل می شود.

این نمودار معماری است که نشان می دهد چگونه Titan Multimodal Embeddings می تواند با اسناد موجود در سطل سرویس ذخیره سازی ساده آمازون (Amazon S3) برای طبقه بندی تصاویر استفاده شود.

برای کمک به آزمایش راه حل با اسناد خود، ما یک نمونه نوت بوک Python Jupyter ایجاد کرده ایم که در دسترس است GitHub.

پیش نیازها

برای اجرای نوت بوک، به یک حساب AWS با مناسب هویت AWS و مدیریت دسترسی (IAM) مجوز تماس با Amazon Bedrock. علاوه بر این، در دسترسی مدل صفحه کنسول بستر آمازون، مطمئن شوید که دسترسی به مدل آمازون Titan Multimodal Embeddings داده شده است.

پیاده سازی

در مراحل زیر، هر متغیر ورودی کاربر را با اطلاعات خود جایگزین کنید:

  1. پایگاه داده برداری را ایجاد کنید. در این راه حل، ما از یک پایگاه داده FAISS در حافظه استفاده می کنیم، اما شما می توانید از یک پایگاه داده برداری جایگزین استفاده کنید. ابعاد پیش‌فرض آمازون تایتان 1024 است.
index = faiss.IndexFlatL2(1024)
indexIDMap = faiss.IndexIDMap(index)

  1. پس از ایجاد پایگاه داده برداری، اسناد نمونه را برشمارید، هر کدام را جاسازی کنید و آن ها را در پایگاه داده برداری ذخیره کنید.
  1. با مدارک خود تست کنید پوشه های موجود در کد زیر را با پوشه های خود که حاوی انواع سند شناخته شده هستند جایگزین کنید:
DOC_CLASSES: list[str] = ["Closing Disclosure", "Invoices", "Social Security Card", "W4", "Bank Statement"]

getDocumentsandIndex("sampleGallery/ClosingDisclosure", DOC_CLASSES.index("Closing Disclosure"))
getDocumentsandIndex("sampleGallery/Invoices", DOC_CLASSES.index("Invoices"))
getDocumentsandIndex("sampleGallery/SSCards", DOC_CLASSES.index("Social Security Card"))
getDocumentsandIndex("sampleGallery/W4", DOC_CLASSES.index("W4"))
getDocumentsandIndex("sampleGallery/BankStatements", DOC_CLASSES.index("Bank Statement"))

  1. با استفاده از کتابخانه Boto3، با Amazon Bedrock تماس بگیرید. متغیر inputImageB64 یک آرایه بایت کدگذاری شده base64 است که سند شما را نشان می دهد. پاسخ Amazon Bedrock شامل موارد تعبیه شده است.
bedrock = boto3.client(
service_name='bedrock-runtime',
region_name='Region’
)

request_body = {}
request_body["inputText"] = None # not using any text
request_body["inputImage"] = inputImageB64
body = json.dumps(request_body)
response = bedrock.invoke_model(
body=body, 
modelId="amazon.titan-embed-image-v1", 
accept="application/json", 
contentType="application/json")
response_body = json.loads(response.get("body").read()) 

  1. جاسازی ها را با یک شناسه کلاس که نشان دهنده یک نوع سند شناخته شده است به پایگاه داده برداری اضافه کنید:
indexIDMap.add_with_ids(embeddings, classID)

  1. با پایگاه داده برداری پر از تصاویر (نماینده گالری ما)، می توانید شباهت ها را با اسناد جدید کشف کنید. به عنوان مثال، شکل زیر برای جستجو استفاده می شود. k=1 به FAISS می گوید که 1 مسابقه برتر را برگرداند.
indexIDMap.search(embeddings, k=1)

علاوه بر این، فاصله L2 اقلیدسی بین تصویر موجود و تصویر یافت شده نیز برگردانده می شود. اگر تصویر دقیقاً مطابقت داشته باشد، این مقدار 0 خواهد بود. هر چه این مقدار بزرگتر باشد، تصاویر از یکدیگر شباهت بیشتری دارند.

ملاحظات اضافی

در این بخش، ملاحظات دیگری را برای استفاده موثر از راه حل مورد بحث قرار می دهیم. این شامل حریم خصوصی داده ها، امنیت، ادغام با سیستم های موجود و برآورد هزینه است.

حریم خصوصی و امنیت داده ها

AWS مدل مسئولیت مشترک اعمال می شود حفاظت از داده ها در آمازون بستر. همانطور که در این مدل توضیح داده شد، AWS مسئول حفاظت از زیرساخت جهانی است که تمام AWS Cloud را اجرا می کند. مشتریان مسئول حفظ کنترل بر محتوای خود هستند که در این زیرساخت میزبانی می شود. به عنوان یک مشتری، شما مسئول پیکربندی امنیتی و وظایف مدیریتی برای سرویس‌های AWS هستید که استفاده می‌کنید.

حفاظت از داده ها در Amazon Bedrock

Amazon Bedrock از استفاده از اعلان‌ها و تداوم‌های مشتری برای آموزش مدل‌های AWS یا اشتراک‌گذاری آن‌ها با اشخاص ثالث اجتناب می‌کند. Amazon Bedrock داده های مشتری را در گزارش های خدمات خود ذخیره یا ثبت نمی کند. ارائه دهندگان مدل به گزارش های Amazon Bedrock یا دسترسی به درخواست های مشتری و ادامه دسترسی ندارند. در نتیجه، تصاویری که برای تولید جاسازی‌ها از طریق مدل آمازون Titan Multimodal Embeddings استفاده می‌شوند، ذخیره نمی‌شوند یا در آموزش مدل‌های AWS یا توزیع خارجی استفاده نمی‌شوند. علاوه بر این، سایر داده‌های استفاده، مانند مُهرهای زمانی و شناسه‌های حساب ثبت‌شده، از آموزش مدل مستثنی هستند.

ادغام با سیستم های موجود

مدل آمازون Titan Multimodal Embeddings تحت آموزش با الگوریتم اقلیدسی L2 قرار گرفت، بنابراین پایگاه داده برداری مورد استفاده باید با این الگوریتم سازگار باشد.

برآورد هزینه

در زمان نوشتن این پست، طبق قیمت گذاری سنگ بستر آمازون برای مدل آمازون Titan Multimodal Embeddings، هزینه‌های تخمینی زیر با استفاده از قیمت‌گذاری بر اساس تقاضا برای این راه‌حل ارائه شده است:

  • هزینه نمایه سازی یکباره - 0.06 دلار برای یک بار نمایه سازی، با فرض 1,000 گالری تصویر
  • هزینه طبقه بندی – 6 دلار برای 100,000 عکس ورودی در ماه

پاک کردن

برای جلوگیری از تحمیل هزینه‌های آتی، منابعی را که ایجاد کرده‌اید حذف کنید نمونه نوت بوک آمازون SageMaker، زمانی که استفاده نمی شود.

نتیجه

در این پست، نحوه استفاده از مدل آمازون Titan Multimodal Embeddings را بررسی کردیم تا راه حلی ارزان برای طبقه بندی اسناد در گردش کار IDP ایجاد کنید. ما نشان دادیم که چگونه می توان یک گالری تصاویر از اسناد شناخته شده ایجاد کرد و جستجوهای مشابه را با اسناد جدید برای طبقه بندی آنها انجام داد. ما همچنین در مورد مزایای استفاده از جاسازی‌های تصویر چندوجهی برای طبقه‌بندی اسناد، از جمله توانایی آنها در مدیریت انواع اسناد، مقیاس‌پذیری و تأخیر کم بحث کردیم.

با ظهور قالب‌ها و انواع اسناد جدید در گردش‌های کاری، توسعه‌دهندگان می‌توانند از Amazon Bedrock API استفاده کنند تا آنها را به صورت پویا بردار کنند و به سیستم‌های IDP خود اضافه کنند تا به سرعت قابلیت‌های طبقه‌بندی اسناد را افزایش دهند. این یک لایه طبقه بندی ارزان قیمت و بی نهایت مقیاس پذیر ایجاد می کند که می تواند حتی متنوع ترین اسناد سازمانی بدون ساختار را مدیریت کند.

به طور کلی، این پست یک نقشه راه برای ایجاد یک راه حل ارزان برای طبقه بندی اسناد در گردش کار IDP با استفاده از آمازون Titan Multimodal Embeddings ارائه می دهد.

به عنوان مراحل بعدی، بررسی کنید Amazon Bedrock چیست؟ برای شروع استفاده از سرویس و دنبال کنید Amazon Bedrock در وبلاگ یادگیری ماشینی AWS برای به روز بودن با قابلیت های جدید و استفاده از موارد برای Amazon Bedrock.


درباره نویسنده

سامیت بهاتی یک مدیر ارشد راه حل های مشتری در AWS است، و متخصص در تسریع سفر ابری برای مشتریان سازمانی است. سامیت برای کمک به مشتریان در هر مرحله از پذیرش ابر، از تسریع مهاجرت گرفته تا نوسازی بار کاری و تسهیل ادغام شیوه‌های نوآورانه، اختصاص داده شده است.

دیوید گرلینگ یک معمار ارشد راه حل های AI/ML با بیش از 20 سال تجربه در طراحی، رهبری و توسعه سیستم های سازمانی است. دیوید بخشی از یک تیم تخصصی است که بر کمک به مشتریان برای یادگیری، نوآوری و استفاده از این خدمات بسیار توانمند با داده های خود برای موارد استفاده تمرکز دارد.

راوی آوولا یک معمار ارشد راه حل در AWS است که بر روی معماری سازمانی تمرکز دارد. Ravi دارای 20 سال تجربه در مهندسی نرم افزار است و چندین نقش رهبری در مهندسی نرم افزار و معماری نرم افزار در صنعت پرداخت داشته است.

جورج بلسیان یک معمار ارشد برنامه های ابری در AWS است. او علاقه زیادی به کمک به مشتریان برای تسریع روند مدرن سازی و پذیرش ابری خود دارد. جورج در نقش فعلی خود در کنار تیم های مشتری برای استراتژی، معمار و توسعه راه حل های نوآورانه و مقیاس پذیر کار می کند.

نقطه_img

جدیدترین اطلاعات

نقطه_img

چت با ما

سلام! چگونه می توانم به شما کمک کنم؟