هوش داده افلاطون
جستجوی عمودی و هوش مصنوعی

معرفی اپلیکیشن تصویر به گفتار Generative AI با استفاده از Amazon SageMaker و Hugging Face | خدمات وب آمازون

تاریخ:

از دست دادن بینایی به اشکال مختلف ظاهر می شود. برای برخی، از بدو تولد است، برای برخی دیگر، نزولی آهسته در طول زمان است که با تاریخ انقضای زیادی همراه است: روزی که نمی‌توانید عکس‌ها را ببینید، چهره‌های خود یا عزیزان خود را بشناسید یا حتی نامه‌های خود را بخوانید. در وبلاگ قبلی ما با استفاده از آمازون تکست و آمازون پولی، اسناد نابینایی را فعال کنید، ما برنامه Text to Speech خود را به نام به شما نشان دادیم "برای من بخوان". دسترسی راه طولانی را طی کرده است، اما در مورد تصاویر چطور؟

در کنفرانس AWS re:Invent 2022 در لاس وگاس، نشان دادیم "برای من توصیف کن" در نمایشگاه سازندگان AWS، وب‌سایتی که به افراد کم بینا کمک می‌کند تا تصاویر را از طریق شرح تصویر، تشخیص چهره و تبدیل متن به گفتار درک کنند، فناوری که ما از آن به عنوان «تصویر به گفتار» یاد می‌کنیم. از طریق استفاده از چندین سرویس هوش مصنوعی/ML، «Describe For Me» عنوانی از یک تصویر ورودی ایجاد می‌کند و آن را با صدایی واضح و با صدای طبیعی به زبان‌ها و گویش‌های مختلف می‌خواند.

در این پست وبلاگ ما شما را با معماری راه حل پشت "توصیف برای من" و ملاحظات طراحی راه حل ما آشنا می کنیم.

بررسی اجمالی راه حل

معماری مرجع زیر گردش کار کاربر را نشان می‌دهد که با گوشی عکس می‌گیرد و یک MP3 از عنوان تصویر را پخش می‌کند.

معماری مرجع برای راه حل توصیف شده.

گردش کار شامل مراحل زیر است،

  1. AWS تقویت کنید برنامه وب DescribeForMe متشکل از HTML، جاوا اسکریپت و CSS را در دستگاه های تلفن همراه کاربران نهایی توزیع می کند.
  2. La Cognito آمازون استخر هویت امکان دسترسی موقت به آمازون S3 سطل
  3. کاربر یک فایل تصویری را در آن آپلود می کند آمازون S3 سطل با استفاده از AWS SDK از طریق وب اپلیکیشن
  4. برنامه وب DescribeForMe خدمات هوش مصنوعی را با ارسال آن فراخوانی می کند آمازون S3 شی کلید در محموله به دروازه API آمازون
  5. دروازه API آمازون مصداق یک توابع مرحله AWS جریان کار. ماشین دولتی سرویس‌های هوش مصنوعی/یادگیری ماشین (AI/ML) را هماهنگ می‌کند شناسایی آمازون, آمازون SageMakerمتن آمازون, ترجمه آمازون, و آمازون پولی  با استفاده از AWS لامبدا توابع.
  6. La توابع مرحله AWS گردش کار یک فایل صوتی را به عنوان خروجی ایجاد می کند و آن را در آن ذخیره می کند آمازون S3 در فرمت MP3
  7. یک URL از پیش امضا شده با محل فایل صوتی ذخیره شده در آن آمازون S3 از طریق به مرورگر کاربر ارسال می شود دروازه API آمازون. دستگاه تلفن همراه کاربر فایل صوتی را با استفاده از URL از پیش امضا شده پخش می کند.

راه حل

در این بخش، ما بر ملاحظات طراحی برای اینکه چرا انتخاب کردیم تمرکز می کنیم

  1. پردازش موازی در یک توابع مرحله AWS گردش کار
  2. مدل OFA (یکی برای همه) یکپارچه از پیش آموزش داده شده توالی به ترتیب از در آغوش کشیدن صورت به آمازون SageMaker برای عنوان تصویر
  3. شناسایی آمازون برای تشخیص چهره

برای مروری دقیق تر در مورد اینکه چرا معماری بدون سرور، گردش کار همزمان، گردش کار توابع مرحله سریع، معماری هدلس و مزایای به دست آمده را انتخاب کردیم، لطفا پست وبلاگ قبلی ما را بخوانید. با استفاده از آمازون تکست و آمازون پولی، اسناد نابینایی را فعال کنید

پردازش موازی

استفاده از پردازش موازی در گردش کار توابع مرحله، زمان محاسبه را تا 48% کاهش داد. هنگامی که کاربر تصویر را در سطل S3 آپلود می کند، دروازه API آمازون یک گردش کار AWS Step Functions را ایجاد می کند. سپس سه تابع لامبدا زیر تصویر را در گردش کار توابع Step به صورت موازی پردازش می کنند.

  • اولین تابع لامبدا فراخوانی شد describe_image تصویر را با استفاده از مدل OFA_IMAGE_CAPTION میزبانی شده در یک نقطه پایانی بلادرنگ SageMaker برای ارائه شرح تصویر.
  • دومین تابع لامبدا فراخوانی شد describe_faces ابتدا بررسی می کند که آیا چهره هایی از آمازون Rekognition وجود دارد یا خیر Detect Faces APIو اگر درست باشد، Compare Faces API را فراخوانی می کند. دلیل این امر این است که در صورتی که هیچ چهره ای در تصویر یافت نشود، "مقایسه چهره ها" با خطا مواجه می شود. همچنین، اولین فراخوانی Detect Faces سریعتر از اجرای Compare Faces و رسیدگی به خطاها است، بنابراین برای تصاویر بدون چهره در آنها، زمان پردازش سریعتر خواهد بود.
  • سومین تابع لامبدا فراخوانی شد extract_text تبدیل متن به گفتار را با استفاده از Amazon Textract و Amazon Comprehend انجام می دهد.

اجرای توابع لامبدا به صورت متوالی مناسب است، اما راه سریعتر و کارآمدتر برای انجام این کار از طریق پردازش موازی است. جدول زیر زمان محاسبه ذخیره شده برای سه تصویر نمونه را نشان می دهد.

تصویر مردم زمان ترتیبی زمان موازی صرفه جویی در زمان (%) عنوان
0 1869ms 1702ms 8% یک گربه ی تابی در یک تخت سفید کرکی جمع شده بود.
1 4277ms 2197ms ٪۱۰۰ زنی با بلوز سبز و ژاکت کش باف پشمی مشکی به دوربین لبخند می زند. من یک نفر را می شناسم: کانبو.
4 6603ms 3904ms ٪۱۰۰ افرادی که در مقابل کره های آمازون ایستاده اند. من 3 نفر را می شناسم: کانبو، جک و ایمن.

عنوان تصویر

Hugging Face یک جامعه منبع باز و پلتفرم علم داده است که به کاربران امکان می دهد مدل های یادگیری ماشینی را به اشتراک بگذارند، بسازند، آموزش دهند و به کار گیرند. پس از بررسی مدل‌های موجود در مرکز مدل Hugging Face، استفاده از آن را انتخاب کردیم مدل OFA زیرا همانطور که توسط نویسندگان توضیح داده شده است، "یک چارچوب وظیفه شناس و مدالیته است که از جامعیت وظیفه پشتیبانی می کند".

OFA گامی به سوی "یکی برای همه" است، زیرا یک مدل از پیش آموزش دیده چندوجهی یکپارچه است که می تواند به طور موثر به تعدادی از وظایف پایین دستی منتقل شود. در حالی که مدل OFA از بسیاری از وظایف از جمله زمینه سازی بصری، درک زبان و تولید تصویر پشتیبانی می کند، ما از آن استفاده کردیم مدل OFA برای شرح تصاویر در پروژه Describe For Me برای اجرای تصویر به متن بخش برنامه. مخزن رسمی OFA (ICML 2022) را بررسی کنید. مقاله برای یادگیری در مورد معماری‌ها، وظایف و روش‌های یکپارچه OFA از طریق یک چارچوب آموزشی ساده توالی به ترتیب.

برای ادغام OFA در برنامه‌مان، مخزن را از Hugging Face شبیه‌سازی کردیم و مدل را محفظه‌ای کردیم تا آن را در یک نقطه پایانی SageMaker مستقر کنیم. را نوت بوک در این مخزن یک راهنمای عالی برای استقرار مدل بزرگ OFA در یک نوت بوک Jupyter در SageMaker است. پس از کانتینری کردن اسکریپت استنتاج شما، مدل آماده است تا در پشت نقطه پایانی SageMaker همانطور که در SageMaker توضیح داده شده است مستقر شود. مستندات. هنگامی که مدل مستقر شد، یک نقطه پایانی HTTPS ایجاد کنید که می تواند با تابع لامبدا "describe_image" که تصویر را برای ایجاد عنوان تصویر تجزیه و تحلیل می کند، ادغام شود. ما مدل کوچک OFA را به کار بردیم زیرا مدل کوچک‌تری است و می‌تواند در مدت زمان کوتاه‌تری در حالی که عملکرد مشابهی را به دست می‌آورد، مستقر شود.

نمونه‌هایی از محتوای تصویر به گفتار تولید شده توسط «Describe For Me» در زیر نشان داده شده است:

شفق قطبی یا شفق شمالی، آسمان شب را در بالای شبح یک خانه پر می کند.

شفق قطبی یا شفق شمالی، آسمان شب را در بالای شبح یک خانه پر می کند.

سگی روی یک پتوی قرمز روی زمینی از چوب سخت، کنار یک چمدان باز پر از اسباب بازی می خوابد.

سگی روی یک پتوی قرمز روی زمینی از چوب سخت، کنار یک چمدان باز پر از اسباب بازی می خوابد.

یک گربه ی تابی در یک تخت سفید کرکی جمع شده بود.

یک گربه ی تابی در یک تخت سفید کرکی جمع شده بود.

تشخیص چهره

تصویر شناسایی آمازون ارائه می دهد ردیابی عملیاتی که به دنبال ویژگی های کلیدی صورت مانند چشم، بینی و دهان برای تشخیص چهره در یک تصویر ورودی است. در راه حل خود ما از این قابلیت برای شناسایی افراد در تصویر ورودی استفاده می کنیم. اگر فردی شناسایی شد، از آن استفاده می کنیم مقایسه چهره ها عملیات مقایسه چهره در تصویر ورودی با چهره هایی که "Describe For Me" با آنها آموزش داده شده است و نام فرد را توصیف می کند. ما انتخاب کردیم که از Rekognition برای تشخیص چهره استفاده کنیم زیرا دقت بالایی دارد و ادغام آن با برنامه ما با قابلیت های خارج از جعبه چقدر ساده بود.

گروهی از مردم در حال عکس گرفتن در یک اتاق. من 4 نفر را می شناسم: جک، کانبو، الک و تراک. متنی نیز در تصویر یافت شد. نوشته شده است: AWS re: Invent

گروهی از مردم در حال عکس گرفتن در یک اتاق. من 4 نفر را می شناسم: جک، کانبو، الک و تراک. متنی نیز در تصویر یافت شد. نوشته شده است: AWS re: Invent

موارد استفاده بالقوه

تولید متن جایگزین برای تصاویر وب

تمام تصاویر موجود در یک وب‌سایت باید دارای متن جایگزین باشند تا خوانندگان صفحه بتوانند آن‌ها را برای افراد کم بینا صحبت کنند. همچنین برای بهینه سازی موتورهای جستجو (SEO) خوب است. ایجاد زیرنویس‌های جایگزین می‌تواند زمان‌بر باشد زیرا یک کپی‌رایتر وظیفه دارد آن‌ها را در یک سند طراحی ارائه کند. Describe For Me API می تواند به طور خودکار متن جایگزین برای تصاویر تولید کند. همچنین می تواند به عنوان یک افزونه مرورگر برای اضافه کردن خودکار عکس به تصاویری که متن جایگزین در هر وب سایتی ندارند، استفاده شود.

توضیحات صوتی برای ویدیو

توضیحات صوتی یک مسیر روایت برای محتوای ویدیویی فراهم می‌کند تا به افراد کم بینا کمک کند فیلم‌ها را دنبال کنند. همانطور که عنوان تصویر قوی تر و دقیق تر می شود، یک گردش کاری شامل ایجاد یک آهنگ صوتی بر اساس توضیحات برای بخش های کلیدی یک صحنه می تواند امکان پذیر باشد. آمازون Rekognition از قبل می تواند تغییرات صحنه، لوگوها و توالی اعتبار و تشخیص افراد مشهور را تشخیص دهد. نسخه بعدی توصیف به خودکارسازی این ویژگی کلیدی برای فیلم‌ها و ویدیوها اجازه می‌دهد.

نتیجه

در این پست، نحوه استفاده از سرویس‌های AWS، از جمله هوش مصنوعی و سرویس‌های بدون سرور، برای کمک به افراد کم بینا برای دیدن تصاویر مورد بحث قرار گرفت. می‌توانید درباره پروژه Describe For Me اطلاعات بیشتری کسب کنید و با مراجعه به آن از آن استفاده کنید describeforme.com. در مورد ویژگی های منحصر به فرد بیشتر بدانید آمازون SageMakerشناسایی آمازون و مشارکت AWS با Hugging Face.

سلب مسئولیت مدل ML شخص ثالث برای راهنمایی

این راهنما فقط برای مقاصد اطلاعاتی است. شما همچنان باید ارزیابی مستقل خود را انجام دهید و اقداماتی را انجام دهید تا اطمینان حاصل شود که از رویه‌ها و استانداردهای کنترل کیفیت خاص خود، و قوانین، قوانین، مقررات، مجوزها و شرایط استفاده محلی که در مورد شما، محتوای شما، و مدل یادگیری ماشین شخص ثالث که در این راهنما به آن اشاره شده است. AWS هیچ کنترل یا اختیاری بر مدل یادگیری ماشین شخص ثالث که در این راهنما به آن اشاره شده است، ندارد، و هیچ گونه تضمین یا تضمینی مبنی بر ایمن، عاری از ویروس، عملیاتی بودن، یا سازگاری مدل یادگیری ماشین شخص ثالث با محیط تولید شما ارائه نمی کند. و استانداردها AWS هیچ گونه اظهارنظر، ضمانت یا تضمینی مبنی بر اینکه هر گونه اطلاعات موجود در این راهنما به نتیجه یا نتیجه خاصی منجر شود، ارائه نمی کند.


درباره نویسنده

جک مارکتیجک مارکتی یک معمار ارشد راه حل در AWS است که بر کمک به مشتریان در مدرن سازی و پیاده سازی معماری های رویداد محور بدون سرور متمرکز شده است. جک از نظر قانونی نابینا است و با همسرش ارین و گربه مینو در شیکاگو زندگی می کند. او همچنین یک فیلمنامه نویس و کارگردان با تمرکز اصلی بر فیلم های کریسمس و ترسناک است. فیلم شناسی جک را در او ببینید صفحه IMDb.

الک اسواراداسالک اسواراداس یک معمار ارشد راه حل در AWS مستقر در شیکاگو، ایلینوی است. او مشتاق کمک به مشتریان در طراحی معماری های ابری با استفاده از خدمات AWS برای حل چالش های تجاری است. Alak مشتاق استفاده از SageMaker برای حل انواع موارد استفاده ML برای مشتریان AWS است. الک وقتی کار نمی کند از گذراندن وقت با دخترانش و کاوش در فضای باز با سگ هایش لذت می برد.

کاندیس بوهانونکاندیس بوهانون یک معمار ارشد راه حل مستقر در مینیاپولیس، MN است. در این نقش، Kandyce به عنوان مشاور فنی برای مشتریان AWS کار می کند زیرا آنها استراتژی های فناوری به ویژه مربوط به داده ها و DevOps را برای اجرای بهترین شیوه ها در AWS مدرن می کنند. علاوه بر این، Kandyce مشتاق راهنمایی نسل‌های آینده فن‌آوران و نمایش زنان در فناوری از طریق برنامه AWS She Builds Tech Skills است.

Trac DoTrac Do یک معمار راه حل در AWS است. Trac در نقش خود با مشتریان سازمانی کار می کند تا از مهاجرت های ابری و طرح های نوسازی برنامه های کاربردی آنها پشتیبانی کند. او مشتاق یادگیری چالش های مشتریان و حل آنها با راه حل های قوی و مقیاس پذیر با استفاده از خدمات AWS است. تراک در حال حاضر با همسر و 3 پسرش در شیکاگو زندگی می کند. او یکی از علاقه مندان بزرگ هوانوردی است و در حال تکمیل گواهینامه خلبانی خصوصی خود است.

نقطه_img

جدیدترین اطلاعات

نقطه_img

چت با ما

سلام! چگونه می توانم به شما کمک کنم؟