زبان بومی افراد بخشی از ویژگی هایی است که او را منحصر به فرد می کند. اغلب راه های بی شماری مختلف برای بیان یک ایده خاص وجود دارد. هنگامی که یک شرکت با مشتریان خود ارتباط برقرار می کند، بسیار مهم است که پیام به گونه ای ارائه شود که اطلاعاتی را که آنها سعی در انتقال آن دارند به بهترین شکل نشان دهد. وقتی صحبت از ترجمه حرفهای زبان به میان میآید، اهمیت بیشتری پیدا میکند. مشتریان سیستم ها و خدمات ترجمه انتظار خروجی های دقیق و بسیار سفارشی دارند. برای دستیابی به این هدف، آنها اغلب از خروجی های ترجمه قبلی - به نام حافظه ترجمه (TM) - استفاده می کنند و آنها را با متن ورودی جدید مقایسه می کنند. در ترجمه به کمک کامپیوتر، این تکنیک به نام تطبیق فازی. عملکرد اصلی تطبیق فازی کمک به مترجم با سرعت بخشیدن به فرآیند ترجمه است. هنگامی که نمی توان یک تطابق دقیق در پایگاه داده TM برای متن در حال ترجمه پیدا کرد، سیستم های مدیریت ترجمه (TMS) اغلب این گزینه را دارند که مطابقت کمتر از حد دقیق را جستجو کنند. مطابقت های احتمالی به عنوان ورودی اضافی برای ترجمه نهایی به مترجم ارائه می شود. مترجمانی که گردش کار خود را با قابلیت های ترجمه ماشینی مانند ترجمه آمازون اغلب انتظار دارند از داده های تطبیق فازی به عنوان بخشی از راه حل ترجمه خودکار استفاده شود.
در این پست، نحوه سفارشی سازی خروجی آمازون ترنسلیت با توجه به امتیازات کیفیت تطابق فازی حافظه ترجمه را یاد می گیرید.
مطابقت با کیفیت ترجمه
فرمت فایل تبادل محلی سازی XML (XLIFF) استاندارد اغلب به عنوان فرمت تبادل داده بین TMS ها و مترجم آمازون استفاده می شود. فایلهای XLIFF تولید شده توسط TMS شامل دادههای متن منبع و مقصد به همراه امتیازهای کیفیت مطابق بر اساس TM موجود است. این نمرات - که معمولاً به صورت درصد بیان می شوند - نشان می دهد که حافظه ترجمه چقدر به متن در حال ترجمه نزدیک است.
برخی از مشتریان با الزامات بسیار سخت تنها زمانی می خواهند که از ترجمه ماشینی استفاده شود که نمرات کیفیت مطابقت کمتر از یک آستانه مشخص باشد. فراتر از این آستانه، آنها انتظار دارند که حافظه ترجمه خودشان اولویت داشته باشد. مترجمان اغلب باید این تنظیمات را به صورت دستی در TMS خود یا با تغییر داده های متنی اعمال کنند. این جریان در نمودار زیر نشان داده شده است. سیستم ترجمه ماشینی داده های ترجمه را پردازش می کند - متن و نمرات تطابق فازی - که سپس توسط مترجمان بر اساس آستانه کیفیت مورد نظر آنها بررسی و به صورت دستی ویرایش می شود. اعمال آستانه ها به عنوان بخشی از مرحله ترجمه ماشینی به شما امکان می دهد این مراحل دستی را حذف کنید، که کارایی را بهبود می بخشد و هزینه را بهینه می کند.
راه حل ارائه شده در این پست به شما امکان می دهد قوانینی را بر اساس آستانه امتیاز کیفیت مطابقت اعمال کنید تا تعیین کنید آیا متن ورودی داده شده باید توسط آمازون ترجمه ماشینی ترجمه شود یا خیر. هنگامی که به صورت ماشینی ترجمه نمی شود، متن به دست آمده به صلاحدید مترجمان واگذار می شود که خروجی نهایی را بررسی می کنند.
معماری راه حل
معماری راه حل نشان داده شده در شکل 2 از خدمات زیر استفاده می کند:
- سرویس ذخیره سازی ساده آمازون – سطل های آمازون S3 حاوی محتوای زیر هستند:
- فایل های پیکربندی آستانه تطابق فازی
- متن منبع برای ترجمه
- مکان های داده های ورودی و خروجی ترجمه آمازون
- مدیر سیستم های AWS - ما استفاده می کنیم فروشگاه پارامتر پارامترها برای ذخیره مقادیر پیکربندی آستانه کیفیت مطابقت
- AWS لامبدا - ما از دو تابع Lambda استفاده می کنیم:
- یک تابع فایل های پیکربندی آستانه تطابق کیفیت را از قبل پردازش می کند و داده ها را در Parameter Store نگهداری می کند.
- یک تابع به طور خودکار کارهای ترجمه ناهمزمان را ایجاد می کند
- سرویس صف ساده آمازون - صف آمازون SQS جریان ترجمه را در نتیجه ورود فایل های جدید به سطل منبع ایجاد می کند.
ابتدا با ویرایش یک فایل پیکربندی و آپلود آن در سطل S3 تنظیمات آستانه تطابق فازی، آستانه های کیفیت را برای کارهای ترجمه خود تنظیم می کنید. در زیر نمونه ای از پیکربندی در قالب CSV آمده است. ما CSV را برای سادگی انتخاب کردیم، اگرچه می توانید از هر قالبی استفاده کنید. هر خط یک آستانه را نشان می دهد که باید برای یک کار ترجمه خاص یا به عنوان یک مقدار پیش فرض برای هر کار اعمال شود.
مشخصات فایل کانفیگ به شرح زیر است:
- ستون 1 باید با نام فایل XLIFF پر شود - بدون پسوند - که به عنوان داده ورودی به کار ترجمه آمازون ارائه شده است.
- ستون 2 باید با آستانه درصد مطابقت کیفیت پر شود. برای هر نمره ای کمتر از این مقدار، از ترجمه ماشینی استفاده می شود.
- برای همه فایلهای XLIFF که نام آنها با هیچ نام فهرستشده در فایل پیکربندی مطابقت ندارد، از آستانه پیشفرض استفاده میشود - خط با کلمه کلیدی
default
در ستون 1 تنظیم شده است.
هنگامی که یک فایل جدید آپلود می شود، آمازون S3 تابع Lambda را فعال می کند که مسئول پردازش پارامترها است. این تابع پارامترهای آستانه را برای استفاده در آینده در Parameter Store می خواند و ذخیره می کند. استفاده از Parameter Store از انجام درخواست های اضافی Amazon S3 GET هر بار که کار ترجمه جدیدی شروع می شود، جلوگیری می کند. فایل پیکربندی نمونه تگ های پارامتر نشان داده شده در تصویر زیر را تولید می کند.
تابع Lambda مقداردهی اولیه کار از این پارامترها برای پیش پردازش داده ها قبل از فراخوانی ترجمه آمازون استفاده می کند. ما از یک فایل ورودی XLIFF ترجمه انگلیسی به اسپانیایی استفاده می کنیم، همانطور که در کد زیر نشان داده شده است. این شامل متن اولیه ای است که باید ترجمه شود، به آنچه که به آن اشاره می شود تقسیم می شود بخش ها، در تگ های منبع نشان داده شده است.
متن منبع از قبل با حافظه ترجمه تطبیق داده شده است. دادهها شامل جایگزینهای بالقوه ترجمه هستند که به صورت نمایش داده میشوند <alt-trans>
برچسب ها - در کنار یک ویژگی کیفیت مطابقت، که به صورت درصد بیان می شود. قانون تجارت به شرح زیر است:
- بخشهای دریافتشده با ترجمههای جایگزین و کیفیت مطابقت زیر آستانه دست نخورده یا خالی هستند. این به آمازون ترنسلیت سیگنال می دهد که باید ترجمه شوند.
- بخشهای دریافت شده با ترجمههای جایگزین با کیفیت تطابق بالاتر از آستانه، با متن هدف پیشنهادی از قبل پر شدهاند. مترجم آمازون از این بخش ها صرف نظر می کند.
بیایید فرض کنیم آستانه تطابق کیفیت پیکربندی شده برای این کار 80٪ است. بخش اول با کیفیت تطابق 99 درصد به صورت ماشینی ترجمه نمی شود، در حالی که بخش دوم ترجمه می شود، زیرا کیفیت مطابقت آن زیر آستانه تعریف شده است. در این پیکربندی، آمازون مترجم خروجی زیر را تولید می کند:
در بخش دوم، مترجم آمازون متن مورد نظر پیشنهادی اولیه را بازنویسی می کند (Selección
) با ترجمه با کیفیت بالاتر: Visita de selección
.
یکی از گسترشهای ممکن برای این مورد استفاده میتواند استفاده مجدد از خروجی ترجمه شده و ایجاد حافظه ترجمه خودمان باشد. ترجمه آمازون از سفارشی سازی ترجمه ماشینی با استفاده از حافظه ترجمه پشتیبانی می کند داده های موازی ویژگی. بخشهای متنی که قبلاً با ماشین ترجمه شدهاند، به دلیل امتیاز اولیه با کیفیت پایین، میتوانند دوباره در پروژههای ترجمه جدید استفاده شوند.
در بخشهای بعدی، شما را از طریق فرآیند استقرار و آزمایش این راهحل راهنمایی میکنیم. شما استفاده میکنید AWS CloudFormation اسکریپت ها و نمونه های داده برای راه اندازی یک کار ترجمه ناهمزمان شخصی سازی شده با آستانه تطبیق کیفیت قابل تنظیم.
پیش نیازها
برای این راهنما، باید یک حساب AWS. اگر هنوز حساب کاربری ندارید، می توانید یکی را ایجاد و فعال کنید.
پشته AWS CloudFormation را راه اندازی کنید
- را انتخاب کنید Stack را راه اندازی کنید:
- برای نام پشته، یک نام وارد کنید.
- برای ConfigBucketName، سطل S3 حاوی فایل های پیکربندی آستانه را وارد کنید.
- برای ParameterStoreRoot، مسیر ریشه پارامترهای ایجاد شده توسط پارامترهای پردازش تابع Lambda را وارد کنید.
- برای QueueName، صف SQS را که برای ارسال اعلان های فایل جدید از سطل منبع به تابع Lambda مقداردهی اولیه کار ایجاد می کنید، وارد کنید. این تابعی است که فایل پیکربندی را می خواند.
- برای SourceBucketNameسطل S3 حاوی فایل های XLIFF برای ترجمه را وارد کنید. اگر ترجیح می دهید از یک سطل از قبل موجود استفاده کنید، باید مقدار پارامتر CreateSourceBucket را به No تغییر دهید.
- برای WorkingBucketName، سطل S3 را وارد کنید که Amazon Translate برای داده های ورودی و خروجی استفاده می کند.
- را انتخاب کنید بعدی.
- به صورت اختیاری در پشته گزینه صفحه، نام ها و مقادیر کلیدی را برای برچسب هایی که ممکن است بخواهید به منابعی که قرار است ایجاد شوند اختصاص دهید اضافه کنید.
- را انتخاب کنید بعدی.
- بر مرور صفحه، را انتخاب کنید من تصدیق می کنم که این الگو ممکن است باعث شود AWS CloudFormation منابع IAM را ایجاد کند.
- تنظیمات دیگر را مرور کنید، سپس انتخاب کنید پشته ایجاد کنید.
AWS CloudFormation چندین دقیقه طول می کشد تا منابع را از طرف شما ایجاد کند. شما می توانید پیشرفت در را تماشا کنید رویدادها تب در کنسول AWS CloudFormation. وقتی پشته ایجاد شد، می توانید a را ببینید CREATE_COMPLETE
پیام در وضعیت ستون بر روی بررسی اجمالی تب.
محلول را تست کنید
بیایید یک مثال ساده را مرور کنیم.
- زیر را دانلود کنید داده های نمونه.
- محتوا را از حالت فشرده خارج کنید.
باید دو فایل وجود داشته باشد: یک فایل xlf. با فرمت XLIFF و یک فایل پیکربندی آستانه با پسوند cfg. در زیر گزیده ای از فایل XLIFF است.
- در کنسول آمازون S3، فایل پیکربندی آستانه کیفیت را در سطل پیکربندی که قبلاً مشخص کردهاید آپلود کنید.
مقدار تعیین شده برای test_En_to_Fr
75 درصد است. شما باید بتوانید پارامترهای موجود در کنسول Systems Manager را در بخش Parameter Store مشاهده کنید.
- هنوز در کنسول آمازون S3، فایل xlf. را در سطل S3 که به عنوان منبع پیکربندی کردهاید آپلود کنید. مطمئن شوید که فایل زیر پوشه ای به نام قرار دارد
translate
(مثلا،<my_bucket>/translate/test_En_to_Fr.xlf
).
این جریان ترجمه را شروع می کند.
- کنسول ترجمه آمازون را باز کنید.
یک کار جدید باید با وضعیت در حال انجام ظاهر شود.
- پس از اتمام کار، روی پیوند کار کلیک کرده و خروجی را بررسی کنید. همه بخش ها باید ترجمه می شدند.
همه بخش ها باید ترجمه می شدند. در فایل XLIFF ترجمه شده، به دنبال بخش هایی با ویژگی های اضافی نامگذاری شده باشید lscustom:match-quality
، همانطور که در تصویر زیر نشان داده شده است. این ویژگیهای سفارشی بخشهایی را شناسایی میکنند که ترجمه پیشنهادی بر اساس امتیاز حفظ شده است.
اینها با توجه به آستانه کیفیت از حافظه ترجمه مشتق شده اند. تمام بخشهای دیگر به صورت ماشینی ترجمه شدند.
شما اکنون یک دستیار خودکار ترجمه ناهمزمان را مستقر کرده و آزمایش کردهاید که آستانههای کیفیت مطابقت حافظه ترجمه قابل تنظیم را اعمال میکند. کارت عالی بود!
پاک کردن
اگر راه حل را در حساب خود مستقر کرده اید، فراموش نکنید که پشته CloudFormation را حذف کنید تا از هزینه های غیرمنتظره جلوگیری کنید. باید سطل های S3 را از قبل به صورت دستی خالی کنید.
نتیجه
در این پست، یاد گرفتید که چگونه کارهای ترجمه آمازون ترجمه خود را بر اساس معیارهای کیفیت تطبیق فازی استاندارد XLIFF سفارشی کنید. با استفاده از این راه حل، می توانید کار دستی مربوط به بررسی متن ترجمه شده توسط ماشین را تا حد زیادی کاهش دهید و در عین حال استفاده خود را از مترجم آمازون نیز بهینه کنید. همچنین میتوانید راهحل را با قابلیتهای اتوماسیون جذب داده و قابلیتهای هماهنگسازی گردش کار، همانطور که در کار ترجمه را با دستیار سیستم ترجمه کاملاً خودکار افزایش دهید.
درباره نویسنده
نارسیس زکپا یک معمار Solutions مستقر در بوستون است. او با ارائه دستورالعملهای معماری، طراحی خلاقانه و راهحلهای مقیاسپذیر، به مشتریان شمال شرقی ایالات متحده کمک میکند تا پذیرش AWS Cloud را تسریع بخشند. وقتی نارسیس در حال ساخت و ساز نیست، از گذراندن وقت با خانواده، مسافرت، آشپزی و بازی بسکتبال لذت می برد.
دیمیتری رستینو یک معمار راه حل در AWS، مستقر در بروکلین، نیویورک است. او عمدتاً با شرکت های خدمات بهداشتی و مالی در شمال شرق کار می کند و به طراحی راه حل های خلاقانه و خلاقانه برای ارائه بهترین خدمات به مشتریان کمک می کند. او که از یک پیشینه توسعه نرم افزار آمده است، از امکانات جدیدی که فناوری بدون سرور می تواند به جهان ارائه دهد هیجان زده است. خارج از محل کار، او عاشق پیاده روی و کشف صحنه غذای نیویورک است.