هوش داده افلاطون
جستجوی عمودی و هوش مصنوعی

نتایج ترجمه ماشینی خود را با استفاده از تطبیق فازی با ترجمه آمازون شخصی سازی کنید

تاریخ:

زبان بومی افراد بخشی از ویژگی هایی است که او را منحصر به فرد می کند. اغلب راه های بی شماری مختلف برای بیان یک ایده خاص وجود دارد. هنگامی که یک شرکت با مشتریان خود ارتباط برقرار می کند، بسیار مهم است که پیام به گونه ای ارائه شود که اطلاعاتی را که آنها سعی در انتقال آن دارند به بهترین شکل نشان دهد. وقتی صحبت از ترجمه حرفه‌ای زبان به میان می‌آید، اهمیت بیشتری پیدا می‌کند. مشتریان سیستم ها و خدمات ترجمه انتظار خروجی های دقیق و بسیار سفارشی دارند. برای دستیابی به این هدف، آنها اغلب از خروجی های ترجمه قبلی - به نام حافظه ترجمه (TM) - استفاده می کنند و آنها را با متن ورودی جدید مقایسه می کنند. در ترجمه به کمک کامپیوتر، این تکنیک به نام تطبیق فازی. عملکرد اصلی تطبیق فازی کمک به مترجم با سرعت بخشیدن به فرآیند ترجمه است. هنگامی که نمی توان یک تطابق دقیق در پایگاه داده TM برای متن در حال ترجمه پیدا کرد، سیستم های مدیریت ترجمه (TMS) اغلب این گزینه را دارند که مطابقت کمتر از حد دقیق را جستجو کنند. مطابقت های احتمالی به عنوان ورودی اضافی برای ترجمه نهایی به مترجم ارائه می شود. مترجمانی که گردش کار خود را با قابلیت های ترجمه ماشینی مانند ترجمه آمازون اغلب انتظار دارند از داده های تطبیق فازی به عنوان بخشی از راه حل ترجمه خودکار استفاده شود.

در این پست، نحوه سفارشی سازی خروجی آمازون ترنسلیت با توجه به امتیازات کیفیت تطابق فازی حافظه ترجمه را یاد می گیرید.

مطابقت با کیفیت ترجمه

فرمت فایل تبادل محلی سازی XML (XLIFF) استاندارد اغلب به عنوان فرمت تبادل داده بین TMS ها و مترجم آمازون استفاده می شود. فایل‌های XLIFF تولید شده توسط TMS شامل داده‌های متن منبع و مقصد به همراه امتیازهای کیفیت مطابق بر اساس TM موجود است. این نمرات - که معمولاً به صورت درصد بیان می شوند - نشان می دهد که حافظه ترجمه چقدر به متن در حال ترجمه نزدیک است.

برخی از مشتریان با الزامات بسیار سخت تنها زمانی می خواهند که از ترجمه ماشینی استفاده شود که نمرات کیفیت مطابقت کمتر از یک آستانه مشخص باشد. فراتر از این آستانه، آنها انتظار دارند که حافظه ترجمه خودشان اولویت داشته باشد. مترجمان اغلب باید این تنظیمات را به صورت دستی در TMS خود یا با تغییر داده های متنی اعمال کنند. این جریان در نمودار زیر نشان داده شده است. سیستم ترجمه ماشینی داده های ترجمه را پردازش می کند - متن و نمرات تطابق فازی - که سپس توسط مترجمان بر اساس آستانه کیفیت مورد نظر آنها بررسی و به صورت دستی ویرایش می شود. اعمال آستانه ها به عنوان بخشی از مرحله ترجمه ماشینی به شما امکان می دهد این مراحل دستی را حذف کنید، که کارایی را بهبود می بخشد و هزینه را بهینه می کند.

شکل 1: جریان بررسی ترجمه ماشینی

راه حل ارائه شده در این پست به شما امکان می دهد قوانینی را بر اساس آستانه امتیاز کیفیت مطابقت اعمال کنید تا تعیین کنید آیا متن ورودی داده شده باید توسط آمازون ترجمه ماشینی ترجمه شود یا خیر. هنگامی که به صورت ماشینی ترجمه نمی شود، متن به دست آمده به صلاحدید مترجمان واگذار می شود که خروجی نهایی را بررسی می کنند.

معماری راه حل

معماری راه حل نشان داده شده در شکل 2 از خدمات زیر استفاده می کند:

  • سرویس ذخیره سازی ساده آمازون – سطل های آمازون S3 حاوی محتوای زیر هستند:
    • فایل های پیکربندی آستانه تطابق فازی
    • متن منبع برای ترجمه
    • مکان های داده های ورودی و خروجی ترجمه آمازون
  • مدیر سیستم های AWS - ما استفاده می کنیم فروشگاه پارامتر پارامترها برای ذخیره مقادیر پیکربندی آستانه کیفیت مطابقت
  • AWS لامبدا - ما از دو تابع Lambda استفاده می کنیم:
    • یک تابع فایل های پیکربندی آستانه تطابق کیفیت را از قبل پردازش می کند و داده ها را در Parameter Store نگهداری می کند.
    • یک تابع به طور خودکار کارهای ترجمه ناهمزمان را ایجاد می کند
  • سرویس صف ساده آمازون - صف آمازون SQS جریان ترجمه را در نتیجه ورود فایل های جدید به سطل منبع ایجاد می کند.
نمودار معماری راه حل

شکل 2: معماری راه حل

ابتدا با ویرایش یک فایل پیکربندی و آپلود آن در سطل S3 تنظیمات آستانه تطابق فازی، آستانه های کیفیت را برای کارهای ترجمه خود تنظیم می کنید. در زیر نمونه ای از پیکربندی در قالب CSV آمده است. ما CSV را برای سادگی انتخاب کردیم، اگرچه می توانید از هر قالبی استفاده کنید. هر خط یک آستانه را نشان می دهد که باید برای یک کار ترجمه خاص یا به عنوان یک مقدار پیش فرض برای هر کار اعمال شود.

default, 75
SourceMT-Test, 80

مشخصات فایل کانفیگ به شرح زیر است:

  • ستون 1 باید با نام فایل XLIFF پر شود - بدون پسوند - که به عنوان داده ورودی به کار ترجمه آمازون ارائه شده است.
  • ستون 2 باید با آستانه درصد مطابقت کیفیت پر شود. برای هر نمره ای کمتر از این مقدار، از ترجمه ماشینی استفاده می شود.
  • برای همه فایل‌های XLIFF که نام آنها با هیچ نام فهرست‌شده در فایل پیکربندی مطابقت ندارد، از آستانه پیش‌فرض استفاده می‌شود - خط با کلمه کلیدی default در ستون 1 تنظیم شده است.
پارامتر تولید خودکار در فروشگاه پارامترهای Systems Manager

شکل 3: پارامتر تولید خودکار در فروشگاه پارامترهای Systems Manager

هنگامی که یک فایل جدید آپلود می شود، آمازون S3 تابع Lambda را فعال می کند که مسئول پردازش پارامترها است. این تابع پارامترهای آستانه را برای استفاده در آینده در Parameter Store می خواند و ذخیره می کند. استفاده از Parameter Store از انجام درخواست های اضافی Amazon S3 GET هر بار که کار ترجمه جدیدی شروع می شود، جلوگیری می کند. فایل پیکربندی نمونه تگ های پارامتر نشان داده شده در تصویر زیر را تولید می کند.

تابع Lambda مقداردهی اولیه کار از این پارامترها برای پیش پردازش داده ها قبل از فراخوانی ترجمه آمازون استفاده می کند. ما از یک فایل ورودی XLIFF ترجمه انگلیسی به اسپانیایی استفاده می کنیم، همانطور که در کد زیر نشان داده شده است. این شامل متن اولیه ای است که باید ترجمه شود، به آنچه که به آن اشاره می شود تقسیم می شود بخش ها، در تگ های منبع نشان داده شده است.

<group id="g8">
    <trans-unit id="t8" translate="yes">
        <source>Consent Form</source>
        <target state-qualifier="fuzzy-match"/>
        <alt-trans extype="fuzzy-match" match-quality="99%" >
            <source>CONSENT FORM</source>
            <target>FORMULARIO DE CONSENTIMIENTO</target>
        </alt-trans>
    </trans-unit>
</group>

<group id="g67">
    <trans-unit id="t110" translate="yes">
        <source>Screening Visit:</source>
        <target state-qualifier="fuzzy-match"/>
        <alt-trans extype="fuzzy-match" match-quality="50%">
            <source>Screening Visit</source>
            <target>Selección</target>
        </alt-trans>
    </trans-unit>
</group>

متن منبع از قبل با حافظه ترجمه تطبیق داده شده است. داده‌ها شامل جایگزین‌های بالقوه ترجمه هستند که به صورت نمایش داده می‌شوند <alt-trans> برچسب ها - در کنار یک ویژگی کیفیت مطابقت، که به صورت درصد بیان می شود. قانون تجارت به شرح زیر است:

  • بخش‌های دریافت‌شده با ترجمه‌های جایگزین و کیفیت مطابقت زیر آستانه دست نخورده یا خالی هستند. این به آمازون ترنسلیت سیگنال می دهد که باید ترجمه شوند.
  • بخش‌های دریافت شده با ترجمه‌های جایگزین با کیفیت تطابق بالاتر از آستانه، با متن هدف پیشنهادی از قبل پر شده‌اند. مترجم آمازون از این بخش ها صرف نظر می کند.

بیایید فرض کنیم آستانه تطابق کیفیت پیکربندی شده برای این کار 80٪ است. بخش اول با کیفیت تطابق 99 درصد به صورت ماشینی ترجمه نمی شود، در حالی که بخش دوم ترجمه می شود، زیرا کیفیت مطابقت آن زیر آستانه تعریف شده است. در این پیکربندی، آمازون مترجم خروجی زیر را تولید می کند:

<group id="g8">
	<trans-unit id="t8" translate="yes">
		<source>Consent Form</source>
		<target state-qualifier="fuzzy-match" translate:match-quality="99%">FORMULARIO DE CONSENTIMIENTO</target>
		<alt-trans extype="fuzzy-match" match-quality="99%" >
			<source>CONSENT FORM</source>
			<target>FORMULARIO DE CONSENTIMIENTO</target>
		</alt-trans>
	</trans-unit>
</group>

<group id="g67">
	<trans-unit id="t110" translate="yes">
		<source>Screening Visit:</source>
		<target state-qualifier="fuzzy-match">Visita de selección</target>
		<alt-trans extype="fuzzy-match" match-quality="50%">
			<source>Screening Visit</source>
			<target>Selección</target>
		</alt-trans>
	</trans-unit>
</group>

در بخش دوم، مترجم آمازون متن مورد نظر پیشنهادی اولیه را بازنویسی می کند (Selección) با ترجمه با کیفیت بالاتر: Visita de selección.

یکی از گسترش‌های ممکن برای این مورد استفاده می‌تواند استفاده مجدد از خروجی ترجمه شده و ایجاد حافظه ترجمه خودمان باشد. ترجمه آمازون از سفارشی سازی ترجمه ماشینی با استفاده از حافظه ترجمه پشتیبانی می کند داده های موازی ویژگی. بخش‌های متنی که قبلاً با ماشین ترجمه شده‌اند، به دلیل امتیاز اولیه با کیفیت پایین، می‌توانند دوباره در پروژه‌های ترجمه جدید استفاده شوند.

در بخش‌های بعدی، شما را از طریق فرآیند استقرار و آزمایش این راه‌حل راهنمایی می‌کنیم. شما استفاده میکنید AWS CloudFormation اسکریپت ها و نمونه های داده برای راه اندازی یک کار ترجمه ناهمزمان شخصی سازی شده با آستانه تطبیق کیفیت قابل تنظیم.

پیش نیازها

برای این راهنما، باید یک حساب AWS. اگر هنوز حساب کاربری ندارید، می توانید یکی را ایجاد و فعال کنید.

پشته AWS CloudFormation را راه اندازی کنید

  1. را انتخاب کنید Stack را راه اندازی کنید:
  2. برای نام پشته، یک نام وارد کنید.
  3. برای ConfigBucketName، سطل S3 حاوی فایل های پیکربندی آستانه را وارد کنید.
  4. برای ParameterStoreRoot، مسیر ریشه پارامترهای ایجاد شده توسط پارامترهای پردازش تابع Lambda را وارد کنید.
  5. برای QueueName، صف SQS را که برای ارسال اعلان های فایل جدید از سطل منبع به تابع Lambda مقداردهی اولیه کار ایجاد می کنید، وارد کنید. این تابعی است که فایل پیکربندی را می خواند.
  6. برای SourceBucketNameسطل S3 حاوی فایل های XLIFF برای ترجمه را وارد کنید. اگر ترجیح می دهید از یک سطل از قبل موجود استفاده کنید، باید مقدار پارامتر CreateSourceBucket را به No تغییر دهید.
  7. برای WorkingBucketName، سطل S3 را وارد کنید که Amazon Translate برای داده های ورودی و خروجی استفاده می کند.
  8. را انتخاب کنید بعدی.

    شکل 4: جزئیات پشته CloudFormation

  9. به صورت اختیاری در پشته گزینه صفحه، نام ها و مقادیر کلیدی را برای برچسب هایی که ممکن است بخواهید به منابعی که قرار است ایجاد شوند اختصاص دهید اضافه کنید.
  10. را انتخاب کنید بعدی.
  11. بر مرور صفحه، را انتخاب کنید من تصدیق می کنم که این الگو ممکن است باعث شود AWS CloudFormation منابع IAM را ایجاد کند.
  12. تنظیمات دیگر را مرور کنید، سپس انتخاب کنید پشته ایجاد کنید.

AWS CloudFormation چندین دقیقه طول می کشد تا منابع را از طرف شما ایجاد کند. شما می توانید پیشرفت در را تماشا کنید رویدادها تب در کنسول AWS CloudFormation. وقتی پشته ایجاد شد، می توانید a را ببینید CREATE_COMPLETE پیام در وضعیت ستون بر روی بررسی اجمالی تب.

محلول را تست کنید

بیایید یک مثال ساده را مرور کنیم.

  1. زیر را دانلود کنید داده های نمونه.
  2. محتوا را از حالت فشرده خارج کنید.

باید دو فایل وجود داشته باشد: یک فایل xlf. با فرمت XLIFF و یک فایل پیکربندی آستانه با پسوند cfg. در زیر گزیده ای از فایل XLIFF است.

استخراج فایل نمونه انگلیسی به فرانسوی

شکل 5: استخراج فایل نمونه انگلیسی به فرانسوی

  1. در کنسول آمازون S3، فایل پیکربندی آستانه کیفیت را در سطل پیکربندی که قبلاً مشخص کرده‌اید آپلود کنید.

مقدار تعیین شده برای test_En_to_Fr 75 درصد است. شما باید بتوانید پارامترهای موجود در کنسول Systems Manager را در بخش Parameter Store مشاهده کنید.

  1. هنوز در کنسول آمازون S3، فایل xlf. را در سطل S3 که به عنوان منبع پیکربندی کرده‌اید آپلود کنید. مطمئن شوید که فایل زیر پوشه ای به نام قرار دارد translate (مثلا، <my_bucket>/translate/test_En_to_Fr.xlf).

این جریان ترجمه را شروع می کند.

  1. کنسول ترجمه آمازون را باز کنید.

یک کار جدید باید با وضعیت در حال انجام ظاهر شود.

پارامتر تولید خودکار در فروشگاه پارامترهای Systems Manager

شکل 6: کارهای ترجمه در حال پیشرفت در کنسول آمازون ترنسلیت

  1. پس از اتمام کار، روی پیوند کار کلیک کرده و خروجی را بررسی کنید. همه بخش ها باید ترجمه می شدند.

همه بخش ها باید ترجمه می شدند. در فایل XLIFF ترجمه شده، به دنبال بخش هایی با ویژگی های اضافی نامگذاری شده باشید lscustom:match-quality، همانطور که در تصویر زیر نشان داده شده است. این ویژگی‌های سفارشی بخش‌هایی را شناسایی می‌کنند که ترجمه پیشنهادی بر اساس امتیاز حفظ شده است.

ویژگی‌های سفارشی بخش‌هایی را که ترجمه پیشنهادی بر اساس امتیاز حفظ شده است، شناسایی می‌کند

شکل 7: ویژگی های سفارشی بخش هایی را که ترجمه پیشنهادی بر اساس امتیاز حفظ شده است، شناسایی می کند

اینها با توجه به آستانه کیفیت از حافظه ترجمه مشتق شده اند. تمام بخش‌های دیگر به صورت ماشینی ترجمه شدند.

شما اکنون یک دستیار خودکار ترجمه ناهمزمان را مستقر کرده و آزمایش کرده‌اید که آستانه‌های کیفیت مطابقت حافظه ترجمه قابل تنظیم را اعمال می‌کند. کارت عالی بود!

پاک کردن

اگر راه حل را در حساب خود مستقر کرده اید، فراموش نکنید که پشته CloudFormation را حذف کنید تا از هزینه های غیرمنتظره جلوگیری کنید. باید سطل های S3 را از قبل به صورت دستی خالی کنید.

نتیجه

در این پست، یاد گرفتید که چگونه کارهای ترجمه آمازون ترجمه خود را بر اساس معیارهای کیفیت تطبیق فازی استاندارد XLIFF سفارشی کنید. با استفاده از این راه حل، می توانید کار دستی مربوط به بررسی متن ترجمه شده توسط ماشین را تا حد زیادی کاهش دهید و در عین حال استفاده خود را از مترجم آمازون نیز بهینه کنید. همچنین می‌توانید راه‌حل را با قابلیت‌های اتوماسیون جذب داده و قابلیت‌های هماهنگ‌سازی گردش کار، همانطور که در کار ترجمه را با دستیار سیستم ترجمه کاملاً خودکار افزایش دهید.


درباره نویسنده

نارسیس زکپا یک معمار Solutions مستقر در بوستون است. او با ارائه دستورالعمل‌های معماری، طراحی خلاقانه و راه‌حل‌های مقیاس‌پذیر، به مشتریان شمال شرقی ایالات متحده کمک می‌کند تا پذیرش AWS Cloud را تسریع بخشند. وقتی نارسیس در حال ساخت و ساز نیست، از گذراندن وقت با خانواده، مسافرت، آشپزی و بازی بسکتبال لذت می برد.

دیمیتری رستینو یک معمار راه حل در AWS، مستقر در بروکلین، نیویورک است. او عمدتاً با شرکت های خدمات بهداشتی و مالی در شمال شرق کار می کند و به طراحی راه حل های خلاقانه و خلاقانه برای ارائه بهترین خدمات به مشتریان کمک می کند. او که از یک پیشینه توسعه نرم افزار آمده است، از امکانات جدیدی که فناوری بدون سرور می تواند به جهان ارائه دهد هیجان زده است. خارج از محل کار، او عاشق پیاده روی و کشف صحنه غذای نیویورک است.

نقطه_img

جدیدترین اطلاعات

نقطه_img