مقاله درمورد ترجمه ماشینی، ارزیابی خودکار، ارزیابی کیفی

(ترازیابی) در لغت به معنی هماهنگی و یا ارتباط مطلوب و مناسب بین اجزا است. به عبارتی اجزایی با یکدیگر همتراز می‌شوند که یک هماهنگی خاص بین آنها باشد، که در اینجا این هماهنگی از نوع «هم‌ترجمه» بودن است. همترازی بین دو جزء صورت می‌گیرد و هر کدام از اجزاء به یک زبان مختلف هستند. همترازی در سطوح مختلفی از متن انجام می‌شود که عبارتند از همترازی در سطح سند، همترازی در سطح جمله و همترازی در سطح کلمه. هر کدام از انواع همترازی در ادامه توضیح داده می‌شوند.
همترازی در سطح سند
همترازی در سطح سند به معنی نظیر کردن سندهایی در زبان‌های مختلف به یکدیگر است که با یکدیگر قابل تطبیق هستند. این قابل تطبیق بودن می‌تواند از نظر محتوا و یا ابعاد دیگر یک سند باشد، مانند تاریخ سند برای مستندات خبری، یا عنوان سند برای سندهای ویکی پدیا و یا ساختار HTML سند برای سندهایی که از وب جمع آوری می‌شوند. همترازی در سطح سند برای مجموعه نوشتجاتی که ترجمه هم هستند، به معنی جفت کردن هر سند با سند ترجمه اش در زبان دیگر است.
همترازی در سطح جمله16
همترازی در سطح جمله یعنی یافتن جملات هم‌ترجمه از دو متن به دو زبان مختلف که ترجمه یکدیگر هستند. گاهی اوقات در ترجمه متن یک جمله به دو جمله یا برعکس دو جمله به یک جمله ترجمه می‌شوند در نتیجه همترازی جملات امری بدیهی نیست. همترازی جملات، اصلی‌ترین کار در ساختن پیکره موازی از روی متون از پیش ترجمه شده مانند کتاب‌ها یا خبرهای دو زبانه است. از اینرو همترازی جملات یک زمینه بسیار پر فعالیت در بین پژوهش‌های اخیر حوزه ترجمه ماشینی است.
تا کنون الگوریتم‌های زیادی برای همترازی در سطح جمله ارائه شده است. اولین الگوریتم‌ها بر اساس طول جمله که بر حسب تعداد کلمات و یا تعداد کاراکترهای جمله‌اندازه گیری می‌شود، ارائه شدند [3، 24]. برخی الگوریتم‌ها نیز مبتنی بر اطلاعات لغوی جمله هستند [25]. همچنین در همترازی جملات از متونی که ترجمه یکدیگر هستند می‌توان از ترتیب جملات، موقعیت جملات در متن، نشانه‌های جمله مانند علائم نشانه گذاری و یا وجود اعداد به عنوان پارامتر جهت شناسایی جملات همتراز استفاده کرد [26]. در [27] روشی ارائه شده که جهت همترازی جملات، سند را بصورت تکرارشونده به دو بخش تقسیم می‌کند. تا کنون ابزارهایی جهت همترازی جملات پیاده سازی شده‌اند از جمله hunalign، Uplug، همتراز کننده جملات دوزبانه مایکروسافت و … . در شکل 2-1 نمونه‌ای از دو متن همتراز شده در سطح جمله را مشاهده می‌کنید. همانطور که از شکل پیداست جملات همیشه بصورت یک به یک نگاشت نمی شوند بنابراین همترازی جملات ضروری است.

Green tea naturally contains a small amount of caffeine, which is a stimulant that can suppress appetite.
چای سبز مقدار کمی کافئین دارد اما همین مقدار کم کافئین می‌تواند اشتهای شما را سرکوب کند.
Drinking green tea will make you feel less hungry and give you energy to boot.
اگرچه نوشیدن چای سبز باعث می‌شود اشتهای شما کاهش یابد اما انرژی شما افزایش می‌دهد.
The best times to drink green tea are in the morning and between meals.
بنابراین وقی از این رژیم استفاده می‌کنید با کم شدن مقدار کالری مصرفی شما، انرژی شما کاهش نمی یابد و احساس ضعف و خستگی نمی کنید.
Green tea is ideal in the morning because its caffeine will stimulate you for the day ahead.
بهترین زمان برای نوشیدن چای سبز، صبح و بین وعده‌های غذایی روزانه است.
Do not, however, drink green tea too late in the afternoon or at night.
نوشیدن چای سبز در هنگام صبح بسیار مفید است زیرا کافئین موجود در آن شمار برای گذراندن یک روز پر کار آماده می‌کند.
Otherwise, as with other drinks that contain caffeine, you may have trouble sleeping.
از نوشیدن چای سبز در ساعات آخر شب خود داری کنید زیرا کافئین موجود درآن ممکن است شما را بی خواب کند.
Your goal is to lose weight; therefore, you should not add fattening ingredients to your green tea.
هدف شما از گرفتن این رژیم کاهش وزن است بنابراین نباید افزودنی‌های چاق کننده به چای خود اضافه کنید.
نمونه‌ای از دو متن همتراز شده در سطح جمله
همترازی در سطح کلمه17 (همترازی لغوی)
در همترازی در سطح کلمه یا همترازی لغوی، کلمات متناظر در دو جمله هم‌ترجمه با یکدیگر نظیر می‌شوند. در همترازی لغوی کلماتی با هم نظیر می‌شوند که ترجمه یکدیگر باشند. شکل 2-2 نمونه‌ای از همترازی لغوی بین دو جمله فارسی و انگلیسی را نشان می‌دهد. همترازی لغوی بین دو جمله معمولا بصورت یک گراف دو بخشی نمایش داده می‌شود که دو کلمه با یک یال به هم متصل می‌شوند اگر و فقط اگر آن دو کلمه ترجمه همدیگر باشند. شکل 2-3 صورت دیگری از نحوه نمایش همترازی لغوی بین دو جمله است.
همترازی لغوی بین دو جمله فارسی و انگلیسی در شکل گراف دو بخشی
ایرانیان
سراسر
جهان
یلدا
را
جشن
میگیرند
Iranians
around
the
world
celebrate
Yalda
همترازی لغوی بین دو جمله فارسی و انگلیسی در شکل جدول همترازی
همترازی لغوی یک جزء حمایتی مهم در اکثر روش‌های ترجمه ماشینی آماری است. همه رویکردهای جاری در ترجمه ماشینی آماری از همترازی لغوی یا برای آموزش و یا در توابع ویژگی استفاده می‌کنند. پارامترهای مدل‌های ترجمه ماشینی آماری معمولا با استفاده از متون دوزبانه که در سطح کلمه همتراز شده‌اند تخمین زده می‌شوند، و برعکس در همترازی خودکار لغوی، آن همترازی انتخاب می‌شود که در مدل ترجمه ماشینی آماری بهترین نتیجه را بدهد. از اینرو یک دور در کاربرد این دو وجود دارد که منجر به نوعی الگوریتم حداکثر سازی امید ریاضی می‌شود. این روش یادگیری نوعی آموزش بدون نظارت است، که در آن نمونه‌هایی با خروجی‌های مطلوب به سیستم داده نشده است اما تلاش می‌کند که بهترین همترازی را برای داده‌هایی که دیده نشده‌اند بیابد. البته روش‌های با نظارت نیز برای همترازی لغوی بکارگرفته شده‌اند که در آنها به سیستم مقداری جمله دستی همتراز شده داده می‌شود.
همترازی لغوی با استفاده از مدل‌های آی‌بی‌ام
آی بی ام برای همترازی لغوی 5 مدل ارائه کرده است که شناخته شده‌ترین مدل‌های همترازی لغوی محسوب می‌شوند. آی بی ام مدل 1 ساده‌ترین آنهاست، همینطور که از مدل 1 تا 5 می‌رویم، مدل‌ها پیچیده‌تر اما واقعی‌تر می‌شوند. آی بی ام مدل 1 تنها بر اساس ترجمه لغوی است، آی بی ام مدل 2 موقیعیت کلمات در جمله را نیز در نظر می‌گیرد، آی بی ام مدل 3 اتصال یک کلمه به چندین کلمه را نیز مورد توجه قرار می‌دهد، آی بی ام مدل 4 مشکلی که برای جفت جملات طولانی به وجود می‌آید مورد هدف قرار می‌دهد و مدل آی بی ام 5 نیز مشکلات مدل‌های 3 و 4 را برطرف می‌کند.
ابزار Giza++ [28] ابزاری است که از مدل‌های ای بی ام برای همترازی لغوی استفاده می‌کند. فرآیند به دست آوردن همترازی لغوی بین دو جمله یک فرآیند زمانبر است. ابزار MGiza++ نسخه توسعه یافته Giza++ است که قابلیت مهم اجرای موازی به آن اضافه شده است.
ارزیابی ترجمه ماشینی
یکی از مهترین قسمت‌ها در طراحی یک ماشین ترجمه، ارزیابی خروجی تولید شده توسط آن است. همچنین برای مقایسه دو ماشین ترجمه طراحی شده، می‌بایست خروجی تولید شده توسط آنها را ارزیابی کرد. روش‌های ارزیابی ترجمه ماشینی، در دو دسته کلی ارزیابی انسانی و ارزیابی خودکار قرار می‌گیرند. روش ارزیابی توسط انسان گرچه به واقیت نزدیک‌تر است، اما روشی پرهزینه و زمانبر است. از اینرو در سالهای اخیر متریک‌های متنوعی برای ارزیابی خودکار ترجمه ماشینی طراحی شده‌اند. در ادامه چند متریک مختلف از ارزیابی خودکار شرح داده می‌شوند.
بلو18
بلو از اولین متریک‌های ارائه شده است که به کیفیت قضاوت انسانی نزدیک است. در حال حاضر بلو یکی از محبوب‌ترین متریک‌ها در زمینه ارزیابی ترجمه ماشینی است. ایده اصلی بلو این است که «هر ترجمه ماشینی که به ترجمه انسان نزدیک‌تر باشد بهتر است». بلو ابتدا برای هر بخش که معمولا جمله در نظر گرفته می‌شود، امتیاز را محاسبه می‌کند و سپس بین امتیاز تمام جملات پیکره میانگین می‌گیرد. بلو برای تقریب زدن قضاوت انسانی در سطح پیکره طراحی شده است، از اینرو اگر برای ارزیابی کیفیت جملات به صورت جداگانه استفاده شود خوب عمل نخواهد کرد.
نمره بلو عددی بین صفر و یک است که گاهی بصورت درصد نیز نمایش داده می‌شود. هر چقدر این عدد به یک نزدیک‌تر باشد نشان دهنده این است که ترجمه به ترجمه مرجع نزدیک‌تر است؛ اگرچه ترجمه‌های انسانی نیز کمتر نمره یک را به دست می‌آورند. برای یک جمله، چندین ترجمه مطلوب می‌تواند وجود داشته باشد که یا از کلماتی متفاوت استفاده کرده‌اند و یا ترتیب استفاده از کلمات در آنها کمی متفاوت بوده است. به همین دلیل به دست آوردن نمره یک، ضروری و مهم نیست.
بلو هر جمله را با مجموعه‌ای از چندین جمله ترجمه با کیفیت مناسب به عنوان مرجع مقایسه می‌کند. بلو، شکلی از معیار دقت را برای مقایسه ترجمه با جملات مرجع مورد استفاده قرار می‌دهد. به عبارتی تعداد n-gram‌های موجود در جمله ترجمه را که در جمله مرجع نیز هستند به دست می‌آورد و نسبت این تعداد را به کل تعداد کلمات جمله محاسبه می‌کند. به دلیل وجود ترجمه‌های مختلف مطلوب برای یک جمله، هر چه تعداد ترجمه‌های مرجع بیشتر باشد نمره بلوی به دست آمده بیشتر خواهد بود.
متریک NIST
متریک NIST بر مبنای متریک بلو است. تفاوت این معیار با معیار بلو در این است که بلو هنگام به دست آوردن دقت n-gram‌ها وزن یکسانی به آنها می‌دهد، اما NIST محاسبه می‌کند که هر n-gram چقدر با معنی است یا به عبارتی حاوی اطلاعات مفید است. یعنی وقتی یک n-gram صحیح در ترجمه یافت شد، هر چه این n-gram کمیاب‌تر باشد (به تعداد کمتری رخ داده باشد) وزن بیشتری به آن اختصاص داده می‌شود. به طور مثال NIST به عبارت «interesting calculations» نسبت به عبارت «on the» وزن بیشتری می‌دهد زیرا به میزان کمتری رخ می‌دهد.
نرخ خطای کلمه 19
نرخ خطای کلمه (WER) متریکی مبتنی بر فاصله لون اشتاین یا فاصله ویرایش است؛ با این تفاوت که فاصله لون اشتاین در سطح کاراکتر است اما WER در سطح کلمه. WER تعداد عملیات مورد نیاز برای تبدیل یک جمله (مرجع) به جمله دیگر (ترجمه) را اندازه می‌گیرد که این عملیات عبارتند از درج، حذف، جایگزینی. اگر تعداد جایگزینی‌های مورد نیاز را S، تعداد حذف مورد نیاز را D، تعداد درج‌ها را I و تعداد کلمات جمله مرجع را N در نظر بگیریم، معیار WER به صورت زیر به دست می‌آید:
WER=(S+D+I)/N
هرچه قدر معیار WER کمتر باشد دو جمله به هم نزدیک ترند.
نرخ خطای ترجمه20 (TER)
گاهی ممکن است یک ترجمه مطلوب، از همان کلمات جمله مرجع استفاده کرده باشد اما این کلمات به ترتیبی متفاوت در جمله ظاهر شوند، اما معیار WER نمی تواند این حالت را به حساب آورد. این مشکل توسط معیار TER [29] رفع شده است. TER همان عملیات WER را دارد به اضافه عمل شیفت. معیار TER در نظر می‌گیرد که برای تبدیل یک جمله «مرجع» به جمله «فرضیه» به چه تعداد عمل ویرایشی شامل عمل‌های: حذف، درج، جایگزینی و شیفت عبارت نیاز است. نسبت این تعداد عمل ویرایشی به کل تعداد کلمات جمله مرجع، نمره TER را می‌دهد. از اینرو هر چه نمره TER کمتر باشد دو جمله به هم نزدیک‌ترند. شکل2-4 یک مثال از نحوه محاسبه TER است.
مثالی از نحوه محاسبه نمره TER
جمله اول که

تکه های دیگری از این پایان نامه را می توانید

در شماره بندی فوق بخوانید

متن کامل پایان نامه ها در سایت homatez.com موجود است

You may also like...

Add a Comment