مقاله درمورد پیکره موازی، ترجمه ماشینی، زبان فارسی

با REF مشخص شده است، جمله مرجع است و جمله دوم که با HYP مشخص شده، جمله فرضیه است. در این مثال برای تبدیل جمله مرجع به فرضیه، باید عبارت «SAUDI ARABIA» با عبارت «THE SAUDIS» جایگزین شود، یعنی جایگزینی دو کلمه و دو عمل ویرایشی محسوب می‌شود. همچنین عبارت «THIS WEEK» شیفت پیدا کرده است، که یک عمل ویرایشی محسوب می‌شود. کلمه «AMERICAN» نیز در جمله مرجع آمده اما در فرضیه نیست، و یک عمل ویرایشی درج در نظر گرفته می‌شود. از اینرو چهار عمل ویرایشی لازم است و از آنجا که تعداد کلمات جمله مرجع 13 کلمه است، نمره TER می‌شود 4/13 یا 31%.
TERp [30] نسخه جدیدتری از TER است که همه عملیات TER را دارد به اضافه سه عملیات جدید: تطابق ریشه، تطابق معنایی و جایگزینی عبارت. PER نیز یک معیار مربوط و مشابه است که جابجایی کلمات در جمله را نیز در نظر می‌گیرد.
فصل سوم
مروری بر تحقیقات انجام شده
مروری بر تحقیقات انجام شده
مقدمه
تا کنون برای ساخت پیکره‌های موازی تلاش‌های بسیاری شده است. در اینجا کارهای انجام شده را در سه بخش اصلی ساخت پیکره موازی از روی متون هم‌ترجمه، ساخت پیکره موازی از وب و ساخت پیکره موازی از روی پیکره تطبیقی می‌آوریم. در بخشی دیگر نیز کارهای مرتبطی که رویکردی مشابه مدل ارائه شده داشته‌اند و از طبقه‌بند آنتروپی بیشینه استفاده کرده‌اند ذکر می‌شوند. بخش نهایی اشاره‌ای کوتاه به کارهای انجام شده در زبان فارسی خواهد داشت.
ساخت پیکره موازی از روی متون هم‌ترجمه
در برخی تلاش‌ها سعی بر ساخت پیکره‌های موازی از روی متونی است که همراه ترجمه هستند. این کار با همتراز کردن سندهای هم‌ترجمه در سطح جمله انجام می‌شود.
فیلیپ کوهن در سال 2005 [5]، پیکره‌ای از متون موازی در یازده زبان ساخت. متون این پیکره از شرح مذاکرات مجلس اروپا گرفته شده‌اند، و به همین دلیل یوروپارل (پارلمانی اروپا) نام گرفته است. پیکره ساخته شده در این کار همچنان در حال گسترش است و اکنون 21 زبان اروپایی را شامل می‌شود. پیکره یوروپارل21 در حال حاضر پیکره‌ای شناخته شده در حوزه ترجمه ماشینی برای زبان‌های اروپایی است که در آزمایشات زیادی مورد استفاده قرار می‌گیرد.
چانگ در سال 2004 در [31]، برای ساخت یک پیکره موازی چینی – انگلیسی، متون همراه با ترجمه را از وب جمع آوری می‌کند. این متون از دامنه‌های مختلف مانند اخبار، مقالات تخصصی، نوشتجات ادبی و زیرنویس‌های فیلم‌ها و غیره گرفته شده‌اند. او نیز اذعان می‌کند که متون الکترونیکی ترجمه شده به زبان چینی–انگلیسی بسیار کم بوده، و ساخت یک پیکره موازی که از نظر دامنه توازن داشته باشد کاری دشوار است.
ایشیساکا و همکاران در سال 2009 [9] برای غلبه بر مشکل کمبود پیکره موازی برای جفت زبان ژاپنی–انگلیسی، از کتابچه‌راهنماهای نرم افزارهای متن باز استفاده کردند. آنها بیان می‌کنند که کیفیت ترجمه راهنماها نسبتا بالاست، زیرا توسط کسانی ترجمه شده‌اند که عضو خود پروژه‌ها بوده‌اند بعلاوه اینکه توسط افراد دیگری از پروژه تصحیح شده‌اند. آنها ابتدا اینگونه متون را از وب جمع آوری کرده، سپس بصورت خودکار درسطح جمله همتراز کردند. روش استفاده شده برای همترازی جملات آنها، روش استفاده شده در کار یوتیاما و آیساهارا [32] بود. شباهت بین دو جمله بر مبنای تعداد کلمات مشترک (تعداد کلماتی از دو جمله که ترجمه یکدیگر هستند) در نظر گرفته شد، که برای به دست آوردن این شباهت از یک فرهنگ لغت دوزبانه با بیش از 450 هزار مدخل استفاده کردند. در نهایت پیکره‌ای موازی با نزدیک به 500 هزار جفت جمله ساختند. آنها آزمایشاتشان را با ماشین ترجمه آماری موزز انجام دادند و نشان دادند که پیکره‌شان برای ترجمه ماشینی آماری مفید است.
در بالا چندین مثال از کارهای انجام شده توسط رویکرد ساخت پیکره موازی با استفاده از متونی که همراه با ترجمه هستند آمد. اکثر متون دوزبانه یافت شده اغلب ترجمه دقیق هم نیستند و بنابراین همترازی آنها آسان نیست. در این رویکردها دو مشکل عمده وجود دارد؛ اول اینکه دسترسی بسیار کمی به متونی که همراه با ترجمه باشند وجود دارد چرا که اینگونه متون کم بوده و در صورت وجود نیز کمتر بصورت رایگان در اختیار عموم قرار میگیرند. دومین مسئله نیز این است که اینگونه منابع اغلب مربوط به یک دامنه خاص می‌شوند و در نتیجه پیکره‌های ساخته شده از روی این منابع دامنه محدودی دارند. لازم به ذکر است که این مشکلات برای جفت زبان فارسی–انگلیسی بسیار جدی‌تر است زیرا زبان فارسی به مراتب منابع ترجمه شده کمتری نسبت به زبان‌های اروپایی، چینی و عربی دارد.
کارهای اخیر در حوزه ساخت پیکره‌های موازی، بر استخراج جملات موازی از روی متون دوزبانه تمرکز دارند؛ که یا از وب به عنوان منبع جملات شبه موازی استفاده کرده‌اند و یا منابع دیگری از پیکره‌های تطبیقی را به کار برده‌اند. با بکارگیری اینگونه منابع برای استخراج جملات موازی و ساخت پیکره‌های موازی، می‌توان بر دو مشکلی که پیشتر عنوان شدند (کمبود منابع و محدودیت دامنه) غلبه کرد. چرا که متون موجود در وب – که نامحدوند – و یا متون پیکره‌های تطبیقی که لزوما ترجمه یکدیگر نبوده و تنها از نظر محتوا شباهت دارند، به میزان زیادی در دسترسند. بعلاوه اینکه این منابع محدودیت دامنه نیز ندارند. در ادامه، این رویکردها در دو بخش (1) استخراج جملات موازی از وب و (2) استخراج جملات موازی از پیکره‌های تطبیقی، ذکر می‌شوند.
استخراج جملات موازی از وب
از جمله کارهایی که از وب به عنوان منبع برای ساخت پیکره‌های موازی استفاده کرده‌اند می‌توان به موارد زیر اشاره کرد:
کار نی و همکاران [12] را می‌توان در این دسته آورد که در آن PTMiner برای کاویدن پیکره موازی از وب با استفاده از تطبیق الگوی URL و چند معیار دیگر مانند ساختار HTML، طول فایل و غیره به کار می‌رود.
رسنیک و اسمیت [13] از سیستم فیلترینگ ساختاری STRAN خود استفاده می‌کنند. که جفت‌های موازی کاندید شده را با توجه به مجموعه‌ای از مقادیر ساختاری مختص آن جفت که از صفحه HTML آنها بدست آمده فیلتر می‌کند. آنها برای پیکره موازی انگلیسی-چینی که توسعه دادند، دقت 98% و بازخوانی 61% گزارش دادند.
ژانگ و همکاران [14] از یک شناساگر متن موازی چند مشخصه، از طریق طبقه‌بند k نزدیک‌ترین همسایه استفاده کردند تا جفت‌های موازی چینی-انگلیسی را از اینترنت شناسایی کنند. و دقت 95% و بازخوانی 97% را بدست آوردند.
فانگ و همکاران (2010) در [33]، سعی بر کاویدن مستمر جملات موازی از تریلیون‌ها وب سایت به عنوان مستندات تطبیقی دارند، که نه از نظر دامنه محدود باشد و نه از نظر ساختار یو آر ال‌ها و یا تاریخ انتشار. اما آنها خاطر‌نشان می‌کنند که کار ارائه شده همچنان در حال انجام و پیشرفت است و مقاله را برای مطلع کردن دیگر محققان از اهداف کارشان ارائه داده‌اند.
کوانگ و همکاران در سال 2010 [34]، سعی بر استخراج متون موازی از پیکره‌های تطبیقی داشتند. آنها از ترکیب سه روش (1) فیلتر کردن مبتنی بر طول جملات، (2) شرط همشکل بودن دو جمله (از نظر نشانه‌گذاری‌های جمله) و (3) شباهت مبتنی بر محتوا استفاده کردند. در مرحله اول از معیار گیل و چرچ [25] برای فیلتر کردن جملات بر مبنای طولشان استفاده کردند. ابتدا نسبت طول تمامی جفت جملات موازی که در دسترسشان بود را محاسبه و سپس میانگین و واریانس این نسبت‌ها را به دست آوردند. جفت جملات کاندیدی که نسبت طولشان در محدوده این مقدار میانگین و واریانس آنها قرار نگیرد از بین جفت جملات کاندید حذف می‌شوند. در مرحله دوم ترتیب نشانه گذاری‌های به کار رفته در دو جمله (مانند علامت سوال، پرانتز، گیومه و …) با هم مقایسه می‌شوند. در این مرحله هم باید ترتیب نشانه گذاری‌های دو جمله مشابه باشد و هم طول زیربخش‌های دو جمله شرط مرحله اول را داشته باشند تا جفت جمله کاندید از این مرحله عبور کند، در غیر اینصورت حذف خواهد شد. در مرحله سوم شباهت محتوایی بین دو جمله کاندید تخمین زده می‌شود. به این شباهت یک نمره داده می‌شود و جفت مجملاتی که نمره شباهتشان از یک حد آستانه تعیین شده بیشتر باشد به عنوان جفت جمله موازی در نظر گرفته می‌شوند. برای به دست آوردن این شباهت محتوایی ابتدا یکی از دو جمله به عنوان جمله مبدأ به زبان مقابل ترجمه شده، سپس نمره شباهت دو جمله بر مبنای میزان عبارات مشترک و طول دو جمله به دست می‌آید. آزمایشات آنها بر روی جفت زبان انگلیسی–ویتنامی و متون گرفته شده از ویکی پدیا است. آنها ارزیابی‌هایشان را در یک مرحله بر مبنای افزایش میزان حد آستانه برای نمره شباهت محتوایی قرار دادند و در مرحله‌ای دیگر میزان تأثیر پیکره موازی استخراج شده در بهبود ترجمه ماشینی آماری را با استفاده از معیار بلو ارزیابی کردند، و در این مرحله از ماشین ترجمه آماری موزز استفاده کردند.
استخراج جملات موازی از پیکره‌های تطبیقی
استخراج جفت جملات موازی از وب مشکلاتی را نیز دارد که از آن جمله می‌توان به وجود متونی که بصورت خودکار ترجمه شده‌اند و در وبسایت‌ها قرار می‌گیرند اشاره کرد[35] بعلاوه اینکه این داده‌های خام دقت پایینی دارند. کارهایی با هدف استخراج جملات موازی از پیکره‌های تطبیقی انجام شده‌اند، که کمتر با چنین مشکلاتی مواجهند. در ادامه برخی از این پژوهش‌ها آورده می‌شود:
ماسوآیچی و همکاران در [36]، برای استخراج جفت متن‌های موازی از پیکره شبه تطبیقی که تولید کرده بودند، روشی ارائه کردند. آنها بر روی یک روش CLIR موجود که بر مبنای رویکرد نگاشت اطلاعاتی است، یک رویکرد خود راه‌انداز اعمال کردند.
ژائو و واگل [37] برای پیدا کردن جملات موازی از پیکره تطبیقی خبری Xinhua از یک روش ابداعی استفاده کردند. آنها روش‌های بر مبنای لغت و جمله را با درنظر گرفتن معیار احتمال بیشینه، ترکیب کردند. و در همترازی کلمات، بر مبنای جملات موازی یافت شده شان، بهبود داشتند.
یوتیاما و آیساهارا [32] برای استخراج جمله‌ها از یک پیکره تطبیقی خبری انگلیسی-ژاپنی، از تکنیک‌های CLIR و برنامه نویسی پویا استفاده کردند. آنها جفت مقاله‌های مشابه را شناسایی کرده، و سپس با این جفت‌ها مشابه متون موازی برخورد کرده، و جملاتشان را بر اساس یک نمره شباهت همتراز کرده و با استفاده از برنامه نویسی پویا همترازی با کمترین هزینه در سراسر جفت مقاله را می‌یابند.
یانگ و لی [38] یک رویکرد بر مبنای برنامه نویسی پویا پیش گرفتند، تا بتوانند جملات موازی پنهان در جفت عناوین یک پیکره تطبیقی انگلیسی-چینی را شناسایی کنند. سپس برای تعیین ضریب اطمینان، طولانی‌ترین توالی مشترک، عملیات ویرایشی و توابع امتیاز دهی تطابق محور به کار می‌روند.
فانگ و چیونگ [39] بر روی “پیکره بسیار غیر موازی” کار کردند، و بوسیله معیار شباهت کسینوسی مستندات چینی و انگلیسی را تطابق دادند. آنها همه جفت جمله‌های ممکن را تولید کرده و سپس بهترینشان را بر اساس یک آستانه روی معیار شباهت کسینوسی، انتخاب کردند. با یادگیری یک لغت نامه از روی جملات استخراج شده و تکرار با جفت جمله‌های بیشتر بوسیله یک خودراه‌انداز، کارآیی را بهبود بخشیدند.
Wu و فانگ [40] از گرامر انتقال معکوس همراه با تکنیک‌های CLIR استفاده کردند، تا جملات موازی را از پیکره “شبه تطبیقی بسیار غیر موازی” بیابند.
در کاری که در سال 2005 توسط مونتینو و مارکو صورت گرفت [41]، از یک واژه‌نامه دوزبانه برای ترجمه برخی از کلمات جمله مبدا استفاده شد. سپس این ترجمه‌ها برای ساخت کوئری از پایگاه داده به کار می‌روند، تا با استفاده از روش‌های بازیابی اطلاعات (IR) ترجمه‌های قابل تطبیق یافته

تکه های دیگری از این پایان نامه را می توانید

در شماره بندی فوق بخوانید

متن کامل پایان نامه ها در سایت homatez.com موجود است

You may also like...

Add a Comment