مقاله درمورد ترجمه ماشینی، پیکره موازی، زبان مقصد

مدل، زبان مبدأ به یک انتزاع که نمایشی کمتر مختص به زبان است، انتقال می‌یابد. سپس یک نمایش معادل برای زبان مقصد (با همان سطح انتزاع) با استفاده از فرهنگ لغات دوزبانه و قوانین گرامری تولید می‌شود.
میان زبانی5: این روش متعلق به نسل سوم ترجمه ماشینی است. در این روش زبان مبدأ به یک زبان (نمایش) میانی تغییر شکل می‌دهد که این زبان میانی مستقل از هر دو زبان شرکت کننده (مبدأ و مقصد) در ترجمه است. سپس ترجمه برای زبان مقصد از این نمایش کمکی به دست می‌آید. از اینرو در این نوع سیستم تنها به دو ماژول تجزیه و ترکیب نیاز است. همچینن به دلیل مستقل بودن این روش از زبان‌های مبدأ و مقصد، بیشتر در ماشین‌های ترجمه چندزبانه استفاده می‌شود. این روش بر یک نمایش واحد از زبان‌های مختلف تأکید می‌کند.
ترجمه ماشینی مبتنی بر دانش6
این روش با واژه‌نامه‌ای مفهومی‌که یک دامنه را نشان می‌دهد سر و کار دارد. این روش شامل دو مرحله تحلیل و تولید است. اجزای پایه‌ای یک ماشین ترجمه مبتنی بر دانش عبارتند از یک آنتولوژی از مفاهیم، واژه‌نامه و گرامر زبان مبدأ برای فرآیند تحلیل، واژه‌نامه و گرامر برای زبان مقصد و قوانین نگاشت بین نحو زبان میانی و زبان‌های مبدأ و مقصد.
ترجمه ماشینی مبتنی بر پیکره7
رویکرد ترجمه ماشینی مبتنی بر پیکره‌های متنی از سال 1989 ظهور پیدا کرد و به طور وسیعی در حوزه ترجمه ماشینی به آن پرداخته شد؛ و به دلیل دقت بالای این روش در ترجمه، بر دیگر روش‌ها غلبه یافت. در این روش، دانش یا مدل ترجمه به طور خودکار از پیکره‌های متنی (مجموعه متون) دوزبانه گرفته می‌شود. از آنجایی که این رویکرد با حجم زیادی از داده‌ها کار می‌کند، ترجمه ماشینی مبتنی بر پیکره نامیده شده است. برخی از انواع روش‌های مبتنی بر پیکره در ادامه شرح داده می‌شوند.
ترجمه ماشینی آماری8
با اینکه ایده اولیه ترجمه ماشینی آماری توسط وارن ویور در سال 1941 معرفی شد، اما از سال 1993 که این روش توسط محققان آی بی ام مدل شد به طور گسترده‌ای مورد استفاده قرار گرفت؛ به طوری‌که در حال حاضر ترجمه ماشینی آماری رایج‌ترین رویکرد در ترجمه ماشینی به شمار می‌آید. در روش ترجمه ماشینی آماری از مدل‌های آماری استفاده می‌شود که پارامترهای این مدل‌ها از متون دوزبانه یا همان «پیکره‌های موازی» استخراج می‌شوند. به عبارت دیگر سیستم ترجمه ماشینی آماری، احتمالات ترجمه را از پیکره موازی می‌آموزد و با استفاده از این احتمالات برای جملات ورودی که در فرآیند آموزش دیده نشده‌اند، ترجمه‌ای مناسب تولید می‌کند. در این روش از دو مدل عمده به نام مدل‌های مبتنی بر کلمه و مدل‌های مبتنی بر عبارت استفاده می‌شود.
ترجمه ماشینی مبتنی بر مثال9
روشهای ترجمه ماشينی مبتنی بر مثال، روشهای مبتنی بر حافظه10 نيز ناميده شده‌اند. ایده این روش از سال 1980 در ژاپن شروع شد. این نوع سیستم‌ها تلاش می‌کنند تا جمله‌ای مشابه جمله ورودی در پیکره موازی پیدا کنند، و سپس با اِعمال تغییراتی بر روی جمله ترجمه شده که قبلا ذخیره شده، ترجمه جمله ورودی را تولید کنند.
ایده اولیه در این روش، استفاده از ترجمه‌های انسانی موجود برای ترجمه متن‌های جدید است. لذا کافی است متون جدید به قطعه‌های کوچک شکسته شود و ترجمه معادل این قطعات، در پایگاه داده‌ای از قطعات ترجمه شده جستجو شده و ترجمه مورد نظر تولید گردد. این روش دارای محدودیت دادگان می‌باشد. جمع‌آوری مجموعه مثال‌های بسیار بزرگ نیز کل زبان را پوشش نمی دهد. بنابراین معمولا این روش برای زیر مجموعه‌های محدودی از یک زبان استفاده می‌شود.
ترجمه ماشینی مبتنی بر متن11
ترجمه ماشینی مبتنی بر متن نوعی از ترجمه ماشینی مبتنی بر پیکره است که نه به قوانین و نه به پیکره‌های موازی نیاز دارد. در عوض این روش برای اجرای الگوریتم خود به یک پیکره عظیمی از متون تک زبانه (به زبان مقصد)، یک فرهنگ لغت دوزبانه کامل و به صورت اختیاری یک پیکره تک زبانه از متون مبدأ (جهت بهبود کیفیت ترجمه) نیاز دارد. این روش یک رویکرد جدید برای ترجمه‌های ماشینی مبتنی بر پیکره است.
ضرورت ساخت پیکره موازی
در طول چند قرن گذشته، ماشین‌ها در بسیاری از کارهای انسان به کار گرفته شده‌اند، و اخیرا با ظهور کامپیوترهای دیجیتالی حتی کارهایی که نیاز به فکر و هوش دارند توسط ماشین‌ها انجام می‌شود. ترجمه بین زبان‌ها نیز یکی از این کارهاست، کاری که حتی انسان‌ها هم برای انجام آن نیاز به آموزش‌های ویژه دارند.
ترجمه ماشینی سابقه بسیار طولانی دارد، اما در یکی دو دهه اخیر تحولش در مسیر جدیدی صورت گرفت- مسیری که در دیگر رشته‌های وابسته به پردازش زبان‌های طبیعی منعکس شده است. این مسیر جدید بر این فرض مبتنی است که زبان بسیار غنی و پیچیده است، در نتیجه هیچ گاه نمی توان زبان را به طور کامل در قالب مجموعه‌ای از قوانین -که بصورت یک برنامه کامپیوتری کد شده در می‌آید- خلاصه کرده و تجزیه و تحلیل کرد. در عوض، مسیر جدید در جهت توسعه یک ماشین است که قوانین ترجمه را به طور خودکار از یک پیکره بزرگ از متون ترجمه شده کشف می‌کند، و این کار را با جفت کردن ورودی و خروجی فرآیند ترجمه و با یادگیری از روی آمارهای مربوط به داده‌ها انجام می‌دهد.
ترجمه ماشینی آماری شتاب فوق العاده‌ای را هم در جامعه پژوهشی و هم در بخش تجاری به دست آورده است. نزدیک به یک هزار مقاله آکادمیک بر روی این موضوع منتشر شده است که حدود نیمی از آن تنها مربوط به سه سال گذشته است. در همین زمان، سیستم‌های ترجمه ماشینی آماری راهشان را در بازار کار پیدا کرده‌اند، از زبان ویور، اولین شرکت ترجمه آماری محض گرفته تا سیستم‌های آنلاین آزاد گوگل و مایکروسافت.
همانطور که گفته شد، مرز دانش در ترجمه ماشینی برپایه رویکردهای آماری است که یک فرآیند داده محور است. در نگاه به ترجمه به عنوان یک مسئله یادگیری ماشین، الگوریتم ترجمه ماشینی آماری قوانین ترجمه را از متون ترجمه شده قبلی یاد می‌گیرد [2]. بنابراین کارآیی سیستم به شدت به کیفیت و کمیت پیکره مورد استفاده برای یادگیری بستگی دارد. عموما، متن‌های دوزبانه بزرگ‌تر منجر به کارآیی بیشتر می‌شوند. سیستم‌های ترجمه ماشینی آماری از متن‌های دوزبانه موازی برای مدل ترجمه و از پیکره‌های تک زبانه برای مدل کردن زبان مقصد به عنوان مواد آموزشی استفاده می‌کنند. برخلاف اینکه داده‌های تک زبانه کافی برای اکثر زبان‌ها وجود دارد، داده‌های موازی بسیار کمیاب هستند.
ثابت شده است که پیکره متنی، یک منبع ضروری برای ترجمه ماشینی آماری است [3,4] همانطور که برای دیگر برنامه‌های کاربردی پردازش زبان‌های طبیعی از جمله برای ساخت و توسعه واژه‌نامه‌های دوزبانه و مجموعه اصطلاحات دوزبانه ضروری می‌باشد. با این حال غیر از تعداد کمی از زبان‌ها مانند فرانسوی-انگلیسی، انگلیسی-عربی و انگلیسی-چینی و زمینه‌های معدودی از جمله مذاکرات پارلمانی و متون حقوقی، مانند شرح مذاکرات مجلس کانادا یا اروپا [5]، و یا سازمان ملل متحد، منابع کمی باقی می‌ماند، که اغلب به دلیل هزینه‌های انسانی و مالی است که برای تولیدشان نیاز است. بعلاوه اصطلاحات مخصوص صنفی به کاررفته در اینگونه پیکره‌ها برای ترجمه‌های روزمره و یا ترجمه در دیگر زمینه‌ها مناسب نیستند؛ بنابراین نیاز شدیدی برای پیکره‌های موازی بیشتر که مناسب ترجمه‌های منطبق بر دامنه هستند احساس می‌شود.
پیکره موازی برای ترجمه ماشینی باید در اندازه بسیار زیاد باشد – بیلیون‌ها جمله – تا بتواند موثر باشد. و به همین دلیل است که در زبان فارسی با مشکل روبه رو هستیم. به دلیل کمبود شدید مواد زبانی ذخیره شده بصورت دیجیتال و مستندات موازی برخط، ساخت پیکره موازی فارسی بسیار سخت است [6].
مسئله تحقیق: ساخت پیکره موازی
همانطور که گفته شد ترجمه ماشینی آماری رایج‌ترین رویکرد ترجمه ماشینی در حال حاضر است. از طرفی پیکره‌های موازی اصلی‌ترین منابع برای ترجمه ماشینی آماری هستند، اما این در حالی است که اکثریت زبان‌های طبیعی با کمبود این منابع مهم روبه‌رو هستند. از اینرو تلاش برای ساخت پیکره‌های موازی جهت بهبود ترجمه ماشینی ضروری به نظر می‌رسد.
یک راه برای غلبه بر این کمبود منابع، تولید ترجمه‌های انسانی بیشتر است، اما این یک گزینه بسیار پرهزینه است، هم از نظر زمان و هم از نظر مالی؛ اما با این حال به دلیل اهمیت بسیار زیاد پیکره‌های موازی برای ترجمه ماشینی برخی از پیکره‌های موازی از این طریق ساخته شده‌اند [7]. راه دیگر استفاده از متون از قبل ترجمه شده است از جمله کتاب‌های ترجمه شده الکترونیکی [8] و یا کتابچه‌های راهنمای چندزبانه الکترونیکی [9]، اما تعداد اینگونه منابع الکترونیکی به خصوص برای زبان فارسی بسیار کم است. گزارشات پارلمانی و متون حقوقی مانند شرح مذاکرات پارلمانی سازمان ملل متحد، اروپا و کانادا نیز از اصلی‌ترین نوع منابع از قبل ترجمه شده برای تولید پیکره‌های موازی محسوب می‌شوند که زبان فارسی فاقد این گونه منابع است. در برخی تلاش‌ها جهت ساخت پیکره موازی از زیرنویس فیلم‌ها استفاده شده است [10][11] اما به دلیل اینکه زیرنویس فیلم‌ها به زبان محاوره‌ای هستند، پیکره‌های ساخته شده از آنها نویزی بوده و در همه زمینه‌ها قابل استفاده نیستند. وب نیز می‌تواند برای بدست آوردن جملات موازی پیمایش شود [9,12,13,14]، اگرچه اکثر متون دوزبانه یافت شده اغلب ترجمه دقیق هم نیستند و بنابراین همترازی آنها آسان نیست.
در کارهای اخیر، روش‌های کم هزینه‌تر اما پربارتری برای تولید اینگونه پیکره‌های دوزبانه همتراز شده در سطح جمله ارائه شده است، که بر پایه استخراج متون موازی از متون ” تقریبا موازی” و یا “نه خیلی موازی” می‌باشند که اینگونه متون اغلب در دسترس هستند و اصطلاح “پیکره تطبیقی” برای آنها به کار می‌رود.
هدف تحقیق: ساخت پیکره موازی از روی پیکره تطبیقی
یک پیکره تطبیقی مجموعه‌ای از متن‌هاست که به طور جداگانه در زبان‌های مربوطه ساخته شده‌اند و بر پایه شباهت محتوی ترکیب شده‌اند. این‌ها مستنداتی از یک به چند زبان هستند که از نظر شکل و محتوی در ابعاد و درجات مختلف قابل مقایسه هستند. بر عکس، یک پیکره موازی شامل متن‌های دو یا چند زبانه است که ترجمه دقیق همدیگر بوده و در سطح جمله همتراز شده‌اند.
مواد اولیه برای مستندات تطبیقی اغلب آسان بدست می‌آید، اما همترازی تک تک مستندات یک کار چالش بر انگیز است[15]. منابع بالقوه برای پیکره‌های تطبیقی، آژانس‌های خبری چندزبانه مانند AFP و BBC و …، و یا دایره المعارف‌های چندزبانه مانند ویکی پدیا و Encarta هستند. برخی از این پیکره‌های تطبیقی به طور گسترده از طریق LDC در دسترس هستند. اینگونه منابع اغلب شامل جملاتی هستند که ترجمه‌های مناسبی از یکدیگرند. شناسایی مطمئن این جفت جمله‌ها، ساخت خودکار پیکره‌های موازی گوناگون را ممکن می‌سازد.
در این پایان نامه نیز روش‌های استفاده شده برای استخراج جملات موازی از پیکره‌های تطبیقی که برای جفت زبان‌های دیگر آمده‌اند، مورد بررسی قرار می‌گیرند؛ و از آن‌ها برای ساخت یک پیکره موازی از روی پیکره تطبیقی انگلیسی –فارسی استفاده می‌شود.
سرفصل‌ها
فصل دوم: مبانی نظری
در این فصل مبانی نظری ترجمه ماشینی و اصطلاحات به کار رفته در این پایان نامه را شرح می‌دهیم. در ابتدا پیکره را معرفی کرده و به بحث درباره انواع آن از جمله پیکره موازی و پیکره تطبیقی می‌پردازیم. در بخش بعد مبحث همترازی را عنوان کرده و انواع آن را معرفی می‌کنیم، که عبارتند از همترازی در سطح سند، همترازی در سطح جمله و همترازی در سطح لغت. در انتها ارزیابی ترجمه ماشینی آورده می‌شود

تکه های دیگری از این پایان نامه را می توانید

در شماره بندی فوق بخوانید

متن کامل پایان نامه ها در سایت homatez.com موجود است

You may also like...

Add a Comment