مقاله درمورد ترجمه ماشینی، پیکره موازی، زبان مبدأ

اظهارنامه
اينجانب علیمه زاری (901313) دانشجوي رشتهي مهندسی کامپیوتر گرایش نرم افزار دانشکدهی مهندسی اظهار ميكنم كه اين پاياننامه حاصل پژوهش خودم بوده و در جاهايي كه از منابع ديگران استفاده كردهام، نشاني دقيق و مشخصات كامل آن را نوشتهام. همچنين اظهار ميكنم كه تحقيق و موضوع پاياننامهام تكراري نيست و تعهد مي‌نمايم كه بدون مجوز دانشگاه دستاوردهاي آن را منتشر ننموده و يا در اختيار غير قرار ندهم. كليه حقوق اين اثر مطابق با آييننامه مالكيت فكري و معنوي متعلق به دانشگاه شيراز است.
نام و نام خانوادگی: علیمه زاری
تاریخ و امضا:
تقدیم
به
پدر و مادر عزیزم
سپاسگزاري
پیش از هر چیز از خداوند متعال به خاطر تمامی نعمت‌هایی که هدیه کرده سپاسگزارم. از اساتيد ارجمند، جناب آقای دکتر محمدهادی صدرالدینی و جناب آقای دکتر سیدمصطفی فخراحمد که در طول انجام اين پروژه همواره مشوق و راهنماي من بوده‌اند، صميمانه تشکر و قدرداني می‌نمايم. همچنین از اعضای خانواده‌ام که در تمام دوران تحصیل با روی همواره گشاده مرا یاری کرده‌اند نیز سپاسگزارم.
چکيده
مدلی کارا برای ساخت پیکره متنی موازی از روی پیکره متنی تطبیقی
به کوشش
علیمه زاری
اغلب رویکردهای نوین ترجمه در حوزه ترجمه ماشینی از جمله ترجمه ماشینی آماری، ترجمه ماشینی مبتنی بر مثال و ترجمه ماشینی ترکیبی از مجموعه متون هم‌ترجمه تحت عنوان پیکره‌های متنی موازی به عنوان داده آموزشی اصلی استفاده می‌کنند. اما برای اغلب زبان‌ها پیکره‌های موازی به میزان بسیار کمی در دسترس هستند و یا مربوط به دامنه خاصی از نوشتجات می‌شوند. در طرف دیگر پیکره‌های تطبیقی قرار دارند که مواد اولیه آنها به راحتی به دست می‌آید. پیکره‌های تطبیقی شامل متون هم‌ترجمه نیستند اما در آن هر دو متن در دو زبان مختلف از نظر شباهت معیارهایی چون محتوا، تاریخ انتشار، عنوان و … با یکدیگر قابل تطبیق هستند.
پیکره‌های تطبیقی شامل جملاتی هستند که می‌توانند ترجمه خوبی برای یکدیگر باشند. هدف این رساله ساخت خودکار پیکره موازی با استخراج اینگونه جملات از پیکره تطبیقی است. مدلی که در این پژوهش ارائه می‌شود از سه مرحله اصلی تشکیل می‌شود: (1) انتخاب جفت جملات کاندیدای موازی بودن با استفاده از فیلتر نسبت طول جملات و فیلتر تعداد کلمات مشترک (2) انتخاب جفت جملات موازی با استفاده از طبقه‌بند آنتروپی بیشینه و در نظر گرفتن ویژگی‌های مربوط به طول دو جمله، کلمات مشترک آنها و ویژگی‌های مبتنی بر همترازی در سطح کلمه بین دو جمله (3) بالابردن دقت جفت جملات استخراج شده با انتخاب تنها یکی از جملات جفت شده با هر جمله. این کار را می‌توان بوسیله محاسبه نزدیکی آن جمله با ترجمه جملات جفت شده از طرف مقابل توسط معیار TER و انتخاب نزدیک‌ترین جمله انجام داد.
در انتها کارآیی مدل ارائه شده در دو بخش (1) ارزیابی طبقه‌بند آنتروپی بیشینه طراحی شده و (2) ارزیابی میزان سودمندی جفت جملات موازی استخراج شده در بهبود کیفیت ترجمه ماشینی بررسی می‌شود.
فهرست مطالب
عنوان صفحه
1. مقدمه 2
1-1. مقدمه 2
1-1-1. ترجمه ماشینی مبتنی بر فرهنگ لغت 3
1-1-2. ترجمه ماشینی مبتنی بر قانون 4
1-1-3. ترجمه ماشینی مبتنی بر دانش 5
1-1-4. ترجمه ماشینی مبتنی بر پیکره 5
ترجمه ماشینی آماری 6
ترجمه ماشینی مبتنی بر مثال 6
ترجمه ماشینی مبتنی بر متن 7
1-2. ضرورت ساخت پیکره موازی 7
1-3. مسئله تحقیق: ساخت پیکره موازی 9
1-4. هدف تحقیق: ساخت پیکره موازی از روی پیکره تطبیقی 10
1-5. سرفصل‌ها 10
1-5-1. فصل دوم: مبانی نظری 10
1-5-2. فصل سوم: مروری بر تحقیقات انجام شده 11
1-5-3. فصل چهارم: مدل پیشنهادی 11
1-5-4. فصل پنجم: ارزیابی و نتیجه گیری 12
2. مبانی نظری 14
2-1. پیکره 14
2-1-1. پیکره موازی 15
2-1-2. پیکره تطبیقی 17
2-2. همترازی 18
2-2-1. همترازی در سطح سند 19
2-2-2. همترازی در سطح جمله 19
2-2-3. همترازی در سطح کلمه (همترازی لغوی) 21
همترازی لغوی با استفاده از مدل‌های آی‌بی‌ام 22
2-3. ارزیابی ترجمه ماشینی 23
2-3-1. بلو 23
2-3-2. متریک NIST 24
2-3-3. نرخ خطای کلمه 24
2-3-4. نرخ خطای ترجمه (TER) 25
3. مروری بر تحقیقات انجام شده 28
3-1. مقدمه 28
3-2. ساخت پیکره موازی از روی متون هم‌ترجمه 28
3-3. استخراج جملات موازی از وب 30
3-4. استخراج جملات موازی از پیکره‌های تطبیقی 32
3-5. تشخیص جملات موازی با استفاده از طبقه‌بند آنتروپی بیشینه 34
3-6. ساخت پیکره موازی انگلیسی – فارسی 36
4. مدل پیشنهادی 39
4-1. مقدمه 39
4-2. انتخاب جفت جملات کاندید موازی بودن 40
4-2-1. فیلتر کلمات مشترک 41
تبدیل کدگذاری کاراکترها 42
مشخص کردن مرز جمله‌ها و کلمه‌ها 43
ریشه‌یابی 44
حذف کلمات پرتکرار 45
رفع ابهام 45
جستجوی معانی از دیکشنری 46
گروه بندی کلمات تکراری جمله به همراه تعداد رخدادشان در جمله 46
الگوریتم یافتن نرخ کلمات مشترک (از طرف مبدأ) 47
4-3. انتخاب جفت جملات موازی از بین جفت جملات کاندید 48
4-3-1. طبقه‌بند آنتروپی بیشینه 48
4-3-2. ویژگی‌های عمومی 49
ویژگی‌های مبتنی بر طول دو جمله 49
نرخ کلمات مشترک 50
4-3-3. ویژگی‌های مبتنی بر همترازی در سطح کلمه یک جفت جمله 50
کلمات همتراز نشده 50
باروری 51
محدوده پیوسته 52
نمره همترازی 53
4-4. بالا بردن دقت جفت جملات موازی استخراج شده 54
4-5. شیوه ارزیابی مدل 55
5. ارزیابی و نتیجه گیری 58
5-1. ارزیابی طبقه‌بند آنتروپی بیشینه 58
5-1-1. ارزیابی ویژگی‌ها 58
5-1-2. حساسیت به دامنه 60
5-2. تنظیمات و آزمایشات ساخت پیکره موازی از پیکره تطبیقی 63
5-2-1. پیکره تطبیقی مورد استفاده 63
پیکره تطبیقی فارسی – انگلیسی دانشگاه تهران (UTPECC) 63
پیکره تطبیقی گرفته شده از مقالات ویکی پدیا 65
5-2-2. پارامترهای تنظیم شده و ابزار مورد استفاده 66
انتخاب جفت جملات کاندید: 66
انتخاب جفت جملات موازی: 68
بالا بردن دقت جفت جملات استخراج شده: 69
5-2-3. ارزیابی جملات موازی استخراج شده با استفاده از ماشین ترجمه 69
5-3. نتیجه گیری 72
5-4. پیشنهادات آینده 75
فهرست جداول
عنوان صفحه
جدول 5-1. مجموعه ویژگی‌ها 59
جدول 5-2. ارزیابی مجموعه ویژگی‌ها 59
جدول 5-3. حساسیت کارآیی طبقه‌بند به دامنه داده‌های آموزشی و آزمایشی 61
جدول 5-4. کارآیی طبقه‌بند در برابر داده‌های آزمایشی و آموزشی با دامنه‌های مختلف 62
جدول 5-5. شرح پیکره‌های آموزشی مورد استفاده در هر اجرا 70
جدول 5-6. نمره بلوی به دست آمده به ازای پیکره‌های آموزشی متفاوت 71
جدول 5-7. نمره بلوی به دست آمده به ازای پیکره‌های آموزشی متفاوت 72
جدول 5-8.ارزیابی ماشین‌ترجمه ساخته شده با پیکره‌های آموزشی متفاوت در قالب نرخ n-gram‌ های مشترک 72
فهرست شکل‌ها
عنوان صفحه
شکل 1-1. دسته‌بندی روش‌های ترجمه ماشینی 3
شکل 2-1. نمونه‌ای از دو متن همتراز شده در سطح جمله 20
شکل 2-2. همترازی لغوی بین دو جمله فارسی و انگلیسی در شکل گراف دو بخشی 21
شکل 2-3. همترازی لغوی بین دو جمله فارسی و انگلیسی در شکل جدول همترازی 21
شکل 2-4. مثالی از نحوه محاسبه نمره TER 25
شکل 4-1. شمای کلی مدل تولید پیکره موازی از روی پیکره تطبیقی 40
شکل 4-2. کلمات مشترک بین دو جمله فارسی و انگلیسی 41
شکل 4-3. الگوریتم یافتن نرخ کلمات مشترک 47
شکل 4-4. همترازی در سطح کلمه بین دو جمله غیرموازی 52
شکل 4-5. همترازی در سطح کلمه بین دو جمله موازی 53
شکل 4-6. فرآیند ارزیابی جفت جملات موازی استخراج شده 56
شکل 5-1. نمونه‌ای از سه سند خبری جفت شده در پیکره تطبیقی فارسی-انگلیسی دانشگاه تهران 64
شکل 5-2. کلمات پرتکرار انگلیسی 67
فصل اول
مقدمه
مقدمه
مقدمه
به دلیل افزایش ارتباطات متقابل منطقه‌ای و نیاز برای تبادل اطلاعات، تقاضا برای ترجمه زبان بسیار افزایش یافته است. بسیاری از نوشتجات نیاز به ترجمه دارند از جمله مستندات علمی و فنی، دستورالعمل‌های راهنما، مستندات حقوقی، کتاب‌های درسی، بروشورهای تبلیغاتی، اخبار روزنامه‌ها و غیره؛ که ترجمه برخی از آنها سخت و چالش برانگیز است اما اکثرا خسته کننده و تکراری هستند و در عین حال به انسجام و دقت نیاز دارند. برآوردن نیازهای روز افزون ترجمه برای مترجمان حرفه‌ای دشوار است. در چنین موقعیتی ترجمه ماشینی می‌تواند به عنوان یک جایگزین به کار گرفته شود.
ترجمه ماشینی بعد از 65 سال یکی از قدیمی‌ترین کاربردهای کامپیوتر است. در طول سال‌ها، ترجمه ماشینی مرکز توجه تحقیقات زبان‌شناسان، روان‌شناسان، فیلسوفان، دانشمندان و مهندسان علم کامپیوتر بوده است. اغراق نیست اگر بگوییم کارهای جدید در حوزه ترجمه ماشینی، به طور قابل ملاحظه‌ای در توسعه زمینه‌هایی نظیر زبان شناسی رایانه‌ای، هوش مصنوعی و پردازش زبان‌های طبیعی برنامه‌گرا، مشارکت کرده است.
ترجمه ماشینی را می‌توان به این صورت تعریف کرد: “ترجمه از یک زبان طبیعی (زبان مبدأ) به زبان دیگر (زبان مقصد) با استفاده از سیستم‌های کامپیوتری شده و به همراه یا بدون کمک انسان”. کار پژوهشی در حوزه ترجمه ماشینی به هدف بزرگ ترجمه تمام خودکار با کیفیت بالا (قابل نشر) محدود نمی‌شود. غالبا ترجمه‌های ناهموار برای بازبینی موضوعات خارجی کافی است. تلاش‌های اخیر، در جهت ساخت کاربردهای محدودی در ترکیب با تشخیص گفتار به خصوص برای دستگاه‌های دستی می‌باشند. ترجمه ماشینی می‌تواند به عنوان پایه‌ای برای ویرایش‌های بعدی به کار گرفته شود، مترجم‌ها معمولا با ابزارهایی نظیر حافظه‌های ترجمه که از فناوری ترجمه ماشینی استفاده می‌کنند اما آنها را در کنترل خود قرار می‌دهند، استفاده می‌کنند.
ترجمه ماشینی یکی از حوزه‌های پژوهشی «زبانشناسی رایانه‌ای» است. تا کنون روش‌های مختلفی جهت خودکار کردن ترجمه ابداع شده است، که در نوشتجات حوزه ترجمه ماشینی به صورت‌های مختلفی دسته‌بندی شده‌اند. شکل 1-1 انواع روش‌های ترجمه ماشینی موجود را در قالب دسته‌بندی که در [1] آمده است نشان می‌دهد.
دسته‌بندی روش‌های ترجمه ماشینی
ترجمه ماشینی مبتنی بر فرهنگ لغت1
این نوع ترجمه ماشینی مبتنی بر مدخل‌های فرهنگ لغت است؛ و در آن از معادل کلمه جهت تولید ترجمه استفاده می‌شود. اولین نسل ترجمه ماشینی (از اواخر دهه 1940 تا اواسط دهه 1960) کاملا بر مبنای فرهنگ لغت‌های الکترونیک بودند. این روش همچنان تا حدی در ترجمه عبارات و نه جملات مفید است. اکثر روش‌هایی که بعدا توسعه داده شدند کم یا بیش از فرهنگ لغات دوزبانه بهره می‌گیرند [1].
ترجمه ماشینی مبتنی بر قانون2
ترجمه ماشینی مبتنی بر قانون با اطلاعات ریخت شناسی، نحوی و معنایی زبان‌های مبدأ و مقصد سر و کار دارد. قوانین زبانی از این اطلاعات ساخته می‌شوند. این روش می‌تواند با پدیده‌های مختلف زبانی مقابله کند و قابل گسترش و قابل نگهداشت است، اما استثنائات موجود در دستور زبان مشکلاتی به این سیستم می‌افزاید. همچنین فرآیند پژوهشی آن نیاز به سرمایه‌گذاری زیادی دارد. هدف ترجمه ماشینی مبتنی بر قانون تبدیل ساختارهای زبان مبدأ به ساختارهای زبان مقصد است. این روش رویکردهای مختلفی دارد.
رویکرد مستقیم3: کلمات زبان مبدأ بدون عبور از یک نمایش میانی ترجمه می‌شوند. در این روش به بستر متن، معنی و دامنه توجه نمی‌شود.
رویکرد انتقالی4: مدل انتقالی متعلق به نسل دوم ترجمه ماشینی است (از اواسط دهه 1960 تا دهه 1980). در این

متن کامل پایان نامه فوق در سایت sabzfile.com موجود است

You may also like...

Add a Comment