مقاله درمورد پیکره موازی، ترجمه ماشینی، سازمان ملل متحد

و چند نمونه از معیارهای ارزیابی ترجمه ماشینی مانند BLEU، NIST، WER و TER شرح داده می‌شوند.
فصل سوم: مروری بر تحقیقات انجام شده
ساخت پیکره موازی یکی از مهمترین مباحث در حوزه ترجمه ماشینی است. از اینرو تا کنون کارهای زیادی در این شاخه از ترجمه ماشینی انجام شده است که هر کدام سعی داشته‌اند قدمی هر چند کوتاه برای غلبه بر چالش بزرگ کمبود متون موازی بردارند. برخی از کارها سعی بر تولید پیکره موازی از متون ترجمه شده مانند کتاب‌های دوزبانه، کتابچه‌های راهنما، متون حقوقی و شرح مذاکرات پارلمانی اروپا و غیره دارند. اما اینگونه منابع محدود هستند؛ از اینرو در سالهای اخیر محققان بر استخراج متون موازی از متون دوزبانه موجود در وب و یا پیکره‌های تطبیقی تمرکز دارند. در این فصل کارهای پیشین انجام شده از هر کدام از روش‌های ساخت پیکره مانند ساخت پیکره موازی از متون همراه با ترجمه، استخراج جملات موازی از وب و استخراج جملات موازی از پیکره‌های تطبیقی، آورده می‌شود. در پایان نیز کارهایی که رویکرد مشابهی با رویکرد این رساله دارند و از طبقه‌بند آنتروپی بیشینه برای استخراج جملات موازی استفاده کرده‌اند، به طور مفصل تری شرح داده می‌شوند.
فصل چهارم: مدل پیشنهادی
مدل پیشنهادی این رساله برای استخراج جملات موازی از پیکره‌های تطبیقی شامل سه مرحله اصلی است. مرحله اول مربوط است به انتخاب جفت جملاتی که کاندید موازی بودن هستند. این کار توسط دو فیلتر طول جمله و تعداد کلمات مشترک انجام می‌شود. مرحله دوم عبارت است از انتخاب و تشخیص جفت جملات موازی از روی جفت جملات کاندید. تشخیص جفت جملات موازی از جفت جملات غیرموازی توسط طبقه‌بند آنتروپی بیشینه انجام می‌شود. سپس مجموعه‌ای از ویژگی‌های یک جفت جمله که برای طبقه‌بند آنتروپی بیشینه در نظر گرفته شده‌اند، شرح داده می‌شوند. در مرحله سوم دقت پیکره موازی ساخته شده نهایی با از استفاده از معیار TER افزایش داده می‌شود. در بخش پایانی فصل، نحوه ارزیابی مدل ارائه شده شرح داده می‌شود.
فصل پنجم: ارزیابی و نتیجه گیری
ارزیابی‌ها در دو بخش اصلی ارزیابی طبقه‌بند آنتروپی بیشینه و ارزیابی جفت جملات موازی استخراج شده آورده می‌شوند. در بخش ارزیابی طبقه‌بند آنتروپی بیشینه ابتدا ویژگی‌های معرفی شده ارزیابی شده و میزان تأثیر گذاری آنها بر کارآیی طبقه‌بند سنجیده می‌شود. سپس مسئله حساسیت طبقه‌بند به دامنه متون به کار رفته در داده‌های آموزشی و آزمایشی بررسی می‌شود.
در بخش دوم، برای ارزیابی جفت جملات موازی استخراج شده از ماشین ترجمه آماری «موزز» استفاده می‌کنیم. تنظیمات انجام شده برای ماشین ترجمه و ارزیابی جفت جملات در این بخش شرح داده می‌شوند.
فصل دوم
مبانی نظری

مبانی نظری
پیکره12
پیکره، مجموعه‌ای است از مواد متنی یا گفتاری که بر اساس مجموعه مشخصی از معیارهای از پیش تعیین شده گردآوری شده است. پیکره قابل خوانش توسط ماشین است به عبارتی دیگر دیجیتالی است، دامنه مشخصی دارد و محدود (دارای نهایت) است. پیکره برای پژوهش‌های زبانی مورد استفاده قرار می‌گیرد. از آنجایی که در این پژوهش کاربردهای متنی ترجمه ماشینی مدنظر است، منظور از پیکره، پیکره متنی می‌باشد؛ اما از این پس جهت سهولت تنها از لفظ پیکره به جای پیکره متنی استفاده می‌کنیم.
پیکره مجموعه‌ای نظام‌مند از متون است. منظور از «نظام‌مند» بودن این است که ساختار و محتوای پیکره از اصول نمونه گیری معینی پیروی می‌کنند؛ یعنی اصولی که تعیین می‌کند پیکره شامل چه متن‌هایی باشد. همچنین نظام‌مند بودن به این معنی است که اطلاعات پیکره در ترکیب درست و مشخصی در دسترس پژوهشگران قرار می‌گیرد.
به منظور استفاده بهتر از پیکره در حوزه پردازش زبان‌های طبیعی، یک پیکره می‌تواند حاشیه نویسی شده باشد. حاشیه نویسی یعنی افزودن برخی اطلاعات به پیکره، مانند اطلاعات در مورد نقش کلمات، ریشه کلمات، ساختار یا تجزیه نحوی جملات و … . برخی پیکره‌ها کاملا تجزیه شده و حاشیه گذاری می‌شوند که به این نوع پیکره‌ها بانک درختی گفته می‌شود.
پیکره‌های متنی می‌توانند تک زبانه، دوزبانه و یا چند زبانه باشند. در پیکره‌های تک زبانه متون تنها به یک زبان نوشته می‌شوند. از این نوع پیکره‌ها (که معمولا حاشیه نویسی شده‌اند) در بازیابی اطلاعات، یافتن نقش کلمه، رفع ابهام معنایی، مدل سازی زبانی و غیره استفاده می‌شود. پیکره‌های دوزبانه و چندزبانه نیز به ترتیب شامل متونی در دو و بیش از دو زبان هستند. از این پیکره‌ها در بازیابی اطلاعات صلیبی و مقایسه نظیر به نظیر استفاده می‌شود. پیکره‌های دو یا چند زبانه به طور خاص در رویکردهای ترجمه ماشینی مبتنی بر پیکره استفاده می‌شوند. در برخی از نوشتجات، پیکره دوزبانه به عنوان پیکره موازی قلمداد می‌شود. دو نوع برجسته از پیکره‌های دو یا چند زبانه عبارتند از پیکره موازی و پیکره تطبیقی، که در ادامه معرفی می‌شوند.
پیکره موازی13
پیکره موازی عبارتست از پیکره‌ای شامل متونی به یک زبان و ترجمه آنها در یک یا چند زبان دیگر. پیکره موازی می‌تواند دوزبانه و یا چند زبانه باشد. با این حال به دلیل اینکه اغلب پیکره‌های موازی دوزبانه هستند، در برخی نوشتجات به پیکره موازی، پیکره دوزبانه یا متن دوزبانه نیز گفته می‌شود. یک پیکره موازی جهت اینکه بتواند در ترجمه ماشینی استفاده شود باید در سطح جمله همتراز شده باشد، یعنی باید جملات هم‌ترجمه با هم جفت شده باشند؛ که به آن «پیکره موازی همترازشده» گفته می‌شود. همتراز کردن جملات پیکره موازی پیش نیاز لازم برای بسیاری از حوزه‌های پردازش زبان طبیعی و به خصوص ترجمه ماشینی است. از آنجا که پیکره‌های موازی اکثرا در قالب ترازبندی شده به کار می‌روند، اغلب و نیز در ادامه این رساله، منظور از پیکره موازی همان پیکره موازی همترازشده می‌باشد.
تا کنون پیکره‌های موازی زیادی برای جفت زبان‌های مختلف تولید شده است. اما همچنان به حجم بیشتری از متون موازی نیاز است. OPUS [16] مجموعه‌ای روبه‌رشد از پیکره‌های موازی آزاد است. در پروژه OPUS داده‌های برخط رایگان جمع آوری می‌شوند و سپس بصورت خودکار پیش پردازش و حاشیه نویسی می‌شوند و در نهایت به صورت یک بسته با محتوای آزاد در اختیار عموم قرار می‌گیرند. Europarl [5] یکی از معروفترین پیکره‌های موازی موجود در OPUS است. این پیکره موازی از گزارشات پارلمانی اروپا استخراج شده است و شامل 21 زبان اروپایی است. این پیکره به هدف تولید متون همتراز شده در سطح جمله و بهبود ترجمه ماشینی آماری ساخته شده است. پیکره سازمان ملل متحد نیز پیکره‌ای موازی و شش زبانه است. این پیکره موازی از قطعنامه‌های مجمع عمومی سازمان ملل متحد گرفته شده است و در سطح پاراگراف همتراز شده است. پیکره قطعنامه‌های مجمع عمومی سازمان ملل متحد به صورت آزاد در دسترس همگان قرار دارد.
تعداد کمی پیکره موازی انگلیسی-فارسی وجود دارد، که به شیوه‌های مختلفی تولید شده‌اند و در اندازه و دامنه‌ای که پوشش می‌دهند متفاوتند. پیکره موازی Shiraz [17] اولین تلاش گزارش شده برای توسعه پیکره انگلیسی-فارسی است. این پیکره شامل 3000 جمله فارسی است که از پیکره فارسی شامل مواد برخط جمع آوری شده است و بصورت دستی توسط دانشگاه ایالت نیومکزیکو به انگلیسی ترجمه شدند تا سیستم ترجمه ماشینی Shiraz را آزمایش کنند. برخی تلاش‌ها در توسعه ترجمه ماشینی انگلیسی-فارسی گفتار به گفتار برای نیروی حفاظت ارتش و فوریت‌های پزشکی با پشتیبانی آژانس پروژه‌های تحقیقاتی پیشرفته دفاعی (DARPA) انجام شد. پیکره مورد استفاده در این کارها از پیکره‌های موجود برای زبان‌های دیگر (مثلا انگلیسی-عراقی) جمع آوری شده و یا از منابع محدود به دامنه‌ای خاص مانند راهنماهای زبان و یا ترجمه‌های دستی پزشکی می‌باشند [18]. قاسمی زاده و رحیمی تلاش‌هایی برای ساخت پیکره چندزبانه موازی برای زبان فارسی در فریم ورک MULTEXT-East انجام دادند [19]. آنها از کتاب 1984 اورول به عنوان متن اصلی برای ساخت پیکره استفاده کردند. طرف فارسی زبان پیکره تقریبا از 6606 جمله و 110000 نشانه تشکیل شده است.
محقق و صراف زاده [20] یک پیکره باز از زیرنویس فیلم‌ها توسعه دادند که حدودا شامل 10000 جفت جمله است. از طرفی دیگر پیلوار و همکاران [10] از مزایای زیرنویس فیلم‌ها برای تشکیل TEP بزرگترین پیکره موازی انگلیسی-فارسی تا به امروز، بهره بردند. که اکنون شامل 612086 جفت جمله و حدود چهار میلیون کلمه در هر دو زبان انگلیسی و فارسی است. اگرچه آنها پذیرفته‌اند که زیرنویس فیلم‌ها شامل مکالمات روزانه که محاوره‌ای و غیر رسمی اند، هستند و در نتیجه نمی توانند به راحتی بصورت خودکار تفسیر شوند. این امر قابلیت استفاده این پیکره را در برنامه‌های کاربردی پردازش زبان‌های طبیعی فارسی محدود می‌کند.
فرجیان [21] نیز از منابع خبری قابل دسترس بصورت آنلاین، استفاده کرد و PEN، پیکره همتراز شده در سطح جمله را بطور نیمه خودکار ساخت. این پیکره حدود 30000 جفت جمله همتراز شده دارد. جباری و همکاران [22] با ادغام چندین پیکره شامل پیکره استخراج شده از اخبار یک سایت خبری چند زبانه (شامل زبان فارسی و انگلیسی)، پیکره تشکیل شده از زیرنویس‌های فیلم موجود در یک وب سایت، سه پیکره که بصورت دستی ترجمه شدند و همچنین دو پیکره موجود PEN و ELRA به همراه 20000 نام نویسه گردانی شده، پیکره بزرگ AFEC را به‌اندازه 700 میلیون خط تولید کردند.
به عنوان آخرین نمونه، انجمن منابع زبان اروپا (ELRA) یک پیکره – که بصورت تجاری از طریق وب در دسترس است- شامل حدود 3500000 کلمه در زبان فارسی و انگلیسی ایجاد کرد که در سطح جمله همتراز شده، و شامل حدود 100000 جمله توزیع شده در بین 50021 مدخل است. این پیکره ترکیبی است از چندین دامنه متفاوت شامل هنر، فرهنگ، اصطلاحات، قانون، ادبیات، پزشکی، شعر، سیاست، ضرب المثل، مذهبی و علمی.
پیکره تطبیقی14
پیکره تطبیقی نوعی پیکره دو یا چند زبانه است و شامل متونی مشابه در بیش از یک زبان می‌باشد. مشابهت متون می‌تواند انواع مختلفی داشته باشد. به طور مثال متون می‌توانند از نظر شباهت محتوا، ژانر، دامنه و دوره‌های نمونه گیری قابل تطبیق (قابل مقایسه) باشند. متون یک پیکره تطبیقی ترجمه همدیگر نیستند، بلکه قابل مقایسه بودن آنها به خاطر چارچوب نمونه گیری و توازن یکسانشان است. برای پیکره تطبیقی تعاریف مختلفی آمده است که در زیر به دو نمونه اشاره می‌شود:
یک پیکره تطبیقی مجموعه‌ای از متن‌هاست که به طور جداگانه در زبان‌های مربوطه ساخته شده‌اند و بر پایه شباهت محتوی ترکیب شده‌اند. این‌ها مستنداتی از یک به چند زبان هستند که از نظر شکل و محتوی در ابعاد و درجات مختلف قابل مقایسه هستند [23].
پیکره تطبیقی عبارتست از یک جفت پیکره تک زبانه در دو زبان مختلف، که از دامنه‌های مشابهی هستند.
پیکره‌های تطبیقی در کاربردهای آماری پردازش زبان‌های طبیعی به عنوان داده‌های آموزشی استفاده می‌شوند، کاربردهایی مانند ترجمه ماشینی آماری و یا بازیابی اطلاعات صلیبی. همچنین پیکره تطبیقی در حوزه زبانشناسی، کشفیات و مقایسه‌های بین زبانی را ممکن می‌سازد.
دسترسی به پیکره‌های تطبیقی نسبت به پیکره‌های موازی بسیار آسان‌تر است چراکه منابع برای متون اصلی و تک زبانه خیلی بیشتر از متون ترجمه شده است. منابع بالقوه برای پیکره‌های تطبیقی، آژانس‌های خبری چندزبانه مانند AFP و BBC و …، و یا دایره المعارف‌های چندزبانه مانند ویکی پدیا و Encarta هستند. برخی از این پیکره‌های تطبیقی به طور گسترده از طریق LDC در دسترس هستند.
همترازی15
همترازی

متن کامل پایان نامه فوق در سایت sabzfile.com موجود است

You may also like...

Add a Comment