مقاله درمورد پیکره موازی، بازیابی اطلاعات، مدل پیشنهادی

شوند. جملات نامزد بر اساس میزان اشتراک کلمه تعیین شده و تصمیم گیری برای اینکه یک جفت جمله موازی هستند یا نه، توسط طبقه‌بند حداکثر آنتروپی که با جملات موازی آموزش داده شده صورت می‌گیرد. برای بدست آوردن نتایج بهتر، با استفاده از رویکرد خودراه‌اندازی، اندازه لغت نامه دوزبانه مکررا در حال افزایش است.
کار Eisele و Xu [42] را می‌توان نام برد، که در چارچوب پروژه ACCURAT کار می‌کنند. هدف آن، تحلیل و ارزیابی روش‌های نوین در استخراج پیکره‌های تطبیقی، و همچنین ارزیابی برخی روش‌های ارائه شده پیشین می‌باشد. مقصود فراهم کردن نسخه‌های دوباره پیاده سازی شده از روش‌های پایه‌ای مختلف برای محققان است. تمرکز تحقیقات این پروژه بر روی هجده جفت زبان اروپایی کم منبع است.
عبد الرئوف و اسچونک در سال 2011 [24]، از پیکره LDC Gigaword به عنوان پیکره تطبیقی استفاده کردند. این پیکره شامل متن‌هایی از آژانس‌های خبری چند زبانه است. آنها جمله زبان مبدا را توسط یک ماشین ترجمه آماری، ترجمه کرده و سپس آن را به عنوان کوئری به موتور بازیابی اطلاعات (IR) می‌دهند. در فرآیند IR نیز 5 جمله با نمره بالاتر، از مستندات زبان مقصد (که در بازه زمانی a±5 روز هستند) برگردانده می‌شوند. سپس جمله‌های جفت شده از یک سری فیلتر‌ها عبور داده می‌شوند تا میزان مشابهت بین ترجمه ماشین آماری و جمله‌های بازیابی شده‌اندازه گیری شود. در نهایت جفت جمله‌ها بر مبنای نمره مشابهت به عنوان موازی یا غیر موازی طبقه‌بندی می‌شوند. گیل و چرچ [25] برنامه همترازیشان را بر مبنای این حقیقت قرار دادند که جملات طولانی تر/کوچک‌تر در یک زبان به جملات طولانی تر/کوتاه‌تر در زبان دیگر ترجمه می‌شوند. اما مشاهدات عبد الرئوف و اسچونک [24] نشان داد که این فیلتر در هنگامی که اختلاف طول دو جمله خیلی زیاد است درست عمل نمی کند. آنها از سه فیلتر WER (فاصله لون اشتاین )، TER [29] و TERp [30] استفاده کردند. WER تعداد عملیات مورد نیاز برای تبدیل یک جمله به جمله دیگر را اندازه می‌گیرد که این عملیات عبارتند از درج، حذف، جایگزینی. TER همان عملیات WER را دارد به اضافه عمل شیفت و TERp نیز همه عملیات TER را دارد به اضافه سه عملیات جدید: تطابق ریشه، تطابق معنایی و جایگزینی عبارت.
تشخیص جملات موازی با استفاده از طبقه‌بند آنتروپی بیشینه
از میان کارهایی که در آنها از طبقه‌بند آنتروپی بیشینه برای رسیدن به این هدف استفاده شده است می‌توان به موارد زیر اشاره کرد:
مانتیانو و همکاران در [43] تلاش می‌کنند تا جملات موازی را از پیکره‌های تطبیقی خبری استخراج کنند. طبقه‌بند آنتروپی بیشینه قسمت اصلی کار آنهاست. آنها ابتدا تمام جملات هر دو مقاله خبری مشابه را با یکدیگر جفت کردند و سپس این جفت جملات را از فیلتر طول کلمه و فیلتر کلمات مشترک عبور دادند. به این معنی که نسبت طول هر جفت جمله باید کمتر از 2 باشد و حداقل نیمی از کلمات جمله مبدأ ترجمه‌ای در جمله مقصد داشته باشند. آنها از ویژگی‌های عمومی جمله‌ها و همچنین ویژگی‌های مبتنی بر همترازی در سطح کلمه بین دو جمله برای تشخیص موازی بودن یا غیر موازی بودن دو جمله استفاده کردند. آنها برای آموزش طبقه‌بند آنتروپی بیشینه از دو پیکره موازی 5000 جمله‌ای که یکی از داده‌های «در دامنه» و دیگری «خارج از دامنه» است استفاده کردند. داده‌های آزمایشی آنها نیز شامل 7000 جمله خارج از دامنه است.
نتایج ارزیابی‌های آنها از طبقه‌بند آنتروپی بیشینه نشان داد که طبقه‌بندی که با داده‌های در دامنه آموزش داده شده، دقت بالایی به دست می‌آورد و این به خاطر کیفیت بالای داده‌های در دامنه است. از طرف دیگر میزان بازخوانی برای طبقه‌بندی که با داده‌های مشابه داده‌های آزمایشی یعنی داده‌های خارج از دامنه آموزش داده شده، بسیار بالا است. آنها از ارزیابی‌ها دریافتند که 99% کارآیی طبقه‌بند آنتروپی بیشینه از ویژگی‌های عمومی به همراه ویژگی‌های مربوط به درصد کلماتی که در همترازی در سطح کلمه اتصالی نداشته‌اند، به دست می‌آید. اما آنها اظهار داشتند برای داده‌های واقعی مانند جملات ورودی طبقه‌بند آنها که از پیکره‌های تطبیقی به دست می‌آید تفاوت بین جملات موازی و غیر موازی خیلی واضح نیست، بنابراین باید از دیگر ویژگی‌های مربوط به همترازی در سطح کلمه یک جفت جمله نیز استفاده کرد.
منصوری و فیلی نیز در [8] تلاشی برای ساخت یک پیکره موازی داشته‌اند. آنها برای ساخت پیکره موازی از کتاب‌های دوزبانه انگلیسی-فارسی استفاده کردند. این کتاب‌ها در مرحله اول از فرمت پی دی اف به فرمت متن با یونیکد UTF-8 در می‌آیند، سپس بر اساس فصل از هم جدا می‌شوند. در مرحله بعد فاصله بین کلمات تعیین و تصحیح می‌شوند و در نهایت مرحله شکستن متن به جملات، که جهت تعیین مرز بین جملات از ابزار OpenNLP استفاده می‌کنند. روشی که آنها برای همترازی در سطح جمله به کار گرفتند، ترکیبی از روش‌های برپایه طول و روش‌های مبتنی بر کلمات مرتبط است. آنها اظهار داشتند که جملات همتراز شده در این سطح شامل برخی خطاها بوده و نویزی هستند. سپس برای فیلتر کردن این جملات نویزی از طبقه‌بند آنتروپی بیشینه استفاده کردند. آنها ویژگی‌های عمومی یک جفت جمله را در نظر گرفتند و همچنین احتمال ترجمه با میانگین هندسی به دست آمده از آی بی ام مدل 1 را به عنوان ویژگی به کارگرفتند. آنها علاوه بر نسبت تعداد کلمات همتراز نشده هر کدام از جمله‌های مبدأ و مقصد به طول جمله، از نسبت تعداد کلمات همتراز نشده هر کدام از جمله‌های مبدأ و مقصد به ضرب طول جمله مبدأ در طول جمله مقصد نیز استفاده کردند. آنها در ارزیابی طبقه‌بند آنتروپی بیشینه از چهار مجموعه داده آزمایشی شامل 400 جمله استفاده کردند و به دقت و بازخوانی بالایی دست یافتند.
کافمن در [44] برای تشخیص جملات موازی و جملات غیر موازی، یک طبقه‌بند آنتروپی بیشینه پیاده سازی شده با جاوا به نام «JMaxAlign» ارائه می‌دهد. او از مجموعه ویژگی‌هایی که در [43] آمده است استفاده می‌کند و ادعا می‌کند فیلترهایی که آنها برای ورودی طبقه‌بند آنتروپی بیشینه به کار می‌برند در حقیقت باعث می‌شود طبقه‌بند نمونه‌های خوبی را برای آموزش از دست بدهد. او میزان شباهت زبان‌های به کار رفته را بررسی کرد و نشان داد که در جفت زبان‌هایی که از نظر زبانی به هم نزدیکترند معیار F بالاتری به دست می‌آید. او همچنین نشان داد که دامنه داده‌های آموزشی و آزمایشی تأثیر زیادی بر کیفیت طبقه‌بند آنتروپی بیشینه دارد، و هنگامی که دامنه داده‌های آموزشی و آزمایشی مشابه باشند معیار F بسیار بیشتر می‌شود.
چو و همکاران در مقاله‌ای که در سال 2013 ارائه دادند [45]، جفت جملات موازی چینی–ژاپنی را از پیکره شبه تطبیقی استخراج می‌کنند. آنها کار مانتیانو و همکاران را توسعه می‌دهند با این تفاوت که پیکره مورد استفاده برای استخراج جملات شبه تطبیقی است. قسمت اصلی کار آنها طبقه‌بند آنتروپی بیشینه است. آنها ادعا می‌کنند که فرآیند یادگیری و آزمایش طبقه‌بند که در کار پیشین استفاده شده، واقعی نیست زیرا از ضرب کارتزین برای جفت کردن جملات استفاده می‌کنند. آنها علاوه بر آن چند ویژگی که مختص کاراکترهای مشترک بین زبان چینی و ژاپنی هستند را به طبقه‌بند اضافه کردند.
فرآیند استخراج جملات موازی به کار رفته در چهار مرحله انجام می‌شود: 1) جملات پیکره چینی با ماشین ترجمه، به ژاپنی ترجمه می‌شوند. 2) جملات ترجمه شده به عنوان کوئری در فرآیند بازیابی اطلاعات از پیکره ژاپنی مورد استفاده قرار می‌گیرند. 3) به ازای هر جمله ترجمه شده، بالاترین N سند بازگردادنده شده توسط چارچوب بازیابی اطلاعات را در نظر می‌گیرند. 4) جمله ترجمه شده مورد نظر را با تمام جملات موجود در N سند بازیابی شده جفت می‌کنند. 5) از فیلترهای طول کلمات و کلمات مشترک برای فیلتر کردن جفت جمله‌ها و تولید جفت جملات کاندید استفاده می‌کنند. 6) برای تشخیص جفت جملات موازی از بین جفت جملات کاندید، از طبقه‌بند آنتروپی بیشینه که با مقدار کمی جمله موازی آموزش داده شده، استفاده می‌کنند.
ساخت پیکره موازی انگلیسی – فارسی
برای جفت زبان فارسی-انگلیسی نیز تلاش‌هایی در جهت ساخت پیکره موازی صورت گرفته است، که پیشتر در بخش 2-1-1 به عنوان مثالی از پیکره‌های موازی فارسی–انگلیسی ذکر شدند. ذکر این نکته نیز ضروری است که تمام کارهای انجام شده برای جفت زبان فارسی–انگلیسی از متون همراه ترجمه برای ساخت پیکره موازی استفاده کرده‌اند، از جمله زیرنویس فیلم‌ها، کتاب‌های لاتین که کتاب ترجمه شده آنها نیز در دسترس است، کتابچه‌های راهنمای چند زبانه و سایت‌های خبری چند زبانه.
فصل چهارم
مدل پیشنهادی
مدل پیشنهادی
مقدمه
در این فصل می‌خواهیم مدلی کارآ برای تولید پیکره متنی موازی از روی پیکره متنی تطبیقی ارائه دهیم. این مدل از سه مرحله اصلی تشکیل شده است. شمای کلی این مدل در شکل 4-1 آمده است. مرحله اول، عبارت است از تولید جفت جمله‌هایی که برای موازی بودن کاندید هستند. در این مرحله، ابتدا تمام جفت جمله‌های ممکن از دو سند قابل تطبیق به دو زبان مبدأ و مقصد در نظر گرفته می‌شوند؛ سپس از بین آنها جفت جمله‌هایی که از «فیلتر نسبت طول دو جمله» و « فیلتر نرخ تعداد کلمات مشترک» بتوانند عبور کنند به عنوان جفت جمله‌های کاندید در نظرگرفته می‌شوند و به مرحله بعدی که انتخاب جفت جملات موازی است فرستاده می‌شوند. این کار باعث می‌شود جفت جملاتی که موازی نبودنشان نسبتا بدیهی است حذف شوند و در نتیجه دقت را بالا می‌برد. مرحله دوم، عبارت است از انتخاب جفت جمله‌های موازی از بین جفت جمله‌های کاندیدای موازی بودن. در این مرحله از یک طبقه‌بند آنتروپی بیشینه جهت طبقه‌بندی جفت جمله‌ها به دو دسته «موازی» و یا «غیر موازی» استفاده می‌شود. در نهایت برای بالا بردن دقت جملات استخراج شده، جملاتی که به این صورت موازی شناخته می‌شوند وارد مرحله سوم می‌شوند و از فیلتر «معیار TER» گذرانده می‌شوند. جفت جملاتی که بتوانند از این فیلتر عبور کنند، پیکره موازی را تشکیل می‌دهند. این سه مرحله اصلی از فرآیند کار در بخش‌های 4-2، 4-3 و 4-4 به تفصیل شرح داده می‌شوند.
شمای کلی مدل تولید پیکره موازی از روی پیکره تطبیقی
انتخاب جفت جملات کاندید موازی بودن
یک پیکره تطبیقی دوزبانه شامل سندهایی به دو زبان است که بر اساس معیارهایی از قبیل شباهت محتوا بر هم منطبق شده‌اند. در اینجا، همانطور که گفته شد بعد از اینکه ابتدا با ضرب کارتزین تمام جملات سندهای قابل تطبیق را در مقابل هم قرار دادیم، از دو فیلتر برای انتخاب جفت جملاتی که برای موازی بودن کاندید هستند استفاده می‌کنیم. اولین فیلتر حذف جفت جملاتی است که نسبت طول دو جمله آنها از یک مقدار بیشتر باشد؛ چرا که دو جمله هم‌ترجمه اغلب نسبت طولشان از یک مقدار مشخص بیشتر نمی شود. به عبارت دیگر اغلب جملات کوتاه ترجمه کوتاهی دارند و جملات طولانی نیز ترجمه طولانی دارند. این مقدار می‌تواند به طور دلخواه در نظر گرفته شود مانند [43] که در آن مقدار ثابت 2 را در نظر گرفتند، و یا می‌تواند بر اساس میانگین نسبت طول جفت جملات موازی در یک پیکره موازی در نظر گرفته شود [25]. بخش بعدی فیلتر کلمات مشترک و نحوه به دست آوردن آن را به طور مفصل شرح می‌دهد.
فیلتر کلمات مشترک22
در این فیلتر ابتدا کلمات هم‌ترجمه یا به عبارتی کلمات مشترک بین دو جمله مورد نظر شناسایی می‌شوند. نسبت تعداد این کلمات مشترک به تعداد کل کلمات جمله را «نرخ کلمات مشترک» می‌گوییم. به این معنا که می‌خواهیم ببینیم چند در صد از کلمات

تکه های دیگری از این پایان نامه را می توانید

در شماره بندی فوق بخوانید

متن کامل پایان نامه ها در سایت homatez.com موجود است

You may also like...

Add a Comment