مقاله درمورد میزان استفاده، اجرای برنامه، پیکره موازی

کلمات انگلیسی از ابزار پردازش صرفی کلمات انگلیسی به نام morph استفاده می‌کنیم، که پسوندها، پیشوندها و میانوند‌ها را از کلمه حذف می‌کند.
کلمات پرتکراری که از جمله انگلیسی حذف می‌شوند در شکل 5-2 آمده‌اند:
کلمات پرتکرار انگلیسی
دیکشنری مورد استفاده، انگلیسی به فارسی بوده و ترکیبی از سه دیکشنری است: (1) دیکشنری آرین پور (قسمت انگلیسی به فارسی همراه با ویرایش) (2) یک دیکشنری موجود در وب (3) استخراج عناوین صفحات ویکی پدیای پیمایش شده. دیکشنری ترکیبی نهایی شامل بیش از 80 هزار مدخل می‌باشد. همچنین در تلاشی دیگر یک API از google translate را مورد استفاده قرار دادیم تا ترجمه کلماتی که در دیکشنری نیستند را از این طریق بیابیم. اما به دلیل بالا بردن زمان اجرای برنامه در آزمایش نهایی استفاده نشد.
فیلتر طول جمله با توجه به الگوریتم ارائه شده توسط گیل و چرچ [30] انجام شد. برای این کار از پیکره موازی میزان استفاده کردیم. و میانگین و واریانس نسبت طول جفت جملات پیکره را محاسبه کردیم. میانگین نسبت طول جملات فارسی به طول جملات انگلیسی پیکره میزان برابر است با 948/0 و واریانس این مقادیر برابر است با 125/0. به این معنا که نسبت طول دو جمله موازی اغلب در بازه (823/0 تا 073/1) قرار می‌گیرد. جفت جملاتی که نسبت طولشان در این بازه قرار نگیرد فیلتر می‌شوند.
به دلیل کوتاه بودن بازه به دست آمده و اینکه در این مرحله بازخوانی بالا مهم‌تر از دقت بالا است، در نهایت از حد آستانه 5/0 استفاده شد. یعنی نسبت طول جمله کوچکتر به طول جمله بزرگتر نباید از نصف کمتر باشد.
حد آستانه فیلتر کلمات مشترک را 25% قرار دادیم. به این معنا که جفت جملاتی که تعداد کلمات مشترکشان کم‌تر از این حد آستانه باشد فیلتر می‌شوند.
اگر تعداد کلمات جمله انگلیسی را N_en، تعداد کلمات جمله فارسی را N_fa، تعداد کلمات پرتکرار حذف شده از جمله را N_stop، تعداد کلمات مشترک یافت شده را N_(word-overlap) و نرخ کلمات مشترک را Score بگیریم. نرخ کلمات مشترک از فرمول زیر به دست می‌آید:

متن کامل پایان نامه فوق در سایت sabzfile.com موجود است

You may also like...

Add a Comment