مقاله درمورد دانشگاه تهران، پیکره موازی، مدل پیشنهادی

4
58/91
98/86
22/89
همانطور که از جدول 5-2 می‌توان دید هر کدام از مجموعه ویژگی‌های انتخاب شده تأثیر مثبتی در افزایش کارآیی طبقه‌بند آنتروپی بیشینه دارند، که این مفید بودن بودن تمام ویژگی‌های معرفی شده را می‌رساند. البته در این بین، مجموعه ویژگی 3 تأثیر بیشتری در افزایش کارآیی طبقه‌بند داشته است (به ترتیب 7.88%، 8.21% و 7.53% افزایش در معیارF، بازخوانی و دقت). ویژگی‌هایی که به این مجموعه ویژگی نسبت به مجموعه ویژگی قبلی اضافه شده‌اند، عبارتند از ویژگی‌های تعداد کلمات همتراز نشده در دو جمله و نسبت آنها به طول جمله.
نکته دیگر که می‌توان از جدول 5-2 برداشت کرد، میزان تأثیری است که ویژگی کلمات مشترک به تنهایی بر روی کارآیی طبقه‌بند دارد. گرچه ممکن است به نظر به رسد این ویژگی به نوعی در بین ویژگی‌های همترازی کلمه گنجانده شده است، اما این ارزیابی نشان می‌دهد استفاده از ویژگی کلمات مشترک بین دو جمله می‌تواند ویژگی خوبی برای تشخیص موازی یا غیر موازی بودن یک جفت جمله شود.
حساسیت به دامنه
ما در طول استفاده از طبقه‌بند آنتروپی بیشینه با داده‌های آزمایشی مختلف، متوجه شدیم که نتیجه طبقه‌بند به میزان زیادی به دامنه داده‌های آموزشی و آزمایشی بستگی دارد. جدول 5-3 کارآیی طبقه‌بند را در برابر سه مجموعه داده آزمایشی که از دامنه‌های متفاوتی هستند نشان می‌دهد.
داده‌های آزمایشی با عنوان «جمع آوری شده از وب» از متون دو زبانه موجود در وب گرفته شده است و شامل 150 جفت جمله موازی و 150 جفت جمله غیر موازی است. داده‌های آزمایشی با عنوان «بطور دستی ترجمه شده» شامل 500 جمله موازی و 500 جمله غیر موازی است که از ترجمه دستی متون تخصصی فنی به دست آمده‌اند. داده‌های آزمایشی تحت عنوان «میزان» شامل 5000 جمله موازی و 5000 جمله غیر موازی گرفته شده از پیکره میزان است. دامنه پیکره میزان ادبیات کلاسیک می‌باشد. داده‌های آموزشی در تمام موارد، شامل 190000 جفت جمله موازی از پیکره میزان است.
حساسیت کارآیی طبقه‌بند به دامنه داده‌های آموزشی و آزمایشی
داده آموزشی
داده آزمایشی
دقت
بازخوانی
معیار F
میزان
جمع آوری شده از وب
31/59
78/76
92/66
میزان
بطور دستی ترجمه شده
98/70
41/75
13/73
میزان
میزان
58/91
98/86
22/89
همانطور که جدول 5-3 نشان می‌دهد نتیجه طبقه‌بند آنتروپی بیشینه در برابر داده‌های آزمایشی با دامنه‌های متفاوت فرق می‌کند. برای داده‌های آزمایشی «میزان» که دامنه آن با دامنه داده‌های آموزشی یکسان است، دقت و بازخوانی بیشتر است. اما برای دو مجموعه داده آزمایشی دیگر که دامنه آنها متفاوت از دامنه داده‌های آموزشی است، دقت و بازخوانی به شدت افت کرده است. بنابراین می‌توان نتیجه گرفت هنگامی که دامنه داده‌های آموزشی با دامنه داده‌های آزمایشی مشابه است، کارآیی طبقه‌بند بالاتر می‌رود.
از جدول 5-3 می‌توان دید که دقت طبقه‌بند آنتروپی بیشینه برای داده‌های «بطور دستی ترجمه شده» بالاتر از دقت طبقه‌بند برای داده‌های آزمایشی «جمع آوری شده از وب» است و این به خاطر کیفیت بالای جملات ترجمه شده در مجموعه داده آزمایشی «بطور دستی ترجمه شده» است.
با توجه به حساسیت کارآیی طبقه‌بند به دامنه، در آزمایشی دیگر مقداری از داده‌هایی که از دامنه داده‌های آزمایشی هستند به داده‌های آموزشی اضافه شد. به عبارتی دیگر 15% از کل داده‌های آموزشی از دامنه داده‌های آزمایشی بوده و 85% از دامنه متفاوت هستند. حالت عکس نیز آزمایش شد، یعنی حالتی که 85% از داده‌های آزمایشی هم‌دامنه با داده‌های آزمایشی بوده و 15% در دامنه متفاوت هستند. در این آزمایش از دو پیکره موازی فارسی-انگلیسی «میزان» و «TEP» استفاده شد. دامنه پیکره موازی TEP مکالمات زیرنویس شده فیلم‌ها است که به زبان محاوره‌ای هستند. دامنه پیکره میزان نیز ادبیات کلاسیک است.
کارآیی طبقه‌بند در برابر داده‌های آزمایشی و آموزشی با دامنه‌های مختلف
داده آموزشی
داده آزمایشی
دقت
بازخوانی
معیارF
میزان
میزان
58/91
98/86
22/89
TEP
TEP
85/87
40/88
12/88
میزان
TEP
34/64
53/97
53/77
TEP
میزان
12/86
88/74
11/80
85% میزان+15% TEP
TEP
60/77
97/94
41/85
85% TEP+15%میزان
میزان
46/94
48/76
52/84
85% میزان+15% TEP
میزان
78/94
82/85
08/90
85% TEP+15%میزان
TEP
03/87
33/89
16/88
با توجه به جدول 5-4، دو سطر اول حالاتی را نشان می‌دهد که در آنها دامنه داده‌های آموزشی و آزمایشی مشابه هستند، می‌توان دید معیارF برای این دو حالت مقدار تقریبا یکسانی است، و این ثبات کارآیی طبقه‌بند را نسبت به مجموعه داده‌های متفاوت نشان می‌دهد. از طرفی دیگر سطر‌های دوم و سوم جدول 5-4 که در آن‌ها دامنه داده‌های آزمایشی و آموزشی کاملا متفاوت است، همان نتیجه‌گیری بدست آمده از جدول 5-3 را خاطر نشان می‌کنند. چرا که در اینجا نیز کارآیی از دید تمامی معیار‌ها به شدت افت داشته است.
سطرهای پنجم و ششم جدول 5-4 نشانگر حالاتی است که 85% از داده‌های آموزشی متفاوت با دامنه داده‌های آزمایشی و 15% مشابه داده‌های آزمایشی است. از مقایسه این حالت‌ها به ترتیب با سطرهای دوم و سوم جدول مشاهده می‌شود که دقت، بازخوانی و معیارF به میزان قابل توجهی افزایش یافته‌اند. این مقایسه ما را به یک نتیجه‌گیری مهم سوق می‌دهد. به عبارتی، در زمانی که می‌خواهیم با استفاده از طبقه‌بند، جملات موازی موجود در یک پیکره را شناسایی کنیم و در عین حال داده‌های آموزشی هم‌دامنه با این جملات به‌اندازه کافی دردسترس نیست (حالتی که اغلب اتفاق می‌افتد)، می‌توان با افزودن مقدار کمی از جملات موازی هم‌دامنه، کارآیی طبقه‌بند را افزایش داد. به معنای دیگر، می‌توان با انجام فرآیند شناسایی جملات موازی به‌صورت تکرار شونده رفته رفته کارآیی طبقه‌بند را بالا برد.
در سطرهای هفتم و هشتم جدول 5-4، 85% داده‌های آموزشی هم‌دامنه با داده‌های آزمایشی هستند و 15% از دامنه متفاوت هستند. از مقایسه این سطرها با سطرهای اول و دوم می‌توان مشاهده کرد که معیارF کمی افزایش داشته است. بنابراین می‌توان نتیجه گرفت که افزودن مقداری داده آموزشی متفاوت با دامنه داده‌های آزمایشی نیز در بالا بردن کارآیی مؤثر است.
تنظیمات و آزمایشات ساخت پیکره موازی از پیکره تطبیقی
پیکره تطبیقی مورد استفاده
پیکره تطبیقی مورد استفاده برای استخراج جفت جملات موازی بخش مهمی از مدل ارائه شده است. چرا که کیفیت و کمیت جفت جملات موازی استخراج شده به شدت به این پیکره بستگی دارد. در آزمایشات انجام شده از دو پیکره تطبیقی استفاده شد، پیکره تطبیقی فارسی–انگلیسی دانشگاه تهران (UTPECC) و مقالات ویکی پدیا که در ادامه بیشتر شرح داده می‌شوند.
پیکره تطبیقی فارسی – انگلیسی دانشگاه تهران (UTPECC)
پیکره تطبیقی فارسی-انگلیسی دانشگاه تهران (UTPECC) [50] از دو مجموعه اخبار متفاوت از دو مبدأ مجزا یعنی اخبار فارسی خبرگزاری همشهری و اخبار انگلیسی خبرگزاری بی‌بی‌سی ساخته شده است. همچنین برای هم‌ترازی اسناد این دو زبان، علاوه بر تاریخ انتشار اخبار، شباهت محتوای اسناد نیز در نظر گرفته شده است. شکل 5-1 نمونه‌ای از سندهای خبری جفت شده در این پیکره را نشان می‌دهد.
نمونه‌ای از سه سند خبری جفت شده در پیکره تطبیقی فارسی-انگلیسی دانشگاه تهران
مزیت استفاده از این پیکره، این است که سندهای مشابه بصورت جفت شده، آماده هستند و نیازی به پیدا کردن جفت سندهای مشابه نیست –در کار مانتیانو و همکاران [43] از دو پیکره خبری تک زبانه مجزا استفاده شد در نتیجه مرحله آغازین کار یافتن سندهای مشابه بود. همچنین در پیکره تطبیقی فارسی-انگلیسی دانشگاه تهران سندهای مشابه با یک نمره با یکدیگر همتراز شده‌اند که هرچه نمره همترازی بیشتر باشد نشان دهنده این است که همترازی مطمئن تری بین دو مقاله خبری وجود دارد.
اما از طرف دیگر این پیکره تطبیقی به منظور استفاده در بازیابی اطلاعات دوزبانه ساخته شده است و برای استخراج جفت جملات موازی از آن مناسب نیست. زیرا آزمایشات ما نشان داد حتی در جفت مقاله‌های خبری با نمره همترازی بالا به ندرت می‌توان جفت جملات هم‌ترجمه را یافت. به این دلیل که دو مقاله خبری مربوط به یک جفت سند همتراز شده، درباره یک رویداد مشترک صحبت می‌کنند اما نحوه بیان این رویداد بین دو خبرگزاری بسیار متفاوت است. از اینرو در آزمایشات اصلی از این پیکره استفاده نشد.
پیکره تطبیقی گرفته شده از مقالات ویکی پدیا
ویکی پدیا منبع وسیعی از مقالات در موضوع‌های متنوع و به زبان‌های مختلف است که به یکدیگر لینک داده شده‌اند. برای هر مقاله در ویکی پدیا چندین لینک تحت عنوان «به زبان‌های دیگر» وجود دارد که مقاله مورد نظر را به نسخه دیگری از همان موضوع اما در زبان‌های دیگر متصل می‌کنند. این ویژگی ویکی پدیا باعث می‌شود که منبع مهمی برای تهیه یک پیکره تطبیقی باشد؛ زیرا با در نظر گرفتن دو زبان خاص – در اینجا فارسی و انگلیسی – شامل جفت مقالاتی است که به دلیل یکسان بودن عنوان با یکدیگر جفت شده‌اند و محتوایشان مشابه یکدیگر است و یا حتی در برخی موارد بخشی از آنها ترجمه یکدیگر هستند.
ویکی پدیا در حال حاضر شامل بیش از 300 هزار مقاله به زبان فارسی و بیش از 4 میلیون مقاله به زبان انگلیسی است و همچنان در حال رشد است. به تعبیری دیگر می‌توان گفت ویکی پدیا منبع بی انتهایی از مقالات است، از اینرو پیکره تطبیقی ساخته شده از آن نیز بی انتها خواهد بود. این یک مزیت بزرگ برای غلبه بر مشکل کمبود جفت جملات موازی است.
ما از یک خرنده برای پیمایش صفحات ویکی پدیا استفاده کردیم. برای هر مقاله فارسی اگر لینکی به مقاله انگلیسی داشته باشد هر دو نسخه فارسی و انگلیسی را دانلود می‌کنیم. فرآیند پیمایش صفحات ویکی پدیا زمان‌بر است. یکی از دلایل عمده، این است که قبل از دانلود کردن صفحات باید URL آن را با URL‌های موجود در پایگاه داده صفحات پیمایش شده جهت تکراری نبودن مقایسه کرد. بنابراین هرچه تعداد مقالات دانلود شده بیشتر می‌شود زمان پیمایش صفحات جدید کندتر می‌شود. در این آزمایشات بیش از 16000جفت مقاله انگلیسی و فارسی از ویکی پدیا دانلود شد و از 8000 جفت مقاله برای استخراج جفت جملات موازی استفاده شد.
پارامترهای تنظیم شده و ابزار مورد استفاده
همانطور که در فصل چهارم آمد، مدل پیشنهادی این رساله از سه گام اصلی تشکیل شده است. در ادامه آزمایشات و تجربیات انجام شده را در هر یک از این گام‌ها شرح می‌دهیم. بعلاوه تنظیمات پارامترهای مدل و ابزارهای استفاده شده نیز بیان می‌شوند.
انتخاب جفت جملات کاندید:
ابتدا متن موجود در صفحات دانلود شده از ویکی پدیا را از داخل تگ‌های HTML خارج می‌کنیم، به عبارتی دیگر ساختار HTML را به متن تبدیل می‌کنیم.
برای تجزیه متن مقالات انگلیسی به جملات، از ابزار متن باز تشخیص دهنده جمله OpenNLP که بر پایه آنتروپی بیشینه ساخته شده است، استفاده می‌کنیم.
برای تجزیه متن مقالات فارسی به جملات، از راه حل اکتشافی ساده جداسازی با توجه به نقطه استفاده می‌کنیم.
برای تجزیه جمله انگلیسی به کلمات، از ابزار متن باز تشخیص دهنده کلمه OpenNLP که بر پایه آنتروپی بیشینه ساخته شده است، استفاده می‌کنیم.
برای تجزیه جمله فارسی به کلمات، از راه حل اکتشافی ساده جداسازی با توجه به کاراکتر فاصله استفاده می‌کنیم.
برای یافتن کلمات مشترک بین جمله فارسی و جمله انگلیسی، جمله انگلیسی را مبنا قرار می‌دهیم و به دنبال ترجمه کلماتش می‌رویم. زیرا ابزارهای مورد نیاز برای زبان انگلیسی در دسترس‌ترند.
برای ریشه یابی

تکه های دیگری از این پایان نامه را می توانید

در شماره بندی فوق بخوانید

متن کامل پایان نامه ها در سایت homatez.com موجود است

You may also like...

Add a Comment