مدلی کارا برای ساخت پیکره موازی از روی پیکره متنی تطبیقی
یکی از رشته های زیر مجموعه فنی مهندسی که علاقمندان بسیاری در کشور ما دارد رشته کامپیوتر و فناوری اطلاعات هستش که اتفاقا سایت دیجی لود در حال تکمیل سری جدیدی از پایان نامه های ارشد این رشته تحصیلی برای کاربران گرانقدر خود میباشد. دیجی لود در ادامه پایان نامه ” مدلی کارا برای ساخت پیکره موازی از روی پیکره متنی تطبیقی ” با فرمت Word (قابل ویرایش) در 98 صفحه را معرفی مینماید.
چکیده پایان نامه مدلی کارا برای ساخت پیکره موازی از روی پیکره متنی تطبیقی :
اغلب رویکردهای نوین ترجمه در حوزه ترجمه ماشینی از جمله ترجمه ماشینی آماری، ترجمه ماشینی مبتنی بر مثال و ترجمه ماشینی ترکیبی از مجموعه متون همترجمه تحت عنوان پیکرههای متنی موازی به عنوان داده آموزشی اصلی استفاده میکنند. اما برای اغلب زبانها پیکرههای موازی به میزان بسیار کمی در دسترس هستند و یا مربوط به دامنه خاصی از نوشتجات میشوند. در طرف دیگر پیکرههای تطبیقی قرار دارند که مواد اولیه آنها به راحتی به دست میآید. پیکرههای تطبیقی شامل متون همترجمه نیستند اما در آن هر دو متن در دو زبان مختلف از نظر شباهت معیارهایی چون محتوا، تاریخ انتشار، عنوان و … با یکدیگر قابل تطبیق هستند.
پیکرههای تطبیقی شامل جملاتی هستند که میتوانند ترجمه خوبی برای یکدیگر باشند. هدف این رساله ساخت پیکره موازی با استخراج اینگونه جملات از پیکره تطبیقی است. مدلی که در این پژوهش ارائه میشود از سه مرحله اصلی تشکیل میشود: (1) انتخاب جفت جملات کاندیدای موازی بودن با استفاده از فیلتر نسبت طول جملات و فیلتر تعداد کلمات مشترک (2) انتخاب جفت جملات موازی با استفاده از طبقهبند آنتروپی بیشینه و در نظر گرفتن ویژگیهای مربوط به طول دو جمله، کلمات مشترک آنها و ویژگیهای مبتنی بر همترازی در سطح کلمه بین دو جمله (3) بالابردن دقت جفت جملات استخراج شده با انتخاب تنها یکی از جملات جفت شده با هر جمله. این کار را میتوان بوسیله محاسبه نزدیکی آن جمله با ترجمه جملات جفت شده از طرف مقابل توسط معیار TER و انتخاب نزدیکترین جمله انجام داد.
در انتها کارآیی مدل ارائه شده در دو بخش (1) ارزیابی طبقهبند آنتروپی بیشینه طراحی شده و (2) ارزیابی میزان سودمندی جفت جملات موازی استخراج شده در بهبود کیفیت ترجمه ماشینی بررسی میشود.
فهرست مطالب
- مقدمه. 2
1-1. مقدمه. 2
1-1-1. ترجمه ماشینی مبتنی بر فرهنگ لغت… 3
1-1-2. ترجمه ماشینی مبتنی بر قانون.. 4
1-1-3. ترجمه ماشینی مبتنی بر دانش…. 5
1-1-4. ترجمه ماشینی مبتنی بر پیکره. 5
ترجمه ماشینی آماری.. 6
ترجمه ماشینی مبتنی بر مثال.. 6
ترجمه ماشینی مبتنی بر متن.. 7
1-2. ضرورت ساخت پیکره موازی .. 7
1-3. مسئله تحقیق: ساخت پیکره موازی.. 9
1-4. هدف تحقیق: ساخت پیکره موازی از روی پیکره تطبیقی.. 10
1-5. سرفصلها 10
1-5-1. فصل دوم: مبانی نظری.. 10
1-5-2. فصل سوم: مروری بر تحقیقات انجام شده. 11
1-5-3. فصل چهارم: مدل پیشنهادی.. 11
1-5-4. فصل پنجم: ارزیابی و نتیجه گیری.. 12
- مبانی نظری.. 14
2-1. پیکره. 14
2-1-1. پیکره موازی.. 15
2-1-2. پیکره تطبیقی.. 17
2-2. همترازی.. 18
2-2-1. همترازی در سطح سند.. 19
2-2-2. همترازی در سطح جمله. 19
2-2-3. همترازی در سطح کلمه (همترازی لغوی). 21
همترازی لغوی با استفاده از مدلهای آیبیام. 22
2-3. ارزیابی ترجمه ماشینی.. 23
2-3-1. بلو. 23
2-3-2. متریک NIST. 24
2-3-3. نرخ خطای کلمه. 24
2-3-4. نرخ خطای ترجمه (TER). 25
- مروری بر تحقیقات انجام شده. 28
3-1. مقدمه. 28
3-2. ساخت پیکره موازی از روی متون همترجمه. 28
3-3. استخراج جملات موازی از وب… 30
3-4. استخراج جملات موازی از پیکرههای تطبیقی.. 32
3-5. تشخیص جملات موازی با استفاده از طبقهبند آنتروپی بیشینه. 34
3-6. ساخت پیکره موازی انگلیسی – فارسی.. 36
- مدل پیشنهادی.. 39
4-1. مقدمه. 39
4-2. انتخاب جفت جملات کاندید موازی بودن.. 40
4-2-1. فیلتر کلمات مشترک… 41
تبدیل کدگذاری کاراکترها 42
مشخص کردن مرز جملهها و کلمهها 43
ریشهیابی.. 44
حذف کلمات پرتکرار 45
رفع ابهام. 45
جستجوی معانی از دیکشنری.. 46
گروه بندی کلمات تکراری جمله به همراه تعداد رخدادشان در جمله. 46
الگوریتم یافتن نرخ کلمات مشترک (از طرف مبدأ) 47
4-3. انتخاب جفت جملات موازی از بین جفت جملات کاندید.. 48
4-3-1. طبقهبند آنتروپی بیشینه. 48
4-3-2. ویژگیهای عمومی.. 49
ویژگیهای مبتنی بر طول دو جمله. 49
نرخ کلمات مشترک… 50
4-3-3. ویژگیهای مبتنی بر همترازی در سطح کلمه یک جفت جمله. 50
کلمات همتراز نشده 50
باروری.. 51
محدوده پیوسته. 52
نمره همترازی.. 53
4-4. بالا بردن دقت جفت جملات موازی استخراج شده. 54
4-5. شیوه ارزیابی مدل.. 55
- ارزیابی و نتیجه گیری.. 58
5-1. ارزیابی طبقهبند آنتروپی بیشینه. 58
5-1-1. ارزیابی ویژگیها 58
5-1-2. حساسیت به دامنه. 60
5-2. تنظیمات و آزمایشات ساخت پیکره موازی از پیکره تطبیقی.. 63
5-2-1. پیکره تطبیقی مورد استفاده. 63
پیکره تطبیقی فارسی – انگلیسی دانشگاه تهران (UTPECC) 63
پیکره تطبیقی گرفته شده از مقالات ویکی پدیا 65
5-2-2. پارامترهای تنظیم شده و ابزار مورد استفاده. 66
انتخاب جفت جملات کاندید: 66
انتخاب جفت جملات موازی: 68
بالا بردن دقت جفت جملات استخراج شده: 69
5-2-3. ارزیابی جملات موازی استخراج شده با استفاده از ماشین ترجمه. 69
5-3. نتیجه گیری.. 72
5-4. پیشنهادات آینده. 75
فهرست جداول
جدول 5-1. مجموعه ویژگیها. 59
جدول 5-2. ارزیابی مجموعه ویژگیها. 59
جدول 5-3. حساسیت کارآیی طبقهبند به دامنه دادههای آموزشی و آزمایشی 61
جدول 5-4. کارآیی طبقهبند در برابر دادههای آزمایشی و آموزشی با دامنههای مختلف 62
جدول 5-5. شرح پیکرههای آموزشی مورد استفاده در هر اجرا 70
جدول 5-6. نمره بلوی به دست آمده به ازای پیکرههای آموزشی متفاوت 71
جدول 5-7. نمره بلوی به دست آمده به ازای پیکرههای آموزشی متفاوت 72
جدول 5-8.ارزیابی ماشینترجمه ساخته شده با پیکرههای آموزشی متفاوت در قالب نرخ n-gram های مشترک 72
فهرست شکلها
شکل 1-1. دستهبندی روشهای ترجمه ماشینی.. 3
شکل 2-1. نمونهای از دو متن همتراز شده در سطح جمله. 20
شکل 2-2. همترازی لغوی بین دو جمله فارسی و انگلیسی در شکل گراف دو بخشی 21
شکل 2-3. همترازی لغوی بین دو جمله فارسی و انگلیسی در شکل جدول همترازی 21
شکل 2-4. مثالی از نحوه محاسبه نمره TER. 25
شکل 4-1. شمای کلی مدل تولید پیکره موازی از روی پیکره تطبیقی.. 40
شکل 4-2. کلمات مشترک بین دو جمله فارسی و انگلیسی.. 41
شکل 4-3. الگوریتم یافتن نرخ کلمات مشترک… 47
شکل 4-4. همترازی در سطح کلمه بین دو جمله غیرموازی.. 52
شکل 4-5. همترازی در سطح کلمه بین دو جمله موازی.. 53
شکل 4-6. فرآیند ارزیابی جفت جملات موازی استخراج شده. 56
شکل 5-1. ……. نمونهای از سه سند خبری جفت شده در پیکره تطبیقی فارسی-انگلیسی دانشگاه تهران 64
شکل 5-2. کلمات پرتکرار انگلیسی.. 67
راهنمای خرید و دانلود فایل
برای پرداخت، میتوانید از کلیه کارتهای عضو شتاب استفاده نمائید.
بعد از پرداخت آنلاین لینک دانلود فعال و نمایش داده میشود ، همچنین یک نسخه از فایل همان لحظه به ایمیل شما ارسال میگردد.
در صورت بروز هر مشکلی،میتوانید از طریق تماس با ما پیغام بگذارید و یا در تلگرام با ما در تماس باشید، تا شکایت شما مورد بررسی قرار گیرد.
برای دانلود فایل روی دکمه خرید و دانلود کلیک نمایید.
ديدگاه ها