پایان نامه ، تحقیق و مقاله | دیجی لود

ادامه مطلب

DOC
مدلی کارا برای ساخت پیکره موازی از روی پیکره متنی تطبیقی
doc
تعداد صفحات : 99
پایان نامه کارشناسی ارشد
مهندسی کامپیوتر - نرم افزار
همراه با جداول ، اشکال
79000 تومان


یکی از رشته های زیر مجموعه فنی مهندسی که علاقمندان بسیاری در کشور ما  دارد رشته کامپیوتر و فناوری اطلاعات هستش که اتفاقا سایت دیجی لود در حال تکمیل سری جدیدی از پایان نامه های ارشد این رشته تحصیلی برای کاربران گرانقدر خود میباشد. دیجی لود در ادامه پایان نامه ” مدلی کارا برای ساخت پیکره موازی از روی پیکره متنی تطبیقی ”   با فرمت Word (قابل ویرایش) در 98 صفحه را معرفی مینماید.

 

چکیده پایان نامه مدلی کارا برای ساخت پیکره موازی از روی پیکره متنی تطبیقی :

اغلب رویکردهای نوین ترجمه در حوزه ترجمه ماشینی از جمله ترجمه ماشینی آماری، ترجمه ماشینی مبتنی بر مثال و ترجمه ماشینی ترکیبی از مجموعه متون هم‌ترجمه تحت عنوان پیکره‌های متنی موازی به عنوان داده آموزشی اصلی استفاده می‌کنند. اما برای اغلب زبان‌ها پیکره‌های موازی به میزان بسیار کمی در دسترس هستند و یا مربوط به دامنه خاصی از نوشتجات می‌شوند. در طرف دیگر پیکره‌های تطبیقی قرار دارند که مواد اولیه آنها به راحتی به دست می‌آید. پیکره‌های تطبیقی شامل متون هم‌ترجمه نیستند اما در آن هر دو متن در دو زبان مختلف از نظر شباهت معیارهایی چون محتوا، تاریخ انتشار، عنوان و … با یکدیگر قابل تطبیق هستند.

پیکره‌های تطبیقی شامل جملاتی هستند که می‌توانند ترجمه خوبی برای یکدیگر باشند. هدف این رساله ساخت پیکره موازی با استخراج اینگونه جملات از پیکره تطبیقی است. مدلی که در این پژوهش ارائه می‌شود از سه مرحله اصلی تشکیل می‌شود: (1) انتخاب جفت جملات کاندیدای موازی بودن با استفاده از فیلتر نسبت طول جملات و فیلتر تعداد کلمات مشترک (2) انتخاب جفت جملات موازی با استفاده از طبقه‌بند آنتروپی بیشینه و در نظر گرفتن ویژگی‌های مربوط به طول دو جمله، کلمات مشترک آنها و ویژگی‌های مبتنی بر همترازی در سطح کلمه بین دو جمله (3) بالابردن دقت جفت جملات استخراج شده با انتخاب تنها یکی از جملات جفت شده با هر جمله. این کار را می‌توان بوسیله محاسبه نزدیکی آن جمله با ترجمه جملات جفت شده از طرف مقابل توسط معیار TER و انتخاب نزدیک‌ترین جمله انجام داد.

در انتها کارآیی مدل ارائه شده در دو بخش (1) ارزیابی طبقه‌بند آنتروپی بیشینه طراحی شده و (2) ارزیابی میزان سودمندی جفت جملات موازی استخراج شده در بهبود کیفیت ترجمه ماشینی بررسی می‌شود.

 

 

فهرست مطالب

  1. مقدمه. 2

1-1. مقدمه. 2

1-1-1. ترجمه ماشینی مبتنی بر فرهنگ لغت… 3

1-1-2. ترجمه ماشینی مبتنی بر قانون.. 4

1-1-3. ترجمه ماشینی مبتنی بر دانش…. 5

1-1-4. ترجمه ماشینی مبتنی بر پیکره. 5

ترجمه ماشینی آماری.. 6

ترجمه ماشینی مبتنی بر مثال.. 6

ترجمه ماشینی مبتنی بر متن.. 7

1-2. ضرورت ساخت پیکره موازی   .. 7

1-3. مسئله تحقیق: ساخت پیکره موازی.. 9

1-4. هدف تحقیق: ساخت پیکره موازی از روی پیکره تطبیقی.. 10

1-5. سرفصل‌ها 10

1-5-1. فصل دوم: مبانی نظری.. 10

1-5-2. فصل سوم: مروری بر تحقیقات انجام شده. 11

1-5-3. فصل چهارم: مدل پیشنهادی.. 11

1-5-4. فصل پنجم: ارزیابی و نتیجه گیری.. 12

  1. مبانی نظری.. 14

2-1. پیکره. 14

2-1-1. پیکره موازی.. 15

2-1-2. پیکره تطبیقی.. 17

2-2. همترازی.. 18

2-2-1. همترازی در سطح سند.. 19

2-2-2. همترازی در سطح جمله. 19

2-2-3. همترازی در سطح کلمه (همترازی لغوی). 21

همترازی لغوی با استفاده از مدل‌های آی‌بی‌ام. 22

2-3. ارزیابی ترجمه ماشینی.. 23

2-3-1. بلو. 23

2-3-2. متریک NIST. 24

2-3-3. نرخ خطای کلمه. 24

2-3-4. نرخ خطای ترجمه (TER). 25

  1. مروری بر تحقیقات انجام شده. 28

3-1. مقدمه. 28

3-2. ساخت پیکره موازی از روی متون هم‌ترجمه. 28

3-3. استخراج جملات موازی از وب… 30

3-4. استخراج جملات موازی از پیکره‌های تطبیقی.. 32

3-5. تشخیص جملات موازی با استفاده از طبقه‌بند آنتروپی بیشینه. 34

3-6. ساخت پیکره موازی انگلیسی – فارسی.. 36

  1. مدل پیشنهادی.. 39

4-1. مقدمه. 39

4-2. انتخاب جفت جملات کاندید موازی بودن.. 40

4-2-1. فیلتر کلمات مشترک… 41

تبدیل کدگذاری کاراکترها 42

مشخص کردن مرز جمله‌ها و کلمه‌ها 43

ریشه‌یابی.. 44

حذف کلمات پرتکرار 45

رفع ابهام. 45

جستجوی معانی از دیکشنری.. 46

گروه بندی کلمات تکراری جمله به همراه تعداد رخدادشان در جمله. 46

الگوریتم یافتن نرخ کلمات مشترک (از طرف مبدأ) 47

4-3. انتخاب جفت جملات موازی از بین جفت جملات کاندید.. 48

4-3-1. طبقه‌بند آنتروپی بیشینه. 48

4-3-2. ویژگی‌های عمومی.. 49

ویژگی‌های مبتنی بر طول دو جمله. 49

نرخ کلمات مشترک… 50

4-3-3. ویژگی‌های مبتنی بر همترازی در سطح کلمه یک جفت جمله. 50

کلمات همتراز نشده 50

باروری.. 51

محدوده پیوسته. 52

نمره همترازی.. 53

4-4. بالا بردن دقت جفت جملات موازی استخراج شده. 54

4-5. شیوه ارزیابی مدل.. 55

  1. ارزیابی و نتیجه گیری.. 58

5-1. ارزیابی طبقه‌بند آنتروپی بیشینه. 58

5-1-1. ارزیابی ویژگی‌ها 58

5-1-2. حساسیت به دامنه. 60

5-2. تنظیمات و آزمایشات ساخت پیکره موازی از پیکره تطبیقی.. 63

5-2-1. پیکره تطبیقی مورد استفاده. 63

پیکره تطبیقی فارسی – انگلیسی دانشگاه تهران (UTPECC) 63

پیکره تطبیقی گرفته شده از مقالات ویکی پدیا 65

5-2-2. پارامترهای تنظیم شده و ابزار مورد استفاده. 66

انتخاب جفت جملات کاندید: 66

انتخاب جفت جملات موازی: 68

بالا بردن دقت جفت جملات استخراج شده: 69

5-2-3. ارزیابی جملات موازی استخراج شده با استفاده از ماشین ترجمه. 69

5-3. نتیجه گیری.. 72

5-4. پیشنهادات آینده. 75

 

فهرست جداول

 جدول 5-1. مجموعه ویژگی‌ها. 59

جدول 5-2. ارزیابی مجموعه ویژگی‌ها. 59

جدول 5-3. حساسیت کارآیی طبقه‌بند به دامنه داده‌های آموزشی و آزمایشی    61

جدول 5-4. کارآیی طبقه‌بند در برابر داده‌های آزمایشی و آموزشی با دامنه‌های مختلف    62

جدول 5-5. شرح پیکره‌های آموزشی مورد استفاده در هر اجرا 70

جدول 5-6. نمره بلوی به دست آمده به ازای پیکره‌های آموزشی متفاوت    71

جدول 5-7. نمره بلوی به دست آمده به ازای پیکره‌های آموزشی متفاوت    72

جدول 5-8.ارزیابی ماشین‌ترجمه ساخته شده با پیکره‌های آموزشی متفاوت در قالب نرخ n-gram‌ های مشترک                         72

 

فهرست شکل‌ها

 شکل 1-1. دسته‌بندی روش‌های ترجمه ماشینی.. 3

شکل 2-1. نمونه‌ای از دو متن همتراز شده در سطح جمله. 20

شکل 2-2. همترازی لغوی بین دو جمله فارسی و انگلیسی در شکل گراف دو بخشی    21

شکل 2-3. همترازی لغوی بین دو جمله فارسی و انگلیسی در شکل جدول همترازی    21

شکل 2-4. مثالی از نحوه محاسبه نمره TER. 25

شکل 4-1. شمای کلی مدل تولید پیکره موازی از روی پیکره تطبیقی.. 40

شکل 4-2. کلمات مشترک بین دو جمله فارسی و انگلیسی.. 41

شکل 4-3. الگوریتم یافتن نرخ کلمات مشترک… 47

شکل 4-4. همترازی در سطح کلمه بین دو جمله غیرموازی.. 52

شکل 4-5. همترازی در سطح کلمه بین دو جمله موازی.. 53

شکل 4-6. فرآیند ارزیابی جفت جملات موازی استخراج شده. 56

شکل 5-1. ……. نمونه‌ای از سه سند خبری جفت شده در پیکره تطبیقی فارسی-انگلیسی دانشگاه تهران                  64

شکل 5-2. کلمات پرتکرار انگلیسی.. 67

 

 

 

 

راهنمای خرید و دانلود فایل

برای پرداخت، میتوانید از کلیه کارتهای عضو شتاب  استفاده نمائید.

بعد از پرداخت آنلاین لینک دانلود فعال و نمایش داده میشود ، همچنین یک نسخه از فایل همان لحظه به ایمیل شما ارسال میگردد.

در صورت بروز  هر مشکلی،میتوانید از طریق تماس با ما  پیغام بگذارید و یا در تلگرام با ما در تماس باشید، تا شکایت شما مورد بررسی قرار گیرد.

برای دانلود فایل روی دکمه خرید و دانلود  کلیک نمایید.



ads

مطالب مرتبط


ديدگاه ها


دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

چهارده + 2 =